รู้ก่อนใช้ Scikit-Learn Cheat Sheet

Vithan Minaphinant
1 min readAug 13, 2020

ในยุค Data Science บูมแบบนี้ หลายท่านที่กำลังเริ่มต้น อาจต้องการตัวช่วย และพบว่า Scikit-Learn Cheat Sheet นั้นช่วยได้มาก

แต่ในชีวิตจริงแล้ว พบว่า ก้อนยวงๆด้านบนในรูปนี้ ช่วยได้มากกว่า สำหรับมือใหม่ หรือมือเก๋าแล้วก็ตาม

ก้อนด้านบนใหญ่ๆ เจ้าของรูป(ชาวเน็ต) เรียกมันว่า Complications (ลิ้งบทความเจ้าของรูปอยู่ด้านล่าง) ซึ่งค้นพบว่า นี่คือ step สำคัญต่างๆที่จะต้อง “ทำ” ก่อนเสมอ ก่อนจะไปเริ่มทำโมเดล

แอดเห็นด้วยมากๆ เพราะชีวิตจริงของการทำงาน ถ้าคุณไม่ได้อยู่ในที่ๆ data ได้ถูกจัดการมาแล้วอย่างดี และมีโจทย์ที่ชัดเจนขนาดระบุว่า จะตอบโจทย์ธุรกิจด้วยการทำระบบ XYZ ซึ่งใช้โมเดล A เป็นหลัก เอ้ารับไปเลยนี่ ถัง data แสนสวยงาม

ชีวิตจริงน่ะเหรอ

เอ้อออ …. เอ้า ไปทำมา

“เอา data ที่ไหนครับ”

รับไปเลย ถัง data มั่วๆ หรือบางทีก็ไม่มี หรือไม่ก็ไล่ให้ไปหาเอง

โดยเฉพาะพวกงานวิเคราะห์ทั่วๆไป หาความสัมพันธ์ เบสิกๆ ซึ่งจะเป็นงานของ startup เล็กๆ หรือบริษัทใดๆ ก็ตามที่เริ่มเข้าสู่ Digital Transformation, Analytic, Data Driven แล้วแต่จะเรียกสวยๆเก๋ๆ

โชคร้ายน่ะสิที่บริษัทเกือบทั้งโลก ตอนนี้มันอยู่ตรงนี้กันเป็นกะบิ

ดังนั้นการเตรียมตัว เพื่อไปเข้าโมเดลเป็นสิ่งสำคัญ มิเช่นนั้นจะเป็น GIGO — Garbage In, Garbage Out หรือตอบไม่ตรงคำถาม หรือ data ที่ใส่เข้าไปนั้น มันไม่ได้เกี่ยวกัน และผลลัพธ์ที่ได้ ก็จะ ไปไหนไม่รู้ … โชคร้ายหน่อยมันอาจจะดูดี แต่พอคุณใช้จริงก็ผิดไปหมดน่ะ (เรื่องนี้พอทำไปสักพัก จะไม่เกิด เพราะคุณจะจัดการ overfit จากการ cherry pick ได้ดี)

ดังนั้นเราจะอยู่กับด้านบนซะเยอะ เกินครึ่งหนึ่งของเวลาทำ (ไม่รวมเวลา train model นะ) เรียกว่าถ้าทำใหม่ๆนี่สัก 80% เลย

สรุปขั้นตอนให้สั้นๆ คือ

  1. เช็คว่าถูกกฎหมายก่อนรึเปล่า
  2. เข้าถึง data ได้หรือไม่ ส่วนมากมักจะฝันหวาน แต่เอาเข้าจริง หา data ไม่ได้
  3. สำคัญมากกก เข้าใจ data รึเปล่า …. ส่วนมากมักจะคิดว่าโมเดลเป็นสิ่งวิเศษ ยัดอะไรเข้าไปก็ได้ หลายๆอย่าง ไม่จำเป็นต้องเข้าใจ ดูว่าอะไรจะดีก็พอ คุณอาจจะเอา data ที่มี characteristic คนละแบบ ใส่เข้าไปน่ะ แล้วตอนมัน scale ขึ้น จะมีปัญหา
  4. Data Clean พอหรือยัง? อันนี้คนพูดเยอะละไม่ต้องอธิบาย
  5. โจทย์ คำถามน่ะ เคลียร์หรือยัง? ไม่ใช่แค่คำสั่งจากหัวหน้างาน ไม่ใช่แค่ hypothesis คืออะไร แต่เป็น สิ่งที่คุณจะหาคำตอบจากโมเดลที่จะลงมือทำ ถามตัวเองอีกครั้ง เราต้องการอะไรจากการลงมือทำโมเดลครั้งนี้

ถ้าผ่านฉลุยหมด ก็ลงมือได้เลยครับ

แล้วก็ดูผลลัพธ์กันอีกทีน่ะ

ปล ส่วนด้านล่างก็ต้องฝึกให้คล่องนะครับ

INVESTIC

https://medium.com/@chris_bour/an-extended-version-of-the-scikit-learn-cheat-sheet-5f46efc6cbb

--

--