"ในปี 2020 Netflix ประหยัดค่าใช้จ่าย 1 พันล้านดอลลาร์/ปี เพียงเพราะปรับปรุงวิธีการเตรียมข้อมูลผู้ใช้งาน"
Data Scientists/AI Engineer ใช้เวลา 80% ในการ "ทำความสะอาด" ข้อมูล และแค่ 20% ในการสร้างโมเดล
หลังเรียนจบ นักศึกษาจะสามารถ
อธิบายความสำคัญ ของ Data Preparation ต่อ AI Models จำแนกประเภท ของข้อมูลและปัญหาที่พบบ่อย เลือกใช้เทคนิค ที่เหมาะสมกับปัญหาแต่ละประเภท สร้าง Features ใหม่ เพื่อเพิ่มประสิทธิภาพ Model เขียน Code เพื่อแก้ปัญหาจริงได้ด้วยตนเอง
"ข้อมูลดี + อัลกอริทึมธรรมดา ดีกว่า ข้อมูลแย่ + อัลกอริทึมเทพ"
Google ใช้อัลกอริทึมไม่ซับซ้อน แต่ชนะด้วยข้อมูลที่จัดระเบียบดี
วันที่ เมนู ราคา จำนวน ลูกค้า 1/1/2024 ลาเต้ร้อน 60 3 นศ.ปี1 01-01-2024 ร้อนลาเต้ 60 2 อาจารย์ 1 ม.ค. Latte(Hot) 60 - นักศึกษา
คณะ : ['วิทย์', 'วิทยาศาสตร์', 'Science', 'คณะวิทยาศาสตร์'] เพศ : ['ช', 'ชาย', 'Male', 'M'] เวลา: ['08:00', '8.00', '08.00 น.', 'แปดโมงเช้า']
Data: [18, 19, 20, 21, 22, 150] Q1 = 19, Q3 = 21.5 IQR = 2.5 Lower = 15.25 Upper = 25.25 → 150 คือ Outlier ✓
แดง = 1 เขียว = 2 น้ำเงิน = 3
ปัญหา AI คิดว่า น้ำเงิน > แดง 3 เท่า!
สีแดง สีเขียว สีน้ำเงิน แดง 1 0 0 เขียว 0 1 0 น้ำเงิน 0 0 1
ดี ไม่มีลำดับความสำคัญ
Warning: ถ้ามี categories > 100 → ใช้ Target Encoding แทน
ส่วนสูง + น้ำหนัก → BMI = น้ำหนัก/(ส่วนสูง²)
ยอดขายรวม ÷ จำนวนลูกค้า → Average Revenue per User (ARPU)
จำนวนคลิก ÷ จำนวนแสดง → CTR
ต้องการ Feature interactions
ต้องการ Rich features
ต้องการ Normalized inputs
ต้องการ Temporal features
df_clean = df.copy()
df.info()
df.describe()
df.head()
assert
วันที่ เมนู ขนาด ราคา เวลา 1/1/24 Latte M 60 08:30 01-01-2024 ลาเต้ กลาง 60 12.00 2024-01-01 Latte Hot Medium None 14:30 1 มค 24 ลาเต้ร้อน M 60 9:00
80/20 Rule - 80% เวลาเตรียมข้อมูล, 20% สร้าง model
Garbage In, Garbage Out - ข้อมูลดี = Model ดี
Domain Knowledge is Power - ความรู้เฉพาะด้านสร้าง features ที่ดี
Start Simple - เริ่มจากง่าย → ค่อยซับซ้อน
Document Everything - บันทึกทุกการเปลี่ยนแปลง
Email: [email protected]
"ข้อมูลที่ดีกับอัลกอริทึมธรรมดา ดีกว่า ข้อมูลแย่ๆ กับอัลกอริทึมเทพ"