Algorithm	ข้อดี	ข้อจำกัด	เหมาะกับ
Linear Regression	เข้าใจง่าย, เร็ว	แก้ปัญหา linear เท่านั้น	ความสัมพันธ์เชิงเส้น
Decision Tree	อธิบายได้	Overfitting ง่าย	กฎการตัดสินใจ
Random Forest	แม่นยำ, robust	Black box	ข้อมูล tabular
Neural Network	แก้ปัญหาซับซ้อน	ต้องการข้อมูลเยอะ	รูปภาพ, เสียง, ข้อความ

Week 5 Neural Network Fundamentals | ผศ.ดร.ณัฐโชติ พรหมฤทธิ์

Universal Approximation Theorem

"MLP ที่มี hidden layer เพียง 1 ชั้น สามารถประมาณฟังก์ชันต่อเนื่องใดๆ ได้ ถ้ามี neurons เพียงพอ"

อธิบายง่ายๆ

sigmoid 1 ตัว      ___/‾‾‾
sigmoid 2 ตัว      ___/‾‾\___
sigmoid หลายตัว    ___/‾\/‾\___  (ประมาณเส้นโค้งได้)

ระวัง: neurons มาก = อาจ overfitting!
มองอีกมุมได้ว่า Sigmoid ช่วยแปลง XOR จากปัญหา 2D ที่แก้ไม่ได้ → ปัญหาใน higher dimension ที่แก้ได้!

Function	Range	ข้อดี	ข้อเสีย	ใช้เมื่อ
Sigmoid	(0,1)	Probability	Vanishing gradient	Output layer
ReLU	[0,∞)	เร็ว, ไม่ vanishing	Dying ReLU	Hidden layers
Tanh	(-1,1)	Zero-centered	Vanishing gradient	RNN/LSTM

ปัญหา	สาเหตุ	วิธีแก้
Loss = NaN	Exploding gradients	ลด learning rate
Loss ไม่ลด	LR ต่ำเกิน	เพิ่ม LR, เปลี่ยน optimizer
Train ดี Val แย่	Overfitting	Dropout, Early stopping
ทั้งคู่แย่	Underfitting	เพิ่ม neurons/layers

Week 5 Neural Network Fundamentals

พื้นฐานโครงข่ายประสาทเทียม

จากแนวคิดสู่การประยุกต์ใช้

Learning Objectives

ทำไมต้อง Neural Network?

Traditional Programming vs Neural Network

แบบเดิม (Rule-based)

Neural Network

เปรียบเทียบ ML Algorithms

1. Perceptron เซลล์ประสาทเทียมเซลล์แรก

แนวคิดพื้นฐาน

ตัวอย่าง ระบบตัดสินใจไปเที่ยวทะเล

ปัจจัยการตัดสินใจ

การคำนวณ

สูตร Perceptron

สูตรหลัก y = f(w₁x₁ + w₂x₂ + b)

ความหมายแต่ละส่วน

Perceptron (Single Neuron)

ตัวอย่างการคำนวณ Perceptron

กรณี 1 อากาศดี(1) + มีเพื่อน(1)

กรณี 2 อากาศไม่ดี(0) + มีเพื่อน(1)

Perceptron Learning Algorithm

สูตรการปรับ Weight

ตัวอย่างการปรับ Weight

สถานการณ์

การคำนวณ

ข้อจำกัด XOR Problem ของ Perceptron

AND Gate (แก้ได้)

XOR Gate (แก้ไม่ได้)

2. Multi-Layer Perceptron (MLP)

ทำไมต้องมีหลายชั้น? (ตัวอย่าง การจำแนกผลไม้)

ทำไม MLP ต้องมี Sigmoid(Activation Function)?

ปัญหาของ Linear Transformation

ถ้าไม่มี Activation Function

บทบาทของ Sigmoid ใน MLP

Linear (ไม่มี sigmoid)

แปลงเป็น Non-linear(มี sigmoid)

Universal Approximation Theorem

อธิบายง่ายๆ

Sigmoid Function

สูตร σ(x) = 1/(1+e^(-x))

ทำไมใช้ Sigmoid?

ตัวอย่างการคำนวณ

Matrix Operations

Loop (ช้า)

Matrix (เร็ว)

Matrix Multiplication

วิธีคูณ แถว × คอลัมน์

ทำไมเร็วกว่า? (GPU มี cores หลายพันตัว!)

3. Backpropagation

อุปมา สอนเด็กขว้างบาสเก็ตบอล

Chain Rule

สูตรพื้นฐาน

ตัวอย่างง่ายๆ

Derivative (อนุพันธ์)

คืออะไร?

ตัวอย่างในชีวิตจริง (เวลา คือ input ระยะทาง คือ output)

Chain Rule ใน Neural Network

ตัวอย่างการคำนวณ Gradient

Given

คำนวณ

Gradient Descent

อุปมา คนตาบอดหาทางลงจากภูเขา

Learning Rate ต่างกัน

สูตร Gradient Descent

สูตรหลัก θ_new = θ_old - α∇J(θ)

สูตร Gradient Descent (ต่อ)

สูตรหลัก θ_new = θ_old - α∇J(θ) (ต่อ)

ทำไมต้องลบ?

ตัวอย่าง Weight Update

4. Activation Functions

ทำไมต้องมี?

ถ้าไม่มี

ถ้ามี

Sigmoid Function

สูตร σ(x) = 1/(1+e^(-x))

คุณสมบัติ

อนุพันธ์ σ'(x) = σ(x) × (1 - σ(x))

Sigmoid Function (ต่อ)

สูตร σ(x) = 1/(1+e^(-x)) (ต่อ)

สูตรหลัก `y = f(w₁x₁ + w₂x₂ + b)`

ทำไม MLP ต้องมี Sigmoid
(Activation Function)?

แปลงเป็น Non-linear
(มี sigmoid)

สูตร `σ(x) = 1/(1+e^(-x))`

สูตรหลัก `θ_new = θ_old - α∇J(θ)`

สูตรหลัก `θ_new = θ_old - α∇J(θ)` (ต่อ)

สูตร `σ(x) = 1/(1+e^(-x))`

อนุพันธ์ `σ'(x) = σ(x) × (1 - σ(x))`

สูตร `σ(x) = 1/(1+e^(-x))` (ต่อ)

สูตร `ReLU(x) = max(0, x)`

อนุพันธ์ `ReLU'(x) = 1 if x>0, else 0`

สูตร `tanh(x) = (e^x - e^(-x))/(e^x + e^(-x))`

อนุพันธ์ `tanh'(x) = 1 - tanh²(x)`

เป้าหมาย `Var(output) = Var(input)`