728x90
01. Overfitting 정의
- 일반적으로 training data에 대한 error가 줄어들면 test data에 대한 error도 비슷한 비율로 줄어듦
- 다항식의 경우, 다항식의 차수가 커지면 커질수록 model complexity가 증가하게 됨
- model 복잡도가 증가할수록 error function을 최소화하는 방향으로 잘 학습할 수 있음
- 그러나 model complexity가 지나치게 높은 경우 error function관점에서는 error가 0인 경우에 해당되지만 training data가 아닌 새롭게 학습한 data에 적용한 경우 error가 많이 발생하는 현상이 생길 수 있음(주어진 데이터에 대해서만 특화해서 학습함)
02. Overfitting vs. Generalization
- 머신러닝의 목적 : 주어진 data에 대해서 잘 맞추는 것이 아닌 보지 않은 unknown data에 대해서 최대한 잘 맞추는 것
- 'training data에 대해 잘 맞추는 model이 test data도 잘 맞출 것이다'라는 가정하에 머신러닝 모델링
- 지나치게 training data에 집중해서 맞출 경우 overfitting 문제 발생
- Model Generalization 목적 : unknown data에 대해서도 최대한 잘 맞출 수 있도록 하는 것
- model의 generalization을 높인다, generalization error를 줄이는 방향으로 학습한다
728x90
'Study > ML' 카테고리의 다른 글
[ML] Cross-Validation (1) | 2024.03.26 |
---|---|
[ML] Generalize Models (0) | 2024.01.31 |
[ML] Multinomial Logistic Regression (1) | 2024.01.04 |
[ML] Logistic Regression (0) | 2024.01.02 |
[ML] Parameter Estimation (0) | 2023.11.14 |