본문 바로가기
Study/ML

[ML] Overfitting Problem

by jizy 2024. 1. 31.
728x90

01. Overfitting 정의

 

  • 일반적으로 training data에 대한 error가 줄어들면 test data에 대한 error도 비슷한 비율로 줄어듦
  • 다항식의 경우, 다항식의 차수가 커지면 커질수록 model complexity가 증가하게 됨
  • model 복잡도가 증가할수록 error function을 최소화하는 방향으로 잘 학습할 수 있음
  • 그러나 model complexity가 지나치게 높은 경우 error function관점에서는 error가 0인 경우에 해당되지만 training data가 아닌 새롭게 학습한 data에 적용한 경우 error가 많이 발생하는 현상이 생길 수 있음(주어진 데이터에 대해서만 특화해서 학습함)

 

 

 

 

 

02. Overfitting vs. Generalization

 

  • 머신러닝의 목적 : 주어진 data에 대해서 잘 맞추는 것이 아닌 보지 않은 unknown data에 대해서 최대한 잘 맞추는 것
    • 'training data에 대해 잘 맞추는 model이 test data도 잘 맞출 것이다'라는 가정하에 머신러닝 모델링
    • 지나치게 training data에 집중해서 맞출 경우 overfitting 문제 발생
  • Model Generalization 목적 : unknown data에 대해서도 최대한 잘 맞출 수 있도록 하는 것
    • model의 generalization을 높인다, generalization error를 줄이는 방향으로 학습한다

 

 

 

 

 

 

 

 

 

 

 

 

728x90

'Study > ML' 카테고리의 다른 글

[ML] Cross-Validation  (1) 2024.03.26
[ML] Generalize Models  (0) 2024.01.31
[ML] Multinomial Logistic Regression  (1) 2024.01.04
[ML] Logistic Regression  (0) 2024.01.02
[ML] Parameter Estimation  (0) 2023.11.14