[Tensorflow] 9. Overfitting Issue

Overfitting

Overfitting
최적의 모델을 만들어가는 과정에서 같은 data로 계속 학습시키다 보면 사용되는 데이터에 맞는 최적의 모델이 만들어질 수는 있다. 하지만 이때 새로운 test data로 모델을 돌려보면 그 정확도가 현저히 떨어지는 경우가 있는데, 우리가 얻고자 하는 모델은 새로운 data로 돌렸을 때도 정확도가 유지되는 모델일 것이다.



  • High bias (underfit) : 학습이 너무 덜 된 모델
  • High variance (overfit) : 학습에 쓰인 데이터에만 너무 편향된 모델
해결법
1. Set a features
  • 더 많은 taining data를 학습에 이용하기  
  • feature의 수를 줄이기 - PCA 라는 방법이 가장 많이 쓰인다. 차원을 하나 줄임으로써 data의 의미를 좀 더 명확히 하는 방법
  • feature의 수를 늘리기 - feature가 너무 단순하다면 의미 가지는 feature를 더 증가시켜 구체화 하기
2. Regularization (Add term to loss)
feature 중 특정하게 너무 큰 값을 가지는 feature가 있는 경우 정규화를 시켜 고루 분포하도록 한다.

이 외에도 ..
  • 이미지에 이용
    • Color Jittering : 색상의 다양화
    • Horizontal Flips : 뒤집기
    • Random Crops/Scales : 이미지의 사이즈 변화
  • Dropout (0.5가 보통)
  • Batch Normalization 


No comments:

Powered by Blogger.