인공지능 Model평가 유의사항/일반화 성능향상/훈련 성능 향상 시키기

Model평가 유의사항
- 대표성 있는 Data ==> 특정기간의 Data가 일반화할 경우의 문제
- 시간의 방향(과거로부터 미래 예측하려 할 경우 Data분할 전 무작위로 섞으면 안됨 - 선견편향)
- Data 중복 ==> 훈련 DataSet과 test DataSet의 분리 필수!(써먹지 못하지만 그래도 한번쯤 예측 100% 구경하고싶으신분은 해보셔도 됨)

Data의 충분한 수집이 불가능할 경우, 차선책은 Model이 저장할 수 있는 정보량을 조정하거나 Model곡선의 매끄러운 정도에 제약을 주는 것이다. è 규제(Regularization)

일반화 성능 향상시기키
- Model의 일반화능력은 거의 모두 훈련되는 Data속성(Data 포인트 개수, label신뢰도, feature품질)에서 온다
  - 알고리즘보다 Data가 어떤면에선 더 중요하다
- Data Curation
  - Data가 충분한가? label할당 Error최소화(이상치 확인 및 교정), 정체 및 누락값 처리, feature selection 수행
  - 특성공학(Feature Engineering)
    1. Data와 ML알고리즘에 관한 지식 사용 단계
    2. 특성을 더 간단하게 표현하여 문제를 쉽게 만들기로서 특히, Data가 적을때 중요
  - EarlyStopping콜백 사용으로 조기종료 사용하기 : 훈련도중 최적적합 위치 판단이 중요하다
    - CallBack 사용 사례
      1. Model checkpoint 저장: 특정지점 가중치를 저장
      2. EarlyStopping
      3. 훈련 중 Hyperparameter 동적 조정
      4. Train/validate metrics로그 기록
      5. Model학습한 표현이 나타날 때마다 시각화
    - 케라스 내장 콜백함수들(tf.keras.callbacks.클래스명 형태)
      1. 클래스명: ModelCheckpoint, EarlyStopping, LearningRateSchedules, ReduceLROnPlateau, CSVlogger
      2. callback클래스를 상속하여 사용자 정의가 가능
  - Model 규제하기
    1. 과적합방지 방안 & 검증점수 향상의 목적으로 사용
    2. Model을 더 간단하고 평범하게 만들고 더 부드럽고 일반적으로 만드는 경향이 있기에 규제를 사용한다.
      - 즉, 훈련 Set에 덜 특화되고 Data의 잠재 매니폴드에 더 근사함으로써 일반화 성능이 향상된다.
    3. 비교적 적은 층과 파라미터로 시작하여 검증손실 감소가 시작할때까지 층과 파라미터 늘리기
    4. 가중치 규제 추가(간단한 Model이 복잡한 Model보다 과적합 확률이 낮다. 따라서 가정이 더 적은 Model로 써야한다.
      - Deep Learning은 파라미터가 너무 많아서 가중치값 제약이 Model용량과 일반화에 큰 영향을 주지 않아서 많이 사용
  - Dropout 추가
    - 추가시 vector의 일부가 random하게 0으로 변경. 즉, Data간의 Noise를 추가하여(0) 중요치 않은 우연한 패턴 학습을 방지하는 효과
    - 테스트 단계는 dropout X
    - Training과 inference에서 다르게 동작한다.

Model훈련 성능 향상 시키기
1. 경사하강법의 핵심 Parameters 튜닝
2. 구조에 대한 더 나은 가정하기(시계열 예측의 경우 RNN이 더 적합하고 일반화가 잘되는 그러한 것~)
3. Model 용량 늘리기 – 과대적합할 수 없는 것처럼 보인다면 층을 추가하거나 크기를 늘리거나 현재 문제에 보다 적합한 종류의 층을 사용하기
  - 성능향상을 위해서는 Model 과대적합을 시키고나서 과대적합의 경계에서 성능을 개선 해야한다.

728x90

'Data Science & AI Theories' 카테고리의 다른 글

자연상수e, 변동계수, 상관계수, 공분산 (0)	2023.08.15
ML Process, Model개발 (1)	2023.08.15
매니폴드(Manifold) (0)	2023.08.15
Machine Learning 용어 및 내용 정리(2) (2)	2023.08.15
Tensorflow 와 Keras (1)	2023.08.15

OliverHouse

인공지능 Model평가 유의사항/일반화 성능향상/훈련 성능 향상 시키기

'Data Science & AI Theories' 카테고리의 다른 글

티스토리툴바

인공지능 Model평가 유의사항/일반화 성능향상/훈련 성능 향상 시키기

'Data Science & AI Theories' 카테고리의 다른 글

관련글

티스토리툴바