학습 데이터(Train set)
전체의 80%비율로 학습
기계에게 인풋을 넣고 어떤 값이 나오는지 알려주는 데이터(교과서)
검증 데이터(Validation set)
학습 중인 모델 평가, 하이퍼파라미터를 조정하는데 사용되는 데이터셋
과적합을 감지함(모의고사)
테스트 데이터(Test set)
모델이 잘 학습되었는지 확인하기 위한 데이터(수능)
데이터 전처리
표준 스케일링:
피처별로 평균과 분산이 0과 1이 되도록 선형 변환하는 데이터 표준화 과정
기존 데이터가 정규분포를 따르는 경우 적합
최소-최대 스케일링:
피처별로 최솟값과 최댓값이 각각 0과 1이 되도록 선형 변환하는 데이터 표준화 과정
데이터의 최솟값과 최댓값이 명확하고 이상치가 없는 경우 적합
모델 선택
모수적 모델:
데이터가 특정 확률 분포를 따른다고 가정하며, 모델이 학습을 통해 파라미터를 결정하는 방법
비모수적 모델 :
모집단에 대한 분포형태를 가정할 수 없는 경우에 사용
일반화 성능:
학습에 사용되지 않은 데이터가 들어올 때에도 성능이 비슷한지 검토하는 것
회귀 문제의 경우:
MAE,MSE,MAPE
분류 모델의 경우:
정확도,정밀도,재현율,F1점수 등의 지표 사용
하이퍼파라미터 튜닝
학습 데이터로 학습된 모델을 검증 데이터에 적용했을 때 최고의 성능을 내는 하이퍼파라미터를 찾는 작업
교차 검증법:
학습 데이터와 검증 데이터를 미리 분할하지 않고 주어진 데이터를 여러 방법으로 학습 데이터와 테스트 데이터로 분할하여 성능을 테스트하는 하이퍼파라미터 튜닝방법
'공부' 카테고리의 다른 글
BDA X 이지스퍼블리싱 서평단 이벤트 [Do it! 데이터 과학자를 위한 실전 머신러닝]/ 5장 : 릿지 회귀 모델 (0) | 2023.12.11 |
---|---|
BDA X 이지스퍼블리싱 서평단 이벤트 [Do it! 데이터 과학자를 위한 실전 머신러닝]/ 4장: 라쏘 모델 (0) | 2023.12.11 |
BDA X 이지스퍼블리싱 서평단 이벤트 [Do it! 데이터 과학자를 위한 실전 머신러닝]/ 3장: 로지스틱 회귀 모델 (0) | 2023.12.11 |
BDA X 이지스퍼블리싱 서평단 이벤트 [Do it! 데이터 과학자를 위한 실전 머신러닝]/ 2장: 최소 제곱 모델 (0) | 2023.12.11 |
실전 머신러닝 1장 머신러닝 개념/모델/시간&공간복잡도 (0) | 2023.12.07 |