공부

실전 머신러닝 1장 데이터셋 분할/데이터 전처리

무른2 2023. 12. 7. 01:54

학습 데이터(Train set)

전체의 80%비율로 학습

기계에게 인풋을 넣고 어떤 값이 나오는지 알려주는 데이터(교과서)

 

검증 데이터(Validation set)

학습 중인 모델 평가, 하이퍼파라미터를 조정하는데 사용되는 데이터셋

과적합을 감지함(모의고사)

 

테스트 데이터(Test set)

모델이 잘 학습되었는지 확인하기 위한 데이터(수능) 

 

 


데이터 전처리

 

표준 스케일링:

피처별로 평균과 분산이 0과 1이 되도록 선형 변환하는 데이터 표준화 과정

기존 데이터가 정규분포를 따르는 경우 적합

 

최소-최대 스케일링:

피처별로 최솟값과 최댓값이 각각 0과 1이 되도록 선형 변환하는 데이터 표준화 과정

데이터의 최솟값과 최댓값이 명확하고 이상치가 없는 경우 적합

 

당뇨병 데이터셋 최소-최대 스케일링

 

 


모델 선택

 

모수적 모델:

데이터가 특정 확률 분포를 따른다고 가정하며, 모델이 학습을 통해 파라미터를 결정하는 방법

 

비모수적 모델 :

모집단에 대한 분포형태를 가정할 수 없는 경우에 사용

 


일반화 성능:

학습에 사용되지 않은 데이터가 들어올 때에도 성능이 비슷한지 검토하는 것

 

회귀 문제의 경우:

MAE,MSE,MAPE

 

분류 모델의 경우:

정확도,정밀도,재현율,F1점수 등의 지표 사용

 


하이퍼파라미터 튜닝

 

학습 데이터로 학습된 모델을 검증 데이터에 적용했을 때 최고의 성능을 내는 하이퍼파라미터를 찾는 작업

 

교차 검증법:

학습 데이터와 검증 데이터를 미리 분할하지 않고 주어진 데이터를 여러 방법으로 학습 데이터와 테스트 데이터로 분할하여 성능을 테스트하는 하이퍼파라미터 튜닝방법