데이터 전처리를 위한 중요한 기법들
1. Encoding(데이터 인코딩)
범주형(Categorical) 데이터. 범주 또는 항목의 형태로 표현되는 데이터.
숫자로 표현될 수는 있으나, 수치적인 의미를 가질 수 없음.
통계 분석에서 독립 변수가 범주형인 경우, 수치형 데이터로 변환.
기본적으로 사이킷런의 머신러닝 알고리즘은 범주형 데이터 입력 불가.
범주형 데이터를 수치형 데이터로 변환하는 것은 인코딩(Encoding)이라 한다.
인코딩의 기법으로는 라벨 인코딩(Label Encoding)과 원핫 인코딩(One-Hot Encoding)이 있다.
2. Feature Scaling(데이터 스케일링)
각 데이터들의 특성(범위, 척도)을 일정한 수준으로 변환하는 전처리 기법.
머신러닝에서 모델 성능에 영향을 주는 중요 이슈.
데이터가 준비되면 스케일링 필요 여부 확인 선행되어야함.
대표적인 기법 - 표준화(Standardization), 정규화(Normalization)
* 표준화(Standardization)
평균이 0, 분산이 1이 되도록 데이터의 배율을 조정(Z-score Normalization)
* 정규화(Normalization)
서로 다른 스케일의 데이터를 통일하는 기법.
정해진 범위 안으로 데이터를 재배치함(Min Max Scaling)
'프로젝트 > 코드프레소 체험단' 카테고리의 다른 글
딥러닝 첫 걸음 시작하기! - 인공지능 개론과 머신러닝 개론 (0) | 2022.01.14 |
---|---|
파이썬으로 시작하는 머신러닝 - 완강후기 (0) | 2022.01.13 |
파이썬으로 시작하는 머신러닝 - 과대적합과 과소적합 (0) | 2022.01.11 |
파이썬으로 시작하는 머신러닝 - K 최근접 이웃 알고리즘(KNN 모델) (0) | 2022.01.11 |
파이썬으로 시작하는 머신러닝 - 머신러닝의 주요 프로세스 (0) | 2022.01.09 |