프로젝트

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - 앙상블 기법의 개념

Ensemble Learing(앙상블 기법)의 개념 - Random Forest 모델의 기반 - 다수의 ML 모델을 결합하여 학습, 예측하는 기법 - Decision Tree 등의 단순한 모델을 여러 개 결합하여 사용 - 단일 ML 모델을 사용하는 것보다 일반적으로 예측 성능이 높음 - 최신 앙상블 기법은 정형 데이터 셋에 대해서는 딥러닝에 필적하는 성능을 보임(Kaggle에서 많이 사용됨) - 앙상블 기법의 종류 : Voting, Bagging, Boosting Voting 기법 - 서로 다른 ML 모델을, 동일한 데이터셋으로 학습 - 다수의 학습된 모델로 Prediction한 값으로 최종 투표 Bagging 기법 - Bootstrap Aggregating의 약자 - 전체 학습 데이터셋에서 무작위 복원..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - Decision Tree의 특징

Decision Tree의 장점 - 학습된 모델의 해석력이 높음(학습된 모델을 사람이 이해 가능, 학습된 Tree를 시각화 할 수 있음) - Scaling, One Hot Encoding 등 데이터 전처리의 영향이 크지 않음 - Feature Selection이 자동으로 수행됨 - 학습된 모델의 Prediction 속도가 빠름 Decision Tree의 단점 - Overfitting 되기 쉬움 -> 불순도/엔트로피가 0이 될 때까지 집요하게 Tree 가지를 분리, Training Dataset에 최적화 될 가능성 존재 - 모델을 학습하기 위한 시간/공간 복잡도가 높음 - 다른 분류 알고리즘에 비해 예측 정확도가 상대적으로 낮음 -> 앙상블 학습 기법으로 보완 Hyperparameter - Decision..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - Decision Tree 모델의 학습

Decision Tree 모델의 학습 - Decision Tree의 학습은 적절한 질문을 고르는 것이 중요.(스무고개의 경우에도 좋은 질문을 먼저 던질수록 유리함.) - 정상/비만을 분류하는 모델을 만들기 위해선, 운동 여부, 음주 여부, 식사 회수는 중요한 질문이지만, 독서 여부는 중요하지 않은 질문이다. - 성별을 분류하는 모델을 만들기 위해서는, 키, 몸무게, 신발 사이즈, 머리카락 길이는 중요한 질문이지만, 나이, IQ, 거주도시는 중요하지 않은 질문이다. Decision Tree는 어떤 기준으로 질문을 선택할까? - 다음 단계 노드들의 순도가 높아지도록 - 다음 단계 노드들의 불순도가 낮아지도록 - 다음 단계 노드들의 정보 획득이 높아지도록 불순도와 엔트로피 - Gini 계수와 Entropy 계..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - 지도학습을 위한 트리모델

Decision Tree(의사결정 나무) - 지도학습 모델 - 분류와 회귀 모두 사용 가능 - 컴퓨터공학에서 사용하는 Tree 자료구조를 활용 - 스무고개과 유사한 방법으로 분류 라벨을 결정 from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split cancer = load_breast_cancer() x_train, x_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.3, random_state=12) # DecisionTreeClassifier 임포트 from sklearn.tree i..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - ROC 커브와 AUC 실습

roc_curve() API를 이용한 ROC Curve 시각화(API URL: sklearn.metrics.roc_curve) roc_curve() API의 Argument(인자) - y_ture: test 데이터 셋의 label - y_score: 모델에서 Positive로 예측할 확률(0~1) 값 roc_curve() API의 Return(반환 값) - fpr: Threshold 에 따른 fpr 값 – numpy ndarray - tpr: Threshold 에 따른 recall 값 - numpy ndarray - thresholds: fpr, tpr 값을 구할 당시의 Threshold 값 – numpy ndarray roc_auc_score() API를 이용한 AUC 값 계산(API URL : skl..

KimCookieYa
'프로젝트' 카테고리의 글 목록 (31 Page)