KimCookieYa

파이썬으로 구현하는 머신러닝 : 비지도학습 - PCA 실습

2022.02.12

주성분분석(Principal Components Analysis, PCA) - 데이터를 정사영(Projection)시켜 데이터 차원을 낮출 경우, 표본데이터의 분산을 제일 잘 유지하는 고유벡터를 구하는 문제를 해결하는 분석기법. [이론 정리] 행렬과 벡터의 두 열벡터의 선형결합으로 표현됨(즉, 선형변환을 의미) 공분산은 데이터의 퍼짐정도를 나타낸다. 방향성에 대해 나타냄 입력벡터 x를 A(행렬)로 선형변환 시킨결과 Ax는 입력벡터x의 상수배로 표현된다. 이때 Ax = λx 로 표현하는데, λ를 고유값(eigenvalue), x를 고유벡터(eigenvetor)라 함 from sklearn.datasets import load_iris import pandas as pd import matplotlib.py..

혼잣말

당면과제는 토익이다.

2022.02.10

2022년 2월 20일 토요일 오전 9시 20분에 토익 시험을 신청했다. 배운거라고는 2달 동안의 파고다 학원 수강이 끝이지만, 목표 점수가 750점이라 이 정도면 충분할 것 같다. 이번을 마지막으로 토익은 끝낼 것이다. 졸업에 필요한 요건을 미리 채우기 위한 용도일 뿐이다. 영어 공부말고도 해야할 것들이 산더미처럼 많으니까.. 정말 해야할 것도 많고, 하고 싶은 것도 많다. 지난 날에 흘려보낸 시간이 아깝기만 하다. 하지만 후회해봤자 달라지는 건 없으니까, 지금 그냥 열심히 해야겠다.

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 비지도학습 - 주성분분석(PCA)의 개념

2022.02.10

PCA(Principal Components Analysis) - 고차원 데이터를 효과적으로 분석하기 위한 대표적인 차원축소 기법 PCA 핵심원리 - 데이터 차원을 축소할 경우, 어떤 벡터에 데이터들을 정사영시켜야 데이터 구조(분산)이 제일 잘 유지되는가? PCA 과정 Covariance(공분산)의 의미 공분산 VS 고유값(Eigenvalue), 고유벡터(Eigenvector)

자기계발

책을 많이 읽어야겠다.

2022.02.10

책을 많이 읽어야겠다. 많은 자기계발 유튜브를 보고 깨달은 것이다. 사람들이 하는 말은 대부분 비슷하지만, 책을 많이 읽으라는 말은 100퍼센트 똑같이 나오더라. 책을 읽음으로써 스스로 생각해보고 자신의 생각을 확장시킬 수 있다고한다. 맞는 말이다. 유튜브 컨텐츠에서 아무리 좋은 내용을 보고 느껴도, 솔직히 다음 영상을 보면 잘 기억이 나지 않는다. 스스로 생각하지 않는, 남이 설명하는 것을 그저 수동적으로 듣기만 하는 것은 나에게 도움이 되지 않는 것이다. 훌륭한 사람들이 하라고 하는 데에는 다 이유가 있을 것이다. 나 스스로가 매력적인 사람이 되어야 한다. 나부터 교양있고 생각이 깊은 사람이 되어야 한다. 이제부터 책을 조금씩 읽어야겠다. 그리고 그것을 블로그에 정리해야겠다.

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - Random Forest

2022.02.09

Random Forest 모델 - Bagging 기법을 사용하는 대표적인 앙상블 학습 모델 - Base 모델로 Decision Tree를 사용 - 일반적인 특징은 Decision Tree와 유사함 - Decision Tree의 장점인 높은 모델 해석력은 해당하지 않음 Random Forest 모델의 장점 - Decision Tree의 장점을 대부분 포함(모델 해석력 제외) - Decision Tree에 비해 Overfitting의 위험성이 상대적으로 적음 - 단일 ML 모델보다 일반적으로 예측 성능이 높음 - 대부분의 Hyperparameter는 Decision Tree와 유사함 Random Forest 모델의 단점 - 느린 학습 속도 - Hyperparameter 튜닝의 어려움(너무 많은 조합이 가능)..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - 앙상블 기법의 개념

2022.02.09

Ensemble Learing(앙상블 기법)의 개념 - Random Forest 모델의 기반 - 다수의 ML 모델을 결합하여 학습, 예측하는 기법 - Decision Tree 등의 단순한 모델을 여러 개 결합하여 사용 - 단일 ML 모델을 사용하는 것보다 일반적으로 예측 성능이 높음 - 최신 앙상블 기법은 정형 데이터 셋에 대해서는 딥러닝에 필적하는 성능을 보임(Kaggle에서 많이 사용됨) - 앙상블 기법의 종류 : Voting, Bagging, Boosting Voting 기법 - 서로 다른 ML 모델을, 동일한 데이터셋으로 학습 - 다수의 학습된 모델로 Prediction한 값으로 최종 투표 Bagging 기법 - Bootstrap Aggregating의 약자 - 전체 학습 데이터셋에서 무작위 복원..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - Decision Tree의 특징

2022.02.09

Decision Tree의 장점 - 학습된 모델의 해석력이 높음(학습된 모델을 사람이 이해 가능, 학습된 Tree를 시각화 할 수 있음) - Scaling, One Hot Encoding 등 데이터 전처리의 영향이 크지 않음 - Feature Selection이 자동으로 수행됨 - 학습된 모델의 Prediction 속도가 빠름 Decision Tree의 단점 - Overfitting 되기 쉬움 -> 불순도/엔트로피가 0이 될 때까지 집요하게 Tree 가지를 분리, Training Dataset에 최적화 될 가능성 존재 - 모델을 학습하기 위한 시간/공간 복잡도가 높음 - 다른 분류 알고리즘에 비해 예측 정확도가 상대적으로 낮음 -> 앙상블 학습 기법으로 보완 Hyperparameter - Decision..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - Decision Tree 모델의 학습

2022.02.09

Decision Tree 모델의 학습 - Decision Tree의 학습은 적절한 질문을 고르는 것이 중요.(스무고개의 경우에도 좋은 질문을 먼저 던질수록 유리함.) - 정상/비만을 분류하는 모델을 만들기 위해선, 운동 여부, 음주 여부, 식사 회수는 중요한 질문이지만, 독서 여부는 중요하지 않은 질문이다. - 성별을 분류하는 모델을 만들기 위해서는, 키, 몸무게, 신발 사이즈, 머리카락 길이는 중요한 질문이지만, 나이, IQ, 거주도시는 중요하지 않은 질문이다. Decision Tree는 어떤 기준으로 질문을 선택할까? - 다음 단계 노드들의 순도가 높아지도록 - 다음 단계 노드들의 불순도가 낮아지도록 - 다음 단계 노드들의 정보 획득이 높아지도록 불순도와 엔트로피 - Gini 계수와 Entropy 계..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 트리모델 - 지도학습을 위한 트리모델

2022.02.09

Decision Tree(의사결정 나무) - 지도학습 모델 - 분류와 회귀 모두 사용 가능 - 컴퓨터공학에서 사용하는 Tree 자료구조를 활용 - 스무고개과 유사한 방법으로 분류 라벨을 결정 from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split cancer = load_breast_cancer() x_train, x_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.3, random_state=12) # DecisionTreeClassifier 임포트 from sklearn.tree i..

자기계발

말 잘하는 법

2022.02.08

https://youtu.be/6uew9Puq_ZM 1. 말하기 전 '3초' 침묵한다. (이목을 집중시키고, 여유로움을 보여준다) 2. 말하기 전, 자기암시를 한다. (화장실 거울 앞에서 자기암시/자신감 업!) 3. 관객의 인중을 쳐다봐라 (웃겨서 긴장이 풀림/눈을 쳐다본다고 느낌) 4. 공간을 넓게 쓰고 제스쳐를 사용하자. (웅크리거나 팔짱을 끼는 것은 금지) 5. 청중 사이에 있는 거슬리는 인물을 관리하라. (우리가 그들의 기를 죽여놔야한다!) 유튜버 포리얼님의 영상을 보고 정리해보았다. 말하기는 정말 중요하다고 생각한다. 그래서 나도 말을 잘하고 싶다. 어디가서 무시받는 사람이 되고 싶지 않다.

전체 글

파이썬으로 구현하는 머신러닝 : 비지도학습 - PCA 실습

당면과제는 토익이다.

파이썬으로 구현하는 머신러닝 : 비지도학습 - 주성분분석(PCA)의 개념

책을 많이 읽어야겠다.

파이썬으로 구현하는 머신러닝 : 트리모델 - Random Forest

파이썬으로 구현하는 머신러닝 : 트리모델 - 앙상블 기법의 개념

파이썬으로 구현하는 머신러닝 : 트리모델 - Decision Tree의 특징

파이썬으로 구현하는 머신러닝 : 트리모델 - Decision Tree 모델의 학습

파이썬으로 구현하는 머신러닝 : 트리모델 - 지도학습을 위한 트리모델

말 잘하는 법

티스토리툴바