전체 글

무엇이 나를 살아있게 만드는가
자기계발

이제부터라도 시작할 것들 4가지.

https://youtu.be/u8lWHbnJbQw 1. 미래에도 남는 일을 하자. (말하기/글쓰기 익히기/블로그 꾸준히 작성하기) 2. 사소한 것에 시간을 낭비하지 않을 것이다. (인생을 길게바라보는 시각 갖기) 3. 책을 많이 읽을 것이다. (독서로 새로운 시각 기르기/기록하기) 4. 규칙에 순응하려 노력하지 않을 것이다.

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - ROC 커브와 AUC 실습

roc_curve() API를 이용한 ROC Curve 시각화(API URL: sklearn.metrics.roc_curve) roc_curve() API의 Argument(인자) - y_ture: test 데이터 셋의 label - y_score: 모델에서 Positive로 예측할 확률(0~1) 값 roc_curve() API의 Return(반환 값) - fpr: Threshold 에 따른 fpr 값 – numpy ndarray - tpr: Threshold 에 따른 recall 값 - numpy ndarray - thresholds: fpr, tpr 값을 구할 당시의 Threshold 값 – numpy ndarray roc_auc_score() API를 이용한 AUC 값 계산(API URL : skl..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - AUC 지표를 통한 모델 성능분석

AUC(Area Under the Curve) - ROC 커브의 아래 면적(A) - AUC 값이 크면 높은 성능을 의미 ==> 동일 모델에서 Threshold를 조절해 TRP를 증가 시, FPR의 증가가 상대적으로 억제 - AUC 값이 작으면 낮은 성능을 의미 ==> 동일 모델에서 Threshold를 조절해 TRP를 증가 시, FPR의 증가가 상대적으로 억제 안됨 Precision-Recall AUC - ROC 커브에서 X 축과 Y 축 값을 변경 - X 축 : Recall(TPR) - Y 축 : Precision - Trade Off(교환) 관계에 있는 2 값(Recall, Precision)을 종합하는 성능 지표로 사용 - PR AUC 값이 크면 높은 성능을 의미==> 동일 모델에서 Threshold를..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - ROC 커브의 주요 개념 이해

분류분석은 데이터셋의 특성에 따라 신뢰할 수 있는 지표가 다름 ex) 암환자 진단 Imbalance Data set의 경우 Recall이 신뢰할 수 있는 지표 ROC : 모든 분류 임계값에서 분류 모델의 성능을 보여주는 그래프 TPR(True Positive Rate) - ROC 그래프에서 Y축 - Recall(참 양성 비율) : 클수록 높은 성능 FPR(False Positive Rate) - ROC 그래프에서 X축 - 허위 양성 비율 : 클수록 낮은 성능 Threshold - 임계값 - 분류분석에서 모델이 반환한 값 기반 Positive/Negative를 판단하는 기준 값 - Threshold 값에 따라 TPR/FPR 값이 양의 상관관계를 가지고 변화됨 분류분석에서 Threshold의 Min/Max ..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - 로지스틱 회귀 실습1

로지스틱 회귀 분석의 기초 이해와 분류 분석을 위한 기초 평가 지표들을 활용하여 이진 분류 모델을 구현 LogisticRegressionAPI의 Method(함수) - fit(X, y) : 학습 데이터를 이용하여 모델의 회귀계수와 편향 학습 - predict(X) : 모델에 테스트 데이터를 입력하여 계산된 예측값 반환 - score(X, y) : 모델에 테스트 데이터를 입력하여 모델의 성능지표(정확도) 반환 LogisticRegressionAPI의 Attribute(속성) - coef_: 학습된 모델의 회귀 계수(W) - intercept_: 학습된 모델의 bias(b) 결론 : Count가 500 이상인 데이터 만을 학습시켜, 데이터의 불균형으로 모델의 Accuracy는 높지만 Precision과 Re..

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - 분류 분석을 위한 성능 지표

성능 지표의 기본 이해 1) 데이터셋 - Test : 실제 정답이 되는 데이터셋 - Predict : 모델이 예측한 결과인 데이터셋 2) 데이터의 종류 - Positive : 모델을 통해 알아내고 싶은 값(1) - Negative : Positive가 아닌 값(0) 3) 모델의 분류 결과 - True : 예측 성공 - False : 예측 실패 성능 지표 - 정확도(Accuracy) : 모델이 정답을 정답으로, 오답을 오답으로 선택하는가를 보여주는 지표 Accuracy = (tp + tn) / (tp + tn + fp + fn) - 정밀도(Precision) : 모델에서 정답이 아닌 것을 얼마나 잘 걸러내는가를 보여주는 지표 Precision = tp / (tp + fp) - 재현율(Recall) : 모델..

혼잣말

오메가3를 먹기 시작했다

2022년 1월 18일, 주문한 오메가3 제품이 도착해서 먹기 시작했다. 운동 유튜브 채널에서 오메가 3의 EHA를 약 1000mg 섭취할 시, 안정 시 칼로리 소비량을 증가시켜준다고 하더라. 또 무기력증을 예방해준다고 한다. 대신 허기도 더 크게 찾아온다더라.. 2000mg 이상 섭취하면, 염증과 근육통 예방에도 도움이 된다고 하는데, 2000mg까지 먹기는 힘들고 적당량만 섭취하기로 했다. 현재 이 제품 1캡슐당 EPA 함량은 735mg, DHA 함량은 365mg, 비타민 D를 25ug으로 상당히 고함량이라 선택했다. 이제 매일 저녁 식사 후, 2캡슐씩 EPA 1370mg 먹으면 된다. 건강하자.

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 분류분석 - 분류의 이해

회귀(Regression) - 예측하고자 하는 값이 연속형 데이터 ex) 주식 가격 예측, 부동산 가격 예측 - 대표적인 방법론 : Linear Regression(선형 회귀) 분류(Classfication) - 예측하고자 하는 값이 범주형 데이터 ex) 문서 분류, 이미지 분류 - 대표적인 방법론 : Logistic Regression(로지스틱 회귀) GLM(Generalized Linear Model) : 일반화 선형 모델 - 선형 회귀와 로지스틱 회귀를 포함 로지스틱 회귀(Logistic Regression) - 독립변수와 종속변수 간의 관계를 분석하는 통계적 절차 - 선형 회귀 방식을 분류 분석에 적용한 알고리즘 - 주로 이진 분류 문제에 사용되지만, 다중 클래스 분류에도 적용 가능 - 로지스틱 ..

프로젝트/코드프레소 체험단

시각화를 위한 Matplotlib, Pandas 활용하기

Matplotlib 기본 코드 설명 - import matplotlib.pyplot as plt : 라이브러리 로딩 - plt.figure(figsize=(10,5)) : 그래프의 사이즈 조정을 위해 figsize 지정 - plt.xlim(min,max), plt.ylim(min,max) : x축, y축의 시각화 범주 설정 - plt.show() : 그래프 화면에 시각화 Pandas 의 시각화 코드 설명 - series객체명.plot(kind='bar) - .plot() : Pandas 는 Matplotlib 의 시각화 함수 일부 내장됨. - kind='bar': 막대그래프 시각화 옵션, kind 옵션을 통해 그래프의 형태 변경 가능함

프로젝트/코드프레소 체험단

파이썬으로 구현하는 머신러닝 : 회귀분석 - 사이킷런 활용한 라쏘 규제 실습

머신러닝에서는 과대적합(overfitting)을 줄이면서, 일반성을 가지는 모델을 생성하는 것이 중요함 이를 위해 사용되는 규제 기법에는 릿지(ridge) 회귀, 라쏘(lasso) 회귀 기법 등이 있음 라쏘 회귀(Lasso Regression) - 회귀계수의 절대값에 페널티를 부여하는 방식 - 불필요한 회귀 계수를 0에 근사하도록 만들어 과대적합 개선 - 주로 Feature Selection 의 목적으로 사용 - L1 규제라고도 함 - 모델러에 의해 지정된 alpha 값을 통해서 페널티를 조정할 수 있음 1) alpha 값 정의 2) Lasso(alpha) 클래스 객체 생성 3) fit(X, y) 을 통해 학습 데이터 연결 및 규제 학습 수행 4) predict(X) 통해 학습된 모델의 예측 수행 5) ..