이제부터라도 시작할 것들 4가지.
https://youtu.be/u8lWHbnJbQw 1. 미래에도 남는 일을 하자. (말하기/글쓰기 익히기/블로그 꾸준히 작성하기) 2. 사소한 것에 시간을 낭비하지 않을 것이다. (인생을 길게바라보는 시각 갖기) 3. 책을 많이 읽을 것이다. (독서로 새로운 시각 기르기/기록하기) 4. 규칙에 순응하려 노력하지 않을 것이다.
https://youtu.be/u8lWHbnJbQw 1. 미래에도 남는 일을 하자. (말하기/글쓰기 익히기/블로그 꾸준히 작성하기) 2. 사소한 것에 시간을 낭비하지 않을 것이다. (인생을 길게바라보는 시각 갖기) 3. 책을 많이 읽을 것이다. (독서로 새로운 시각 기르기/기록하기) 4. 규칙에 순응하려 노력하지 않을 것이다.
roc_curve() API를 이용한 ROC Curve 시각화(API URL: sklearn.metrics.roc_curve) roc_curve() API의 Argument(인자) - y_ture: test 데이터 셋의 label - y_score: 모델에서 Positive로 예측할 확률(0~1) 값 roc_curve() API의 Return(반환 값) - fpr: Threshold 에 따른 fpr 값 – numpy ndarray - tpr: Threshold 에 따른 recall 값 - numpy ndarray - thresholds: fpr, tpr 값을 구할 당시의 Threshold 값 – numpy ndarray roc_auc_score() API를 이용한 AUC 값 계산(API URL : skl..
AUC(Area Under the Curve) - ROC 커브의 아래 면적(A) - AUC 값이 크면 높은 성능을 의미 ==> 동일 모델에서 Threshold를 조절해 TRP를 증가 시, FPR의 증가가 상대적으로 억제 - AUC 값이 작으면 낮은 성능을 의미 ==> 동일 모델에서 Threshold를 조절해 TRP를 증가 시, FPR의 증가가 상대적으로 억제 안됨 Precision-Recall AUC - ROC 커브에서 X 축과 Y 축 값을 변경 - X 축 : Recall(TPR) - Y 축 : Precision - Trade Off(교환) 관계에 있는 2 값(Recall, Precision)을 종합하는 성능 지표로 사용 - PR AUC 값이 크면 높은 성능을 의미==> 동일 모델에서 Threshold를..
분류분석은 데이터셋의 특성에 따라 신뢰할 수 있는 지표가 다름 ex) 암환자 진단 Imbalance Data set의 경우 Recall이 신뢰할 수 있는 지표 ROC : 모든 분류 임계값에서 분류 모델의 성능을 보여주는 그래프 TPR(True Positive Rate) - ROC 그래프에서 Y축 - Recall(참 양성 비율) : 클수록 높은 성능 FPR(False Positive Rate) - ROC 그래프에서 X축 - 허위 양성 비율 : 클수록 낮은 성능 Threshold - 임계값 - 분류분석에서 모델이 반환한 값 기반 Positive/Negative를 판단하는 기준 값 - Threshold 값에 따라 TPR/FPR 값이 양의 상관관계를 가지고 변화됨 분류분석에서 Threshold의 Min/Max ..
로지스틱 회귀 분석의 기초 이해와 분류 분석을 위한 기초 평가 지표들을 활용하여 이진 분류 모델을 구현 LogisticRegressionAPI의 Method(함수) - fit(X, y) : 학습 데이터를 이용하여 모델의 회귀계수와 편향 학습 - predict(X) : 모델에 테스트 데이터를 입력하여 계산된 예측값 반환 - score(X, y) : 모델에 테스트 데이터를 입력하여 모델의 성능지표(정확도) 반환 LogisticRegressionAPI의 Attribute(속성) - coef_: 학습된 모델의 회귀 계수(W) - intercept_: 학습된 모델의 bias(b) 결론 : Count가 500 이상인 데이터 만을 학습시켜, 데이터의 불균형으로 모델의 Accuracy는 높지만 Precision과 Re..
성능 지표의 기본 이해 1) 데이터셋 - Test : 실제 정답이 되는 데이터셋 - Predict : 모델이 예측한 결과인 데이터셋 2) 데이터의 종류 - Positive : 모델을 통해 알아내고 싶은 값(1) - Negative : Positive가 아닌 값(0) 3) 모델의 분류 결과 - True : 예측 성공 - False : 예측 실패 성능 지표 - 정확도(Accuracy) : 모델이 정답을 정답으로, 오답을 오답으로 선택하는가를 보여주는 지표 Accuracy = (tp + tn) / (tp + tn + fp + fn) - 정밀도(Precision) : 모델에서 정답이 아닌 것을 얼마나 잘 걸러내는가를 보여주는 지표 Precision = tp / (tp + fp) - 재현율(Recall) : 모델..
2022년 1월 18일, 주문한 오메가3 제품이 도착해서 먹기 시작했다. 운동 유튜브 채널에서 오메가 3의 EHA를 약 1000mg 섭취할 시, 안정 시 칼로리 소비량을 증가시켜준다고 하더라. 또 무기력증을 예방해준다고 한다. 대신 허기도 더 크게 찾아온다더라.. 2000mg 이상 섭취하면, 염증과 근육통 예방에도 도움이 된다고 하는데, 2000mg까지 먹기는 힘들고 적당량만 섭취하기로 했다. 현재 이 제품 1캡슐당 EPA 함량은 735mg, DHA 함량은 365mg, 비타민 D를 25ug으로 상당히 고함량이라 선택했다. 이제 매일 저녁 식사 후, 2캡슐씩 EPA 1370mg 먹으면 된다. 건강하자.
회귀(Regression) - 예측하고자 하는 값이 연속형 데이터 ex) 주식 가격 예측, 부동산 가격 예측 - 대표적인 방법론 : Linear Regression(선형 회귀) 분류(Classfication) - 예측하고자 하는 값이 범주형 데이터 ex) 문서 분류, 이미지 분류 - 대표적인 방법론 : Logistic Regression(로지스틱 회귀) GLM(Generalized Linear Model) : 일반화 선형 모델 - 선형 회귀와 로지스틱 회귀를 포함 로지스틱 회귀(Logistic Regression) - 독립변수와 종속변수 간의 관계를 분석하는 통계적 절차 - 선형 회귀 방식을 분류 분석에 적용한 알고리즘 - 주로 이진 분류 문제에 사용되지만, 다중 클래스 분류에도 적용 가능 - 로지스틱 ..
Matplotlib 기본 코드 설명 - import matplotlib.pyplot as plt : 라이브러리 로딩 - plt.figure(figsize=(10,5)) : 그래프의 사이즈 조정을 위해 figsize 지정 - plt.xlim(min,max), plt.ylim(min,max) : x축, y축의 시각화 범주 설정 - plt.show() : 그래프 화면에 시각화 Pandas 의 시각화 코드 설명 - series객체명.plot(kind='bar) - .plot() : Pandas 는 Matplotlib 의 시각화 함수 일부 내장됨. - kind='bar': 막대그래프 시각화 옵션, kind 옵션을 통해 그래프의 형태 변경 가능함
머신러닝에서는 과대적합(overfitting)을 줄이면서, 일반성을 가지는 모델을 생성하는 것이 중요함 이를 위해 사용되는 규제 기법에는 릿지(ridge) 회귀, 라쏘(lasso) 회귀 기법 등이 있음 라쏘 회귀(Lasso Regression) - 회귀계수의 절대값에 페널티를 부여하는 방식 - 불필요한 회귀 계수를 0에 근사하도록 만들어 과대적합 개선 - 주로 Feature Selection 의 목적으로 사용 - L1 규제라고도 함 - 모델러에 의해 지정된 alpha 값을 통해서 페널티를 조정할 수 있음 1) alpha 값 정의 2) Lasso(alpha) 클래스 객체 생성 3) fit(X, y) 을 통해 학습 데이터 연결 및 규제 학습 수행 4) predict(X) 통해 학습된 모델의 예측 수행 5) ..