카테고리 없음 2025. 8. 29. 14:49

AUC, ROC https://bioinformaticsandme.tistory.com/328

📊 혼돈 행렬(Confusion Matrix) & 평가 지표 정리

1. 혼돈 행렬 (Confusion Matrix)

이진 분류(Binary Classification) 기준:

	실제 Positive (1)	실제 Negative (0)
예측 Positive (1)	TP (True Positive)	FP (False Positive)
예측 Negative (0)	FN (False Negative)	TN (True Negative)

TP (진짜 양성): 실제도 양성, 예측도 양성
FP (가짜 양성, False Alarm): 실제는 음성인데 잘못 양성으로 예측
FN (가짜 음성, Miss): 실제는 양성인데 놓침
TN (진짜 음성): 실제도 음성, 예측도 음성

2. 기본 지표

(1) Accuracy (정확도)

전체 중 맞춘 비율

Accuracy = (TP + TN) / (TP + FP + FN + TN)

장점: 직관적, 이해하기 쉬움
단점: 클래스 불균형에 매우 취약 (예: 사기 1% → 전부 "정상" 예측해도 Accuracy=99%)

(2) Precision (정밀도)

예측을 Positive라 한 것 중, 실제 Positive 비율

Precision = TP / (TP + FP)

FP 줄이기에 초점 → "양성이라고 했을 때 얼마나 믿을 수 있나?"
예: 스팸 필터, 잘못 걸러서 정상 메일 차단하면 안됨 → Precision 중요

(3) Recall (재현율, 민감도)

실제 Positive 중, 제대로 Positive라고 예측한 비율

Recall = TP / (TP + FN)

FN 줄이기에 초점 → "실제 양성을 얼마나 놓치지 않나?"
예: 암 진단, 환자를 놓치면 안 됨 → Recall 중요

(4) Specificity (특이도)

실제 Negative 중, 제대로 Negative라고 예측한 비율

Specificity = TN / (TN + FP)

FP 줄이는 것에 집중 → Recall의 반대 축

(5) F1 Score

Precision & Recall의 조화 평균

F1 = 2 * (Precision * Recall) / (Precision + Recall)

Precision과 Recall이 균형 잡혀야 높음
불균형 데이터에서 Accuracy 대신 많이 사용

3. ROC Curve & AUC

ROC Curve

x축: FPR (False Positive Rate = FP / (FP + TN)) --> 1 - Specificity : 실제 Negative 인 것들 중 Positive라고 잘 못 예측한 비율 - 거짓양성률
y축: TPR (True Positive Rate = Recall = TP / (TP + FN)) : 실제 Positive 인 것들 중 Positive라고 잘 예측한 비율 - 참양성률
Threshold(임계값)을 바꿔가며 그린 곡선

AUC (Area Under Curve)

ROC Curve 밑의 면적
무작위 분류 = 0.5
완벽한 분류 = 1.0
"양성을 양성답게, 음성을 음성답게 구분하는 전반적 능력"

Threshold : positive와 negative를 가를 기준점

Threshold를 낮추면 positive 비율이 증가하고, TPR도 늘어나고, FPR도 늘어난다.

Threshold를 높이면 positive 비율이 줄어들고, TPR, FPR은 줄어든다.

4. Precision-Recall Curve & PR AUC

https://kyull-it.tistory.com/176

분류모델 성능평가 지표 (2) : PR curve, mAP (mean Average Precision)

해당 글을 읽기 전에 먼저 알아야할 내용 Confusion Matrix로 분류모델 성능평가 지표(precision, recall, f1-score, accuracy) 구하는 방법 먼저 Confusion Matrix(혼동행렬)란, 이진분류(Binary Classification) 나 다중분

kyull-it.tistory.com

https://hwi-doc.tistory.com/entry/%EB%AA%A8%EB%8D%B8-%ED%8F%89%EA%B0%80%ED%95%98%EA%B8%B0-%EC%A0%95%ED%99%95%EB%8F%84%EB%A7%8C-%EB%86%92%EC%9C%BC%EB%A9%B4-%EC%A2%8B%EC%9D%80-%EB%AA%A8%EB%8D%B8

모델 평가하기 - 정확도만 높으면 좋은 모델?

* 카테고리 별로 읽기보다, 글 순서대로 읽는걸 추천드려요. 순서 정확도의 문제 재현율, 정밀도 F score 임계값 조절 PR curve vs ROC curve Confusion Matrix 1. 정확도의 문제 모델 성능을 비교할 때 그리고

hwi-doc.tistory.com

x축: Recall : 실제 Positive들 중에서 모델이 Positive라고 예측한 비율
y축: Precision : 모델이 Positive라고 한 것들 중에서 실제로 Positive인 비율
불균형 데이터셋에서 양성 클래스의 품질을 평가할 때 적합
- 불균형 데이터는 FPR이 너무 작아진다. Positive가 적으면 Positive라고 예측할 값이 너무 작아지니까
- PR-Curve는 Positive값에 집중하기 때문에 더 의미가 있음.
Recall-Precision이 tradeoff인 이유

이 둘이 왜 trade-off 관계인지, 스팸 메일 분류기를 예시로 들어볼게요.

우리가 스팸 메일을 아주 하나도 놓치지 않고 다 잡아내고 싶다고 해볼게요. 즉, 재현율을 높이고 싶은 거죠. 📈 재현율을 높이려면 모델이 조금만 의심스러워도 '스팸'이라고 판단하도록 기준을 아주 낮춰야 할 거예요. 그러면 어떻게 될까요?

진짜 스팸 메일은 거의 다 잡아내겠죠. (✅ 재현율 상승)
하지만 정상 메일인데도 '스팸'으로 잘못 분류되는 경우가 많아질 거예요. (❌ 정밀도 하락)
- 중요한 업무 메일이나 친구의 편지가 스팸함으로 들어가면 큰일이겠죠?

반대로, 스팸 메일함에 정상 메일이 단 한 통도 들어가지 않게 하고 싶다고 해볼게요. 즉, 정밀도를 높이고 싶은 거죠. 📈 정밀도를 높이려면 모델이 정말 확신할 때만 '스팸'이라고 판단하도록 기준을 아주 높여야 할 거예요. 그럼 어떻게 될까요?

정상 메일이 스팸으로 분류되는 일은 거의 없어지겠죠. (✅ 정밀도 상승)
하지만 스팸 메일인데도 '정상 메일'이라고 판단되어 우리에게 보이는 경우가 많아질 거예요. (❌ 재현율 하락)
- 광고 메일이나 불필요한 스팸이 계속 우리에게 들어오게 되겠죠.

이렇게 정밀도와 재현율은 서로 반비례하는 경향이 있기 때문에, 우리가 만드는 모델의 목적에 따라 둘 중 무엇을 더 중요하게 생각할지 결정해야 해요.

PR AUC 해석

값이 높을수록 희귀 Positive를 잘 잡아냄
단, 실제 운영에서는 특정 threshold 성능도 반드시 확인 필요

5. 지표 선택 가이드

Accuracy: 클래스 균형이 잘 맞는 경우
Precision: False Positive 비용이 큰 경우 (정상 메일 스팸 처리하면 안 됨)
Recall: False Negative 비용이 큰 경우 (암 환자 놓치면 안 됨)
F1 Score: Precision과 Recall의 균형 필요
ROC AUC: 전반적 분류 능력 비교
PR AUC: 불균형 데이터에서 양성 클래스 품질 평가

6. 추가 지표 (심화)

MCC (Matthews Correlation Coefficient)
- 1 ~ 1 사이 값, 클래스 불균형에도 강건
Balanced Accuracy

(Recall + Specificity) / 2

Cohen’s Kappa
우연히 맞출 확률까지 보정한 지표

7. 정리표

지표	수식	초점	잘 쓰이는 경우
Accuracy	(TP+TN)/(전체)	전체 맞춤률	균형 데이터
Precision	TP/(TP+FP)	양성 예측 신뢰	스팸 필터
Recall	TP/(TP+FN)	양성 놓침 방지	암 진단
F1 Score	2PR/(P+R)	균형	불균형 데이터
Specificity	TN/(TN+FP)	음성 식별	보안 탐지
ROC AUC	ROC 곡선 면적	구분 능력	모델 비교
PR AUC	PR 곡선 면적	희귀 양성 평가	불균형 상황

ABOUT ME

평온한삶 평온한삶