데이터 불균형이 예측 정확도를 낮추는 이유를 이해하면 모델 해석이 달라집니다
데이터 불균형이 예측 정확도를 낮추는 이유는 단순히 표본 수가 적기 때문이라는 설명만으로는 충분하지 않습니다. 예측 모델은 입력된 데이터의 분포를 학습하여 패턴을 추출합니다. 이때 특정 범주가 압도적으로 많고 다른 범주가 극히 적다면, 모델은 자연스럽게 다수 집단의 특성을 중심으로 구조를 형성합니다. 그 결과 소수 집단에 대한 민감도는 낮아지고, 겉으로는 높은 정확도를 보이더라도 실제 의사결정 상황에서는 오류가 증가할 수 있습니다. 특히 의료, 금융, 위험 예측과 같은 분야에서는 소수 집단의 예측이 핵심이 되는 경우가 많습니다. 따라서 데이터 불균형은 단순한 통계적 문제가 아니라 모델의 구조적 편향을 유발하는 요인입니다. 여기에서는 데이터 분포의 왜곡이 어떤 경로를 통해 예측 정확도를 낮추는지 구조적으로 설명드리겠습니다. 다수 클래스 편향과 학습 방향의 왜곡 모델은 손실 함수를 최소화하는 방향으로 학습을 진행합니다. 다수 클래스가 전체 데이터의 대부분을 차지하면, 모델은 이 집단을 정확히 맞추는 것이 전체 손실을 줄이는 데 더 유리하다고 판단합니다. 그 결과 소수 클래스에 대한 오분류가 상대적으로 덜 중요하게 취급됩니다. 이는 최적화 과정에서 자연스럽게 발생하는 현상입니다. 겉으로 보이는 전체 정확도는 높을 수 있지만, 소수 집단에 대한 재현율은 크게 떨어질 수 있습니다. 다수 클래스 중심 학습은 모델을 구조적으로 편향된 상태로 만듭니다. 이러한 왜곡은 모델이 실제 상황에서 필요한 신호를 충분히 포착하지 못하게 합니다. 결정 경계 형성의 불균형 문제 예측 모델은 입력 공간에서 서로 다른 클래스를 구분하는 결정 경계를 형성합니다. 데이터가 균형 있게 분포되어 있다면 경계는 각 집단의 특성을 반영하여 설정됩니다. 그러나 한쪽 클래스가 압도적으로 많을 경우, 경계는 다수 클래스에 유리한 방향으로 이동합니다. 이는 소수 클래스가 차지하는 영역을 과소평가하게 만드는 구조입니다. 특히 고차원 데이터에서는 이러한 왜곡이 더욱 심화됩니다. 불균형 데이터는 결정...