LDA와 QDA는 모두 분류 모델링(Classification modeling)에서 사용되는 대표적인 알고리즘이다.
그러나 두 알고리즘은 다른 방식으로 작동하며, 특히 데이터가 가지는 분산의 정도에 따라 적합한 알고리즘이 달라진다.
이에 따라 LDA와 QDA의 차이점을 비교해보려한다.
정의
LDA: Linear Discriminant Analysis
QDA: Quadratic Discriminant Analysis
일반적으로 Logistic Regression에서 확장된 개념으로 설명하고 있는 글이 많다.
두개 이상의 클래스를 구분하려할 때, Logistic Regression도 물론 classification을 할 순 있지만 일반적이지 못하다는 평가다.
혹은 클래스들이 잘 나눠져있지 않을 때, Logistic Regression은 Unstable한 모습을 보인다.
따라서 Bayes theorem을 기반으로 postrior를 추정하는 방식을 classification에 적용한 형태를 띄는 것을 Discriminant Analysis라고 볼 수 있다.
또한, Discrminant Analysis는 각 변수(X)가 Gaussian distirbution을 따라야한다는 조건이 추가되는데 종속 변수가 범주형일 때, 독립 변수가 연속형인 경우에 적용할 수 있다.
사실 모든 변수가 Gaussian distribution을 따른다는 가정 자체가 Discriminant Analysis는 변수들 간의 분포를 파악해 decision boundary를 찾는 방법이기 때문인데 이 경우에 중심극한정리(central limit theorem)에 따라 모집단(population)의 분포를 근사할 수 있기 때문에 분석이 수월해 진다
사실, X가 Gaussian distribution을 따르지 않더라도 DA를 적용할 수는 있다. 이 경우에 분포를 변형하거나 비모수적인 방법을 통해 분석을 진행하는 경우가 일반적이다.
따라서 정리해보면 다음과 같다.
- 각 변수(Feature)가 Gaussian distribution을 따른다는 가정 아래 있다.
- 두 개 이상의 클래스를 구분하고자 한다.
- Bayes theorem을 기반으로 postrior를 추정한다.
추가로, 중심극한정리(central limit theorem)를 통해 모집단(Population)의 분포를 근사할 경우 다음과 같은 parameter estimation을 할 수 있다.
이때 근사한 모집단의 분산은 n-k의 Degree of Freedom을 갖는다.
차이 (LDA vs QDA)
Assumption
LDA: 각 클래스가 공통된 공분산을 가진다는 가정 (Same covariance matrix)
QDA: 각 클래스가 서로 다른 공분산을 가진다는 가정 (Each class's own covariance matrix)
Decision boundary
LDA: 선형 결정 경계(Linear decision boundary)를 사용하여 클래스를 분류 - 물론 곡선을 이용하여 클래스를 분류할 수도 있다(약간의 트릭을 통해 선형으로 고려할 수 있음)
QDA: 이차 결정 경계(Quadratic decision boundary)를 사용하여 클래스를 분류
Variance
LDA: 클래스 간 분산(variance)과 클래스 내 분산의 비율을 고려하여 결정 경계를 찾음
QDA: 클래스 간 분산과 클래스 내 분산의 비율 뿐 아니라 각 클래스의 고유한 분산도 고려하여 결졍 경계를 찾음
Time complexity
LDA: 단순한 계산을 통해 빠른 분류(classification) 가능
QDA: 비교적 복잡하기 때문에 LDA보다 다소 느릴 수 있음
결론
따라서, 데이터의 분산(variance)과 샘플 크기에 따라 LDA와 QDA 중 어떤 알고리즘이 더 적합한지 결정해야한다.
일반적으로 데이터셋이 작고 클래스간 분산이 비슷할 때는 LDA가
클래스 간 분산이 다르고 flexible한 고려가 필요할 떄는 QDA가 적합할 수 있다고 볼 수 있다.
'MACHINE LEARNING' 카테고리의 다른 글
중심극한정리 / Central Limit Theorem 에 대해 알아보자 (0) | 2023.04.22 |
---|---|
Degree of Freedom(자유도) 정리 (0) | 2023.04.09 |
통계 / Chi-Squared distribution VS Poisson distribution (멍청일기) (0) | 2023.03.23 |
openCV / image blur 처리 예제 (0) | 2023.03.15 |
openCV / K-means clustering 시각화 (1) | 2023.03.15 |