MACHINE LEARNING

Degree of Freedom(자유도) 정리

24_bean 2023. 4. 9. 16:36

정의

 

Degree of Freedom(자유도) : 어떤 통계량이 자유롭게 변화할 수 있는 정도

 

자유도가 높을 수록 통계량의 변동성이 높아지며, 그만큼 더 정확한 추정치를 얻을 수 있다.

 

가령, t-distribution에서 자유도는 표본 크기와 관련이 있다.

표본 크기가 작으면 자유도가 작아지기 때문에 t-distribution의 꼬리(tail) 부분의 면적이 커지게되며 normal distribution과 달라지는 모습을 확인할 수 있다.

 

회귀(regression)에서도 자유도는 중요한 개념인데 SSE(Sum of Squared Error)나 SSR(Sum of Squared Residual)의 자유도는 각각 n-p-1과 p다.

(이때 p는 number of coefficient, 1은 intercept를 나타내기 위한 값이다.)

 

이 자유도는 추정된(estimated) 회귀계수(coefficient)의 수와 상수항(intercept) 등 모델 내의 자유도를 고려하여 결정하게 된다.

 

이를 통해 t-distribution을 이용한 가설 검정(Hypothesis test) 등의 통계적 추론(inference)가 가능해진다.

 

 

student's t-distribution VS normal(Gaussian) distribution

 


특징

 

자유도가 증가할수록 샘플의 변화가 더 자유롭게 가능하므로, 샘플의 분산(variance)이 커질 수 있다.

 

이는 추정치의 불확실성이 증가하게 되어 bias와 variance 사이의 trade-off가 발생하게 된다.

: bias 증가 시 variance 감소(flexibility 감소): bias 감소 시 variance 증가(flexibility 증가)

 

 

bias-variance trade-off

 

따라서, 자유도가 증가하면 variance는 커지지만, 적절한 자유도를 선택하면 bias와 variance 사이의 trade-off를 조절할 수 있으며, 이를 통해 정확한 추정치를 얻을 수 있다.

 

즉, 적절한 자유도를 선택하면 모델의 일반화 성능을 향상시킬 수 있다.

 


적용

 

Sample Mean (Degree of Freedom : N)

 

 

Sample variance (Degree of Freedom: N-1)

 

T-distribution (Degree of Freedom: n-1)

 

Residual Standard Error (Degree of Freedom: n-p-1)

 

etc..