[부스트캠프] AI_Math 최대가능도 추정법
https://minjoo-happy-blog.tistory.com/116
[부스트캠프] AI_Math 통계적 모델링, 기능도함수
통계적 모델링 - 적절한 가정 위에서 확률분포를 추정하는 것이 목표이며, 기계학습과 통계학이 공통적으로 추구하는 목표이다. 여기서 확률분포란? - 확률 변수가 취할 수 있는 모든 값과 그 값
minjoo-happy-blog.tistory.com
이전 포스팅에 이어지는 내용!
최대가능도 추정을 요약하면 얻어진 데이터를 토대로 확률변수의 모수를 구하는 것이다.
여기서 가능도가 최대가 되는 모수를 구해야 하는데, 가능도는 데이터가 특정 분포로부터 만들어졌을 확률을 말한다.
최대가능도 추정법 예제 : 정규분포
- 정규분포를 따르는 확률변수 X로부터 독립적인 표본 {x1, x2, ...,xn}을 얻었을 때 최대가능도 추정법을 이용하여 모수를 추정하면?
일단 정규 분포의 확률밀도함수는 아래의 식과 같다.
+ 이 식이 나오게 된 원리도 알면 좋을 것 같다..!
여기서 독립적인 표본 {x1, x2, ...,xn}이 있는 경우 전체 확률밀도함수는 각각의 확률밀도함수의 곱과 같다. 아래의 식 참고!
여기서 로그 변환을 한 로그가능도를 구하면 아래와 같다.
위의 식에서 앞에 계산식은 분산만 포함되고, 뒤의 식은 분산과 평균이 포함된다.
최대가능도를 추정하려면 두 미분이 모두 0이 되는 모수값을 찾으면 가능도를 최대화하게 된다.
첫번째로 μ의 미분
두번째로 σ2에 대한 미분
-> MLE는 N-1을 나누지 않고 N을 나눔으로 불편추정량을 보장하지는 않는다.
두 미분 결과를 보면 정규분포 평균, 분산 구하는 공식과 유사하다!
여기까지는 연속확률변수에 해당하는 정규분포에서의 최대가능도 추정법으로 모수를 추정하는 방법을 알아봤다면 다음은 이산확률변수에 해당하는 카테고리 분포의 최대가능도 추정법을 알아보자
최대가능도 추정법 예제 : 카테고리 분포
모수가 𝜇=(𝜇1,⋯,𝜇𝐾)μ=(μ1,⋯,μK)인 카테고리 분포의 확률질량함수는 다음과 같다.
확률질량함수 : 이산확률변수의 확률분포를 나타내는 함수
확률밀도함수 : 연속확률변수의 확률분포를 나타내는 함수
- 위의 식에서 x는 모두 k개의 원소를 가지는 원핫인코딩벡터이다. N번의 반복 시행으로 표본 데이터가 x1, x2,,,xN이 있는 경우에는 모두 독립이므로 전체 확률밀도함수는 각각의 확률질량함수의 곱이다.
- 미분을 쉽게 하기 위해서 로그 변환을 한 로그 가능도는 아래와 같다.
- xi,k는 i번째 시행 결과인 xi의 k번째 원소를 뜻한다.
- k번째 원소가 나온 횟수를 Nk라고 표시하면 로그 가능도가 아래와 같아지며, 이 함수를 최대화하는 모수의 값을 찾아야 한다.
- 여기서 모수는 다음과 같은 제한 조건을 만족해야 한다.
- 라그랑주 승수법을 사용하여 로그가능도에 제한조건을 추가한 새로운 목적함수를 생각할 수 있다.
- 위 목적함수를 모수로 미분한 값이 0이 되는 값을 구하면 아래와 같다.
-> 결과 : 카테고리 분포의 MLE는 경우의 수를 세어서 비율을 구하는 것이다.
그렇다면 딥러닝에서 최대가능도 추정법은??
- 최대가능도 추정법을 이용해서 기계학습 모델을 학습할 수 있다.
- 딥러닝 모델의 가중치를 𝜃 = (W(1),,,W(L))라 표기했을 때 분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수를 모델링한다.
- 원핫벡터로 표현한 정답레이블 y를 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그 가능도를 최적화할 수 있다.
확률분포의 거리
- 기계학습에서 사용되는 손실함수들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리를 통해 유도한다.
- 데이터 공간에 두 개의 확률분포 P(x), Q(x)가 있을 경우 두 확률분포 사이의 거리를 계산할 때 다음과 같은 함수들을 이용한다.
- 총변동 거리(TV)
- 쿨백-라이블러 발산(KL)
- 바슈타인 거리
위 내용은 1주 차 내용인데 뒤에서도 계속 최대가능도(mle) 내용이 나와서 다시 정리했다. 수학적 계산은 아 그렇구나 정도로 넘어가고 개념 정도 파악했다. 3주 차 딥러닝까지 들어가니까 최대가능도가 어떻게 쓰이는지 조금 알 것 같다..!! 그래도 추상적인 개념은 여전히 남아있어서 헷갈리는 내용은 계속 검색해서 추가해야겠다.