일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 데이터
- Cosine-similarity
- TF-IDF
- Tensor
- Overfitting
- 부스트캠프
- 시각화
- 추천시스템
- 딥러닝
- 프로그래머스
- codingtest
- 파이썬
- 코딩테스트
- 웹크롤링
- recommendation system
- 데이터 엔지니어링
- 알고리즘
- SGD
- 코테
- 웹스크래핑
- pytorch
- 분산 시스템
- 머신러닝
- wordcloud
- 협업 필터링
- coursera
- 추천 시스템
- selenium
- 백준
- Python
- Today
- Total
개발자식
[부스트캠프] AI_Math 통계적 모델링, 기능도함수 본문
통계적 모델링
- 적절한 가정 위에서 확률분포를 추정하는 것이 목표이며, 기계학습과 통계학이 공통적으로 추구하는 목표이다.
여기서 확률분포란?
- 확률 변수가 취할 수 있는 모든 값과 그 값들이 나타날 확률을 나열한 표/그림/함수식이다.
그러면 확률 변수란..?
- 표본 공간의 각 단위 사건에 실수 값을 부여하는 함수이다.
-> 예를 들어 동전을 무작위로 두 번 던져서 그림 또는 숫자가 나오는 실험에서 발생하는 결과에 실수 값 (ex 앞:1, 뒤:0)을 부여하는 변수를 말한다.
- 이산확률변수와 연속확률변수가 있다.
이어서 통계적 모델링
- 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아낸다는 것은 불가능하므로, 근사적으로 확률분포를 추정할 수밖에 없다.
-> 이러한 예측 모형의 목적은 분포를 정확하게 맞추는 것보다는 데이터와 추정 방법의 불확실성을 고려해서 위험을 최소화하는 것이다.
통계적 모델링 추가 설명 참고!
통계적 모델링(Statistical Modeling)의 목적과 과정
통계를 배우는 이유?- 통계적 모델링의 목적과 과정 요즘에는 Coursera에서 베이지안 강의를 듣고있는데, 강의의 도입부에서 통계적 모델링의 목적과 과정에 관해서 잘 설명을 한 것 같아서 글로
cosmy.tistory.com
모수란?
- 모집단의 특성을 나타내는 값으로 이 값을 모집단을 전수 조사해야만 알 수 있다. 그렇지만 실질적으로 모집단의 크기와 범위가 방대하기에 전수조사를 실시하지 않고 표본조사를 진행하여 표본평균, 표본분산 등으로 모평균, 모분산등을 추정할 수 있다.
- 수학과 통계학에서는 함수의 특정한 성질을 나타내는 변수를 뜻한다.
모수 추정 방법
- 데이터가 특정 확률분포를 따른다고 선험적으로(a priori) 가정한 후 그 분포를 결정하는 모수를 추정하는 방법을 모수적 방법론이라고 한다.
- 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수 방법론이라고 한다.
-> 기계학습의 많은 방법론은 비모수 방법론에 속한다.
* 여기서 비모수 방법론은 모수가 없다는 의미가 아니라 바뀌거나 무한인 경우와 같은 것이다.
확률분포 가정
- 확률분포를 가정하는 방법은 우선 히스토그램을 통해 모양을 관찰한다.
- 데이터를 생성하는 원리를 먼저 고려하여 확률분포를 가정한다.
- 각 분포마다 검정하는 방법들이 있으므로 모수를 추정한 후에는 반드시 검정을 한다.
데이터로 모수를 추정해보자
- 데이터의 확률분포를 가정했다면 모수를 추정해볼 수 있다.
- 정규분포의 모수는 평균과 분산으로 이를 추정하는 량은 다음과 같다.
- 표본 분산에서 N-1로 나누는 이유는 불편(unbiased) 추정량을 구하기 위해서이다.
표집 분포
- 통계량의 확률분포로, 통계량이라는 것은 그 자체가 확률변수로서 자신의 확률분포를 갖게 된다.
-> 통계량의 값은 매 표본추출마다 달라지기 때문에..!
- 여기서 특히 표본평균의 표집분포는 N이 커질수록 정규분포를 따르게된다.
->이를 중심극한정리라고 부른다. 모집단의 분포가 정규분포를 따르지 않아도 성립한다.
하지만
표본평균이나 표본분산은 중요한 통계량이지만 확률분포마다 사용하는 모수가 다르므로 모수를 추정하는 적절한 통계량이 달라집니다.
-> 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나는 최대가능도 추정법(maximum likelihood estimation, MLE)이다.
가능도란
- 데이터가 이 분포로부터 나왔을 가능도이다.
- 관측 데이터에 맞춰진 분포를 우도라고 한다.
- 그래서 우도가 가지는 의의는 모델과 추정치의 우도가 높으면 좋다라는 것이다.
가능도 함수란
- 확률밀도함수에서 모수를 변수로 보는 경우이다.
- 확률밀도함수(or 확률질량함수)를 p(x;θ) 이렇게 쓴다면 x는 학률분포가 가질 수 있는 실수 값이고, θ는 확률밀도함수의 모수를 표시하는 대표기호이다.
이와 같이 확률밀도함수에서는 θ 모수를 이미 알고 있고 x가 변수이다.
- 모수 추정 문제에서는 x를 알고 있지만 θ 모수를 모른다.
-> 이때 x를 상수 계수로 놓고 θ 모수를 변수로 생각한다.
확률밀도함수로 보면 p(x;θ)로 표기하지만 가능도함수로 보면 L(θ;x)기호로 표기한다.
-> L(θ;x) = p(x;θ)
최대가능도 추정법(MLE)
- 주어진 표본에 대해 가능도를 가장 크게 하는 모수 θ를 찾는 방법이다.
표본 데이터가 복수개일 경우의 가능도함수
- x1,x2,⋯xn이 확률분포에서 나오는 독립적인 값이라면 결합 학률밀도함수는 곱으로 표현된다.
일반적으로 최대가능도 추정법을 사용하여 가능도가 최대가 되는 θ를 계산하려면 수치적 최적화를 해야 한다.
보통 가능도를 직접 사용하지 않고 로그 변환한 로그가능도함수를 사용하는 경우가 많다.
로그가능도를 사용하는 이유는?
1. 로그가능도를 최적화하는 모수는 가능도를 최적화하는 MLE가 된다.
2. 데이터의 숫자가 수억 단위가 된다면 컴퓨터의 정확도로는 가능도를 계산하는 것은 불가능하다.
3. 로그를 사용하면 가능도의 곱셈을 로그가능도의 덧셈으로 바꿀 수 있기 때문에 컴퓨터로 연산이 가능하다. (데이터가 독립일 경우)
4. 경사하강법으로 가능도를 최적화할 때 미분 연산을 사용하게 되는데, 로그 가능도를 사용하면 연산량을 O(n2)에서 O(n)으로 줄여준다.
5. 대게의 손실함수의 경우 경사하강법을 사용하므로 음의 로그가능도를 최적화하게 된다.
포스팅 참고 자료
9.2 최대가능도 추정법 — 데이터 사이언스 스쿨
모멘트 방법으로 추정한 모수는 그 숫자가 가장 가능성 높은 값이라는 이론적 보장이 없다. 이 절에서는 이론적으로 가장 가능성이 높은 모수를 찾는 방법인 최대가능도 추정법에 대해 알아본
datascienceschool.net
이어서 다음 포스팅에..!
회고
- 옛날엔 확률이랑 미적분 좋아했는데,,, 통계 쪽 수학 너무 어렵다.. 고등학교 수학쌤이 통계학과가 가장 힘들다고 했었는데 그 말씀이 새록새록 생각나는 공부였다..ㅎ
'AI > Math' 카테고리의 다른 글
[부스트캠프] AI_Math 최대가능도 추정법 (1) | 2022.10.08 |
---|---|
[부스트캠프] AI_Math 행렬 (0) | 2022.09.22 |
[부스트캠프] AI_Math 경사 하강법 (2) | 2022.09.11 |
[부스트캠프] AI Math_벡터 (0) | 2022.09.09 |