[인공지능 데브코스] 2주차 day4 - 확률, 확률분포
12월 10일 목
오늘은 통계학의 확률과 확률분포에 대해서 공부했다. 대학교때 통계학 수업을 들어본적이 있어서 그런지 한번씩 들어봤거나 익숙한 내용들이었다. 역시 공부를 한번 해놓으면 언젠가는 쓸모가 있는 것 같다. 이번에 확실하게 공부해서 완전히 내것으로 만들고 넘어가야겠다.
확률 (probability)
확률의 정의
똑같은 실험을 무수히 많이 반복할 때 어떤 일이 일어나는 비율
=> 상대도수의 극한
고전적 정의
- 표본공간 (sample space) 모든 가능한 실험결과들의 집합
- 사건
관심있는 실험결과들의 집합
표본공간의 부분집합 - 어떤 건이 일어날 확률
표본공간의 모든 원소가 일어날 확률이 같을경우
=> (사건의 원소의 수)/(표본공간의 원소의 수)
확률
사건 A가 일어날 확률은 보통 P(A)라고 표현한다.
- 확률 1: 반드시 그 사건이 일어남
- 확률 0: 그 사건이 절대로 일어나지 않음
- 확률은 0에서 1사이의 값을 가짐
고전적 확률
- 표본 공간의 원소의 수를 세야함
- 사건의 원소의 수를 세야함
- 따라서 경우의 수를 쉽게 셀 수 있는 방법이 필요
- 조합 (combination) 사용
확률의 특성
조합
- 어떤 집합에서 순서에 상관없이 뽑은 원소의 집합
- n개중 r개를 뽑는 조합의 수
${}_n \mathrm{C}_r = \begin{pmatrix} n \cr r \end{pmatrix} = \dfrac{n!}{r!(n-r)!}$
$n! = n(n-1)(n-2)\ …\ 2 \cdot1$
덧셈법칙 (Addition Law)
사건 A, B가 있을 때 A 혹은 B가 일어날 확률은 아래와 같다.
$P(A \cup B) = P(A) + P(B) - P(A \cap B)$
배반 (Exclusive)
두 사건의 교집합이 공집합일 경우 두 사건이 서로 배반이라고 한다.
$P(A \cap B) = 0$
$P(A \cup B) = P(A) + P(B)$
조건부 확률 (Conditional Probability)
어떤 사건 A가 일어났을 때, 다른사건 B가 일어날 확률
$P(B|A) = \dfrac{P(A \cap B)}{P(A)}$
(단 $P(A) > 0$)
표본공간이 변한다고 생각하면 된다.
일어날 사건이 앞에 온다. 뒤에거 일때 앞에거 이렇게 외우자
곱셈법칙
조건부확를을 안다면 A, B가 동시에 일어날 확률을 구할 수 있다.
$P(B|A) = \dfrac{P(A \cap B)}{P(A)}$
$\Rightarrow \ \ P(A \cap B) = P(B|A)P(A)$
독립 (Independent)
$P(B|A) = P(B)$ 인 경우 사건 A, B는 서로 독립이라고 한다.
A사건과 B사건은 서로간 전혀 영향을 끼치지 않는 사건이라는 뜻이며 동시에 일어날 확률은 곱하면 얻을 수 있다.
$P(A \cap B) = P(B|A)P(A) = P(B)P(A) = P(A)P(B)$
여사건
사건 $A$의 여사건: 사건 $A$가 일어나지 않을 사건 ($A^C$로 표시)
$A$와 $A^C$중 둘중하나는 반드시 발생한다. (둘다 발생안하는 경우는 없다)
어떤 사건과 그 여사건은 서로 배반이다.
$P(A \cup A^C) = P(A) + P(A^C) = 1$
$P(A) = 1 - P(A^C)$
확률의 분할법칙
$B = (A \cap B) \cup (A^C \cap B)$
$= P(A \cap B) + P(A^C \cap B)$ -> 두 항이 배반이므로
$= P(B|A)P(A) + P(B|A^C)P(A^C)$ -> 곱셈법칙 적용
=> 사건 B의 확률을 A가 일어났을 때 조건부 확률과 A가 일어나지 않았을때 조건부 확률로 나눠서 구할 수 있다.
베이즈 정리
어떤 사건의 사전확률과 사후확률의 관계를 나타낸 정리
$P(A | B) = \dfrac{P(A \cap B)}{P(B)} = \dfrac{P(B | A)P(A)}{P(B)}$ | |
분할법칙을 적용하면 $=\dfrac{P(B | A)P(A)}{P(B | A)P(A) + P(B | A^C)P(A^C)}$ |
=> 확률을 계산할 때 추가정보가 있으면 그 정보로 인해 $P(A)$가 $P(A|B)$로 변하는데 이 값을 구하는 정리
- 사전확률: 처음의 확률
- 사후확률: 수정된 확률
- 일반화
$P(B_r|A) = \dfrac{P(B_r)P(A|B_r)}{\sum\limits_{i=1}^k P(B_i)P(A|B_I)}$
=> $P(A|B)$를 반대인 $P(B|A)$를 이용하여 구할 때 사용한다.
확률변수 (Random Variable)
랜덤한 실험 결과에 의존하는 실수
=> 확률변수는 무조건 실수이다, 색깔, 모양 이런거는 확률변수가 아님
즉 표본 공간의 부분집합에 대응하는 실수
ex) 주사위를 던지는 실험에서 주사위 눈의 값
보통 표본공간에서 실수로 대응되는 함수로 정의 X나 Y같은 대문자로 표시
-
이산 확률 변수 (discrete random variable) 확률 변수가 취할 수 있는 모든 수 값들을 하나씩 셀 수 있는 경우
ex) 주사위의 눈 -
연속 확률 변수 (continuous random variable)
셀 수 없는 경우
ex) 학생들의 키
확률 분포
확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계
확률분포의 표현: 매우다양함
표, 그래프, 함수, …
확률 변수 X도 평균과 분산을 가짐
실험 횟수에 따라 나온 X의 값들을 이용하면 평균과 분산을 구할 수 있다. 이 평균과 분산을 모집단의 평균과 분산이라고 할 수 있다.
횟수가 많아질수록 더 정확해짐
이산확률변수
이산확률변수의 확률분포
보통 함수로 주어진다.
확률변수 X가 x라는 값을 가질 확률을 아래와 같이 표현한다.
$P(X=x) = f(x)$
이산확률변수의 평균
기대값 (expected vlaue)이라고도 하며 아래와 같은 방법으로 구한다.
$E(x) = \sum_x xP(X=x) = \sum_x xf(x)$
이산확률변수의 분산
이산확률변수의 분산은 $Var(X)$라고도 부르며 평균을 계산했다면 분산 또한 계산할 수 있다.
이산확률변수에서 분산은 $(X-\mu)$의 평균으로 정의되며 아래와 같이 구한다.
$\sigma^2 = E[(X-\mu)^2] = \sum_x(x-\mu)^2P(X=x) = \sum_x(x-\mu)^2f(x)$
위의 값을 계산해보면 다른 방식으로도 분산을 구할 수 있다.
$\sigma^2 = E(X^2) - {E(X)}^2$
=> 분산을 구하는 두 가지 방법 중 적합한 방법을 골라서 사용하면 된다.
표준편차는 전과 마찬가지로 분산의 양의 제곱근으로 구하며 $SD(X)$라고도 부른다.
결합확률 분포 (joint probability distribution)
두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계
주변확률분포 (marginal probability distribution)
결합확률분포를 통해 각 확률변수의 확률분포를 도출한 것
각 변수에 대한 확률만 더해서 구한다.
공분산 (Covariance)
확률변수 $X$, $Y$의 공분산은 $(X- \mu_X)(Y - \mu_Y)$의 평균으로 정의되며 아래와 같이 구한다.
$Cov(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = E(XY) - \mu_X\mu_Y = E[XY] - E[X][Y]$
공분산을 이용해서 두 확률변수 $X$, $Y$의 상관관계를 알 수 있다.
상관계수 (Correlation coefficient)
공분산은 각 확률 변수의 절대적인 크기에 영향을 받는다.
단위에 의한 영향을 없앨 필요가 있다.
=> 단위에 의한 영향을 없앤 공분산
$\rho = Corr(X, Y) = \dfrac{Cov(X,Y)}{\rho_X\rho_Y}$
상관계수는 -1~1사이의 값을 가지며 양수면 두 확률변수는 양의 상관관계, 음수면 음의 상관관계를 가지며 크기가 클수록 연관성이 크다는 뜻이다.
- 양의 상관관계: 같이커짐
- 음의 상관관계: 하나가 커지면 하나가 작아짐
확률분포 (Probability Distribution)
확률변수가 가질수 있는 값중에서 어떤 값이 될지의 분포
무수히 많이 존재할 수 있지만 실제 현상의 확률분포는 몇가지 유명한 확률분포로 표현된다.
이항분포 (binomial Distribution)
베르누이 시행
정확하게 2개의 결과만을 가지는 실험 (동전던지기)
보통 성공과 실패로 결과를 구분
성공의 확률: p
이항분포
n번의 베르누이 시행에서 성공의 횟수를 이항확률변수라고 하며 이항확률변수의 확률분포를 이항분포라고 한다. (이산확률분포이다.)
-
이항확률 변수 X의 확률분포
$f(x) = P(X = x) = \begin{pmatrix} n \cr x \end{pmatrix} p^x(1-p)^{n-x}$ -
이항분포의 평균
$E(X) = np$ -
이항분포의 분산
$Var(X) = np(1-p)$ -
이항분포의 표준편차
$SD(X) = \sqrt{ np(1-p)}$
정규분포 (Normal Distribution)
연속확률 변수
확률밀도함수 (Probability Density Function)를 사용하여 표하며 그래프 아래부분의 넓이가 확률이 된다.
$P[a \le X \le b] = \int_a^bf(x)dx$
=> 면적이 곧 확률이므로 그래프의 모든 면적을 구하면 1이된다.
정규분포의 확률밀도함수
$f(x) = \dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2} \left(\frac{x - \mu}{\sigma}\right)^2}$
$\mu$와 $\sigma$에 각각 원하는 평균과 표준편차를 넣어주면 해당하는 정규분포의 확률밀도함수가 된다.
이 함수는 $\mu$에서 최댓값을 가지고 $\sigma$가 커질수록 그래프가 펴진다.
이러한 확률밀도함수를 가지는 현상들이 많아서 만들었다.
데이터를 수집해서 그림을 많이 그려보다가 찾아낸 함수이며
경험에 의해 만든 함수이기 때문에 완전히 정확하다고는 할 수 없다.
표준 정규확률변수 (Standard Normal Random Variable)
정규분포의 확률밀도함수는 적분이 불가능하기 때문에 표를 이용하여 확률을 구한다.
확률을 구할 때 평균 0, 분산 1인 경우에 대해서의 확률값을 정규분표표를 만들어 두고 원하는 정규분포에서 변환 후 확률을 구한다.
(정규분포표에서는 -무한대에서 z까지의 면적을 제공한다.)
평균 0, 분산 1인 정규분포를 표준정규분포라고 하며 아래와 같은 방법으로 표준 정규확률변수로 변환 후 계산한다.
$Z = \dfrac{X-\mu}{\rho}$
ex) $X \sim N(4, 3^2)$
$P[4 \le X \le 7] = ?$
$P[x \le 7] - P[X < 4] = P[Z \le \dfrac{7-4}{3}] - P[Z<0]$
$= P[z \le 1] - P[Z<0] = 0.8413 - 0.5 = 0.3413$
포아송 분포 (Poisson Distribution)
일정한 시간단위 혹은 공간단위에서 발생하는 이벤트의 수의 확률분포.
이산확률분포이다.
ex)
하루동안 어떤 웹사이트를 방문하는 방문자의 수
어떤 미용실에 한 시간동안 방문하는 손님의 수
어떤 전기선 100미터당 발생하는 결함의 수
확률질량함수
$P[X = x] = f(x) = \lambda^x \dfrac{e^{-\lambda}}{x!}$
평균: $\lambda$
분산: $\lambda$
정규분포와 마찬가지로 경험에 의해 만든 함수이기 때문에 실제로 적합한지 확인을 해봐야 한다.
하나의 파라미터($\lambda$)에만 영향을 받는다. 어떤 경우에 이 분포를 사용하는지 기억해놓자.
지수분포 (Exponential Distribution)
포아송 분포에 의해 사건이 발생할 때, 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률 분포.
연속확률분포 이다.
확률밀도함수
$f(t) = \lambda e^{-\lambda t}$
$\lambda$: 포아송분포의 평균
평균: $\dfrac{1}{\lambda}$
분산: $\dfrac{1}{\lambda^2}$
포아송분포를 따를때만 적용되며 시작점이 언제인지는 상관이 없다는 특징을 가지고 있다.