728x90
Rating Problem

Rating Problem

https://youtu.be/8idr1WZ1A7Q

  • 평점의 정확도 판단을 판단해보자

    • n : 리뷰의 개수
    • k : '좋아요' 를 남긴 개수
    • p : 리뷰를 남기는 사람이 '좋아요'를 달 확률
    • n과 k를 이용하여 p를 계산, p가 높을 수록 좋은 제품이라고 추정 가능
  • Bayes rule : P(A∣B)=P(B∣A)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}

    • P(Θ=p∣N=n,K=k)=P(K=k∣Θ=p,N=n)P(Θ=p∣N=n)P(K=k∣N=n)P(\Theta=p|N=n, K=k) = \frac{P(K=k|\Theta=p,N=n)P(\Theta=p|N=n)}{P(K=k|N=n)}
    • 사후 확률 : [n개 리뷰, k개 좋아요일 때 | 좋아요를 달게 될 확률이 p인 확률]
    • 인과 : [좋아요를 달 확률이 p일 때 리뷰가 n개인 경우 | k개 좋아요일 확률]
    • 사전 확률 : [n개 리뷰일 때 | 좋아요 확률이 p일 확률]
      • P(Θ=p∣N=n)=P(Θ=p)P(\Theta=p|N=n) = P(\Theta=p)로 판단 가능
    • 관찰 결과 : [n개 리뷰 때 | k개 좋아요의 확률]
  • P(K=k∣Θ=p,N=n)=(nk)pk(1−p)n−kP(K=k|\Theta=p,N=n)=\binom{n}{k}p^k(1-p)^{n-k}(이항분포)

  • P(Θ=p)P(\Theta=p)Beta(α,β)=pα−1(1−p)β−1∫01qα−1(1−q)β−1dq=pα−1(1−p)β−1B(α,β)Beta(\alpha, \beta) = \frac{p^{\alpha-1}(1-p)^{\beta-1}}{\int^1_0q^{\alpha-1}(1-q)^{\beta-1}dq} = \frac{p^{\alpha-1}(1-p)^{\beta-1}}{B(\alpha,\beta)} 로 가정

  • P(K=k∣N=n)=∫01P(K=k∣Θ=q,N=n)fΘ(q)dqP(K=k|N=n) = \int^1_0P(K=k|\Theta=q,N=n)f_{\Theta}(q)dq

  • P(Θ=p∣N=n,K=k)P(\Theta=p|N=n, K=k) 식을 정리하면
    (nk)pk(1−p)n−kBeta(2,2)∫01(nk)qk(1−q)n−kBeta(2,2)dq=pk+1(1−p)n−k+1∫01qk+1(1−q)n−k+1dq\frac{\binom{n}{k}p^{k}(1-p)^{n-k}Beta(2,2)}{\int^1_0\binom{n}{k}q^{k}(1-q)^{n-k}Beta(2,2)dq} = \frac{p^{k+1}(1-p)^{n-k+1}}{\int^1_0q^{k+1}(1-q)^{n-k+1}dq}
    즉 베타분포 B(k+2,n−k+2)B(k+2, n-k+2)의 식으로 나타남

  • 이 식의 최빈값은 mode=a−1a+b−2=k+1n+2mode = \frac{a-1}{a+b-2}=\frac{k+1}{n+2}로 나타난다.

  • 아래 두 선은 n=1, 2인 경우, 노란 선은 n=1000인 경우, 시행회수가 증가함에 따라 분포의 평균이 더 높은 확률로 표시되는 것을 볼 수 있다.

  • 이를 통한 3가지 경우를 가정

(n,k) (10,10) (50,48) (200,186)
B(k+2,n−k+2)B(k+2, n-k+2) B(12,2) B(62,4) B(202,16)

  • 적색 : (10,10) / 녹색 : (50, 48) / 청색 : (200, 186)
  • 즉 50명 중 48명이 좋아요를 누른 경우가 좋아요를 누를 확률이 대략 94.2%가 됨을 알 수 있다.

Entropy

  • 정보량에서의 Entropy : 정보의 양이 아닌, 랜덤변수에 정의되는 성질
  • 정보의 가치는 당연한 사실일수록 낮을 것이며,
  • 예측이 가능하지 않을수록, 즉 불확실성(Uncertainty)이 높을수록 정보량이 많아짐
  • 정보가 예측가능한 것이라면 정보의 가치가 없게됨
  • 결국, 발생 확률이 작을수록 정보의 가치가 높음
  • 따라서, 정보량은 발생 확률의 반비례적인 함수이어야 됨
  • 출처 : ktword - 정보량
  • 불확실성이 높을수록 정보량이 많아진다
  • ex. 동전 1개를 던질 때의 entropy
    • h(X)=−∑Pilog2Pih(X) = -\sum P_ilog_2 P_i

    • PX(x)={1/2(x=0)1/2(x=1)P_X(x) = \begin{cases} 1/2(x=0)\\ 1/2(x=1) \end{cases}

    • h(x)=−12log212−12log212=1h(x) = -\frac{1}{2}log_2\frac{1}{2}-\frac{1}{2}log_2\frac{1}{2}=1

  • ex2. 주사위 던지기
    • h(x)=6×16×log⁡26=2.585h(x) = 6 \times\frac{1}{6}\times\log_26 = 2.585
    • 만약 주사위 1000개를 던진다면 2585bit가 필요
  • morse code
    • 영단어에서 가장 많이 쓰이는 e, t의 부호가 가장 짧다.
    • 엔트로피 정의를 보면 h(X)=−∑PilogPih(X) = -\sum P_ilog P_i에서 정보의 출현 확률과 엔트로피(정보량)은 반비례함을 알 수 있다.
  • 엔트로피가 작다
    = PMF가 편중되어 있는 상태(물리에서의 엔트로피와 비슷하게 해석)
728x90

+ Recent posts