데이터분석

Bayesian

나미-IT 2021. 2. 16. 21:24

* www.probabilitycourse.com/chapter9/9_1_9_bayesian_interval_estimation.php

 

Bayesian Interval Estimation

9.1.9 Bayesian Interval Estimation Interval estimation has a very natural interpretation in Bayesian inference. Suppose that we would like to estimate the value of an unobserved random variable $X$, given that we have observed $Y=y$. After calculating the

www.probabilitycourse.com

 

 

 

 

Naive Bayesian Classifier

 - 별것 없다. bayes 정리를 이용해서 (조건부 확률 정리) 확률 계산하고 확률 높은 쪽으로 분류해 주는 기계다

 - 지도학습이다

 - 예) 스팸 분류기, feature = 욕설 출현수, 성적단어 출현수, ... label = 스팸인지 아닌지 1, 0

장점

 - 간단하고 빠르고 정확하다

 - computational cost가 작다

 - 큰 데이터셋에 적합하다

 - 이산형 데이터에서 성능이 더 좋다

 - multiple class 예측이 가능하다

단점

 - feature들이 모두 독립이어야 한다 ( 서로 상관관계가 없어야 한다) : 그래야 P(Y|X)=P(X|Y)ㆍP(Y)/P(X) 사용가능) 

 - 그래서 실제 상황에 사용하기에 어렵다 

 

구현 

 - sklearn으로 구현

from sklearn.naive_bayes import GaussianNB

model = GaussianNB()
model.fit(features,label)
predicted = model.predict(training_data)
print(predicted)


 

Laplace Smoothing

 - 학습 데이터에 없는 데이터가 나올 경우 확률이 모두 0이 되어 분류가 불가능해진다

 - 이러한 상황을 막기 위해 새로운 단어가 나오더라도 해당 빈도에 +1을 해줌으로써 확률이 0이 되는것을 막는 것

 

결측치의 처리

from contents2.kocw.or.kr/KOCW/document/2017/chungbuk/najonghwa/7.pdf