Deprecated : The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
7.2 Estimating Probabilities
Next: 7.3 Part-of-Speech Tagging
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: 7.1 Basic Probability Theory
MLE (maximum likehood estimator)
sampleの頻度をそのまま利用
sample数が多ければ多いほど,信頼度が上がる.
the law of large numbers(大数の法則,中心極限定理)
sample数が少ないと信頼度が下がる
margin of error, coin toss の例(試行回数が少ないとダメ)
Sparse Data
Brown Courps 単語数 100万,異なり語数 49,000
平均 1単語20回づつ出現してるはずなんんだけど... 実際はその大半が 5回以下
このような sparse な環境では十分な推定が行えない
ELE (expected likehood estimator)
V i を X =x i となる回数だとすると, 事象 x i が起こ
る確率は
data が sparse な場合,分母が 0 になる可能性が高く,
MLE だと確率値が定義できない
とする, つまりすべての頻度
が最低
回あると仮定
(例1)
40 の品詞分類, corpus に一度も出現しなかった単語w が,
ある品詞 L i である確率
PROB (L i |w ) を求める (
)
ELM だと確率値を求める事が可能, MLE だと分母= 0 となり
確率値を定義できない
(例2)
40の品詞分類, courps に 5回出現した単語 w ,
そのうち noun 4回, verb 1回の時
Evaluation
courps を traing set と test set にわけ,training set で学
習した結果を test set で試す
test set の選ばれ方の分散を減らすため(偶然に悪い結果,良い
結果をなくすため)に, traing set,test set を循環的に別けて,
連続した評価を行う (cross validation)
例えば, corpus を 10等分して そのうち 9 を traing, 1 を
test とする,
test set が 10通りできるため 10回の試験が可能
1999-08-03