j3259の日記: 機械学習/パターン識別 1
日記 by
j3259
- x→ := (x1, x2)T. サンプルから抽出した特徴を並べたもので,特徴ベクトル(feature vector)とよぶ。サンプルが魚の場合は長さ,明度など。
- ω. 性質,状態(state of nature)。ω = ω1 などとして,サンプルが実際にどのクラスに属するのかを表す。例えば,ω1 はスズキ,ω1 は鮭など。
- P(ω1). アプリオリ確率,事前確率,プライヤー(prior)。事前の知識による,次に現れるサンプルが ω1 である確率。サンプルに ω1 と ω2 しかない場合は P(ω1) + P(ω2) = 1.
- 事前確率しか与えられていない場合は P(ω1) > P(ω2) の場合はサンプルは ω1 であり,それ以外の場合は ω2 という意思決定方式(decision rule)を適用できる。
- p(x|ω). 観測 x を連続確率変数と考えた場合,x の分布はサンプルの状態に依存した p(x|ω) と表すことができる。これをクラス条件付確率密度関数(class-conditional probability density function)とよぶ。
- p(ωj|x) = p(x|ωj)p(ωj) / p(x). ベイズの公式(Bayes formula)。事後確率 = もっともらしさ * 事前確率 / エビデンス,と書くこともできる。ベイズの公式は x の値を観測することによって,事前確率 p(ωj) をアポステリオリ確率,事後確率,ポステリア(posterior) p(ωj|x),つまり特徴の値が x の場合にサンプルの状態が ωj である確率,に変換できることを示す。
- p(x|ωj). x に関するωj の「もっともらしさ」,尤度(ゆうど)とよぶ。
- p(x). 証拠,エビデンス(evidence)。二値の場合は p(x) = ∑(j=1,2){p(x|ωj)p(ωj)}。事後確率の和が 1 になるような係数であるため,決定には影響を及ぼさない。
- ある決定方式が他の決定方式より優れていることを示すには,その方法の誤差率(probability of error)を計算しなければならない。状態がω1, ω2 の二値の場合,誤差率は ω1と決定した場合は真の状態がω2である確率,ω2と決定した場合は真の状態がω1である確率がそれぞれ誤差率となる。誤差率を最小化したベイズ決定方式は,P(ω1|x) > P(ω2|x) の場合はサンプルはω1 であり,それ以外の場合は ω2 という決定ルールとなる。その誤差率は P(error|x) = min[P(ω1|x), P(ω2|x)]。
- ここでスカラー値の観測である x を特徴ベクトルの x→ に拡張して考える。特徴ベクトルは d次元の特徴空間(feature space)に存在する。
- {ω1,...,ωc} を c個の状態(カテゴリー)からなる有限集合とし,{α1,...,αa} を a個の取りうる行動からなる有限集合とする。損失関数 λ(αi|ωj) は状態が ωj のときに行動αiを取った場合の損失を表す。
- x→ を確率変数ベクトルとすると,事後確率のp(ωj|x→) はベイズ公式により p(ωj|x→) = p(x→|ωj)p(ωj) / p(x→) となる。
- ある観測が x→ で,行為αiを取ろうと思っているとする。
真の状態が ωjの場合,定義より λ(αi|ωj)の損失をこうむることになる。真の状態が ωj である確率は p(ωj|x→) であるため,行動αiを取ることによる期待損失は
R(αi|x→) = ∑(j=1,c){λ(αi|ωj)p(ωj|x→)} と書くことができる。意思決定論の用語では期待損失をリスク(risk)とよび,R(αi|x→) を条件付リスク(conditional risk)とよぶ。 - 決定方式は全ての観測値 x→ に対する行動を返す行動関数 α(x→) と表すことができる。ある決定方式に対する総合リスク R は決定方式の期待損失である。
R = ∫ R(α(x→)|x→)p(x→)dx→。リスクを最小化するためには,条件付リスクを全ての行動αiについて計算しR(αi|x→)が最小の行動αiを選ぶ。その結果の最小化された総合リスクはベイズリスク(Bayes risk)とよばれ,R*で表される。
- ベイズ決定方式の特殊形である二値分類問題について考える。α1 を状態がω1であると意思決定することと定義し,α2も同様に定義する。便宜的に,λij := λ(αi|ωj),つまり真の状態が ωj であるときに状態が ωi であると意思決定したときのリスクと定義する。
- リスク最小化方式を事後確率で表すと,
(λ21 - λ11)P(ω1|x→) > (λ12 - λ22)P(ω2|x→) であるときには状態がω1であると決定すると表すことができる。 - ベイズ公式を適用し,さらに(λ21 > λ11)と仮定すると,
p(x→|ω1)/p(x→|ω2) > (λ12 - λ22)/(λ21 - λ11) * p(ω2)/p(ω1) であるときには状態がω1であると決定すると表すことができる。
参照
機械学習/パターン識別 1 More ログイン