JPH0632085B2

JPH0632085B2 - パターン認識用辞書の作成方法

Info

Publication number: JPH0632085B2
Application number: JP60054573A
Authority: JP
Inventors: 斎司蔭山; 修国崎; 俊従尾崎
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1985-03-20
Filing date: 1985-03-20
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPS61214083A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明はパターン認識用辞書の作成方法に関する。

〔発明の背景〕

パターン認識では入力パターンと複数個の各カテゴリを
代表する標準パターンの間で比較を行うことにより、一
つの答カテゴリを決定したり、一個以上の候補カテゴリ
を選択する。

具体的には例えば次の様にして、候補カテゴリの選択と
答カテゴリの決定を行う。第１図を参照されたい。

入力パターンｕと複数個のカテゴリＣ_１……Ｃ
_ｋ（ここでｋ１）の代表である標準パターンｆ
（Ｃ_１），…，ｆ（Ｃ_ｋ）との間の距離ｄ（ｕ，ｆ（Ｃ
_１）），…，ｄ（ｕ，ｆ（Ｃ_ｋ））を計算する。

各標準パターンｆ（Ｃ_ｉ）毎に予め定めてある閾値
θ〔ｆ（Ｃ_ｉ）〕に対し、ｄ（ｕ，ｆ（Ｃ_ｉ））θ〔ｆ（Ｃ_ｉ）〕を満足するカ
テゴリを集める。

集めたカテゴリが一つならばそれを答カテゴリとし
て出力する。集めたカテゴリが二つ以上ならばそれらを
答の候補カテゴリとする。〜の手順では各カテゴリ
Ｃ_ｉについてのパターン情報が標準パターンｆ（Ｃ_ｉ）
と閾値θ〔ｆ（Ｃ_ｉ）〕の組として記述されている。全
カテゴリについてこれらの組を集めたものを辞書と呼
ぶ。

ところで従来、学習サンプルが増すにつれて逐次的に辞
書を作成するには、各カテゴリＣ毎に次の(1)〜(2)の手
順の処理を行っていた。

(1)第１ステップ（初期作成）学習サンプルｕ_１，…，ｕ_ｍ（ここでｍ１）に対し、
標準パターンｆ_ｍと閾値θ〔ｆ_ｍ〕を次の二つの式に従
って計算する。

(2)第２ステップ（追加作成）学習サンプルｕ_m+1，…，ｕ_ｎ（ｎ＞ｍ）が追加された
とき、標準パターンｆ_ｎと閾値θ〔ｆ_ｎ〕を追加前と追
加後の全学習サンプルｕ_１，…，ｕ_ｎを参照して次式に
従って作成する。

本辞書作成方法には次の長所と欠点がある。

(a)長所第２図に示すように、閾値として標準パターンｆ_ｎと全
学習サンプルｕ_１，…，ｕ_ｎとの間の最大距離をセット
している。このため、学習サンプルを上記答カテゴリの
選択と答カテゴリの決定の手順に従って認識する場合、
すべての学習サンプルに対して正解カテゴリを侯補カテ
ゴリの一つとして選択することができる。

(b)欠点第２ステップ閾値θ〔ｆ_ｎ〕を計算するためには、追加
学習サンプルｕ_m+1，…，ｕ_ｎだけでなく、追加前の学
習サンプルｕ_１，…，ｕ_ｍも保存しておくことが必要で
あり、メモリ容量が莫大になる。例えば文字認識では一
学習サンプルの記憶にパック形式で30〜300Byte必要で
あるから、学習サンプルが増大しｎ＝２×10^５（＝２０
００カテゴリ×１００サンプル／カテゴリ）になるとメ
モリ容量として６〜60MByte必要になり、実用的でな
い。

また閾値計算時間も（２−３）式における距離計算回数
ｎが２×10^５であるため、１回の距離計算時間が0.1〜
１sec／回（マイクロプロセッサ8086を使用）として
も、合計２×10^４〜２×10^５secかかり実用的でない。

特にオンサイトで逐次的に辞書を更新する場合、以上の
メモリ容量と閾値計算時間についての欠点は許しがたい
ものである。

なお従来の辞書作成方法については次の２つの文献で論
じられている。

電子通信学会技術研究報告、ＰＲＬ80−16、内藤誠
一郎、手書き漢字データの総計的分析電子通信学会技術研究報告、ＰＲＬ80−25、赤松
茂、構造集積特徴による手書き漢字の類別実験〔発明の目的〕本発明の目的は、上記従来発明の欠点を解消したパター
ン認識用辞書の作成方法を提供することである。

〔発明の概要〕

本発明では上記目的を達成するために、辞書の追加作成
において、追加前の辞書と追加学習サンプルのみを参照
するだけで、追加前と追加後の全学習サンプルを参照し
て作ったのと同等の性能の辞書を作成できるようにする
ものである。

以下、本発明の原理を説明する。各カテゴリＣ毎に次の
(1)〜(2)の手順を行うことにより、逐次的に辞書を作成
する。

なお本発明では辞書が漂準パターン、閾値、及び
学習サンプル数からなるものとする。

(1)第１ステップ（初期作成）学習サンプルｕ_１，…，ｕ_ｍ（ここでｍ１）に対し、
標準パターンｆ_ｍと閾値θ〔ｆ_ｍ〕を次の二式に従って
計算する。

初期作成された辞書は標準パターンｆ_ｍ，閾値θ
〔ｆ_ｍ〕，学習サンプル数ｍである。

(2)第２ステップ（追加作成）学習サンプルｕ_m+1，…，ｕ_ｎ（ｎ＞ｍ）が追加された
とき、標準パターンｆ_ｎと閾値θ〔ｆ_ｎ〕を、追加前の
辞書ｆ_ｍ，θ〔ｆ_ｍ〕および追加学習サンプルｕ_m+1，
…，ｕ_ｎを参照して次式に従って作成する。

追加作成された辞書は標準パターンｆ_ｎ，閾値θ
〔ｆ_ｎ〕，学習サンプル数ｎである。

本発明では、第２ステップの追加作成において、追加前
の学習済みサンプルｕ_１，…，ｕ_ｍのメモリへの保存
と閾値計算における参照を省くことができるので、従
来発明の欠点を解消することができる。

さらに本発明で作成した辞書を用いた場合も、従来発明
の場合と同様に、十分小さな閾値θ〔ｆ_ｎ〕を設定する
だけで、すべての学習サンプルに対して正解カテゴリを
候補カテゴリの一つとして選択することができる。その
証明を以下に示す。距離についての三角形不等式を利用
したところがポイントである（第３図参照）。

〔全学習サンプルに対して正解カテゴリを候補カテゴリ
に上げられることの証明〕追加前学習サンプルｕ_ｉ，ｉ＝１，…，ｍについて (5-1)式では距離について三角形不等式が適用されてい
る。

追加後学習サンプルｕ_ｉ，ｉ＝m+1，…，ｎについ
て全学習サンプルｕ_ｉ，ｉ＝１，…，ｎについて(5-
2)，(5-3)式よりｄ（ｆ_ｎ，ｕ_ｉ）つまり(5-4)式は、追加前と追加後の全学習サンプルｕ
_ｉ（ここでｉ＝１，…，ｎ）が標準パターンｆ_ｎから距
離θ〔ｆ_ｎ〕以内にあることを示している。（証明終
り）また辞書に蓄える標準パターンとして、平均標準パター
ンｆ_ｍ，ｆ_ｎの代りに累積標準パターンｕ_ｍ，ｕ_ｎ、こ
こでｕ_ｍ＝ｍ・ｆ_ｍｕ_ｎ＝ｎ・ｆ_ｎを用いる場合についても、同様にして辞書を作成するこ
とができる。

〔発明の実施例〕

次に本発明の一番目の実施例を第４図の構成例を用いて
上記原理の説明と対応させながら説明する。構成例はパ
ターン観測部１１、特徴抽出部12、学習サンプルメモリ
部13、辞書計算部14、辞書メモリ部15及び制御部16から
なる。パターン観測部11は文字パターンや音声パターン
などの入力パターン10aを電気信号11aに変換する部分で
あり、スキャナ，マイクロホンなどからなる。特徴抽出
部12は入力された電気信号11aに対し前処理、正規化、
特徴抽出などを行い特徴パターン12aを出力する。学習
サンプルメモリ部13は12が出力した特徴パターンを学習
サンプルとして格納する。初期作成の場合は学習サンプ
ルｕ_１，…，ｕ_ｍを格納し、追加作成の場合はサンプル
ｕ_m+1，…，ｕ_ｎを格納する。辞書計算部14は辞書を計
算する部分である。初期作成では式(3-1)，(3-2)を用い
て計算する。この場合14へは13aの学習サンプルｕ_１，
…，ｕ_ｍが入力され14aの辞書ｆ_ｍ，θ〔ｆ_ｍ〕，ｍが
出力される。追加作成では式(4-1)，(4-2)を用いて計算
する。この場合14へは13aの追加学習サンプルｕ_m+1，
…，ｕ_ｎ及び15aに対応班する追加学習前の辞書ｆ_ｍ，
θ〔ｆ_ｍ〕，ｍが入力される。14aに対応する辞書
ｆ_ｎ，θ〔ｆ_ｎ〕，ｎが出力される。辞書メモリ部15は
14で作成した辞書14aを記憶する部分である。制御部16
は10a，11a，…などの信号の制御を行う。第４図におい
ては、図のはん雑化をさけるため制御信号線を省略し
た。

なお文字認識で用いる特徴パターン12aの例としては
周辺分布特徴、ストローク密度関数特徴、ペリフェ
ラル特徴、方向性パターン特徴、その他がある。
の例を第５図の(a)に、の例を第５図の(b)に示す。
の例を第５図の(c)と(d)に示し、の例を第６図の
(b)，(c)，(d)，(e)に示す。

次に本発明の二番目の実施例を第７図の構成例を用いて
説明する。第７図の構成は第４図の構成に整合部17、判
定部18、修正部19を付加したものである。これらを付加
したため、入力パターンのカテゴリが予め分っていない
場合にも辞書が作成できるようになった。（一番目の実
施例では予め入力パターンのカテゴリが分っていること
が必要だった。）というのは17部，18部，19部によるパ
ターン認識処理と修正処理で、各入力パターンの正しい
カテゴリを得ることができるからである。

以下詳しく説明する。文字パターンや音声パターンなど
の入力パターン10aの例をパターン観測部11に入力する
と電気信号11aが出力される。特徴抽出部12は入力され
た電気信号11aに対し、前処理、正規化、特徴抽出など
を行い特徴パターン12aの列ｕ_m+1，…，ｕ_ｎを出力す
る。各特徴パターンｕ_ｉ（ここでｉ＝_m+1，…，ｎ）は
整合部17において、上記入力パターン列を入力する前の
辞書15aに属するすべての標準パターンとの間で距離が
評価される。続いて上記距離データに基づいて判定部18
が答カテゴリや候補カテゴリを計算し、ディスプレイに
表示する。修正部19では本装置のユーザが、入力パター
ンと答カテゴリ、候補カテゴリなどを参照しながら、答
カテゴリを修正する。以上の処理により、修正した答カ
テゴリを付加した学習サンプルｕ_m+1，…，ｕ_ｎが得ら
れた。これらを学習サンプルメモリ部13へ格納する。以
下辞書計算部14では入力である13aの追加学習サンプル
ｕ_m+1，…，ｕ_ｎ及び追加学習前の辞書15aを用いて、辞
書の追加作成を行う。出力として追加作成後の辞書14a
が得られる。

本実施例では、以上のように入力パターンのカテゴリが
分っていない場合にも、ユーザが本装置でパターン認識
（文字認識や音声認識）を行いながら辞書を逐次的に作
成することができる。

なお本実施例では入力パターン列から得られたすべての
特徴パターンを学習サンプルとした。学習サンプルとし
ての次の〜を用いても同様にして辞書を作ることが
できる。

上記すべての特徴パターンからユーザが学習すべき
でないと判断した特跳徴パターンを除いたものを学習サ
ンプルとする。

入力パターンをパターン認識してエラー又はリジェ
クトになった特徴パターンを学習サンプルとする。

エラー又はリジェクトになった特徴パターンからユ
ーザが学習すべきでないと判断した特徴パターンを除い
たものを学習サンプルとする。

なお、以上の学習サンプル選択、判断処理は第７図の修
正部19で行うことができる。

以上の実施例は、マイクロプロセッサ、メモリ、スキャ
ナ、マイクロホン、ディスプレイなどを用いて実現する
ことができる。

以上の実施例は辞書がカテゴリ当り一組の標準パターン
と閾値から成る場合についてのものであった。カテゴリ
当り複数組の標準パターンと閾値を用いると認識性能を
さらに向上することができる。この場合についても、本
発明は適用することができる。

〔発明の効果〕

本発明により得られた効果をまとめると以下のようにな
る辞書の追加作成において、追加学習前に使用した学
習済みサンプルを参照する必要がなくなる。そのため、
ｉ学習済みサンプル保存用メモリが不要になり、メモリ
容量を削減することができる。またii閾値計算で学習済
みサンプルと追加学習後の新標準パターンとの間の距離
計算も不要になるため、計算時間も大幅に短縮すること
ができる。

学習サンプルを認識する場合、すべての学習サンプ
ルに対して正解カテゴリを侯補カテゴリの一つに上げる
ことができる。しかも侯補カテゴリ数は認識対象全カテ
ゴリ数に比べ十分小さくすることができる。

【図面の簡単な説明】

第１図は侯補カテゴリの選択と答カテゴリの決定手順を
説明するための図、第２図は辞書の作成手順を説明する
ための図、第３図は本発明の原理を説明するための図、
第４図は本発明の一番目の実施例の構成を示す図、第５
図と第６図は文字認識で用いる特徴パターンの例を示す
図、第７図は本発明の二番目の実施例の構成を示す図で
ある。１１……パターン観測部１２……特徴抽出部１３……学習サンプルメモリ部１４……辞書計算部１５……辞書メモリ部１６……制御部１７……整合部１８……判定部１９……修正部 10a……入力パターン 11a……電気信号 12a……特徴パターン 13a……学習サンプル 14a……辞書計算部からの出力である更新後の辞書 15a……辞書計算部への入力である更新前の辞書

Claims

【特許請求の範囲】

【請求項１】学習サンプルと呼ぶ特徴パターンの同じカ
テゴリについての平均値である標準パターン、上記平均
値を構成するすべての学習サンプルと上記平均値の間の
最大距離をもって定義した閾値、及び各平均値を求める
際に用いるサンプル数である学習サンプル数とからなる
パターン認識用辞書を作成するパターン認識用辞書の作
成方法において、学習サンプルが逐次的に追加された場
合、追加後の辞書となる標準パターン（ｆ_ｎ）と閾値
（θ〔ｆ_ｎ〕）と学習サンプル数ｎを、追加学習サンプ
ル（ｕ_m+1…ｕ_ｎ）と、追加前の辞書である標準パター
ンｆ_ｍ、閾値θ〔ｆ_ｍ〕及び学習サンプル数ｍとを用い
て、により算出して求めることを特徴とするパターン認識用
辞書の作成方法。
【請求項２】入力パターンに対し、入力パターン入力前
の辞書による上記入力パターンのパターン認識及びパタ
ーン認識後の答カテゴリの修正を施して得られる特徴パ
ターンを、追加学習サンプルとしたことを特徴とする特
許請求の範囲第１項記載のパターン認識用辞書の作成方
法。
【請求項３】入力パターンに対し、入力パターン入力前
の辞書による上記入力パターンのパターン認識及びパタ
ーン認識後の答カテゴリの修正を施して得られる特徴パ
ターンを、追加学習サンプル敏たことを特徴とする特許
請求の範囲第１項記載のパターン認識用辞書の作成方
法。