JP2790064B2 - Symbol string reader - Google Patents
Symbol string readerInfo
- Publication number
- JP2790064B2 JP2790064B2 JP6309366A JP30936694A JP2790064B2 JP 2790064 B2 JP2790064 B2 JP 2790064B2 JP 6309366 A JP6309366 A JP 6309366A JP 30936694 A JP30936694 A JP 30936694A JP 2790064 B2 JP2790064 B2 JP 2790064B2
- Authority
- JP
- Japan
- Prior art keywords
- symbol
- tag
- string
- information
- buffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 description 25
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000027455 binding Effects 0.000 description 2
- 238000009739 binding Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Description
【0001】[0001]
【産業上の利用分野】アナログデータを入力として、単
語列に対応する文字列あるいは音素列のように、上位階
層を有する一次元の記号列を読み取る装置、具体的に
は、郵便物や帳票に書かれた宛名住所の読み取り装置、
ドキュメント中の文章を読み取る装置、発話連続音声の
認識装置などに関する。2. Description of the Related Art A device for reading a one-dimensional symbol string having a higher hierarchy, such as a character string or a phoneme string corresponding to a word string, using analog data as an input, specifically, a mail or a form A device for reading written address,
The present invention relates to an apparatus for reading a sentence in a document, an apparatus for recognizing a continuous utterance voice, and the like.
【0002】[0002]
【従来の技術】従来の記号列読み取り装置では、アナロ
グデータ(文字列に対応するイメージデータや音素列に
対応する音響データなど)を入力して、まず、そのなか
から1記号(文字や音素など)に相当するセグメントを
切り出す。次に、そのセグメントごとに個別の記号認識
を行なう。この段階までで記号列の認識結果を決定して
しまうこともあるが、より正確な認識を行なうために
は、上位階層(単語など)の制約を利用する。その際に
は、個別認識結果の記号候補列と、上位階層単位の辞書
を照合して、上位階層単位の並びとして適切な記号列を
求める。2. Description of the Related Art In a conventional symbol string reading apparatus, analog data (image data corresponding to a character string, acoustic data corresponding to a phoneme string, etc.) is input, and one symbol (character, phoneme, etc.) is first read out of the data. Cut out the segment corresponding to ()). Next, individual symbol recognition is performed for each segment. At this stage, the recognition result of the symbol string may be determined, but in order to perform more accurate recognition, a constraint of a higher hierarchy (such as a word) is used. At that time, the symbol candidate string of the individual recognition result is compared with the dictionary of the upper layer unit to obtain an appropriate symbol string as the arrangement of the upper layer unit.
【0003】宛名住所の読み取りについて、上述の処理
の流れの例を図2を用いて説明する。宛名住所読み取り
の場合は、アナログデータは宛名住所のイメージデータ
で、記号は文字、上位階層は都道府県名・市区郡町村名
などの住所要素を意味する。図2では、まずイメージデ
ータ10のなかから1文字に相当するセグメント20が
切り出されている。次に、切り出された各セグメント2
0について文字認識が行なわれた結果が文字候補列30
である。この段階では、1つのセグメント20に複数通
りの文字候補が存在している。例えば、いちばん左のセ
グメント20に対応する文字候補は「西」「品」「台」
の3通りである。この文字候補列30と住所要素の辞書
を照合すると、「品川区」「中延」という住所要素の組
み合わせがうまく対応するので、これが最終的な宛名住
所読み取り結果90となる。An example of the flow of the above-described processing for reading an address will be described with reference to FIG. In the case of reading a destination address, the analog data is image data of the destination address, a symbol is a character, and the upper hierarchy means an address element such as a prefecture name, a municipal name, a municipal name, and the like. In FIG. 2, first, a segment 20 corresponding to one character is cut out of the image data 10. Next, each segment 2
The result of character recognition for 0 is a character candidate string 30
It is. At this stage, a plurality of character candidates exist in one segment 20. For example, the character candidates corresponding to the leftmost segment 20 are “west”, “article”, and “dai”.
There are three types. When the character candidate string 30 is compared with the address element dictionary, the combination of the address elements “Shinagawa-ku” and “Nakanobu” corresponds well, and this is the final destination address read result 90.
【0004】このような従来の宛名住所読み取り装置
は、例えば、「日本郵政省向け郵便物あて名自動読取区
分機」(=引用文献1とする、石川ほか、NEC技報、
第44巻第3号、1991年)、「郵便物あて名自動読
取区分機TR−17」(=引用文献2とする、鳥本ほ
か、東芝レビュー、第45巻第2号、1990年)、特
開平5−324899号公報「郵便物記載住所認識装
置」(=引用文献3とする)、特開平3−189780
号公報「住所認識装置」(=引用文献4とする)などに
記載されている。また、同様に記号列読み取り装置の一
種であるドキュメントの文章を読み取る装置の従来例
は、「日本語文書リーダ後処理の実現と評価」(=引用
文献5とする、高尾ほか、情報処理学会論文誌、第30
巻第11号、1989年)、「OCR入力された日本語
文の誤り検出と自動訂正」(=引用文献6とする、伊東
ほか、情報処理学会論文誌、第33巻第5号、1992
年)、「文字認識における自然言語処理」(=引用文献
7とする、西野、情報処理、第34巻第10号、199
3年)などに記載されている(この場合、アナログデー
タはドキュメントにおける文章領域のイメージデータ
で、記号は文字で、上位階層単位は単語である)。発話
連続音声の認識装置の従来例は、「確率モデルによる音
声認識」(=引用文献8とする、中川、電子情報通信学
会、1988年)、「音声認識」(=引用文献9とす
る、渡辺ほか、NEC技報、第47巻第8号、1994
年)、特公平6−32014号公報「単語検出方式」
(=引用文献10とする)などに記載されている(この
場合、アナログデータは発話連続音声の音響データで、
記号は音素で、上位階層単位は単語である)。[0004] Such a conventional address and address reading apparatus is, for example, an automatic mail address reading and sorting machine for the Ministry of Posts and Telecommunications of Japan (= Cited Document 1; Ishikawa et al., NEC Technical Report,
Vol. 44, No. 3, 1991), "Postal Mail Address Automatic Reading and Sorting Machine TR-17" (= Cited Document 2, Torimoto et al., Toshiba Review, Vol. 45, No. 2, 1990) Japanese Unexamined Patent Publication No. Hei 5-324899, "Address Recognition Apparatus Described by Mail" (= Cited Document 3);
For example, it is described in Japanese Patent Publication “Address Recognition Device” (= cited reference 4). A conventional example of an apparatus for reading the text of a document, which is also a kind of symbol string reading apparatus, is described in "Implementation and Evaluation of Post-processing of Japanese Document Reader" (= Cited Document 5, Takao et al. Magazine, No. 30
Vol. 11, No. 1989), "Error Detection and Automatic Correction of Japanese Text Input by OCR" (= Cited Document 6, Ito et al., Transactions of Information Processing Society of Japan, Vol. 33, No. 5, 1992
), "Natural Language Processing in Character Recognition" (= Cited Document 7; Nishino, Information Processing, Vol. 34, No. 10, 199)
(In this case, analog data is image data of a text area in a document, a symbol is a character, and a higher hierarchical unit is a word). Conventional examples of a speech continuous speech recognition apparatus include “speech recognition using a stochastic model” (= Cited Document 8; Nakagawa, IEICE, 1988); and “speech recognition” (= Cited Document 9; Watanabe). Others, NEC Technical Report, Vol. 47, No. 8, 1994
Year), Japanese Patent Publication No. 6-32014, "Word detection method"
(In this case, the analog data is the acoustic data of the continuous speech,
The symbol is a phoneme, and the higher hierarchical unit is a word.)
【0005】[0005]
【発明が解決しようとする課題】図2の例のように、通
常、1つのセグメントには複数の記号候補が存在するか
ら、記号候補列と上位階層単位辞書との照合は組み合わ
せ的なものになる。図2の例で具体的に説明するなら
ば、文字候補列30の文字候補を組み合わせた「西川…
…」「西八……」「西山……」「品川……」「品八…
…」「品山……」「台川……」「台八……」「台山…
…」などの文字列が住所要素の辞書中に存在しないか検
索することになる。As shown in the example of FIG. 2, since a plurality of symbol candidates usually exist in one segment, the collation between the symbol candidate string and the upper hierarchy unit dictionary is a combination. Become. If specifically described with reference to the example of FIG. 2, "Nishikawa ...
"...""Nishihachi...""Nishiyama...""Shinagawa...""Shinpachi ...
"...""Shinyama...""Taikawa...""Taihachi...""Taiyama..."
.. ”Is searched for in the address element dictionary.
【0006】さらに、通常、セグメントの切り出し方も
複数通りになるため、辞書と照合する際の文字候補の組
み合わせは、さらに増大する。図3には、図2の一部に
ついてセグメントの切り出し方も複数通りを考えた場合
を示した。図3の例では、本来は「品川」という2文字
に対して9通りのセグメントが切り出されている。最も
細かく分割したときのセグメントを単位として表現した
セグメントの位置情報21も示した。セグメントの位置
情報21は[セグメントの先頭位置,セグメントの幅]
という2項で表現している。図3の例では、セグメント
の組み合わせだけで、 [1,1]−[2,1]−[3,1]−[4,1]−
[5,1] [1,1]−[2,1]−[3,1]−[4,2] [1,1]−[2,1]−[3,3] [1,1]−[2,2]−[4,1]−[5,1] [1,1]−[2,2]−[4,2] [1,2]−[3,1]−[4,1]−[5,1] [1,2]−[3,1]−[4,2] [1,2]−[3,3] という8通りがある。各セグメントに3通りずつの文字
候補があるから、文字候補の組み合わせは576通りに
なる。[0006] Furthermore, since the segment is usually cut out in a plurality of ways, the number of combinations of character candidates for matching with the dictionary is further increased. FIG. 3 shows a case where a plurality of types of segment cutting methods are considered for a part of FIG. In the example of FIG. 3, nine segments are originally cut out for two characters “Shinagawa”. Segment position information 21 expressed in units of the segment at the time of the finest division is also shown. The segment position information 21 is [segment head position, segment width]
It is expressed in two terms. In the example of FIG. 3, [1,1]-[2,1]-[3,1]-[4,1]-
[5,1] [1,1]-[2,1]-[3,1]-[4,2] [1,1]-[2,1]-[3,3] [1,1] -[2,2]-[4,1]-[5,1] [1,1]-[2,2]-[4,2] [1,2]-[3,1]-[4, [1]-[5,1] [1,2]-[3,1]-[4,2] [1,2]-[3,3]. Since there are three types of character candidates in each segment, there are 576 combinations of character candidates.
【0007】さらに、記号候補列中に正解記号が含まれ
ないこともある。入力アナログデータが郵便の宛名住所
の手書きイメージデータである場合などは特に、文字候
補中に正解文字が含まれていないことはかなり多い。記
号候補列中に正解記号が含まれていない場合も処理対象
として想定すると、辞書との照合は不完全一致(いわば
虫食い照合)も必要になる。図4は東京都品川区に関す
る町名以上の住所要素の一覧である。例えば、図4のよ
うな内容の住所要素辞書と、図2の文字候補列30とを
照合した場合、不完全一致も含めると、次のような住所
要素が検索されることになる(全文字不一致は除く)。Further, the correct symbol may not be included in the symbol candidate sequence. Particularly when the input analog data is handwritten image data of a postal address, it is quite common that character candidates do not include correct characters. Assuming that the correct candidate symbol is not included in the symbol candidate string as a processing target, incomplete matching (so to speak, insect-eating matching) with the dictionary is required. FIG. 4 is a list of address elements of Shinagawa-ku, Tokyo, which are above the street name. For example, when the address element dictionary having the contents as shown in FIG. 4 is compared with the character candidate string 30 shown in FIG. 2, if the incomplete match is included, the following address elements are searched (all characters). Excluding discrepancies).
【0008】完全一致:品川区,中延,西中延 1文字不一致:戸越,小山,八潮,平塚,東品川,西品
川,南品川,北品川,東中延, 2文字不一致:旗の台,小山台,西大井,西五反田 3文字不一致:東五反田 このような不完全一致照合を実現しようとすると、辞書
内で上位階層単位の項目を単純にソートしておくだけで
は、十分な検索効率が得られなくなる。項目の1文字目
での不一致まで想定すると、辞書内の全項目について記
号候補列と部分一致検索を行なうことにもなり得る。さ
らに、例えば、セグメントの切り出し方が何通りも考え
られるとすれば、必ずしも不一致文字数がセグメント数
に一致するとみなすわけにはいかなくなる。上述の2文
字不一致の「西五反田」を例に挙げれば、図2のいちば
ん左端のセグメントで「西」が一致して「五」と「反」
が見つからなかったとき、「田」は「西」から何セグメ
ント離れた位置に存在し得るかは、ほとんど特定できな
い。図2の例では「西」から1セグメント飛ばした位置
の文字候補に「田」があったわけで、飛ばした1セグメ
ントは切り出し方によっては2セグメントに分かれ、そ
の2セグメントが「五」と「反」に一致する可能性を考
慮した照合である。このような可能性まで考慮して、記
号候補列と上位階層単位の辞書を照合する段階ですべて
のパタンを取り出そうとすると、その処理量は組み合わ
せ的に増大し、複雑・膨大なものになってしまう。Exact match: Shinagawa-ku, Nakanobu, Nishinakanobu 1 character mismatch: Togoshi, Oyama, Yashio, Hiratsuka, Higashishinagawa, Nishishinagawa, Minamishinagawa, Kitashinagawa, Higashinakanobu, 2 characters mismatch: Flag stand, Oyamadai, Nishioi, Nishi-Gotanda 3-character mismatch: Higashi-Gotanda In order to achieve such incomplete matching, simply sorting the items in the upper layer unit in the dictionary does not provide sufficient search efficiency. Assuming that the item does not match at the first character, it may be possible to perform a partial match search with a symbol candidate string for all items in the dictionary. Furthermore, for example, if there are many possible ways to cut out a segment, it is not always possible to assume that the number of mismatched characters matches the number of segments. Taking as an example "Nishi Gotanda" where the two characters do not match, "West" matches in the leftmost segment in FIG.
When is not found, it is hardly possible to specify how many segments “field” may be located from “west”. In the example of FIG. 2, the character candidate at the position skipped by one segment from “west” includes “ta”, and the skipped one segment is divided into two segments depending on the extraction method, and the two segments are “five” and “counter”. Is considered in consideration of the possibility of matching. Considering such a possibility, if it is attempted to extract all patterns at the stage of matching a symbol candidate string with a dictionary in a higher hierarchical unit, the processing amount increases in combination, and becomes complex and enormous. I will.
【0009】以上の説明からわかるように、従来の記号
列読み取り装置では、記号候補列と上位階層単位の辞書
とを照合する際に、セグメントの複数通りの切り出し
方、各セグメントの複数通りの記号候補、不完全一致照
合などを扱おうとすると、処理量が組み合わせ的に増大
し、かつ、処理が複雑化するという問題がある。As can be understood from the above description, in the conventional symbol string reading apparatus, when comparing a symbol candidate string with a dictionary in a unit of a higher hierarchy, a plurality of ways of cutting out a segment and a plurality of symbols of each segment are used. Attempts to handle candidates, incomplete matching, and the like have a problem that the processing amount increases in combination and the processing becomes complicated.
【0010】この問題に加えて、従来の記号列読み取り
装置には調整・保守の煩雑さの問題もある。この問題に
ついて以下に説明する。In addition to this problem, the conventional symbol string reading apparatus has a problem of complicated adjustment and maintenance. This problem will be described below.
【0011】記号候補列と上位階層単位の辞書とを照合
することで、上位階層単位に対応するとみなせる記号候
補の系列が得られるが、より信頼性を高めるためには、
上位階層単位の並びについても判定する必要がある。図
2の例で説明すれば、文字候補列30に対して、完全一
致で得られる住所要素として「品川区」「西中延」「中
延」の3つがあるが、「品川区」と「西中延」の組み合
わせでは存在位置が重なり合ってしまう。それに対して
「品川区」と「中延」の組み合わせは、2つの住所要素
が隣接し、かつ、住所の階層関係を満たす並びになって
いるから、信頼性が高いと判定できる。By collating the symbol candidate sequence with the dictionary in the upper layer unit, a sequence of symbol candidates that can be regarded as corresponding to the upper layer unit is obtained.
It is also necessary to determine the arrangement of the upper layer unit. In the example of FIG. 2, there are three address elements “Shinagawa-ku”, “Nishinakanobu”, and “Nakanobu” as the address elements obtained by perfect matching for the character candidate string 30, but “Shinagawa-ku” and “Nishinakanobu” In the combination, the existence positions overlap. On the other hand, the combination of "Shinagawa-ku" and "Nakanobu" can be determined to be highly reliable because the two address elements are adjacent and satisfy the hierarchical relationship of the addresses.
【0012】この図2の例では、完全一致の住所要素の
並びで、隣接条件・階層関係の両方を満たす信頼性の高
い文字候補の系列が得られるが、一般には、完全一致の
ものが得られず、不完全一致のもので組み合わせなくて
はならなくなる。そのとき、記号候補列と上位階層要素
との一致の程度と、上位階層要素の並びとしての適切性
の両方を考慮して、最良の組み合わせを決定することが
必要になる。In the example of FIG. 2, a sequence of highly reliable character candidates that satisfies both the adjacency condition and the hierarchical relationship can be obtained by the arrangement of the completely matching address elements. And must be combined with incomplete matches. At this time, it is necessary to determine the best combination in consideration of both the degree of coincidence between the symbol candidate string and the upper hierarchical element and the suitability of the arrangement of the upper hierarchical elements.
【0013】しかし、従来の記号列読み取り装置では、
上記の2つのファクタは、別々に調整することが必要に
なる。例えば、前述のように記号候補列と辞書とのすべ
ての可能性を考慮した照合は処理量が膨大になるため、
完全一致と1文字不一致までを辞書から取り出すことに
していたとする。そうすると、検索された上位階層要素
の組み合わせを判定して、やはり2文字不一致も含めて
判定したいと思っても、もう一度やり直し、あるいは装
置の構成要素の作り直し/差し替えが必要になってしま
う。However, in the conventional symbol string reading device,
The above two factors need to be adjusted separately. For example, as described above, the matching considering all the possibilities between the symbol candidate sequence and the dictionary requires a huge amount of processing,
It is assumed that a complete match and a one-character mismatch are taken out of the dictionary. Then, even if the combination of the searched upper-layer elements is determined and it is desired to also determine the two-character mismatch, it is necessary to start over again or to recreate / replace the constituent elements of the apparatus.
【0014】したがって、より最適な結果・性能を得る
ために必要な調整・保守に複雑な操作と労力が必要にな
ってしまうという問題がある。Therefore, there is a problem that complicated operations and labor are required for adjustment and maintenance necessary for obtaining more optimum results and performance.
【0015】以上に述べたように、従来の記号列読み取
り装置では、精度を高めるために、より可能性を広く考
慮しようとすると、組み合わせ的に処理量が増大し、か
つ、処理が複雑化してしまい、さらに、調整や保守が煩
雑になってしまうという問題もあった。本発明では、上
述のような従来の欠点を除去し、効率良く最適な読み取
り結果を求め、かつ、調整・保守も容易な記号列読み取
り装置を提供することである。As described above, in the conventional symbol string reading apparatus, if the possibility is to be considered in order to increase the accuracy, the processing amount increases in combination and the processing becomes complicated. In addition, there is a problem that adjustment and maintenance become complicated. SUMMARY OF THE INVENTION It is an object of the present invention to provide a symbol string reading apparatus that eliminates the above-mentioned conventional disadvantages, efficiently obtains an optimum reading result, and is easy to adjust and maintain.
【0016】[0016]
【課題を解決するための手段】本発明は、入力されたア
ナログデータに対応する一次元の記号列を読み取る記号
列読み取り装置において、前記アナログデータのなかか
ら1記号に相当するセグメントを切り出して該セグメン
トごとに個別の記号認識を行なう個別認識手段と、前記
個別認識手段の結果を格納する記号候補列バッファと、
各記号に対して少なくとも[該記号の上位階層単位U,
Uの記号列長L,該記号のU内位置P]という3項情報
を格納するタグ辞書メモリと、前記記号候補列バッファ
中の記号候補に対して前記タグ辞書メモリから該記号候
補に対応する3項情報を検索するタグ付与手段と、前記
タグ付与手段の検索結果を格納するタグ情報バッファ
と、上位階層単位の間の接続制約を記述する上位階層制
約メモリと、前記タグ情報バッファ内の2つの3項情報
[U1,L1,P1]と[U2,L2,P2]について
該3項情報に対応するセグメントの位置関係とU1・L
1・P1・U2・L2・P2間の関係とを接続制約に用
いて連結していくことで前記アナログデータに対応する
一次元の記号列を決定する最適タグ連鎖探索手段とを備
えることを特徴とする記号列読み取り装置である。According to the present invention, there is provided a symbol string reading apparatus for reading a one-dimensional symbol string corresponding to input analog data, by cutting out a segment corresponding to one symbol from the analog data. An individual recognition unit that performs individual symbol recognition for each segment; a symbol candidate string buffer that stores a result of the individual recognition unit;
For each symbol, at least [Upper hierarchical unit U,
A tag dictionary memory for storing ternary information such as a symbol string length L of U and a position P of the symbol in U, and a symbol candidate in the symbol candidate string buffer corresponding to the symbol candidate from the tag dictionary memory. Item 3. Tag assigning means for retrieving information, a tag information buffer for storing a search result of the tag assigning means, an upper layer constraint memory for describing a connection constraint between upper layer units, For three sets of three-term information [U1, L1, P1] and [U2, L2, P2], the positional relationship between segments corresponding to the three-term information and U1 · L
1. An optimal tag chain search means for determining a one-dimensional symbol string corresponding to the analog data by connecting the relations among 1.P1, U2, L2, and P2 using connection constraints. Is a symbol string reading device.
【0017】[0017]
【作用】本発明では、記号候補列バッファ3に格納され
た切り出しおよび個別認識の結果に対して、従来のよう
な上位階層単位辞書との照合を実行するのではなく、タ
グ付与手段5により記号候補へ上位階層単位との関係を
示すタグ付けを行なった上で、最適タグ連鎖探索手段8
によりタグの最適な組み合わせを見つける。According to the present invention, tagging means 5 does not execute the collation of the cut-out and individual recognition results stored in the symbol candidate string buffer 3 with the upper hierarchy unit dictionary as in the prior art. After tagging the candidates indicating the relationship with the upper layer unit, the optimal tag chain search means 8
To find the best combination of tags.
【0018】郵便住所の宛名読み取りで言えば、従来
は、まず「品川区」や「中延」などの住所要素を文字候
補列から検索し、「品川区」と「中延」の組み合わせを
調べた。しかし、本発明では、「品」は「品川区」の1
文字目、「川」は「品川区」の2文字目、といったタグ
を付けた上で、タグ情報を参照しながら「品」−「川」
−「区」−「中」−「延」とつなぐ。Conventionally, in reading the address of a postal address, conventionally, first, address elements such as "Shinagawa-ku" and "Nakanobu" were searched from a character candidate string, and a combination of "Shinagawa-ku" and "Nakanobu" was examined. However, in the present invention, “article” is one of “Shinagawa-ku”.
The first character, "river", is tagged with the second character of "Shinagawa-ku".
-Connect with "ku"-"medium"-"nobu".
【0019】これによって、上位階層単位の制約と接続
制約とを同一の枠組みで扱えるために、最適な結果を得
るための調整が容易になる。また、辞書との組み合わせ
的な照合も不要なので、処理も高速に実行できる。[0019] Thus, since the upper layer unit constraint and the connection constraint can be handled in the same framework, the adjustment for obtaining the optimum result becomes easier. Further, since it is not necessary to perform collation with a dictionary, the processing can be executed at high speed.
【0020】[0020]
【実施例】図1は本発明の一実施例の構成を示すブロッ
ク図である。FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention.
【0021】データ入力手段1は、アナログデータを入
力する。個別認識手段2は、データ入力手段で入力され
たアナログデータのなかから1記号に相当するセグメン
トを切り出して、そのセグメントごとに個別の記号認識
を行なう。記号候補列バッファ3は、個別認識手段2の
結果を格納する。タグ辞書メモリ4は、各記号に対して
少なくとも[その記号の上位階層単位U,Uの記号列長
L,その記号のU内位置P]という3項情報を格納す
る。タグ付与手段5は、記号候補列バッファ3中の記号
候補に対して、タグ辞書メモリ4から、その記号候補に
対応する3項情報を検索する。タグ情報バッファ6は、
タグ付与手段5の検索結果を格納する。上位階層制約メ
モリ7は、上位階層単位の間の接続制約を記述する。最
適タグ連鎖探索手段8は、タグ情報バッファ6内の2つ
の3項情報[U1,L1,P1]と[U2,L2,P
2]について、その3項情報に対応するセグメントの位
置関係とU1・L1・P1・U2・L2・P2間の関係
とを接続制約に用いて連結していくことで、入力された
アナログデータに対応する一次元の記号列を決定する。
読み取り結果バッファ9は、最適タグ連鎖探索手段8の
決定した結果を格納する。The data input means 1 inputs analog data. The individual recognizing unit 2 cuts out a segment corresponding to one symbol from the analog data input by the data input unit, and performs individual symbol recognition for each segment. The symbol candidate string buffer 3 stores the result of the individual recognition means 2. The tag dictionary memory 4 stores, for each symbol, at least ternary information of [Upper layer unit U of the symbol, symbol string length L of U, position P of the symbol in U]. The tag assigning means 5 searches the tag dictionary memory 4 for three-term information corresponding to the symbol candidate in the symbol candidate string buffer 3 for the symbol candidate. The tag information buffer 6
The search result of the tag assigning means 5 is stored. The upper layer constraint memory 7 describes connection constraints between upper layer units. The optimal tag chain search means 8 performs the two ternary information [U1, L1, P1] and [U2, L2, P
2], by using the positional relationship of the segment corresponding to the three-term information and the relationship among U1, L1, P1, U2, L2, and P2 as connection constraints, the input analog data Determine the corresponding one-dimensional symbol sequence.
The read result buffer 9 stores the result determined by the optimum tag chain search means 8.
【0022】記号候補列バッファ3、タグ辞書メモリ
4、タグ情報バッファ6、上位階層制約メモリ7、読み
取り結果バッファ9は、ICメモリ、磁気ディスク装置
などの記憶装置類で実現できる。個別認識手段2、タグ
付与手段5、最適タグ連鎖探索手段8は、コンピュータ
のCPUあるいは専用回路で実現できる。The symbol candidate string buffer 3, tag dictionary memory 4, tag information buffer 6, upper layer constraint memory 7, and read result buffer 9 can be realized by storage devices such as an IC memory and a magnetic disk device. The individual recognizing unit 2, the tag assigning unit 5, and the optimal tag chain searching unit 8 can be realized by a CPU of a computer or a dedicated circuit.
【0023】本発明の第一の実施例は、郵便や帳票に書
かれた宛名住所の読み取り装置である。この実施例で
は、アナログデータは郵便あるいは帳票の住所領域のイ
メージデータ、記号列は文字列、上位階層単位は都道府
県名・市区郡町村名などの住所要素を指す。データ入力
手段1はイメージスキャナを用いればよい。個別認識手
段2は、イメージデータから1文字に相当するセグメン
トを切り出して、各セグメントに対する文字認識を行な
う手段であり、引用文献1・2・3などに公知の手段と
して記載されている通りである。個別認識手段2の処理
結果として記号候補列バッファ3に書き込まれるデータ
内容は、例えば、図2や図3のような形式で表現でき
る。The first embodiment of the present invention is a device for reading an address written on a post or a form. In this embodiment, the analog data indicates image data of an address area of a post or a form, the symbol string indicates a character string, and the upper layer unit indicates an address element such as a prefecture name, a municipal name, a municipal name. The data input means 1 may use an image scanner. The individual recognizing means 2 is a means for cutting out a segment corresponding to one character from the image data and performing character recognition for each segment, and is as described as a known means in Patent Documents 1, 2, and 3 and the like. . The data content written to the symbol candidate string buffer 3 as the processing result of the individual recognizing means 2 can be expressed, for example, in a format as shown in FIGS.
【0024】この実施例におけるタグ辞書メモリ4は、
住所要素として使われる各文字に対して[住所要素U,
Uの文字列長L,その文字のU内位置P]という3項情
報を格納する。図5には、図4のような住所要素群に対
するタグ辞書メモリ4の内容の例を示す。図5におい
て、「:」の左側のキー文字40は、住所要素に現われ
る各文字であり、その右側には、対応する3項情報が並
べてある。それら3項情報は、例えば、「荏」に対応す
る[荏原,2,1]であれば、「荏」という文字は住所
要素「荏原」の2文字中の1文字目であることを表現し
ている。ある文字が複数の住所要素中に現われることは
あるので、例えば、「延」に対応する[西中延,3,
3][中延,2,2][東中延,3,3]であれば、
「延」という文字は、住所要素「西中延」の3文字中の
3文字目、または、住所要素「中延」の2文字中の2文
字目、または、住所要素「東中延」の3文字中の3文字
目であることを表現している。なお、3項情報における
住所要素Uは、図5の例では文字列で示したが、文字列
そのものではなく、住所要素と対応づけたコード値で表
現してもかまわない。The tag dictionary memory 4 in this embodiment is
For each character used as an address element [Address element U,
Ternary information of a character string length L of U and a position P of the character in U is stored. FIG. 5 shows an example of the contents of the tag dictionary memory 4 for the address element group as shown in FIG. In FIG. 5, the key characters 40 to the left of “:” are the characters appearing in the address element, and the corresponding three-term information is arranged on the right side. For example, if these three items of information are [EBARA, 2,1] corresponding to “EB”, it indicates that the character “EB” is the first of two characters of the address element “EBARA”. ing. Since a certain character may appear in multiple address elements, for example, it corresponds to “Nobu” [Nishinakanobu, 3,
3] [Nakanobu, 2, 2] [Higashinakanobu, 3, 3]
The character "Nobu" is the third character of the three characters of the address element "Nishinakanobu", the second character of the two characters of the address element "Nakanobu", or the three characters of the address element "Higashinakanobu". It expresses that it is the third character. Although the address element U in the ternary information is represented by a character string in the example of FIG. 5, it may be represented by a code value associated with the address element instead of the character string itself.
【0025】タグ付与手段5は、記号候補列バッファ3
に格納された各セグメントに対して、そのセグメントに
対応する文字候補の各々をキーとして、タグ辞書メモリ
4を検索する。そして、タグ辞書メモリ4のキー文字4
0のなかに該当する文字があったら、その文字に対応す
る3項情報を読み出してタグ情報バッファ6に書き込
む。図2のような文字候補列30に対して、図5のよう
なタグ辞書メモリ4を検索した場合の、タグ情報バッフ
ァ6に書き込まれる結果の例を図6に示す。The tag assigning means 5 includes a symbol candidate string buffer 3
Is searched for the tag dictionary memory 4 using each of the character candidates corresponding to the segment as a key. And the key character 4 of the tag dictionary memory 4
If there is a character corresponding to 0, the ternary information corresponding to the character is read and written to the tag information buffer 6. FIG. 6 shows an example of the result written in the tag information buffer 6 when the tag dictionary memory 4 as shown in FIG. 5 is searched for the character candidate string 30 as shown in FIG.
【0026】上位階層制約メモリ7には、図4において
木構造で表現されている住所の上位−下位関係を格納す
る。すなわち、図4の品川区の住所構造で言えば、「東
京都」の下位に「品川区」があり、さらに、その下位に
「荏原」「旗の台」ほかの町名があるという関係であ
る。住所の場合、一般には、都道府県名、市区郡名、町
名という順番で基本的な上位−下位関係が成り立ってお
り、町名レベルが大字名、字名(あるいは町名、系列町
名)のように多段になることもある。住所の場合は、住
所要素の上位−下位関係が、そのまま住所要素の並びの
制約になる。すなわち、上位の住所要素から下位の住所
要素の順に並ぶことになる。図4をもとにした例を述べ
れば、「東京都」−「品川区」−「中延」という並びは
OKだが、「東京都」−「中延」や「中延」−「旗の
台」のような並びは不可である。そのような接続制約の
表現方法は、例えば、2つの住所要素の全組み合わせに
対して接続可否を記述する方法や、ある住所要素の直後
あるいは直前に接続し得る住所要素を列挙する方法など
がある。The upper-level constraint memory 7 stores an upper-lower-order relationship of addresses represented by a tree structure in FIG. That is, in terms of the address structure of Shinagawa-ku in FIG. 4, there is a relationship that "Shinagawa-ku" is below "Tokyo", and "EBARA", "Flag Nodai" and other towns are below that. In the case of an address, in general, a basic superordinate-subordinate relationship is established in the order of a prefecture name, a municipal county name, and a town name, and the town name level is represented by a capital letter name, a character name (or a town name, a town name), or the like. It can be multistage. In the case of an address, the upper-lower relationship of the address elements directly serves as a constraint on the arrangement of the address elements. That is, the address elements are arranged in order from a higher-order address element to a lower-order address element. If the example based on FIG. 4 is described, "Tokyo"-"Shinagawa-ku"-"Nakanobu" is OK, but "Tokyo"-"Nakanobu" or "Nakanobu"-"Flag stand" No lineup is allowed. Such a connection constraint expression method includes, for example, a method of describing whether connection is possible for all combinations of two address elements, and a method of listing address elements that can be connected immediately after or immediately before a certain address element. .
【0027】最適タグ連鎖探索手段8において、タグ情
報バッファ6内の2つの3項情報を連結し、最終的な一
次元の記号列(この実施例では住所読み取り結果)を決
定する方法としては、例えば次のようなものが考えられ
る。The optimal tag chain search means 8 connects the two pieces of three-term information in the tag information buffer 6 to determine a final one-dimensional symbol string (address reading result in this embodiment). For example, the following can be considered.
【0028】最適タグ連鎖探索手段8の第一の実現方法
は、タグ情報バッファ6内の2つの3項情報[U1,L
1,P1]と[U2,L2,P2]について、 条件2a:[U1,L1,P1]に対応するセグメント
が[U2,L2,P2]に対応するセグメントの前方に
ある 条件2b:U1=U2 かつ P1<P2 条件2c:U1はU2の前方に存在し得る としたとき、条件2aかつ(条件2bまたは条件2c)
が成立する際に[U1,L1,P1]の後に[U2,L
2,P2]を連結して、可能なすべての組み合わせを形
成した上で、各組み合わせのコスト計算を行ない、最良
コストの組み合わせを選択するものである。The first method of realizing the optimum tag chain search means 8 is that two pieces of ternary information [U1, L
[1, P1] and [U2, L2, P2] Condition 2a: The segment corresponding to [U1, L1, P1] is ahead of the segment corresponding to [U2, L2, P2] Condition 2b: U1 = U2 And P1 <P2 Condition 2c: If U1 can exist before U2, then condition 2a and (condition 2b or condition 2c)
Holds when [U2, L1, P1] is followed by [U2, L1
2, P2] to form all possible combinations, calculate the cost of each combination, and select the best cost combination.
【0029】図7は、図6のようなタグ情報バッファ6
をもとに、この第一の実現方法によるタグ連結を実行し
た場合の例である。図7では、上述の条件2aかつ(条
件2bまたは条件2c)が成立する2つのタグ(タグ情
報バッファ6内に格納された3項情報)の間を実線でつ
ないである。例えば、セグメント(2,1)のタグ[品
川区,3,2]とセグメント(3,1)のタグ[品川
区,3,3]は連結されているが、この2つのタグの間
では条件2aかつ条件2bが成立している。条件2aが
成立していることは、セグメント(2,1)の末尾位置
2がセグメント(3,1)の先頭位置3より前方である
ことによる。条件2bが成立していることは、U1=U
2=「品川区」であり、P1=2<P2=3であること
による。また、セグメント(2,1)のタグ[品川区,
3,2]とセグメント(4,1)のタグ[平塚,2,
1]は、条件2aかつ条件2cが成立して連結されてい
る。上位階層制約メモリ7を参照すると、U1=「品川
区」はU2=「平塚」の上位住所要素なので、条件2c
が成立していることがわかる。FIG. 7 shows the tag information buffer 6 shown in FIG.
This is an example of a case where tag concatenation by the first realization method is executed based on the above. In FIG. 7, two tags (three-term information stored in the tag information buffer 6) satisfying the above conditions 2a and 2b or 2c are connected by a solid line. For example, although the tag [Shinagawa-ku, 3, 2] of the segment (2, 1) and the tag [Shinagawa-ku, 3, 3] of the segment (3, 1) are connected, the condition between the two tags is 2a and the condition 2b are satisfied. The condition 2a is satisfied because the end position 2 of the segment (2, 1) is ahead of the start position 3 of the segment (3, 1). The satisfaction of the condition 2b means that U1 = U
2 = “Shinagawa Ward”, because P1 = 2 <P2 = 3. In addition, the tag [Shinagawa-ku,
3,2] and tag of segment (4,1) [Hiratsuka, 2,
1] are linked by satisfying the conditions 2a and 2c. Referring to the upper layer constraint memory 7, since U1 = “Shinagawa Ward” is an upper address element of U2 = “Hiratsuka”, the condition 2c
It can be seen that holds.
【0030】この第一の実現方法では、図7に実線で示
したようなタグ連結をすべて形成した上で、それらの組
み合わせについてコスト計算を実行して最良コストのも
のを選択する。In the first realization method, after all the tag connections as shown by the solid lines in FIG. 7 are formed, cost calculation is executed for those combinations to select the one with the best cost.
【0031】最適タグ連鎖探索手段8の第二の実現方法
は、タグ情報バッファ6内の2つの3項情報[U1,L
1,P1]と[U2,L2,P2]について、 条件3a:[U1,L1,P1]に対応するセグメント
が[U2,L2,P2]に対応するセグメントの直前に
隣接する 条件3b:条件3aは成立しないが[U1,L1,P
1]に対応するセグメントが[U2,L2,P2]に対
応するセグメントの前方にある 条件3c:U1=U2 かつ P1+1=P2 条件3d:U1=U2 かつ P1+1<P2 条件3e:U1はU2の直前に存在し得て P1=L1
かつ P2=1 条件3f:条件3eは成立しないがU1はU2の前方に
存在し得る としたとき、まず、条件3aかつ(条件3cまたは条件
3e)が成立する際に[U1,L1,P1]の後に[U
2,L2,P2]を連結して組み合わせを形成して各組
み合わせのコスト計算を行ない、コスト値が閾値より良
い組み合わせが得られなかった場合は、条件3bかつ
(条件3dまたは条件3f)が成立する[U1,L1,
P1]と[U2,L2,P2]も連結した組み合わせも
形成して再度コスト計算を行なった上で、最良コストの
組み合わせを選択するものである。The second method of realizing the optimum tag chain search means 8 is that two pieces of ternary information [U1, L
For [1, P1] and [U2, L2, P2], condition 3a: the segment corresponding to [U1, L1, P1] is immediately adjacent to the segment corresponding to [U2, L2, P2]. Does not hold, but [U1, L1, P
The segment corresponding to [1] is before the segment corresponding to [U2, L2, P2]. Condition 3c: U1 = U2 and P1 + 1 = P2 Condition 3d: U1 = U2 and P1 + 1 <P2 Condition 3e: U1 is immediately before U2 P1 = L1
And P2 = 1 Condition 3f: Condition 3e is not satisfied, but U1 can exist ahead of U2. First, when condition 3a and (condition 3c or condition 3e) are satisfied, [U1, L1, P1] After [U
2, L2, P2] to form a combination, calculate the cost of each combination, and if a combination having a cost value better than the threshold is not obtained, conditions 3b and (condition 3d or condition 3f) are satisfied. [U1, L1,
The combination of [P1] and [U2, L2, P2] is also formed, the cost is calculated again, and the combination with the best cost is selected.
【0032】図8は、図6のようなタグ情報バッファ6
をもとに、この第二の実現方法によるタグ連結を実行し
た場合の例である。図8では、上述の条件3aかつ(条
件3cまたは条件3e)が成立する2つのタグ間を実線
でつないである。例えば、セグメント(3,1)のタグ
[西中延,3,1]とセグメント(4,1)のタグ[西
中延,3,2]の間では、条件3aかつ条件3cが成立
している。条件3aが成立していることは、セグメント
(3,1)の末尾位置3がセグメント(4,1)の先頭
位置4の直前であることによる。条件3cが成立してい
ることは、U1=U2=「西中延」であり、P1+1=
1+1=2=P2であることによる。また、セグメント
(3,1)のタグ[品川区,3,3]とセグメント
(4,1)のタグ[中延,2,1]の間では、条件3a
かつ条件3eが成立している。U1=「品川区」はU2
=「中延」の1つ上位の住所要素なので直前に存在し得
て、かつ、P1=L1=3かつP2=1なので、条件3
eが成立していることがわかる。一方、図8において、
条件3bかつ(条件3dまたは条件3f)が成立するタ
グ間は点線でつないである。図8において点線で示され
たタグ結合は、図7において実線で示されたタグ結合か
ら、図8において実線で示したタグ結合を除いた残りが
該当する。FIG. 8 shows the tag information buffer 6 shown in FIG.
This is an example of a case where tag concatenation by the second realization method is executed based on the above. In FIG. 8, two tags satisfying the above conditions 3a and 3c or 3e are connected by a solid line. For example, the condition 3a and the condition 3c are satisfied between the tag [Nishinakanobu, 3,1] of the segment (3, 1) and the tag [Nishinakanobu, 3, 2] of the segment (4, 1). The condition 3a is satisfied because the end position 3 of the segment (3, 1) is immediately before the start position 4 of the segment (4, 1). The condition 3c is satisfied when U1 = U2 = “Nishinakanobu” and P1 + 1 =
1 + 1 = 2 = P2. In addition, between the tag [Shinagawa-ku, 3, 3] of the segment (3, 1) and the tag [Nakanobu, 2, 1] of the segment (4, 1), the condition 3a
The condition 3e is satisfied. U1 = "Shinagawa-ku" is U2
= Since it is the next higher address element of “Nakanobu”, it can exist immediately before, and since P1 = L1 = 3 and P2 = 1, condition 3
It can be seen that e holds. On the other hand, in FIG.
The tags satisfying the condition 3b and the condition 3d or the condition 3f are connected by a dotted line. The tag connection indicated by the dotted line in FIG. 8 corresponds to the tag connection indicated by the solid line in FIG. 7 except for the tag connection indicated by the solid line in FIG.
【0033】この第二の実現方法は、まず、図8に実線
で示したようなタグ結合のみを形成して、それらの組み
合わせについてのコスト計算を実行する。その結果、あ
る閾値より良いタグ結合の組み合わせが得られたときは
図8の点線のようなタグ結合は形成しない。一方、閾値
より良い組み合わせが得られなかったときは、点線のよ
うなタグ形成も行なった上で最良のコストの組み合わせ
を選択する(後者のケースでは、結果として選択される
組み合わせは、第一の実現方法と同じものになる)。In the second realization method, first, only tag combinations as shown by solid lines in FIG. 8 are formed, and cost calculation is performed for those combinations. As a result, when a combination of tag bindings better than a certain threshold is obtained, the tag binding as shown by the dotted line in FIG. 8 is not formed. On the other hand, when a combination better than the threshold is not obtained, the best cost combination is selected after performing tag formation such as a dotted line (in the latter case, the combination selected as a result is the first combination). Implementation method).
【0034】最適タグ連鎖探索手段8の第三の実現方法
は、タグ情報バッファ6内の3項情報[U,L,P]の
うち対応セグメント位置が前方のものから後方のものへ
順に、[U,L,P]より対応セグメント位置が前方の
3項情報[U′,L′,P′]について、 条件4a:U′=U かつ P′<P 条件4b:U′はUの前方に存在し得る としたとき、条件4aまたは条件4bが成立する
[U′,L′,P′]のうち[U,L,P]を連結した
ときの組み合わせのコスト値が最良になるものを順次選
択していくことで最良コストの組み合わせを決定するも
のである。A third method of realizing the optimum tag chain search means 8 is as follows. Of the three item information [U, L, P] in the tag information buffer 6, the corresponding segment positions are arranged in order from the front to the rear. U, L, P], for the three-term information [U ', L', P '] ahead of the corresponding segment position, Condition 4a: U' = U and P '<P Condition 4b: U' is located ahead of U When it is assumed that there exists, [U ', L', P '] satisfying the condition 4a or the condition 4b, the one having the best cost value of the combination when [U, L, P] is connected is sequentially determined. The best cost combination is determined by making selections.
【0035】この第三の実現方法について、図9の例を
用いて説明する。この第三の実現方法では、対応するセ
グメント位置が前方のタグから順に処理するので、ま
ず、図9ではセグメント(1,1)に対応するタグ[西
五反田,4,1][西大井,3,1]……[小山台,
3,3]のコスト値を決定する。次に、セグメント
(2,1)に対応するタグ[西品川,3,3][東品
川,3,3]……[小山台,3,2]のコスト値を決定
する。さらに次は、セグメント(3,1)に対応するタ
グ[西五反田,4,4][東五反田,4,4]……[品
川区,3,3]のコスト値を決定するという順で進め
る。その際、例えば、セグメント(4,1)に対応する
[中延,2,1]のコストを決定する場合は、セグメン
ト(4,1)より前方のセグメント(1,1)(2,
1)(3,1)に対応するタグのうち条件4aまたは条
件4bを満たすタグを捜して、そのなかで結合したとき
のコストが最良になるものを選択して、そのタグ結合に
もとづいて、その[中延,2,1]のコストを決定す
る。具体的には、セグメント(4,1)の[中延,2,
1]は、セグメント(1,1)の[品川区,3,1]、
セグメント(2,1)の[品川区,3,2]、セグメン
ト(3,1)の[品川区,3,3]が条件を満たすが、
結合したときのコスト値が最良になる組み合わせとして
セグメント(3,1)の[品川区,3,3]との結合が
選べる。The third realization method will be described with reference to the example shown in FIG. In this third realization method, the corresponding segment position is processed in order from the tag in front, so first, in FIG. 9, the tag [Nishi-Gotanda, 4, 1] [Nishioi, 3, 3] corresponding to the segment (1, 1) 1] ... [Oyamadai,
[3, 3] is determined. Next, the cost value of the tag [Nishi-Shinagawa, 3, 3] [Higashi-Shinagawa, 3, 3] ... [Koyamadai, 3, 2] corresponding to the segment (2, 1) is determined. Next, the cost value of the tag [Nishi-Gotanda, 4, 4] [Higashi-Gotanda, 4, 4]... [Shinagawa-ku, 3, 3] corresponding to the segment (3, 1) is determined. . At this time, for example, when determining the cost of [Nakanobu, 2, 1] corresponding to the segment (4, 1), the segments (1, 1) (2,
1) Search for tags satisfying the condition 4a or the condition 4b among the tags corresponding to (3, 1), select the tag having the best cost when combined, and based on the tag combination, The cost of [Nakanobu, 2, 1] is determined. Specifically, [Nakanobu, 2,
1] is [Shinagawa-ku, 3,1] of segment (1,1),
[Shinagawa-ku, 3,2] of segment (2,1) and [Shinagawa-ku, 3,3] of segment (3,1) satisfy the condition,
A combination with [Shinagawa-ku, 3, 3] of the segment (3, 1) can be selected as a combination that provides the best cost value when combined.
【0036】図9の点線と実線で表わしたタグ結合は、
条件4aまたは条件4bを満たすものを示している。各
タグに対して、前方のタグとの結合コストが最良になる
ものの例を実線で示した。このようにして、前のものか
ら順にタグのコスト値を決定してゆく方法は、自分より
前方の最良の組み合わせにもとづいてコストを累積して
いることになり、いわゆる動的計画法(ビタビアルゴリ
ズム)の枠組みを利用して最良コストの組み合わせを決
定していることになる。The tag connection represented by the dotted line and the solid line in FIG.
Those that satisfy the condition 4a or the condition 4b are shown. For each tag, a solid line shows an example of the tag having the best coupling cost with the tag in front. In this way, the method of deciding the cost value of the tag in order from the previous one accumulates the cost based on the best combination in front of the tag, so-called dynamic programming (Viterbi algorithm) ) Is used to determine the best cost combination.
【0037】以上では、最適タグ連鎖探索手段8におい
てタグを連結し、その組み合わせに対するコスト値にも
とづいて最終的な一次元の記号列を決定する方法の例に
ついて説明した。その際のコスト値は、様々な定義が考
えられる。例えば、次のような事項はコストに反映させ
ることができる。In the above, an example of the method of connecting the tags in the optimal tag chain search means 8 and determining the final one-dimensional symbol string based on the cost value for the combination has been described. Various definitions are possible for the cost value at that time. For example, the following items can be reflected in costs.
【0038】(A)連結したタグの数(3項情報の連結
数) (B)読み飛ばした記号の数(タグの論理的間隔) (C)タグに対応するセグメントの間隔(タグの物理的
間隔) (D)タグの論理的間隔と物理的間隔の差分 (E)各記号の個別認識における信頼度(あるいは距
離) 最も単純に、上記の(A)のみをコストに用いる場合、
タグが1個連結されるごとに一定のコスト値を与えるよ
うにすればよい。先頭からタグがたくさん連結するほど
コスト値の累積値が良くなり、最多のタグ連結で構成さ
れた組み合わせ(3)項情報の連結数が最大となる組み
合わせ)が、最良のコスト値をもつことになり、最終的
な読み取り結果になる。(A) Number of linked tags (number of linked items of ternary information) (B) Number of skipped symbols (logical intervals of tags) (C) Interval of segments corresponding to tags (physical tags) Interval) (D) Difference between logical interval and physical interval of tag (E) Reliability (or distance) in individual recognition of each symbol In the simplest case, when only the above (A) is used for cost,
What is necessary is just to give a fixed cost value every time one tag is connected. The more tags are linked from the beginning, the better the accumulated value of the cost value is, and the combination (3) composed of the largest number of tag connections (the combination with the largest number of linked item information) has the best cost value. The final reading result.
【0039】その場合、1個のタグについて、例えばコ
スト値=−100点を与えるとすると、図7から図9の
最適タグ連鎖検索の例では、次のようなタグの組み合わ
せが、コスト値=−500点で最良と判定される。In this case, assuming that, for example, a cost value = −100 points is given to one tag, in the example of the optimal tag chain search of FIGS. It is judged to be the best at -500 points.
【0040】 [品川区,3,1]−[品川区,3,2]−[品川区,3,3]−[中延, 2,1]−[中延,2,2] ………(1) ただし、(A)だけでは、最良のコスト値をもつ組み合
わせが複数個生じることも多い。例えば、図7の例で
は、次のような組み合わせもあり得て、同点のコスト値
=−500点となる。[Shinagawa-ku, 3,1]-[Shinagawa-ku, 3, 2]-[Shinagawa-ku, 3, 3]-[Nakanobu, 2, 1]-[Nakanobu, 2, 2] ... (1) However, with only (A), a plurality of combinations having the best cost value often occur. For example, in the example of FIG. 7, the following combinations are possible, and the cost value of the tie is -500 points.
【0041】 [品川区,3,1]−[品川区,3,2]−[品川区,3,3]−[西中延 ,3,2]−[西中延,3,3] ………(2) より精密な判定を行なうためには、上述の(B)(C)
(D)(E)などの事項をコストに用いるとよい。[Shinagawa-ku, 3,1]-[Shinagawa-ku, 3, 2]-[Shinagawa-ku, 3, 3]-[Nishinakanobu, 3, 2]-[Nishinakanobu, 3, 3] ... (2) In order to make a more precise judgment, the above (B) and (C)
Items such as (D) and (E) may be used for cost.
【0042】事項(B)のタグの論理的間隔とは、2つ
のタグ[U1,L1,P1]と[U2,L2,P2]に
ついて、 U1=U2のとき:P2−P1−1 U1≠U2のとき:L1−P1+P2−1 で定義される。すなわち、読み取り結果に対して途中の
ある箇所で読み飛ばされた文字(記号)の数に相当す
る。The logical interval between the tags in the item (B) is defined as follows: For two tags [U1, L1, P1] and [U2, L2, P2], when U1 = U2: P2-P1-1 U1 ≠ U2 In the case of: L1-P1 + P2-1 is defined. That is, it corresponds to the number of characters (symbols) skipped at a certain point in the middle of the read result.
【0043】例えば、図7の例で、上記(2)のタグの
組み合わせを考えた場合、[品川区,3,3]と[西中
延,3,2]との間で1文字分の読み飛ばしが発生して
いる(「西品川」の「西」が読み飛ばされている)。し
たがって、その2つのタグの論理的間隔は1である。
(2)のそれ以外のタグの論理的間隔は0である。For example, in the example of FIG. 7, when the combination of the tags (2) is considered, one character is skipped between [Shinagawa-ku, 3, 3] and [Nishinakanobu, 3, 2]. (“Nishi” in “Nishishinagawa” has been skipped). Therefore, the logical interval between the two tags is one.
The logical interval of the other tags in (2) is zero.
【0044】論理的間隔に応じてコスト値が悪くなるよ
うに(ペナルティを与えるように)、タグ連結のコスト
を設定すればよい。例えば、論理的間隔×50点をコス
トとして追加導入すれば、上述の(2)のコスト値は−
450点となり、(1)の−500点よりも悪くなる。The tag connection cost may be set so that the cost value becomes worse (to give a penalty) according to the logical interval. For example, if a logical interval × 50 points are additionally introduced as a cost, the cost value of the above (2) becomes −
450 points, which is worse than the -500 point of (1).
【0045】事項(C)のタグの物理的間隔とは、タグ
に対応するセグメントの間隔である。例えば、図7の例
では、セグメント(1,1)のタグ[西中延,3,1]
とセグメント(4,1)のタグ[西中延,3,2]とが
連結可能である。その2つのタグ間で論理的間隔は0で
ある。一方、物理的間隔は、間にセグメント(2,1)
と(3,1)があるので、セグメント2個分である。こ
の物理的間隔のカウントの仕方は、間に入るセグメント
数で数える方法もあるし、座標が定義されていれば2つ
のセグメントの間の座標の差(距離)で数える方法、さ
らに、距離を平均セグメントサイズで割ったものなども
考えられる。The physical interval between tags in the item (C) is an interval between segments corresponding to the tag. For example, in the example of FIG. 7, the tag [Nishinakanobu, 3, 1] of the segment (1, 1)
And the tag [Nishinakanobu, 3, 2] of the segment (4, 1) can be connected. The logical interval between the two tags is zero. On the other hand, the physical interval is a segment (2, 1) between
And (3, 1), which is equivalent to two segments. The method of counting the physical interval includes a method of counting the number of intervening segments, a method of counting the difference (distance) between two segments if coordinates are defined, and a method of averaging the distance. A value divided by the segment size is also conceivable.
【0046】物理的間隔の場合も、論理的間隔の場合と
同様に、物理的間隔に応じてコスト値が悪くなるように
(ペナルティを与えるように)、タグ連結のコストを設
定すればよい(例えば、物理的間隔×50点)。In the case of the physical interval, similarly to the case of the logical interval, the cost of tag connection may be set so that the cost value becomes worse according to the physical interval (to give a penalty) ( (For example, physical interval × 50 points).
【0047】事項(D)のタグの論理的間隔と物理的間
隔との差分は、次のような意味をもつ。例えば、図7の
例で上述の(2)の組み合わせについて、タグ[品川
区,3,3]とタグ[西中延,3,2]との連結を考え
てみると、論理的間隔は1で、物理的間隔は0である。
すなわち、物理的に間隔が空いていないところに文字
(記号)を期待していることになり、不自然な読み取り
である。一方、前述のセグメント(1,1)のタグ[西
中延,3,1]とセグメント(4,1)の[西中延,
3,2]の連結では、論理的間隔は0、物理的間隔は2
(セグメント数で数えた場合)である。これは逆に、タ
グ間にノイズが混入していることを意味し、やはり好ま
しい解釈ではない。ここでは、論理的間隔と物理的間隔
の一方が0のときに、他方が0でない値をもつことは不
自然であることを述べたが、より一般的には、論理的間
隔と物理的間隔との差分が大きいときにコスト値を悪く
する(ペナルティを与える)とよい。The difference between the logical interval and the physical interval of the tag in item (D) has the following meaning. For example, in the example of FIG. 7, regarding the combination of the above (2) and the connection between the tag [Shinagawa-ku, 3, 3] and the tag [Nishinakanobu, 3, 2], the logical interval is 1, The physical spacing is zero.
That is, a character (symbol) is expected at a place where there is no physical gap, and the reading is unnatural. On the other hand, the tag [Nishinakanobu, 3,1] of the segment (1,1) and the tag [Nishinakanobu,
[3,2], the logical interval is 0 and the physical interval is 2
(When counted by the number of segments). This means that noise is mixed between the tags, which is not a preferable interpretation. Here, it was described that when one of the logical interval and the physical interval is 0, it is unnatural that the other has a value other than 0, but more generally, the logical interval and the physical interval are It is good to make the cost value worse (giving a penalty) when the difference from the above is large.
【0048】事項(E)は、従来から記号列読み取りに
おけるコスト計算に用いられているもので、個別認識の
際の信頼度あるいは不信頼度(距離)をコストに加味す
るものである。Item (E), which has been conventionally used for cost calculation in reading a symbol string, takes into account the reliability or unreliability (distance) at the time of individual recognition.
【0049】以上、第一の実施例として、宛名住所の読
み取り装置について述べた。さらに、第一の実施例と同
様の構成(図1)で、第二の実施例と第三の実施例を説
明する。As described above, the address reading apparatus has been described as the first embodiment. Further, the second embodiment and the third embodiment will be described with the same configuration (FIG. 1) as the first embodiment.
【0050】本発明の第二の実施例は、ドキュメント中
の文章を読み取る装置である。この実施例では、アナロ
グデータはドキュメントにおける文章領域のイメージデ
ータ、記号列は文字列、上位階層単位は単語を指す。デ
ータ入力手段1や個別認識手段2は、第一の実施例と同
様である。一般に、第一の実施例の場合に比べて、文字
列中に出現する単語の種類が豊富になり、タグ辞書メモ
リ4には、それらの単語(名詞・動詞などの自立語のみ
ならず、助詞や助動詞などの付属語も含む)に対する3
項情報を登録することになる。また、上位階層制約メモ
リ7では、単語の接続制約(文法)を記述する。記号候
補列バッファ3、タグ情報バッファ6、読み取り結果バ
ッファ9などに格納するデータの形式は、第一の実施例
と同様でよく、タグ付与手段5や最適タグ連鎖探索手段
8も第一の実施例の場合と同様の方法で実現できる。The second embodiment of the present invention is an apparatus for reading a sentence in a document. In this embodiment, the analog data indicates image data of a text area in a document, the symbol string indicates a character string, and the upper layer unit indicates a word. The data input means 1 and the individual recognition means 2 are the same as in the first embodiment. In general, as compared with the first embodiment, the types of words appearing in a character string are abundant, and the tag dictionary memory 4 stores those words (not only independent words such as nouns / verbs but also particles). And auxiliary words such as auxiliary verbs)
Item information will be registered. The upper layer constraint memory 7 describes word connection constraints (grammar). The format of the data stored in the symbol candidate string buffer 3, the tag information buffer 6, the read result buffer 9, and the like may be the same as in the first embodiment. This can be realized in the same manner as in the example.
【0051】本発明の第三の実施例は、発話連続音声の
認識装置である。この実施例では、アナログデータは発
話連続音声の音響データ、記号列は音素列、上位階層単
位は単語を指す。データ入力手段1はマイクロフォンを
用いればよい。個別認識手段2は、音響データから1音
素に相当するセグメントを切り出して、各セグメントに
対する音素認識を行なう手段であり、引用文献8・9な
どに公知の手段として記載されている通りである。この
第三の実施例の場合も、扱う単語の種類は第二の実施例
の場合と同様でり、データ入力手段1と個別認識手段2
を除いた各手段の実現方法は、第二の実施例と同様に考
えればよい。The third embodiment of the present invention is a speech continuous speech recognition apparatus. In this embodiment, analog data indicates acoustic data of uttered continuous voice, symbol strings indicate phoneme strings, and upper layer units indicate words. The data input means 1 may use a microphone. The individual recognizing means 2 is a means for extracting segments corresponding to one phoneme from acoustic data and performing phoneme recognition for each segment, and is as described as a known means in Patent Documents 8 and 9. Also in the case of the third embodiment, the types of words to be handled are the same as those of the second embodiment, and the data input unit 1 and the individual recognition unit 2
The method of realizing each means except for the above may be considered in the same manner as in the second embodiment.
【0052】[0052]
【発明の効果】本発明の記号列読み取り装置では、切り
出しおよび個別認識の結果に対して、従来のような上位
階層単位辞書と組み合わせ的な照合は行なっていない。
タグ付与手段5により記号候補へ上位階層単位との関係
を示すタグ付けを行なった上で、最適タグ連鎖探索手段
8によりタグの最適な組み合わせを見つけるようにして
いる。したがって、従来の記号列読み取り装置では、精
度を高めるために、より可能性を広く考慮しようとする
と、組み合わせ的に処理量が増大し、かつ、処理が複雑
化してしまうという問題があったが、本発明では、その
問題が除去され、効率良く最適な読み取り結果を求める
ことが可能になっている。According to the symbol string reading apparatus of the present invention, the result of the extraction and the individual recognition is not compared with the conventional upper layer unit dictionary in combination.
The tag assigning means 5 tags the symbol candidates to indicate the relationship with the upper layer unit, and the optimal tag chain searching means 8 finds the optimal combination of tags. Therefore, in the conventional symbol string reading device, in order to increase the accuracy, if the possibility is considered more widely, there is a problem that the processing amount increases in combination and the processing becomes complicated. According to the present invention, the problem is eliminated, and it is possible to efficiently obtain an optimum reading result.
【0053】さらに、上位階層単位の制約と接続制約と
を同一の枠組みで扱えるために、最適な結果を得るため
の調整も、従来に比べて容易である。Further, since the upper layer unit constraint and the connection constraint can be handled in the same framework, adjustment for obtaining an optimum result is easier than in the past.
【図1】本発明の一実施例の構成を示すブロック図であ
る。FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention.
【図2】従来の宛名住所読み取りの処理過程の例を示す
図である。FIG. 2 is a diagram showing an example of a conventional process of reading a destination address.
【図3】宛名住所読み取りにおける複数通りのセグメン
トと文字候補の例を示す図である。FIG. 3 is a diagram illustrating an example of a plurality of types of segments and character candidates in address / address reading.
【図4】住所要素の一覧の例である。FIG. 4 is an example of a list of address elements.
【図5】タグ辞書メモリ4の内容の例である。FIG. 5 is an example of the contents of a tag dictionary memory 4;
【図6】タグ情報バッファ6の内容の例である。FIG. 6 is an example of the contents of a tag information buffer 6;
【図7】最適タグ連鎖探索手段8の第一の実現方法によ
るタグ連結の例である。FIG. 7 is an example of tag concatenation by a first realization method of the optimal tag chain search means 8;
【図8】最適タグ連鎖探索手段8の第二の実現方法によ
るタグ連結の例である。FIG. 8 is an example of tag concatenation by a second realization method of the optimal tag chain search means 8;
【図9】最適タグ連鎖探索手段8の第三の実現方法によ
るタグ連結の例である。FIG. 9 is an example of tag concatenation by a third realization method of the optimal tag chain search means 8;
1 データ入力手段 2 個別認識手段 3 記号候補列バッファ 4 タグ辞書メモリ 5 タグ付与手段 6 タグ情報バッファ 7 上位階層制約メモリ 8 最適タグ連鎖探索手段 9 読み取り結果バッファ 10 イメージデータ 20 セグメント 30 文字候補列 40 キー文字 41 3項情報 90 住所読み取り結果 DESCRIPTION OF SYMBOLS 1 Data input means 2 Individual recognition means 3 Symbol candidate string buffer 4 Tag dictionary memory 5 Tag assigning means 6 Tag information buffer 7 Upper layer constraint memory 8 Optimal tag chain search means 9 Reading result buffer 10 Image data 20 Segment 30 Character candidate string 40 Key character 41 3 item information 90 Address reading result
フロントページの続き (56)参考文献 特開 平6−124366(JP,A) 特開 平4−111186(JP,A) 特開 平2−245995(JP,A) 「手書き文字列読み取りのための単語 列探索アルゴリズム−文字タグ法−」, 情報処理学会研究報告,95−NL−107, (Vol.95,No.52),PP.43− 50 (58)調査した分野(Int.Cl.6,DB名) G06K 9/72 G06K 9/62 PATOLIS(特許ファイル) JOIS(JICSTファイル)Continuation of the front page (56) References JP-A-6-124366 (JP, A) JP-A-4-111186 (JP, A) JP-A-2-249599 (JP, A) Word Search Algorithm -Character Tag Method- ", Information Processing Society of Japan Research Report, 95-NL-107, (Vol. 95, No. 52), PP. 43-50 (58) Field surveyed (Int.Cl. 6 , DB name) G06K 9/72 G06K 9/62 PATOLIS (patent file) JOIS (JICST file)
Claims (8)
が可能であり、かつ、読み取り対象の記号列は該上位階
層単位の2個以上の並びであるときに、入力されたアナ
ログデータに対応する一次元の記号列を読み取る記号列
読み取り装置において、前記アナログデータのなかから
1記号に相当するセグメントを切り出して該セグメント
ごとに個別の記号認識を行なう個別認識手段と、前記個
別認識手段の結果を格納する記号候補列バッファと、各
記号に対して少なくとも[該記号の上位階層単位U,U
の記号列長L,該記号のU内位置P]という3項情報
(タグ)を格納するタグ辞書メモリと、前記記号候補列
バッファ中の記号候補に対して前記タグ辞書メモリから
該記号候補に対応する3項情報(タグ)を検索するタグ
付与手段と、前記タグ付与手段の検索結果を格納するタ
グ情報バッファと、上位階層単位の間の接続制約を記述
する上位階層制約メモリと、前記タグ情報バッファ内の
2つの3項情報[U1,L1,P1]と[U2,L2,P2]
について該3項情報に対応するセグメントの位置関係と
U1・L1・P1・U2・L2・P2間の関係とを接続制約に
用いて連結していくことで前記アナログデータに対応す
る一次元の記号列を決定する最適タグ連鎖探索手段とを
備えることを特徴とする記号列読み取り装置であって、 前記最適タグ連鎖探索手段は、前記タグ情報バッファ内
の2つの3項情報[U1,L1,P1]と[U2,L2,P
2]について、 条件2a:[U1,L1,P1]に対応するセグメントが
[U2,L2,P2]に対応するセグメントの前方にある 条件2b:U1=U2 かつ P1<P2 条件2c:U1はU2の前方に存在し得る としたとき、条件2aかつ(条件2bまたは条件2c)
が成立する際に[U1,L1,P1]の後に[U2,L2,
P2]を連結して、可能なすべての組み合わせを形成し
た上で、各組み合わせのコスト計算を行ない、最良コス
トの組み合わせを選択するようにした記号列読み取り装
置。1. Defining a higher hierarchical unit for a symbol
And the symbol string to be read is the upper floor
When there are two or more layers,
Symbol string to read one-dimensional symbol string corresponding to log data
In the reading device, from among the analog data,
Cut out a segment corresponding to one symbol, and
Individual recognition means for performing individual symbol recognition for each
A symbol candidate string buffer for storing the results of the different recognition means,
At least [U, U higher-order unit of the symbol
Information of the symbol string length L and the position P in the U of the symbol
Tag dictionary memory for storing (tags), and the symbol candidate string
From the tag dictionary memory for symbol candidates in the buffer
Tag for searching ternary information (tag) corresponding to the symbol candidate
Providing means for storing search results of the tag providing means.
Describes connection constraints between the logging information buffer and the upper layer unit
The upper layer constraint memory to be
Two ternary information [U1, L1, P1] and [U2, L2, P2]
And the positional relationship of the segments corresponding to the three-term information
U1 ・ L1 ・ P1 ・ U2 ・ L2 ・ P2 relationship and connection constraint
To connect to the analog data
Optimal tag chain search means for determining a one-dimensional symbol string
A symbol string reading device, wherein the optimal tag chain searching means includes two ternary information [U1, L1, P1] and [U2, L2, P2] in the tag information buffer.
2], condition 2a: the segment corresponding to [U1, L1, P1] is ahead of the segment corresponding to [U2, L2, P2] condition 2b: U1 = U2 and P1 <P2 condition 2c: U1 is U2 Can be present in front of the condition 2a and (condition 2b or condition 2c)
Holds when [U2, L2, P1] and [U2, L2,
P2] to form all possible combinations, calculate the cost of each combination, and select the best cost combination.
が可能であり、かつ、読み取り対象の記号列は該上位階
層単位の2個以上の並びであるときに、入力され たアナ
ログデータに対応する一次元の記号列を読み取る記号列
読み取り装置において、前記アナログデータのなかから
1記号に相当するセグメントを切り出して該セグメント
ごとに個別の記号認識を行なう個別認識手段と、前記個
別認識手段の結果を格納する記号候補列バッファと、各
記号に対して少なくとも[該記号の上位階層単位U,U
の記号列長L,該記号のU内位置P]という3項情報
(タグ)を格納するタグ辞書メモリと、前記記号候補列
バッファ中の記号候補に対して前記タグ辞書メモリから
該記号候補に対応する3項情報(タグ)を検索するタグ
付与手段と、前記タグ付与手段の検索結果を格納するタ
グ情報バッファと、上位階層単位の間の接続制約を記述
する上位階層制約メモリと、前記タグ情報バッファ内の
2つの3項情報[U1,L1,P1]と[U2,L2,P2]
について該3項情報に対応するセグメントの位置関係と
U1・L1・P1・U2・L2・P2間の関係とを接続制約に
用いて連結していくことで前記アナログデータに対応す
る一次元の記号列を決定する最適タグ連鎖探索手段とを
備えることを特徴とする記号列読み取り装置であって、 前記最適タグ連鎖探索手段は、前記タグ情報バッファ内
の2つの3項情報[U1,L1,P1]と[U2,L2,P
2]について、 条件3a:[U1,L1,P1]に対応するセグメントが
[U2,L2,P2]に対応するセグメントの直前に隣接
する 条件3b:条件3aは成立しないが[U1,L1,P1]
に対応するセグメントが[U2,L2,P2]に対応する
セグメントの前方にある 条件3c:U1=U2 かつ P1+1=P2 条件3d:U1=U2 かつ P1+1<P2 条件3e:U1はU2の直前に存在し得て P1=L1 か
つ P2=1 条件3f:条件3eは成立しないがU1はU2の前方に存
在し得る としたとき、まず、条件3aかつ(条件3cまたは条件
3e)が成立する際に[U1,L1,P1]の後に[U2,
L2,P2]を連結して組み合わせを形成して各組み合わ
せのコスト計算を行ない、コスト値が敷居値より良い組
み合わせが得られなかった場合は、条件3bかつ(条件
3dまたは条件3f)が成立する[U1,L1,P1]と
[U2,L2,P2]も連結した組み合わせも形成して再
度コスト計算を行なった上で、最良コストの組み合わせ
を選択するようにした記号列読み取り装置。2. Defining a higher hierarchical unit for a symbol
And the symbol string to be read is the upper floor
When a sequence of two or more layers units, input Ana
Symbol string to read one-dimensional symbol string corresponding to log data
In the reading device, from among the analog data,
Cut out a segment corresponding to one symbol, and
Individual recognition means for performing individual symbol recognition for each
A symbol candidate string buffer for storing the results of the different recognition means,
At least [U, U higher-order unit of the symbol
Information of the symbol string length L and the position P in the U of the symbol
Tag dictionary memory for storing (tags), and the symbol candidate string
From the tag dictionary memory for symbol candidates in the buffer
Tag for searching ternary information (tag) corresponding to the symbol candidate
Providing means for storing search results of the tag providing means.
Describes connection constraints between the logging information buffer and the upper layer unit
The upper layer constraint memory to be
Two ternary information [U1, L1, P1] and [U2, L2, P2]
And the positional relationship of the segments corresponding to the three-term information
U1 ・ L1 ・ P1 ・ U2 ・ L2 ・ P2 relationship and connection constraint
To connect to the analog data
Optimal tag chain search means for determining a one-dimensional symbol string
A symbol string reading device, wherein the optimal tag chain searching means includes two ternary information [U1, L1, P1] and [U2, L2, P2] in the tag information buffer.
2], condition 3a: a segment corresponding to [U1, L1, P1] is immediately adjacent to a segment corresponding to [U2, L2, P2]. Condition 3b: condition 3a is not satisfied but [U1, L1, P1] ]
Condition 3c: U1 = U2 and P1 + 1 = P2 Condition 3d: U1 = U2 and P1 + 1 <P2 Condition 3e: U1 exists immediately before U2 P1 = L1 and P2 = 1 Condition 3f: Condition 3e is not satisfied but U1 can exist before U2. First, when condition 3a and (condition 3c or condition 3e) are satisfied, U1, L1, P1] followed by [U2,
L2, P2] are combined to form a combination, and the cost of each combination is calculated. If a combination having a cost value better than the threshold value cannot be obtained, the conditions 3b and (condition 3d or condition 3f) are satisfied. A symbol string reading device in which a combination of [U1, L1, P1] and [U2, L2, P2] is also formed, the cost is calculated again, and the best cost combination is selected.
が可能であり、かつ、読み取り対象の記号列は該上位階
層単位の2個以上の並びであるときに、入力されたアナ
ログデータに対応する一次元の記号列を読み取る記号列
読み取り装置において、前記アナログデータのなかから
1記号に相当するセグメントを切り出して該セグメント
ごとに個別の記号認識を行なう個別認識手段と、前記個
別認識手段の結果を格納する記号候補列バッファと、各
記号に対して少なくとも[該記号の上位階層単位U,U
の記号列長L,該記号のU内位置P]という3項情報
(タグ)を格納するタグ辞書メモリと、前記記号候補列
バッファ中の記号候補に対して前記タグ辞書メモリから
該記号候補に対応する3項情報(タグ)を検索するタグ
付与手段と、前記タグ付与手段の検索結果を格納するタ
グ情報バッファと、上位階層単位の間の接続制約を記述
する上位階層制約メモリと、前記タグ情報バッファ内の
2つの3項情報[U1,L1,P1]と[U2,L2,P2]
について該3項情報に対応するセグメントの位置関係と
U1・L1・P1・U2・L2・P2間の関係とを接続制約に
用いて連結していくことで前記アナログデータに対応す
る一次元の記号列を決定する最適タグ連鎖探索手段とを
備えることを特徴とする記号列読み取り装置であって、 前記最適タグ連鎖探索手段は、前記タグ情報バッファ内
の3項情報[U,L,P]のうち対応セグメント位置が
前方のものから後方のものへ順に、[U,L,P]より
対応セグメント位置が前方の3項情報[U’,L’,
P’]について、 条件4a:U’=U かつ P’<P 条件4b:U’はUの前方に存在し得る としたとき、条件4aまたは条件4bが成立する
[U’,L’,P’]のうち[U,L,P]を連結した
ときの組み合わせのコスト値が最良になるものを順次選
択していくことで最良コストの組み合わせを決定するよ
うにした記号列読み取り装置。3. Defining a higher hierarchical unit for a symbol
And the symbol string to be read is the upper floor
When there are two or more layers,
Symbol string to read one-dimensional symbol string corresponding to log data
In the reading device, from among the analog data,
Cut out a segment corresponding to one symbol, and
Individual recognition means for performing individual symbol recognition for each
A symbol candidate string buffer for storing the results of the different recognition means,
At least [U, U higher-order unit of the symbol
Information of the symbol string length L and the position P in the U of the symbol
Tag dictionary memory for storing (tags), and the symbol candidate string
From the tag dictionary memory for symbol candidates in the buffer
Tag for searching ternary information (tag) corresponding to the symbol candidate
Providing means for storing search results of the tag providing means.
Describes connection constraints between the logging information buffer and the upper layer unit
The upper layer constraint memory to be
Two ternary information [U1, L1, P1] and [U2, L2, P2]
And the positional relationship of the segments corresponding to the three-term information
U1 ・ L1 ・ P1 ・ U2 ・ L2 ・ P2 relationship and connection constraint
To connect to the analog data
Optimal tag chain search means for determining a one-dimensional symbol string
A symbol string reading device, wherein the optimal tag chain searching means includes a corresponding segment position in the three-item information [U, L, P] in the tag information buffer from a preceding one to a following one. In order, the corresponding segment position ahead of [U, L, P] is the three-term information [U ', L',
P ′], condition 4a: U ′ = U and P ′ <P Condition 4b: U ′ can exist in front of U, and condition 4a or condition 4b is satisfied [U ′, L ′, P '], A symbol string reading apparatus that determines the best cost combination by sequentially selecting the combination having the best cost value when [U, L, P] is connected.
が可能であり、かつ、読み取り対象の記号列は該上位階
層単位の2個以上の並びであるときに、入力され たアナ
ログデータに対応する一次元の記号列を読み取る記号列
読み取り装置において、前記アナログデータのなかから
1記号に相当するセグメントを切り出して該セグメント
ごとに個別の記号認識を行なう個別認識手段と、前記個
別認識手段の結果を格納する記号候補列バッファと、各
記号に対して少なくとも[該記号の上位階層単位U,U
の記号列長L,該記号のU内位置P]という3項情報
(タグ)を格納するタグ辞書メモリと、前記記号候補列
バッファ中の記号候補に対して前記タグ辞書メモリから
該記号候補に対応する3項情報(タグ)を検索するタグ
付与手段と、前記タグ付与手段の検索結果を格納するタ
グ情報バッファと、上位階層単位の間の接続制約を記述
する上位階層制約メモリと、前記タグ情報バッファ内の
2つの3項情報[U1,L1,P1]と[U2,L2,P2]
について該3項情報に対応するセグメントの位置関係と
U1・L1・P1・U2・L2・P2間の関係とを接続制約に
用いて連結していくことで前記アナログデータに対応す
る一次元の記号列を決定する最適タグ連鎖探索手段とを
備えることを特徴とする記号列読み取り装置であって、 前記最適タグ連鎖探索手段は、前記タグ情報バッファ内
の2つの3項情報[U1,L1,P1]と[U2,L2,P
2]について、該3項情報に対応するセグメントの位置
関係とU1・L1・P1・U2・L2・P2間の関係とを接続
制約に用いて連結していき、最終的に3項情報の連結数
が最大になる組み合わせを選択するようにした記号列読
み取り装置。4. Defining a higher hierarchical unit for a symbol
And the symbol string to be read is the upper floor
When a sequence of two or more layers units, input Ana
Symbol string to read one-dimensional symbol string corresponding to log data
In the reading device, from among the analog data,
Cut out a segment corresponding to one symbol, and
Individual recognition means for performing individual symbol recognition for each
A symbol candidate string buffer for storing the results of the different recognition means,
At least [U, U higher-order unit of the symbol
Information of the symbol string length L and the position P in the U of the symbol
Tag dictionary memory for storing (tags), and the symbol candidate string
From the tag dictionary memory for symbol candidates in the buffer
Tag for searching ternary information (tag) corresponding to the symbol candidate
Providing means for storing search results of the tag providing means.
Describes connection constraints between the logging information buffer and the upper layer unit
The upper layer constraint memory to be
Two ternary information [U1, L1, P1] and [U2, L2, P2]
And the positional relationship of the segments corresponding to the three-term information
U1 ・ L1 ・ P1 ・ U2 ・ L2 ・ P2 relationship and connection constraint
To connect to the analog data
Optimal tag chain search means for determining a one-dimensional symbol string
A symbol string reading device, wherein the optimal tag chain searching means includes two ternary information [U1, L1, P1] and [U2, L2, P2] in the tag information buffer.
2], the positional relation of the segment corresponding to the three-term information and the relation among U1, L1, P1, U2, L2, and P2 are connected using connection constraints, and finally the three-term information is connected. A symbol string reader that selects the combination that maximizes the number.
が可能であり、かつ、読み取り対象の記号列は該上位階
層単位の2個以上の並びであるときに、入力されたアナ
ログデータに対応する一次元の記号列を読み取る記号列
読み取り装置において、前記アナログデータのなかから
1記号に相当するセグメントを切り出して該セグメント
ごとに個別の記号認識を行なう個別認識手段と、前記個
別認識手段の結果を格納する記号候補列バッファと、各
記号に対して少なくとも[該記号の上位階層単位U,U
の記号列長L,該記号のU内位置P]という3項情報
(タグ)を格納するタグ辞書メモリと、前記記号候補列
バッファ中の記号候補に対して前記タグ辞書メモリから
該記号候補に対応する3項情報(タグ)を検索するタグ
付与手段と、前記タグ付与手段の検索結果を格納するタ
グ情報バッファと、上位 階層単位の間の接続制約を記述
する上位階層制約メモリと、前記タグ情報バッファ内の
2つの3項情報[U1,L1,P1]と[U2,L2,P2]
について該3項情報に対応するセグメントの位置関係と
U1・L1・P1・U2・L2・P2間の関係とを接続制約に
用いて連結していくことで前記アナログデータに対応す
る一次元の記号列を決定する最適タグ連鎖探索手段とを
備えることを特徴とする記号列読み取り装置であって、 前記最適タグ連鎖探索手段は、前記タグ情報バッファ内
の2つの3項情報[U1,L1,P1]と[U2,L2,P
2]について、該3項情報に対応するセグメントの位置
関係とU1・L1・P1・U2・L2・P2間の関係とを接続
制約に用いて連結していき、 U1=U2のとき:P2−P1−1 U1≠U2のとき:L1−P1+P2−1 で定義される論理的間隔と、該3項情報に対応するセグ
メント間の物理的間隔と、前記論理的間隔と前記物理的
間隔との差分のうちの少なくとも1つを用いて3項情報
の組み合わせのコスト値を計算し、該コスト値が最良と
なる組み合わせを選択するようにした記号列読み取り装
置。5. Defining a higher hierarchical unit for a symbol
And the symbol string to be read is the upper floor
When there are two or more layers,
Symbol string to read one-dimensional symbol string corresponding to log data
In the reading device, from among the analog data,
Cut out a segment corresponding to one symbol, and
Individual recognition means for performing individual symbol recognition for each
A symbol candidate string buffer for storing the results of the different recognition means,
At least [U, U higher-order unit of the symbol
Information of the symbol string length L and the position P in the U of the symbol
Tag dictionary memory for storing (tags), and the symbol candidate string
From the tag dictionary memory for symbol candidates in the buffer
Tag for searching ternary information (tag) corresponding to the symbol candidate
Providing means for storing search results of the tag providing means.
Describes connection constraints between the logging information buffer and the upper layer unit
The upper layer constraint memory to be
Two ternary information [U1, L1, P1] and [U2, L2, P2]
And the positional relationship of the segments corresponding to the three-term information
U1 ・ L1 ・ P1 ・ U2 ・ L2 ・ P2 relationship and connection constraint
To connect to the analog data
Optimal tag chain search means for determining a one-dimensional symbol string
A symbol string reading device, wherein the optimal tag chain searching means includes two ternary information [U1, L1, P1] and [U2, L2, P2] in the tag information buffer.
2], the positional relationship of the segment corresponding to the ternary information and the relationship among U1, L1, P1, U2, L2, and P2 are connected using connection constraints, and when U1 = U2: P2− When P1-1 U1 ≠ U2: a logical interval defined by L1-P1 + P2-1, a physical interval between segments corresponding to the ternary information, and a difference between the logical interval and the physical interval A symbol string reading device which calculates a cost value of a combination of ternary information using at least one of the above, and selects a combination having the best cost value.
が可能であり、かつ、読み取り対象の記号列は該上位階
層単位の2個以上の並びであるときに、入力されたアナ
ログデータに対応する一次元の記号列を読み取る記号列
読み取り装置において、前記アナログデータのなかから
1記号に相当するセグメントを切り出して該セグメント
ごとに個別の記号認識を行なう個別認識手段と、前記個
別認識手段の結果を格納する記号候補列バッファと、各
記号に対して少なくとも[該記号の上位階層単位U,U
の記号列長L,該記号のU内位置P]という3項情報
(タグ)を格納するタグ辞書メモリと、前記記号候補列
バッファ中の記号候補に対して前記タグ辞書メモリから
該記号候補に対応する3項情報(タグ)を検索するタグ
付与手段と、前記タグ付与手段の検索結果を格納するタ
グ情報バッファと、上位階層単位の間の接続制約を記述
する上位階層制約メモリと、前記タグ情報バッファ内の
2つの3項情報[U1,L1,P1]と[U2,L2,P2]
について該3項情報に対応するセグメントの位置関係と
U1・L1・P1・U2・L2・P2間の関係と を接続制約に
用いて連結していくことで前記アナログデータに対応す
る一次元の記号列を決定する最適タグ連鎖探索手段とを
備えることを特徴とする記号列読み取り装置であって、 前記アナログデータは郵便あるいは帳票の住所領域のイ
メージデータで、前記記号列は文字列で、前記上位階層
単位は都道府県名・市区郡町村名などの住所要素である
記号列読み取り装置。6. Defining a higher hierarchical unit for a symbol
And the symbol string to be read is the upper floor
When there are two or more layers,
Symbol string to read one-dimensional symbol string corresponding to log data
In the reading device, from among the analog data,
Cut out a segment corresponding to one symbol, and
Individual recognition means for performing individual symbol recognition for each
A symbol candidate string buffer for storing the results of the different recognition means,
At least [U, U higher-order unit of the symbol
Information of the symbol string length L and the position P in the U of the symbol
Tag dictionary memory for storing (tags), and the symbol candidate string
From the tag dictionary memory for symbol candidates in the buffer
Tag for searching ternary information (tag) corresponding to the symbol candidate
Providing means for storing search results of the tag providing means.
Describes connection constraints between the logging information buffer and the upper layer unit
The upper layer constraint memory to be
Two ternary information [U1, L1, P1] and [U2, L2, P2]
And the positional relationship of the segments corresponding to the three-term information
U1 ・ L1 ・ P1 ・ U2 ・ L2 ・ P2 relationship and connection constraint
To connect to the analog data
Optimal tag chain search means for determining a one-dimensional symbol string
A symbol string reading device, wherein the analog data is image data of an address area of a post or a form, the symbol string is a character string, and the upper hierarchical unit is a prefecture name / city / county / town / village. A symbol string reading device that is an address element such as a name.
が可能であり、かつ、読み取り対象の記号列は該上位階
層単位の2個以上の並びであるときに、入力されたアナ
ログデータに対応する一次元の記号列を読み取る記号列
読み取り装置において、前記アナログデータのなかから
1記号に相当するセグメントを切り出して該セグメント
ごとに個別の記号認識を行なう個別認識手段と、前記個
別認識手段の結果を格納する記号候補列バッファと、各
記号に対して少なくとも[該記号の上位階層単位U,U
の記号列長L,該記号のU内位置P]という3項情報
(タグ)を格納するタグ辞書メモリと、前記記号候補列
バッファ中の記号候補に対して前記タグ辞書メモリから
該記号候補に対応する3項情報(タグ)を検索するタグ
付与手段と、前記タグ付与手段の検索結果を格納するタ
グ情報バッファと、上位階層単位の間の接続制約を記述
する上位階層制約メモリと、前記タグ情報バッファ内の
2つの3項情報[U1,L1,P1]と[U2,L2,P2]
について該3項情報に対応するセグメントの位置関係と
U1・L1・P1・U2・L2・P2間の関係とを接続制約に
用いて連結していくことで前記アナログデータに対応す
る一次元の記号列を決定する最適タグ連鎖探索手段とを
備えることを特徴とする記号列読み取り装置であって、 前記アナログデータはドキュメントにおける文章領域の
イメージデータで、前記記号列は文字列で、前記上位階
層単位は単語である記号列読み取り装置。7. Defining a higher hierarchical unit for a symbol
And the symbol string to be read is the upper floor
When there are two or more layers,
Symbol string to read one-dimensional symbol string corresponding to log data
In the reading device, from among the analog data,
Cut out a segment corresponding to one symbol, and
Individual recognition means for performing individual symbol recognition for each
A symbol candidate string buffer for storing the results of the different recognition means,
At least [U, U higher-order unit of the symbol
Information of the symbol string length L and the position P in the U of the symbol
Tag dictionary memory for storing (tags), and the symbol candidate string
From the tag dictionary memory for symbol candidates in the buffer
Tag for searching ternary information (tag) corresponding to the symbol candidate
Providing means for storing search results of the tag providing means.
Describes connection constraints between the logging information buffer and the upper layer unit
The upper layer constraint memory to be
Two ternary information [U1, L1, P1] and [U2, L2, P2]
And the positional relationship of the segments corresponding to the three-term information
U1 ・ L1 ・ P1 ・ U2 ・ L2 ・ P2 relationship and connection constraint
To connect to the analog data
Optimal tag chain search means for determining a one-dimensional symbol string
A symbol string reading device, wherein the analog data is image data of a text area in a document, the symbol string is a character string, and the upper layer unit is a word.
が可能であり、かつ、読み取り対象の記号列は該上位階
層単位の2個以上の並びであるときに、入力されたアナ
ログデータに対応する一次元の記号列を読み取る記号列
読み取り装置において、前記アナログデータのなかから
1記号に相当するセグメントを切り出して該セグメント
ごとに個別の記号認識を行なう個別認識手段と、前記個
別認識手段 の結果を格納する記号候補列バッファと、各
記号に対して少なくとも[該記号の上位階層単位U,U
の記号列長L,該記号のU内位置P]という3項情報
(タグ)を格納するタグ辞書メモリと、前記記号候補列
バッファ中の記号候補に対して前記タグ辞書メモリから
該記号候補に対応する3項情報(タグ)を検索するタグ
付与手段と、前記タグ付与手段の検索結果を格納するタ
グ情報バッファと、上位階層単位の間の接続制約を記述
する上位階層制約メモリと、前記タグ情報バッファ内の
2つの3項情報[U1,L1,P1]と[U2,L2,P2]
について該3項情報に対応するセグメントの位置関係と
U1・L1・P1・U2・L2・P2間の関係とを接続制約に
用いて連結していくことで前記アナログデータに対応す
る一次元の記号列を決定する最適タグ連鎖探索手段とを
備えることを特徴とする記号列読み取り装置であって、 前記アナログデータは発話連続音声の音響データで、前
記記号列は音素列で、前記上位階層単位は単語である記
号列読み取り装置。8. Defining a higher hierarchical unit for a symbol
And the symbol string to be read is the upper floor
When there are two or more layers,
Symbol string to read one-dimensional symbol string corresponding to log data
In the reading device, from among the analog data,
Cut out a segment corresponding to one symbol, and
Individual recognition means for performing individual symbol recognition for each
A symbol candidate string buffer for storing the results of the different recognition means ,
At least [U, U higher-order unit of the symbol
Information of the symbol string length L and the position P in the U of the symbol
Tag dictionary memory for storing (tags), and the symbol candidate string
From the tag dictionary memory for symbol candidates in the buffer
Tag for searching ternary information (tag) corresponding to the symbol candidate
Providing means for storing search results of the tag providing means.
Describes connection constraints between the logging information buffer and the upper layer unit
The upper layer constraint memory to be
Two ternary information [U1, L1, P1] and [U2, L2, P2]
And the positional relationship of the segments corresponding to the three-term information
U1 ・ L1 ・ P1 ・ U2 ・ L2 ・ P2 relationship and connection constraint
To connect to the analog data
Optimal tag chain search means for determining a one-dimensional symbol string
A symbol string reading apparatus, wherein the analog data is acoustic data of continuous speech, the symbol string is a phoneme string, and the upper layer unit is a word.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6309366A JP2790064B2 (en) | 1994-12-14 | 1994-12-14 | Symbol string reader |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6309366A JP2790064B2 (en) | 1994-12-14 | 1994-12-14 | Symbol string reader |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH08167007A JPH08167007A (en) | 1996-06-25 |
| JP2790064B2 true JP2790064B2 (en) | 1998-08-27 |
Family
ID=17992143
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6309366A Expired - Fee Related JP2790064B2 (en) | 1994-12-14 | 1994-12-14 | Symbol string reader |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2790064B2 (en) |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2635155B2 (en) * | 1989-03-20 | 1997-07-30 | 富士通株式会社 | Sticky address recognition device |
| JPH04111186A (en) * | 1990-08-31 | 1992-04-13 | N T T Data Tsushin Kk | Character recognition result correction method for address character string |
| JPH06124366A (en) * | 1992-10-14 | 1994-05-06 | Toshiba Corp | Address reader |
-
1994
- 1994-12-14 JP JP6309366A patent/JP2790064B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
| Title |
|---|
| 「手書き文字列読み取りのための単語列探索アルゴリズム−文字タグ法−」,情報処理学会研究報告,95−NL−107,(Vol.95,No.52),PP.43−50 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH08167007A (en) | 1996-06-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2734386B2 (en) | String reader | |
| US7693853B2 (en) | Method and apparatus for retrieving data representing a postal address from a plurality of postal addresses | |
| US9390084B2 (en) | Natural language parsers to normalize addresses for geocoding | |
| JP3639126B2 (en) | Address recognition device and address recognition method | |
| US20120197908A1 (en) | Method and apparatus for associating a table of contents and headings | |
| JPH0664631B2 (en) | Character recognition device | |
| Karpinski et al. | Metrics for complete evaluation of ocr performance | |
| JPWO2010044123A1 (en) | Search device, search index creation device, and search system | |
| JP3126945B2 (en) | Character error correction device | |
| CN111782892B (en) | Similar character recognition method, device, apparatus and storage medium based on prefix tree | |
| JP2790064B2 (en) | Symbol string reader | |
| Calvo-Zaragoza et al. | Music symbol sequence indexing in medieval plainchant manuscripts | |
| Riba et al. | Towards the alignment of handwritten music scores | |
| JP2004157337A (en) | Topic boundary determining method and apparatus, and topic boundary determining program | |
| JP4054453B2 (en) | Character recognition device and program recording medium | |
| JP2998054B2 (en) | Character recognition method and character recognition device | |
| JP2655087B2 (en) | Character recognition post-processing method | |
| JP3188154B2 (en) | Character recognition processing method | |
| JP2000251017A (en) | Word dictionary creation device and word recognition device | |
| JP2918380B2 (en) | Post-processing method of character recognition result | |
| JPH11272804A (en) | Character recognition method and device | |
| JPH0757059A (en) | Character recognition device | |
| JPH11110488A (en) | Character recognition method and recording medium | |
| JP2000011096A (en) | Character recognition processing device and method, and storage medium | |
| JPS646514B2 (en) |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080612 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090612 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100612 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100612 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110612 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110612 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120612 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120612 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130612 Year of fee payment: 15 |
|
| LAPS | Cancellation because of no payment of annual fees |