Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JPH058464B2 - - Google Patents
[go: Go Back, main page]

JPH058464B2 - - Google Patents

Info

Publication number
JPH058464B2
JPH058464B2 JP62023706A JP2370687A JPH058464B2 JP H058464 B2 JPH058464 B2 JP H058464B2 JP 62023706 A JP62023706 A JP 62023706A JP 2370687 A JP2370687 A JP 2370687A JP H058464 B2 JPH058464 B2 JP H058464B2
Authority
JP
Japan
Prior art keywords
word
character
words
character types
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62023706A
Other languages
English (en)
Other versions
JPS63198154A (ja
Inventor
Nobuyasu Ito
Hiroyasu Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP62023706A priority Critical patent/JPS63198154A/ja
Priority to EP87119141A priority patent/EP0277356B1/en
Priority to DE8787119141T priority patent/DE3776783D1/de
Priority to US07/150,960 priority patent/US4903206A/en
Publication of JPS63198154A publication Critical patent/JPS63198154A/ja
Publication of JPH058464B2 publication Critical patent/JPH058464B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
A 産業上の利用分野 この発明はつづり誤りのある単語を自動的に訂
正したり、オペレータに正しい単語のつづりを助
言したりするのに用いるつづり訂正装置に関す
る。 B 従来技術 コンピユータへの文書入力やデータ入力の負担
を軽減すべく、既存のテキストエデイタの改善に
加え、OCR、音声入力など様々な入力手法が提
供されてきている。しかしこれらのいずれにおい
ても入力誤りを完全に避けることは不可能であ
り、入力後のつづり誤りの検査と訂正とが不可欠
である。このためつづり誤りのある単語を見い出
し、さらにその入力文字列に対して正しいと思わ
れる単語の候補をオペレータに提示するプログラ
ムが開発されてきた。 実用上からみるとこのようなプログラムの効率
を決定するのは入力文字列に対して候補となる単
語、すなわち比較的類似するつづりを有する単語
を選び出す過程である。候補単語はこののち入力
文字列と詳細にマツチングさせられ、それが正解
単語が判別される。もつとも簡単な方法は辞書内
の全単語を候補とし、その1つ1つと入力文字列
とをあらかじめ決められた距離式によりマツチン
グし、入力文字列との類似度を計算するものであ
る。しかし実用的な辞書の多くは1万語ないし2
万語以上のサイズであることからこの方法は計算
コスト上実用的ではない。そこで詳細なマツチン
グを行う前に候補単語を絞る方法としてたとえば
つぎのようなものが提案されてきた。 (1) 入力単語と先頭1文字が一致し、長さの差が
一定以上(通常1〜3文字)の単語のみを候補
とする。 この手法は実用化されているプログラムに広
く採用されており、一例としてIBM社のWord
Proorを挙げることができる。 (2) 各文字に固定の数値を割り当て、入力単語の
つづりから一定の式に基づいてその入力単語の
値を計算し、その値をハツシングのキーとし、
値の差が一定以内の単語を取り出して候補とす
る。 この手法についてはW.S.Rosenbaumおよび
J.J.Hilliardの論文“Multifont OCR
Postprocessing System”IBM Jounal of
research and development Vol.19、No.5、
pp.398−421、1975年5月に記載がある。詳細
についてはとくにpp403−404の説明を参照さ
れたい。 (3) 入力単語から得られる文字種集合と各単語の
文字種集合とを全要素間で比較し、差が一定以
内の単語を候補とする。なお、ここでは単語に
含まれるすべての文字種を要素とする集合を、
文字種集合と定義することにする。 これについては特公昭59−29910号公報(米
国特許第435537号明細書)に詳細な説明があ
る。 手法(1)は入力単語の先頭の文字が最も高い信頼
性を有するという仮定に基づくものである。この
仮定はキーボード入力においてはある程度妥当な
ものである。しかしOCRなどにおいてはこの仮
定は必ずしも満たされず、先頭1文字を誤つたた
めに正解が単語候補からもれてしまうことが起こ
り得る。また候補の減少率が低いため通常他の手
法、たとえば単語誤りの統計に基づいて可能性の
低いものは除くという手法を併用する必要があ
る。 手法(2)は探索に要するコストは少ないが正解単
語の脱落という観点から見るとさらに検討を要す
る。各文字のどのような数値を割当てるべきかと
い検討も行われているが最悪の場合には1文字か
入れ替わつただけの入力文字列に対しても正解単
語が脱落し得る。 手法(3)は一定の閾値に対してそれ以内の文字の
入れ替わりならば、正解単語の脱落は起こらない
ことが保証される。しかしこの方法では入力文字
列の文字種集合と全単語のそれとを比較する必要
がある。一回あたりの比較に要する計算コストは
比較的少ないとはいえ万単位の単語がある場合に
は計算コスト上問題が残る。 C 発明が解決しようとしている問題点 この発明は以上の事情を考慮してなされたもの
であり、予め定められた閾値以内の文字の入れ替
わり、脱落、付加しか入力単語に存在しないので
あれば、その入力単語のつづりに基づいて決定さ
れた候補単語中に正解単語が含まれることを保証
することができ、しかも候補単語の決定の計算を
極めて少ないものに抑えることができるつづり誤
り訂正装置を提供することを目的としている。 D 問題点を解決するための手段 この発明では以上の目的を達成するため単語の
文字種集合中の特定の文字種組み合わせに注目し
て候補単語を選択するようにしている。 この特定の文字種組み合わせはつぎのように決
定される。 入力単語に含まれる文字種を予め定められた
基準にしたがつて整列化する。 整列化した文字種のうち上位のn個(nは整
数)を選ぶ。 n個の文字種のうちの任意のm個(mはm<
nを満たす整数)からなる文字種組み合わせを
生成する。 辞書中の単語はこのように抽出された文字種組
み合わせに基づいて分類され辞書中に記憶されて
いる。1個の単語に通常複数の文字種組み合わせ
が存在するので、1個の単語が複数のクラスに分
類されるのが普通である。 入力単語に対する候補単語を選択するには、入
力単語から抽出された文字種組み合わせで特定さ
れる1または複数(通常は複数)のクラスに含ま
れる単語を辞書から取り出せばよい。 この発明では上述の文字種組み合わせは単語の
属性と考えることができる。そしてこの属性は単
語の文字の置き換え、脱落、付加が一定の範囲の
ものであるかぎり、全面的には変更されることは
ない。すなわち少なくとも1つの文字種組み合わ
せはそのようなつづり誤りが加わつたとしても残
つているのである。したがつて上述のように特定
されたクラスの1つの中には正解単語が存在する
こととなる。 この発明では文字の置き換え、脱落、付加が一
定の範囲のものであるかぎり、候補単語中に必ら
ず正解単語を含ませることができ、しかも入力単
語の属性から一意的に候補単語のクラスを判別で
き、特別に煩雑な計算を要しない。 E 実施例 以下、この発明を印刷英数字OCRにより文書
入力システムに適用した一実施例について説明し
よう。なお、この発明を他の入力システムにも適
用できることはもちろんである。 第1図はこの実施例の構成を全体として示すも
のであり、この図において、システムはパーソナ
ルコンピユータ1、ビツト・マツプ・デイプレイ
2、スキヤナ3および補助記憶装置4から構成さ
れている。破線内のブロツクすなわち認識部5、
後処理部6およびユーザーインターフエース部7
はソフトウエアとして実現されている。実用的に
は認識部5をハードウエアで実現するようにして
もよい。後処理部6はこの発明に直接関連する部
分であり、この後処理部6をソフトウエアで実現
しても計算量や処理速度上何ら支障がないことは
のちに理解される。 第2図は第1図のシステムの手順を示すもので
ある。第1図および第2図において、オペレータ
が処理開始コマンドを発行するとユーザ・インタ
ーフエース部7はまずスキヤナ3にスキヤン要求
を供給する。文書8はスキヤナ3により検査さ
れ、イメージとして認識部5へ供給される
(S11)。認識部5ではイメージを1文字単位で切
り出したのち(S12)、切り出した1文字分のイ
メージがどの文字であるかを認識する(S13)。
識別の結果は唯一に決まると限らず、複数の候補
が出力されることもある。後述する第3図では第
1位の文字候補の列を枠で囲んで示してある。1
単語の認識が終了するとユーザーインターフエー
ス部7は後処理部6に対して認識結果のつづり誤
りの検査および訂正を要求する。後処理部6は認
識部5から供給された認識結果について補助記憶
装置4中の単語辞書を参照してつづりの確認を実
行し、辞書中に該当する単語が存在しない場合に
は、近似的に一致したつづりを有する単語を検索
する(S14)。この部分はこの発明と直接関連す
る部分であり、のち詳述する。ステツプ14の結果
はユーザーインタフエース部7を介してデイスプ
レイ2に表示され、オペレータが最終的に認識、
修正を行う(S15)。このようにしてコード化さ
れた正しい文書が得られることになる。 つぎにこの発明に直接関連する後処理部6につ
いて説明する。なお、この後処理部6の機能とし
てはづぎの2つがある。 (1) 入力文字列が単語として正しいつづりである
か(単語辞書に存在するかどうか)を検査す
る。 (2) 入力文字列(あるいは認識結果そのもの)に
対して類似したつづりをもつ単語を探索する。 機能(1)は機能(2)のサブセツトとして理解できる
のでここでは機能(2)についてのみ述べる。 第3図は後処理部6の詳細を示しており、この
図において、後処理部6はクラス生成部9、検索
機構10、マツチング部11およびパーソナルコ
ンピユータ1の主記憶12からなつている。クラ
ス生成部9は整列化部9a、上位4文字種選択部
9bおよび文字種組み合わせ生成部9cからなつ
ている。これら各部の構成は後述する第4図のス
テツプS22、S23およびS24にそれぞれ対応する。
この構成において、まず認識結果の第1位候補か
らなる文字列が入力文字列としてクラス生成部9
に供給される。クラス生成部はのちに詳述するク
ラスを生成する。検索機構10は生成されたクラ
スをキーにして補助記憶装置4中の単語辞書を探
索し、候補単語を選択して主記憶12に転送す
る。マツチング部11に得られた候補単語と入力
文字列(あるいは認識結果)とのマツチングを実
行し、マツチング距離が閾値以内ならば確からし
い単語として出力する。 以下、後処理部6の要部について順に詳述す
る。 クラス生成部9 第4図はクラス生成部9の処理手順を示してい
る。クラスとはm文字種(mは整数、たとえば
3)からなる文字種組み合わせに対応する属性名
として定義される。たとえば{a、b、c}、
{d、e、f}はそれぞれ1つのクラスである。
そして所定の単語が特定のクラスに属すること
は、その単語から以下に述べる手順をへて得られ
る文字種組み合わせのなかに、そのクラスを特定
する文字種組み合わせが存在することを意味す
る。ではこのクラス生成部9の処理を第4図を参
照して説明する。 ステツプS21 単語のつづりからその文字種集合を作成する。
従来技術の説明で述べたとおり、文字種集合とは
単語に含まれるすべての文字種を要素とする集合
である。 [例] example→{a、e、l、m、p、x} apple→{a、e、l、p} of→{f、o} ステツプS22 文字列集合を一定の基準により整列化する。こ
の例では単語の頻度を考慮しないときの各文字の
出現頻度の低さを用いている。この頻度順位を表
1に示す。 [例] {a、e、l、m、p、x}→[x、p、m、
l、a、e] {a、e、l、p}→[p、l、a、e] {f、o}→[f、o]
【表】 ステツプS23 整列化した要素の上位4文字種を取り出した部
分文字種集合を生成する。ただしもともと文字種
集合の要素が4個よりも少ない場合にはブランク
文字を加えて4文字種とする。ブランク文字は必
要に応じて重複して加えもよい。なお、以下でブ
ランク文字は“−”で表わす。 [例] [x、p、l、m、a、e]→{x、p、m、
l} [p、l、a、e]→{p、l、a、e} [f、o]→{f、o、−、−} ステツプS24 上述のように3文字種の組み合わせを1つのク
ラスと定義する。そして単語の部分文字集合の要
素を用いてつくることのできる3文字種組み合わ
せをすべて生成する。これは通常4個生成され
る。その単語は得られた3文字種組に対応するク
ラスに重複を許して、属しているものと定義す
る。英語の場合、文字種はブランク文字を含めて
27個あるので、合計2951個(=27C3+26)のクラ
スが存在し、各単語はこの中のいずれかに(通常
4クラスに重複して)属していることになる。 [例] appleの部分文字種集合は{p、l、a、e}
であるから、appleは{a、l、p}、{e、l、
p}、{a、e、p}および、{a、e、1}の4
つのクラスに属する。 単語辞書はこのようにして生成されたクラスに
基づいて検索できるようになつている。以下この
検索機構10および辞書構成例について述べる。 検索機構10と辞書構成例 第5図は辞書構成例を示す。第5図において、
辞書は第1インデツクス部13、第2インデツク
ス部14および辞書本体15からなつている。第
1インデツクス部13はクラスすなわち3文字種
組たとえば{a、b、c}と一意に対応するエン
トリを有し、各エントリごとにそのクラス第2イ
ンデツクスへの先頭ポインタと、属している単語
の数Nとを記憶している。第2インデツクス部1
4は各クラスと一対一に対応する複数の部分領域
14aを有している。そして第2インデツクス部
14の部分領域14a各エントリは単語と一意に
対応し、辞書本体15へのポインタと単語の長さ
を有している。もちろん単語候補をより絞るため
の付加情報を有してもよい。各エントリは辞書本
体15へのポインタおよび長さをキーとして整列
化されており、第1インデツクス13から得た先
頭ポインタからN個順次読み出しを行えば、その
部分領域のエントリを全部アクセスできる。辞書
本体15は単語のつづりやその他の情報を含んで
おり、第2インデツクス部14の各エントリ中の
ポインタにより直接にアクセスされる。 なおこの辞書構成においては、各クラスに属す
る単語を、そのクラスを特定する3文字種を上位
3文字種とする単語と、それ以外の単語とに別け
ておくことが好ましい。このようにすると単につ
づりが正しいかどうかを検査する場合に、余分な
検索を実行しなくてすむ。すなわち、つづりが正
しいかどうかの検査を行うには、上位3文字種が
入力単語に等しい単語のみを候補としてマツチン
グを実行すればよい。等しい単語が見い出せれば
つづりが正しいと判断し、見い出せなければつづ
りが誤つていると判断すればよいのである。そこ
で第5図の辞書を用いてつづりの誤りを検査する
場合には、入力文字列の上位3文字種組でクラス
を特定し、このクラスの中での上位3文字種組を
有する単語のみを取り出してマツチングを実行す
ればよい。以上のようにクラスを2分すれば不要
な検索を回避できる。なお、上位3文字種ではな
く、他の特定の列位置の3文字種を基準にしても
よい。 つぎにこのように構成された辞書を検索機構1
0がどうのようにアクセスするかについて例を挙
げて説明しておく。部分文字種集合を{x、p、
m、l}とする場合について考える。まずクラス
生成部9から検索機構10がクラス{l、m、
p}を受け取ると、この検索機構10は第1イン
デツクス部13からクラス{l、m、p}に属し
ている単語の数Niと、それらの単語の情報が格
納されている第2インデツクス部14中の部分領
域14a(Ciで示す)への先頭ポインタpiとを得
る。ポインタpiを用いて部分領域Ciにアクセスし
順に走査しながら入力文字列との長さが一定の閾
値以内のものを検索し、辞書本体15の該当する
単語へのポインタpik(k=1、……、Ni)を得
る。そしてこれら辞書本体15へのポインタをた
どり、たとえばsimple、exampleといつた単語の
つづりを読み出し、主記憶12に転送する。 同様にして他の3文字種組{m、p、x}、
{l、p、x}および{l、m、x}についても
該当する単語を選択して転送する。この場合、ク
ラスの定義から明らかなように重複した単語がい
くつか存在する。たとえば単語exampleはクラス
{l、m、p}、{m、p、x}、{l、p、x}お
よび{l、m、x}のいずれにも属し、そのまま
で4度重複して転送される。検索装置10はこの
重複した検索をチエツクして防止する機能も有す
る。 以上のようにしてクラス生成部9および検索機
構10により入力文字列に基づいて候補単語の選
択を実行できる。さまざまな入力文字列に対し、
このようにして得られる候補単語を表2に示す。
この表では、入力文字列との長さの差が1以内の
もののみ選択した。辞書のサイズは約11000語と
した。
【表】
【表】
【表】 マツチング部11 マツチング部11では選択された候補単語と入
力文字列(あるいは認識結果)とを照合してどの
程度類似しているかを測定する。この照合には
種々の手法を採用することができ、その詳細につ
いては当業者の自明であることから説明を行わな
いこととする。 実施例の説明を終えるに際し、この実施例の特
徴をまとめておくことにする。 (1) 単語中の特定の位置にある文字が正解である
かどうかに依存しない。とくに先頭の文字が正
解であるかどうかに無関係であることは既存の
方法の中でも広く用いられている先行技術(1)に
比較して優位な点である。 (2) 処理が簡単である。部分文字集合をもとめる
操作は入力文字列中の文字種の確認と集合演算
のみであり要素の数も高々数個程度であるから
ハツシユ方式と比較しても同程度の探索コスト
ですむ。辞書のアクセスもまた候補単語選択の
過程では辞書本体にアクセスする必要はなく、
処理のほとんどはインデスク2へ順次アクセス
ですみ、辞書のアクセス(補助記憶装置4のア
クセス)は実用上問題にならない。 (3) 用いる部分文字集合の要素数(n)と文字組合せ
の要素数(m)とにより決定される閾値(n−m)
以内の文字の入れ替り、脱落、追加ならば正解
単語が候補からもれてしまうことはない。また
それ以上の入れ替りなどに対しても適切な整列
化の基準(本例で候補単語の減少率を高くする
ため頻度の低さを基準としているが、誤りの起
こり難さなども基準に取り入れることができ
る)のもとでは部分文字集合が大きく異なつて
しまうような単語の変形は極めてまれであり、
したがつて正解単語が脱落する確率は極めて低
い。 (4) 各クラス内の単語を上位m文字種に着目して
2分することによりつづり検査時の検索を少な
くすることがでいる。 (5) 文字種組み合わせによる分類に加えて単語の
長さも考慮して候補単語を選択しているので、
効率よく候補の絞り込みを行える。 なお、この発明の範囲は上述実施例のみに限定
されるものではなく、その趣旨を逸脱しない範囲
で変更を行うことができる。たとえば文字種は英
文字に限定されない。また。入力は音声認識やキ
ーボードを用いてもよい。また部分文字種集合の
要素数nや文字種組み合わせの要素数mを種々変
更できる。また整列化の基準として他の統計情報
等を用いてもよい。さらに辞書の構成としても
種々のものを採用してよい。 F 発明の効果 以上説明したように、この発明によれば単語の
文字種集合の要素の特定の組み合わせをその単語
の属性とし、この属性に基づいて辞書中の単語を
分類している。他方入力単語から同様の属性を抽
出し、属性を同一とするクラスの単語を辞書から
取り出して入力単語の候補とするようにしてい
る。したがつて少ない計算量で候補単語を得るこ
とができる。しかも上述の組み合わせの生成規則
から所定の範囲の文字の入れ替え、脱落、挿入に
よるつづり誤りの訂正を保証することができる。
【図面の簡単な説明】
第1図はこの発明の一実施例全体として示すブ
ロツク図、第2図は第1図の実施例の手順を示す
フローチヤート、第3図は第1図の後処理部6の
詳細を示すブロツク図、第4図は第3図のクラス
生成部9を説明するためのフローチヤート、第5
図は検索機構10がアクセスする単語辞書の構成
例を示す図である。 1……パーソナルコンピユータ、2……デイス
プレイ、3……スキヤナ、4……補助記憶装置、
5……認識部、6……後処理部、9……クラス生
成部、10……検索機構、11……マツチング
部。

Claims (1)

  1. 【特許請求の範囲】 1 つづり誤り訂正装置であつて、 (a) 正しくつづられている多数の単語を記憶する
    記録手段を備え、前記単語の各々は前記単語に
    割り当てられた文字種の組み合わせに基づいて
    前記記憶手段から読みだすことができ、前記割
    り当てられた文字種の組み合わせが、 前記単語に含まれる文字種を所定の序列にし
    たがつて整理し、文字列を得るステツプと、 前記文字列から上位のn個のうちのm個から
    なる文字種(n、mは整数であり、n>mの関
    係を有する)を選択するステツプと、 によつて作られるような記憶手段と、 (b) 入力単語に含まれる文字種を前記序列に基づ
    いて整列化する手段と、 (c) 整列化した文字種の上位n個のうちのm個か
    らなる文字種の組み合わせを求める手段と、 (d) 求められた文字種の組み合わせの各々に基づ
    いて前記記憶手段から正しくつづられた単語を
    読み出す手段と、 (e) 前記入力単語を前記読みだされた単語にマツ
    チングさせる手段と、 を含むつづ誤り訂正装置。 2 上記n個の文字種には1以上のブランク文字
    を含ませることができるようにした特許請求の範
    囲の第1項記載のつづり誤り訂正装置。 3 上記序列は文字種の出現頻度の低さによるこ
    ととした特許請求の範囲第1項または第2項記載
    のつづり誤り訂正装置。 4 上記記憶手段は正しくつづられている単語を
    記憶する記憶手段本体部と、上記文字種を組み合
    わせに基づいて上記記憶手段本体部の記憶位置を
    指定するインデツクス部とを有する特許請求の範
    囲第1項、第2項または第3項記載のつづり誤り
    訂正装置。 5 上記インデツクス部は、つづり誤りの検査時
    に、上記入力単語の整列化された文字種のうちm
    個の列位置の文字種に応じて、読み出すべき単語
    の範囲を絞り込むようにされている特許請求の範
    囲第4項記載のつづり誤り訂正装置。 6 上記m個の列位置を上記のm位置とした特許
    請求の範囲第5項記載のつづり誤り訂正装置。 7 上記インデツクス部は上記入力単語の長さに
    応じて、読み出すべき単語の範囲を絞りこむよう
    にされている特許請求の範囲第4項、第5項また
    は第6項記載のつづり誤り訂正装置。
JP62023706A 1987-02-05 1987-02-05 つづり誤り訂正装置 Granted JPS63198154A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP62023706A JPS63198154A (ja) 1987-02-05 1987-02-05 つづり誤り訂正装置
EP87119141A EP0277356B1 (en) 1987-02-05 1987-12-23 Spelling error correcting system
DE8787119141T DE3776783D1 (de) 1987-02-05 1987-12-23 System zur korrektur von rechtschreibung.
US07/150,960 US4903206A (en) 1987-02-05 1988-02-01 Spelling error correcting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62023706A JPS63198154A (ja) 1987-02-05 1987-02-05 つづり誤り訂正装置

Publications (2)

Publication Number Publication Date
JPS63198154A JPS63198154A (ja) 1988-08-16
JPH058464B2 true JPH058464B2 (ja) 1993-02-02

Family

ID=12117800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62023706A Granted JPS63198154A (ja) 1987-02-05 1987-02-05 つづり誤り訂正装置

Country Status (4)

Country Link
US (1) US4903206A (ja)
EP (1) EP0277356B1 (ja)
JP (1) JPS63198154A (ja)
DE (1) DE3776783D1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0833806B2 (ja) * 1989-03-13 1996-03-29 富士通株式会社 データ処理装置における多国語変換処理方式
US5261112A (en) * 1989-09-08 1993-11-09 Casio Computer Co., Ltd. Spelling check apparatus including simple and quick similar word retrieval operation
FR2660085A1 (fr) * 1990-03-20 1991-09-27 Philips Electronique Lab Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire.
US5604897A (en) * 1990-05-18 1997-02-18 Microsoft Corporation Method and system for correcting the spelling of misspelled words
US5157759A (en) * 1990-06-28 1992-10-20 At&T Bell Laboratories Written language parser system
CA2076526A1 (en) * 1990-12-31 1992-07-01 Min-Wen Du Fast approximate string matching algorithms for multiple errors spelling correction
US5329598A (en) * 1992-07-10 1994-07-12 The United States Of America As Represented By The Secretary Of Commerce Method and apparatus for analyzing character strings
US6041141A (en) * 1992-09-28 2000-03-21 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
US5987170A (en) * 1992-09-28 1999-11-16 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
US5576955A (en) * 1993-04-08 1996-11-19 Oracle Corporation Method and apparatus for proofreading in a computer system
JPH0793335A (ja) * 1993-06-07 1995-04-07 Internatl Business Mach Corp <Ibm> テキストの言語機能を提供する方法
US5392212A (en) * 1993-07-07 1995-02-21 The United States Of America As Represented By The Secretary Of Commerce Apparatus for identifying unknown words by comparison to known words
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
JP2734386B2 (ja) * 1994-12-20 1998-03-30 日本電気株式会社 文字列読み取り装置
JP3003915B2 (ja) * 1994-12-26 2000-01-31 シャープ株式会社 単語辞書検索装置
US5774588A (en) * 1995-06-07 1998-06-30 United Parcel Service Of America, Inc. Method and system for comparing strings with entries of a lexicon
US6047300A (en) * 1997-05-15 2000-04-04 Microsoft Corporation System and method for automatically correcting a misspelled word
US6760746B1 (en) * 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
US6782510B1 (en) 1998-01-27 2004-08-24 John N. Gross Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields
US6507678B2 (en) * 1998-06-19 2003-01-14 Fujitsu Limited Apparatus and method for retrieving character string based on classification of character
US9141717B2 (en) * 1999-03-22 2015-09-22 Esdr Network Solutions Llc Methods, systems, products, and devices for processing DNS friendly identifiers
US8037168B2 (en) * 1999-07-15 2011-10-11 Esdr Network Solutions Llc Method, product, and apparatus for enhancing resolution services, registration services, and search services
US6338082B1 (en) 1999-03-22 2002-01-08 Eric Schneider Method, product, and apparatus for requesting a network resource
USRE43690E1 (en) 1999-03-22 2012-09-25 Esdr Network Solutions Llc Search engine request method, product, and apparatus
US7188138B1 (en) 1999-03-22 2007-03-06 Eric Schneider Method, product, and apparatus for resource identifier registration and aftermarket services
USRE44207E1 (en) 1999-09-01 2013-05-07 Esdr Network Solutions Llc Network resource access method, product, and apparatus
US20050235031A1 (en) * 1999-09-10 2005-10-20 Eric Schneider Hyperlink generation and enhanced spell check method, product, apparatus, and user interface system
US7565402B2 (en) * 2002-01-05 2009-07-21 Eric Schneider Sitemap access method, product, and apparatus
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
KR101035744B1 (ko) * 2008-12-08 2011-05-20 삼성전자주식회사 카메라를 이용한 문자 인식 장치 및 방법
CN101930545A (zh) * 2009-06-24 2010-12-29 夏普株式会社 手写识别方法和设备
NZ589039A (en) * 2009-09-24 2013-04-26 Nec Corp Recognition of a word image with a plurality of characters by way of comparing two possible candidates based on an evaluation value
US9047268B2 (en) 2013-01-31 2015-06-02 Google Inc. Character and word level language models for out-of-vocabulary text input
US9454240B2 (en) 2013-02-05 2016-09-27 Google Inc. Gesture keyboard input of non-dictionary character strings
US8756499B1 (en) * 2013-04-29 2014-06-17 Google Inc. Gesture keyboard input of non-dictionary character strings using substitute scoring
CN110750959B (zh) * 2019-10-28 2022-05-10 腾讯科技(深圳)有限公司 文本信息处理的方法、模型训练的方法以及相关装置
CN111523532A (zh) * 2020-04-14 2020-08-11 广东小天才科技有限公司 一种矫正ocr文字识别错误的方法及终端设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3969698A (en) * 1974-10-08 1976-07-13 International Business Machines Corporation Cluster storage apparatus for post processing error correction of a character recognition machine
US4328561A (en) * 1979-12-28 1982-05-04 International Business Machines Corp. Alpha content match prescan method for automatic spelling error correction
US4355371A (en) * 1980-03-25 1982-10-19 International Business Machines Corporation Instantaneous alpha content prescan method for automatic spelling error correction

Also Published As

Publication number Publication date
EP0277356B1 (en) 1992-02-19
JPS63198154A (ja) 1988-08-16
EP0277356A2 (en) 1988-08-10
US4903206A (en) 1990-02-20
EP0277356A3 (en) 1988-12-07
DE3776783D1 (de) 1992-03-26

Similar Documents

Publication Publication Date Title
JPH058464B2 (ja)
US11163955B2 (en) Identifying non-exactly matching text
JP4421134B2 (ja) 文書画像検索装置
US5572423A (en) Method for correcting spelling using error frequencies
US4862408A (en) Paradigm-based morphological text analysis for natural languages
US6602300B2 (en) Apparatus and method for retrieving data from a document database
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
JPH08241335A (ja) ファジー非決定性有限オートマトンを使用したあいまいな文字列検索方法及びシステム
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
US20020169763A1 (en) Method and system for expanding document retrieval information
Chaudhuri Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text
US12585878B2 (en) Information processing apparatus and information processing method
JP6476886B2 (ja) キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム
KR20210105626A (ko) 기술문서 번역 지원 시스템
US20240037129A1 (en) Search device, search method, and recording medium
Liang Spell checkers and correctors: A unified treatment
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH09153034A (ja) 文書作成装置及び文書作成方法
US20230139699A1 (en) Identifying Non-Exactly Matching Text with Diagonal Matching
Banik et al. Spelling Checking Mechanism Based on Layered Language Model Complied with Google Web
JP3241854B2 (ja) 単語スペル自動補正装置
KR101099917B1 (ko) 검색용 색인 기반 질의어 추천 방법 및 그 시스템
Samsuri et al. A comparison of distributed, pam, and trie data structure dictionaries in automatic spelling correction for indonesian formal text
JP2004199282A (ja) 文書検索装置および文書登録装置
JP3139624B2 (ja) 形態素解析装置