JP7828298B2 - 校閲システム - Google Patents
校閲システムInfo
- Publication number
- JP7828298B2 JP7828298B2 JP2022569309A JP2022569309A JP7828298B2 JP 7828298 B2 JP7828298 B2 JP 7828298B2 JP 2022569309 A JP2022569309 A JP 2022569309A JP 2022569309 A JP2022569309 A JP 2022569309A JP 7828298 B2 JP7828298 B2 JP 7828298B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- words
- unit
- comparison
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図2は、校閲方法の一例を示す図である。
図3A乃至図3Cは、校閲方法の一例を示す図である。
図4は、校閲方法の一例を示す図である。
図5A乃至図5Eは、校閲方法の一例を示す図である。
図6は、校閲システムの構成例を示す図である。
図7は、校閲方法の一例を示す図である。
図8は、校閲システムの構成例を示す図である。
図9は、校閲方法の一例を示す図である。
図10A及び図10Bは、校閲方法の一例を示す図である。
図11は、校閲方法の一例を示す図である。
図12は、校閲方法の一例を示す図である。
図13は、校閲システムの一例を示す図である。
本実施の形態では、本発明の一態様の校閲システム、及び校閲方法について、図面を用いて説明する。
図1は、校閲システム10aの構成例を示すブロック図である。校閲システム10aは、受付部11、記憶部12、処理部13、及び提示部14を有する。処理部13は、分割部21、出現頻度取得部22、画像生成部23、及び類似度取得部24を有する。
受付部11は、文書を受け付ける機能を有する。具体的には、受付部11は、文書を表すデータを受け付ける機能を有する。受付部11に供給された文書は、処理部13に供給することができる。
記憶部12は、受付部11に供給されたデータ、及び処理部13から出力されたデータ等を記憶する機能を有する。また、記憶部12は、処理部13が実行するプログラムを記憶する機能を有する。
処理部13は、受付部11から供給されたデータ、及び記憶部12に記憶されたデータ等を用いて、演算等の処理を行う機能を有する。処理部13は、処理結果を記憶部12、又は提示部14に供給することができる。
分割部21は、文書に含まれる文章を単語に分割する機能を有する。例えば英語の文章ではスペースに基づき、単語に分割することができる。また、日本語の文章では、例えば分かち書き処理を行うことにより、単語に分割することができる。分割部21が取得した単語は、出現頻度取得部22、画像生成部23、及び類似度取得部24に供給することができる。ここで、分割部21は、文章を単語に分割する際に、文章のクリーニング処理を行うことが好ましい。クリーニング処理では、文章内に含まれるノイズを除去する。例えば、英語の文章である場合は、当該クリーニング処理とは、セミコロンを削除する、及びコロンをカンマに置き換える等とすることができる。
出現頻度取得部22は、分割部21が文章を分割することにより取得した語の、例えばデータベースに登録された文書群における出現頻度を取得する機能を有する。具体的には、出現頻度取得部22は、例えば分割部21が文章を分割することにより取得した語を表す文字コードと同一の文字コードの語が、データベースに登録された文書群において出現する頻度を取得することができる。ここで、文書群は、1以上の文書の集合を表す。文書群には、例えばデータベースに登録された文書の全て、又は一部が含まれる。例えば、データベースに特許出願、又は論文等の技術文書が登録されている場合、文書群は、データベースに登録された文書のうち特定の技術分野の文書の集合とすることができる。
画像生成部23は、語を画像化した画像データを生成する機能を有する。当該画像は、例えば語を表すテキストを白色、背景を黒色とした2値データとすることができる。また、当該画像は、例えば語を表すテキストを黒色、背景を白色とした2値データとしてもよい。さらに、当該画像は、多値のデータとしてもよい。例えば、語を表すテキストを灰色、背景を黒色又は白色としてもよい。また、語を表すテキストを白色又は黒色、背景を灰色としてもよい。さらに、カラーの画像としてもよい。
類似度取得部24は、画像生成部23が取得した画像を比較し、類似度を取得する機能を有する。類似度は、例えば領域ベースマッチング、又は特徴ベースマッチングにより算出して取得することができる。また、類似度取得部24は、提示部14に供給する語を上記類似度に基づき選択する機能を有する。ここで、分割部21が前述のクリーニング処理を行うことにより、類似度を高い精度で算出することができる。
提示部14は、処理部13の処理結果に基づいて、情報を校閲システム10aのユーザに提示する機能を有する。当該情報は、例えば類似度取得部24が出力した語とすることができる。提示部14は、例えば情報を表示することにより、当該情報を校閲システム10aのユーザに提示することができる。つまり、提示部14は、例えばディスプレイとすることができる。また、提示部14は、スピーカとしての機能を有してもよい。
まず、校閲システム10aが校閲を行う機能を有するために必要となるデータを取得し、例えばデータベースに登録する。前述のように、当該データベースは、記憶部12が有することができる。又は、当該データベースは、校閲システム10aの外部に存在するデータベースとすることができる。
ステップS01では、受付部11が比較用文書群100を受け付ける。図3Aは、ステップS01における処理の一例を示す模式図である。図3Aに示すように、比較用文書群100は、1以上の比較用文書101の集合である。
ステップS02では、分割部21が、比較用文書101に含まれる文章を語に分割することにより、比較用語群102を取得する。図3Bは、ステップS02における処理の一例を示す模式図である。図3Bに示すように、比較用語群102は、語103の集合とすることができる。図3Bでは、比較用文書101に”FET”という語が含まれる例を示している。この場合、比較用語群102に含まれる語103にも、”FET”が含まれる。ここで、比較用文書群100の中に同一の語が複数回出現する場合は、比較用語群102にも、同一の語103を複数含むものとする。例えば、”FET”という語が比較用文書群100の中に100回出現する場合は、比較用語群102は”FET”という語103を100個含むものとする。
ステップS03では、出現頻度取得部22が、語103の、比較用文書群100における出現頻度を算出して取得する。前述のように、出現頻度は、例えばTF値として算出することができる。
ステップS04では、画像生成部23が比較用語群102に含まれる語103を画像化することにより、比較用画像群104を取得する。図3Cは、ステップS04における処理の一例を示す模式図である。図3Cに示すように、比較用画像群104は、語103を画像化した比較用画像105の集合とすることができる。図3Cでは、比較用画像105を、語103を表すテキストを白色、背景を黒色とした2値データとする例を示している。
ステップS05では、ステップS03において出現頻度取得部22が取得した語103の出現頻度、及びステップS04において画像生成部23が取得した比較用画像群104を、例えばデータベースに登録する。前述のように、当該データベースは、例えば記憶部12が有するデータベースとすることができる。また、校閲システム10aの外部に存在するデータベースに、出現頻度、及び比較用画像群104を登録してもよい。なお、校閲システム10aがステップS03とステップS04を並行して行わず、例えばステップS03の後にステップS04を行う場合、ステップS03を行って出現頻度取得部22が語103の出現頻度を取得してデータベースに登録し、その後ステップS04を行って画像生成部23が比較用画像群104を取得してデータベースに登録することができる。
ステップS11では、受付部11が校閲対象の文書である指定文書111を受け付ける。図5Aは、ステップS11における処理の一例を示す模式図である。図5Aでは、指定文書111は、1つの文書としている。なお、指定文書111として複数の文書を、受付部11が受け付けてもよい。
ステップS12では、分割部21が、指定文書111に含まれる文章を語に分割することにより、指定文書語群112を取得する。図5Bは、ステップS12における処理の一例を示す模式図である。図5Bに示すように、指定文書語群112は、語113の集合とすることができる。図5Bでは、指定文書111に”FEΤ”(FとEはアルファベット、Τはギリシャ文字)という語が、例えば1つ含まれる例を示している。この場合、指定文書語群112に含まれる語113にも、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)が含まれる。
ステップS13では、出現頻度取得部22が、指定文書語群112に含まれる語113の、比較用文書群100における出現頻度を取得する。出現頻度は、例えばデータベースから読み出して取得することができ、また記憶部12から読み出して取得することができる。例えば、語113を表す文字コードと同一の文字コードの語103の比較用文書群100における出現頻度を、語113の比較用文書群100における出現頻度とすることができる。この場合、出現頻度が取得できない語113は、比較用文書群100に出現しない語であるとすることができる。よって、出現頻度が取得できない語113の比較用文書群100における出現頻度は、0とすることができる。なお、ステップS13において、出現頻度取得部22が、指定文書語群112に含まれる語113の、比較用文書群100における出現頻度を算出してもよい。この場合、語103の比較用文書群100における出現頻度は、例えばデータベースに登録しなくてもよい。よって、例えば図2に示すステップS03を省略することができる。
ステップS14では、画像生成部23が、誤記等である可能性がある語113、つまり比較用文書群100における出現頻度が低い語113を画像化することにより、検証画像115を取得する。例えば、出現頻度がしきい値以下である語113を画像化する。また、ステップS13において例えば形態素解析を行った場合は、品詞を判別できなかった語113を画像化する。
ステップS15では、類似度取得部24が、検証画像115と、比較用画像群104に含まれる比較用画像105と、を比較する。これにより、類似度取得部24が、検証画像115と、比較用画像105と、の類似度を取得する。図5Dは、ステップS15における処理の一例を示す模式図である。検証画像115は、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)を表すものとし、”FET”(F、E、Tはいずれもアルファベット)を表す比較用画像105との類似度が高いものとする。前述のように、類似度は、例えば領域ベースマッチング、又は特徴ベースマッチングにより算出して取得することができる。
ステップS16では、提示部14が、ステップS15において検証画像115との類似度を取得した比較用画像105のうち、類似度の高い比較用画像105が表す語103を提示する。提示部14は、少なくとも検証画像115との類似度が最も高い比較用画像105が表す語103を提示することが好ましい。例えば、提示部14は、検証画像115との類似度が最も高い比較用画像105が表す語103から数えて、所定の個数の語103を提示することができる。又は、提示部14は、最も高い類似度との差がしきい値以下である類似度の比較用画像105が表す語103を提示することができる。又は、提示部14は、検証画像115との類似度がしきい値以上の比較用画像105が表す語103を提示することができる。
図6は、校閲システム10bの構成例を示すブロック図である。校閲システム10bは、校閲システム10aの変形例であり、処理部13がモデル演算部25を有する点が、校閲システム10aと異なる。以下では、校閲システム10bについて、校閲システム10aとの相違点を主に説明する。
以下では、校閲システム10bを用いた校閲方法の一例を説明する。校閲システム10bが校閲を行う機能を有するために必要となるデータは、例えば図2、及び図3A乃至図3Cに示す方法と同様の方法で取得することができる。
ステップS21では、類似度取得部24が、ステップS15において検証画像115との類似度を取得した比較用画像105のうち、類似度の高い比較用画像105が表す語103をモデル演算部25に供給する。これにより、モデル演算部25が、当該類似度の高い比較用画像105が表す語103を取得することができる。
ステップS22では、モデル演算部25が取得した語103の、検証画像115に対応する語113として置き換えられる確率を語103ごとに取得する。具体的には、モデル演算部25には言語モデルが組み込まれており、言語モデルを用いて当該確率を算出する。当該確率は、例えば指定文書111に含まれる文章に基づき算出することができる。例えば、検証画像115に対応する語113を含む文、又は段落等を、語113を語103に置き換えて言語モデルに供給して、置き換えた語103の出現確率を算出する。これにより、モデル演算部25が取得した語103の、検証画像115に対応する語113として置き換えられる確率を算出することができる。
ステップS23では、提示部14が、上記確率が高い語103を提示する。提示部14は、少なくとも上記確率が最も高い語103を提示することが好ましい。例えば、提示部14は、上記確率が最も高い語103から数えて、所定の個数の語103を提示することができる。又は、提示部14は、最も高い上記確率との差がしきい値以下である確率の語103を提示することができる。又は、提示部14は、上記確率がしきい値以上の語103を提示することができる。
図8は、校閲システム10cの構成例を示すブロック図である。校閲システム10cは、校閲システム10bの変形例であり、処理部13が類似度取得部24を有さない点が、校閲システム10bと異なる。校閲システム10cでは、例えば画像生成部23が出力したデータは、モデル演算部25に供給される。
以下では、校閲システム10cを用いた校閲方法の一例を説明する。ここで、モデル演算部25には、画像判定モデルが組み込まれているものとする。画像判定モデルは、語を画像化したデータがモデル演算部25に供給されると、当該画像が表す語を推定する機能を有する。
ステップS31では、検証画像115が、モデル演算部25に組み込まれた画像判定モデルに供給される。これにより、画像判定モデルが、検証画像115が表す語を推定する。具体的には、画像判定モデルが、検証画像115が表す語の確率を算出する。例えば、画像判定モデルに”FEΤ”(FとEはアルファベット、Τはギリシャ文字)という語を画像化したデータが供給された場合、当該画像判定モデルは”FET”(F、E、Tはいずれもアルファベット)の確率が高いと判定することができる。
ステップS32では、提示部14が、推定結果を提示する。具体的には、検証画像115が表す語としての確率が高い語を提示する。提示部14は、少なくとも当該確率が最も高い語を提示することが好ましい。例えば、提示部14は、当該確率が最も高い語から数えて、所定の個数の語を提示することができる。又は、提示部14は、最も高い当該確率との差がしきい値以下である確率の語を提示することができる。又は、提示部14は、当該確率がしきい値以上の語を提示することができる。
以下では、モデル演算部25に組み込むことができる画像判定モデルとして機械学習モデルを適用する場合の、画像判定モデルの構成例、及び学習方法の一例を説明する。
以上説明した校閲方法_1乃至校閲方法_3は、適宜組み合わせることができる。図11は、校閲方法_1乃至校閲方法_3に示す方法を組み合わせた校閲方法の一例を示すフローチャートであり、ステップS11からステップS15、及びステップS41からステップS43までの処理を有する。図11に示す処理は、校閲システム10bにより行うことができる。ここで、モデル演算部25には、言語モデルの他、画像判定モデルが組み込まれているものとする。
ステップS41では、検証画像115が、モデル演算部25に組み込まれた画像判定モデルに供給される。これにより、モデル演算部25が、検証画像115が表す語の確率を算出する。当該確率を第1の確率とする。第1の確率は、ステップS15で類似度取得部24が取得した類似度を考慮して算出する。例えば、画像判定モデルが算出した確率に対応する値に、当該確率を算出した語を画像化した比較用画像105の、検証画像115との類似度に対応する値を加えることにより、第1の確率を算出する。ステップS41により、モデル演算部25が第1の確率を取得することができる。
ステップS42では、モデル演算部25が、第1の確率が高い語の、検証画像115に対応する語113として置き換えられる確率を取得する。当該確率を第2の確率とする。第2の確率は、モデル演算部25に組み込まれた言語モデルにより算出することができる。
ステップS43では、提示部14が、第2の確率が高い語を提示する。提示部14は、少なくとも第2の確率が最も高い語を提示することが好ましい。例えば、提示部14は、第2の確率が最も高い語から数えて、所定の個数の語を提示することができる。又は、提示部14は、最も高い第2の確率との差がしきい値以下である第2の確率の語を提示することができる。又は、提示部14は、第2の確率がしきい値以上の語を提示することができる。
図12は、校閲システム10bによる校閲方法の一例を示すフローチャートであり、ステップS11からステップS15、ステップS21からステップS22、及びステップS51からステップS53までの処理を有する。
ステップS51では、モデル演算部25が、検証画像115に対応する語113として置き換えられる確率を取得した語103のうち、当該確率が高い語103の同音異義語を取得する。モデル演算部25は、少なくとも当該確率が最も高い語103の同音異義語を取得することが好ましい。例えば、モデル演算部25は、当該確率が最も高い語103から数えて、所定の個数の語103の同音異義語を取得することができる。又は、モデル演算部25は、最も高い当該確率との差がしきい値以下である確率の語103の同音異義語を取得することができる。又は、モデル演算部25は、当該確率がしきい値以上の語103の同音異義語を取得することができる。
ステップS52では、モデル演算部25が、上記取得した同音異義語の、検証画像115に対応する語113として置き換えられる確率を取得する。当該確率は、モデル演算部25に組み込まれた言語モデルを用いて算出することができる。
ステップS53では、モデル演算部25が同音異義語を取得した語103そのものと、検証画像115に対応する語113として置き換えられる確率が語103より上昇した同音異義語と、を提示部14に提示する。例えば、語103における当該確率より、確率がしきい値以上に上昇した同音異義語を提示部14に提示することができる。
図4、図7、図9、図11、及び図12に示す方法では、ステップS12において、分割部21が、指定文書111に含まれる文章を語113に分割する。前述のように、例えば英語の文章ではスペースに基づき、語113に分割することができる。この場合、指定文書111に例えば“transistor”という語が“transistor”の誤記として含まれているとすると、“tran”と“sistor”が異なる語113として分割される場合がある。“tran”という語が比較用語群102に含まれない場合、“tran”という語を画像化した検証画像115と類似度の高い比較用画像105が存在しない場合がある。同様に、“sistor”という語が比較用語群102に含まれない場合、“sistor”という語を画像化した検証画像115と類似度の高い比較用画像105が存在しない場合がある。よって、指定文書111に例えば“tran sistor”という語が含まれていても、訂正候補として“transistor”を提示できない場合がある。
Claims (6)
- 分割部と、出現頻度取得部と、画像生成部と、モデル演算部と、提示部と、を有し、
前記分割部は、比較用文書群に含まれる文章を複数の第1の語に分割する機能、及び指定文書に含まれる文章を複数の第2の語に分割する機能を有し、
前記出現頻度取得部は、前記複数の第2の語の、前記比較用文書群における出現頻度を取得する機能を有し、
前記画像生成部は、前記第1の語を画像化して比較用画像群を取得する機能を有し、
前記画像生成部は、前記複数の第2の語のうち、前記出現頻度が第1のしきい値以下である前記第2の語を画像化して検証画像を取得する機能を有し、
前記モデル演算部は、前記検証画像が表す語を推定する機能を有し、
前記提示部は、前記推定の結果を提示する機能を有する校閲システム。 - 請求項1において、
前記モデル演算部は、機械学習モデルを用いた演算を行う機能を有する校閲システム。 - 請求項2において、
前記機械学習モデルは、前記比較用画像群を用いて学習されたものである校閲システム。 - 請求項3において、
前記機械学習モデルは、前記比較用画像群に含まれる比較用画像に、正解ラベルとして語を紐付けたデータを用いた、教師あり学習により学習されたものである校閲システム。 - 請求項3又は4において、
前記機械学習モデルは、第1の分類器と、二以上の第2の分類器と、を有し、
前記第1の分類器は、前記比較用画像群に含まれる比較用画像に対して、グルーピングを行う機能を有し、
前記第2の分類器は、前記グルーピングが行われた前記比較用画像が表す語を推定する機能を有し、
前記比較用画像が表す語の推定は、グループごとに異なる前記第2の分類器を用いて行われる校閲システム。 - 請求項2乃至5のいずれか一項において、
前記機械学習モデルは、ニューラルネットワークモデルである校閲システム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020206688 | 2020-12-14 | ||
| JP2020206688 | 2020-12-14 | ||
| PCT/IB2021/061206 WO2022130093A1 (ja) | 2020-12-14 | 2021-12-02 | 校閲システム、及び校閲方法 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JPWO2022130093A1 JPWO2022130093A1 (ja) | 2022-06-23 |
| JPWO2022130093A5 JPWO2022130093A5 (ja) | 2024-12-09 |
| JP7828298B2 true JP7828298B2 (ja) | 2026-03-11 |
Family
ID=82057420
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022569309A Active JP7828298B2 (ja) | 2020-12-14 | 2021-12-02 | 校閲システム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20240071116A1 (ja) |
| JP (1) | JP7828298B2 (ja) |
| CN (1) | CN116601640A (ja) |
| WO (1) | WO2022130093A1 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12511797B2 (en) * | 2023-09-08 | 2025-12-30 | Adobe Inc. | Semantic image synthesis |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10007863B1 (en) | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
| US20190102653A1 (en) | 2017-09-29 | 2019-04-04 | Konica Minolta Laboratory U.S.A., Inc. | Local connectivity feature transform of binary images containing text characters for optical character/word recognition |
| JP2019204214A (ja) | 2018-05-22 | 2019-11-28 | 大日本印刷株式会社 | 学習装置、学習方法、プログラム及び推定装置 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20010007863A1 (en) * | 1998-06-18 | 2001-07-12 | Merck & Co., Inc. | Wet granulation formulation for bisphosphonic acids |
| US5764799A (en) * | 1995-06-26 | 1998-06-09 | Research Foundation Of State Of State Of New York | OCR method and apparatus using image equivalents |
| JPH09190506A (ja) * | 1996-01-11 | 1997-07-22 | Nec Eng Ltd | 文字読取装置 |
| US8196030B1 (en) * | 2008-06-02 | 2012-06-05 | Pricewaterhousecoopers Llp | System and method for comparing and reviewing documents |
| JP2012043385A (ja) * | 2010-08-23 | 2012-03-01 | Toshiba Corp | 文字認識装置および文字認識方法 |
| JP5962419B2 (ja) * | 2012-10-15 | 2016-08-03 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
| US10878269B2 (en) * | 2018-06-19 | 2020-12-29 | Sap Se | Data extraction using neural networks |
-
2021
- 2021-12-02 JP JP2022569309A patent/JP7828298B2/ja active Active
- 2021-12-02 US US18/038,763 patent/US20240071116A1/en active Pending
- 2021-12-02 CN CN202180079905.0A patent/CN116601640A/zh active Pending
- 2021-12-02 WO PCT/IB2021/061206 patent/WO2022130093A1/ja not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10007863B1 (en) | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
| US20190102653A1 (en) | 2017-09-29 | 2019-04-04 | Konica Minolta Laboratory U.S.A., Inc. | Local connectivity feature transform of binary images containing text characters for optical character/word recognition |
| JP2019204214A (ja) | 2018-05-22 | 2019-11-28 | 大日本印刷株式会社 | 学習装置、学習方法、プログラム及び推定装置 |
Non-Patent Citations (1)
| Title |
|---|
| 田中 駿 外2名,複数分野の文書を用いた日本語誤り表現の検出,言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD-ROM] ,日本,言語処理学会,2012年03月31日,pp.779-782 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2022130093A1 (ja) | 2022-06-23 |
| CN116601640A (zh) | 2023-08-15 |
| US20240071116A1 (en) | 2024-02-29 |
| WO2022130093A1 (ja) | 2022-06-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Nurseitov et al. | Handwritten Kazakh and Russian (HKR) database for text recognition | |
| US20200073882A1 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
| Thessen et al. | Applications of natural language processing in biodiversity science | |
| Mathew et al. | Multilingual OCR for Indic scripts | |
| US11379690B2 (en) | System to extract information from documents | |
| US20170323170A1 (en) | Method and system for data extraction from images of semi-structured documents | |
| US12265909B2 (en) | Systems and methods for a k-nearest neighbor based mechanism of natural language processing models | |
| CA3048356A1 (en) | Unstructured data parsing for structured information | |
| AU2015357110A1 (en) | Method for text recognition and computer program product | |
| US11868313B1 (en) | Apparatus and method for generating an article | |
| US12399917B2 (en) | Methods and apparatus for intelligent editing of legal documents using ranked tokens | |
| US11507901B1 (en) | Apparatus and methods for matching video records with postings using audiovisual data processing | |
| Romero et al. | Modern vs diplomatic transcripts for historical handwritten text recognition | |
| Shekhar et al. | An effective cybernated word embedding system for analysis and language identification in code-mixed social media text | |
| Goyal et al. | Recurrent neural network-based model for named entity recognition with improved word embeddings | |
| JP7828298B2 (ja) | 校閲システム | |
| US20230289396A1 (en) | Apparatuses and methods for linking posting data | |
| CN115617951A (zh) | 合同信息提取方法、装置、计算机设备、介质和程序产品 | |
| Mahmoud et al. | Hybrid attention-based approach for arabic paraphrase detection | |
| Ayman et al. | Navigating tenses in Bengali sentences: A stacked ensemble model for enhanced prediction | |
| CN117152770A (zh) | 一种面向手写输入的书写能力智能评测方法及系统 | |
| Nagy et al. | Adaptive and interactive approaches to document analysis | |
| CN116030469A (zh) | 一种处理方法、装置、设备和计算机可读存储介质 | |
| Dehghani et al. | Persian Typographical Error Type Detection using Many-to-Many Deep Neural Networks on Algorithmically-Generated Misspellings | |
| Sohana et al. | Bengali Stop Word Detection Using Different Machine Learning Algorithms |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241129 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20241129 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20260203 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20260227 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7828298 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |