Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7828298B2 - 校閲システム - Google Patents
[go: Go Back, main page]

JP7828298B2 - 校閲システム - Google Patents

校閲システム

Info

Publication number
JP7828298B2
JP7828298B2 JP2022569309A JP2022569309A JP7828298B2 JP 7828298 B2 JP7828298 B2 JP 7828298B2 JP 2022569309 A JP2022569309 A JP 2022569309A JP 2022569309 A JP2022569309 A JP 2022569309A JP 7828298 B2 JP7828298 B2 JP 7828298B2
Authority
JP
Japan
Prior art keywords
image
words
unit
comparison
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022569309A
Other languages
English (en)
Other versions
JPWO2022130093A1 (ja
JPWO2022130093A5 (ja
Inventor
純平 桃
祥子 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semiconductor Energy Laboratory Co Ltd
Original Assignee
Semiconductor Energy Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semiconductor Energy Laboratory Co Ltd filed Critical Semiconductor Energy Laboratory Co Ltd
Publication of JPWO2022130093A1 publication Critical patent/JPWO2022130093A1/ja
Publication of JPWO2022130093A5 publication Critical patent/JPWO2022130093A5/ja
Application granted granted Critical
Publication of JP7828298B2 publication Critical patent/JP7828298B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の一態様は、文書の校閲システム、及び校閲方法に関する。
なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置(例えば、タッチセンサ等)、入出力装置(例えば、タッチパネル等)、それらの駆動方法、又はそれらの製造方法を一例として挙げることができる。
語を入力し、当該語が記載されている位置を文書全体から検索する場合、文書に誤記が含まれていると、入力した語と同一の語であっても、誤記によって検索されない場合がある。例えば、“system”を表す語が、誤記を含んで“systm”と文書中に記載されている場合、検索したい語として“system”を入力しても“systm”は検索されない。よって、誤記を検出することができれば、誤記を訂正することができ、又は誤記を考慮して検索することができるため、検索の網羅性を高めることができる。誤記を検出する方法として、検索対象の文書に含まれる単語をソートし、類似するが異なる単語を、誤記の可能性がある単語として表示する方法が開示されている(特許文献1)。
国際公開第2014/171519号
上記特許文献1に示す方法では、誤記であるか否かの最終的な判断はユーザが行うが、例えば“T”(アルファベット)と“Τ”(ギリシャ文字)等、人間が一見して違いを判別することが難しい文字の違いの場合、誤記として判断することが難しい。しかしながら、例えば“T”(アルファベット)と“Τ”(ギリシャ文字)は、見た目は似ていても文字コードが異なるため、コンピュータは異なる文字として認識する。よって、例えば“T”(アルファベット)と記載すべき文字が“Τ”(ギリシャ文字)と記載されている場合、一見して誤記と判断できる誤記が含まれる場合と同様に、検索の網羅性が低下する。したがって、人間が一見して違いを判別することが難しい文字の違いであっても、ユーザが誤記であるか否かが判定できるようにすることが好ましい。
本発明の一態様は、ユーザが誤記等であるか否かの判断をしやすい校閲システム、又は校閲方法を提供することを課題の一つとする。又は、本発明の一態様は、利便性が高い校閲システム、又は校閲方法を提供することを課題の一つとする。又は、本発明の一態様は、高い精度で誤記等を検出することができる校閲システム、又は校閲方法を提供することを課題の一つとする。又は、本発明の一態様は、新規な校閲システム、又は校閲方法を提供することを課題の一つとする。
なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求項の記載から、これら以外の課題を抽出することが可能である。
本発明の一態様は、分割部と、出現頻度取得部と、画像生成部と、類似度取得部と、提示部と、を有し、分割部は、比較用文書群に含まれる文章を複数の第1の語に分割する機能、及び指定文書に含まれる文章を複数の第2の語に分割する機能を有し、出現頻度取得部は、複数の第2の語の、比較用文書群における出現頻度を取得する機能を有し、画像生成部は、第1の語を画像化して比較用画像群を取得する機能を有し、画像生成部は、複数の第2の語のうち、出現頻度がしきい値以下である第2の語を画像化して検証画像を取得する機能を有し、類似度取得部は、検証画像と、比較用画像群に含まれる比較用画像と、の類似度を取得する機能を有し、提示部は、比較用画像のうち、少なくとも類似度が最も高い比較用画像が表す第1の語を提示する機能を有する校閲システムである。
又は、本発明の一態様は、分割部と、出現頻度取得部と、画像生成部と、類似度取得部と、モデル演算部と、提示部と、を有し、分割部は、比較用文書群に含まれる文章を複数の第1の語に分割する機能、及び指定文書に含まれる文章を複数の第2の語に分割する機能を有し、出現頻度取得部は、複数の第2の語の、比較用文書群における出現頻度を取得する機能を有し、画像生成部は、第1の語を画像化して比較用画像群を取得する機能を有し、画像生成部は、複数の第2の語のうち、出現頻度が第1のしきい値以下である第2の語を画像化して検証画像を取得する機能を有し、類似度取得部は、検証画像と、比較用画像群に含まれる比較用画像と、の類似度を取得する機能を有し、モデル演算部は、類似度が第2のしきい値以上である比較用画像が表す第1の語の、検証画像が表す第2の語として置き換えられる確率を取得する機能を有し、提示部は、少なくとも確率が最も高い第1の語を提示する機能を有する校閲システムである。
又は、上記態様において、モデル演算部は、機械学習モデルを用いた演算を行う機能を有してもよい。
又は、上記態様において、機械学習モデルは、比較用文書群を用いて学習されたものであってもよい。
又は、上記態様において、機械学習モデルは、ニューラルネットワークモデルであってもよい。
又は、本発明の一態様は、分割部と、出現頻度取得部と、画像生成部と、モデル演算部と、提示部と、を有し、分割部は、比較用文書群に含まれる文章を複数の第1の語に分割する機能、及び指定文書に含まれる文章を複数の第2の語に分割する機能を有し、出現頻度取得部は、複数の第2の語の、比較用文書群における出現頻度を取得する機能を有し、画像生成部は、第1の語を画像化して比較用画像群を取得する機能を有し、画像生成部は、複数の第2の語のうち、出現頻度が第1のしきい値以下である第2の語を画像化して検証画像を取得する機能を有し、モデル演算部は、検証画像が表す語を推定する機能を有し、提示部は、推定の結果を提示する機能を有する校閲システムである。
又は、上記態様において、モデル演算部は、機械学習モデルを用いた演算を行う機能を有してもよい。
又は、上記態様において、機械学習モデルは、比較用画像群を用いて学習されたものであってもよい。
又は、上記態様において、機械学習モデルは、比較用画像群に含まれる比較用画像に、正解ラベルとして語を紐付けたデータを用いた、教師あり学習により学習されたものであってもよい。
又は、上記態様において、機械学習モデルは、第1の分類器と、二以上の第2の分類器と、を有し、第1の分類器は、比較用画像群に含まれる比較用画像に対して、グルーピングを行う機能を有し、第2の分類器は、グルーピングが行われた比較用画像が表す語を推定する機能を有し、推定は、グループごとに異なる第2の分類器を用いて行われてもよい。
又は、上記態様において、機械学習モデルは、ニューラルネットワークモデルであってもよい。
又は、上記態様において、提示部は、表示を行う機能を有してもよい。
又は、本発明の一態様は、比較用文書群に含まれる文章を複数の第1の語に分割し、第1の語を画像化することにより取得された比較用画像群を用いた校閲方法であって、指定文書に含まれる文章を複数の第2の語に分割し、複数の第2の語の、比較用文書群における出現頻度を取得し、複数の第2の語のうち、出現頻度がしきい値以下である第2の語を画像化して検証画像を取得し、検証画像と、比較用画像群に含まれる比較用画像と、の類似度を取得して比較用画像のうち、少なくとも類似度が最も高い比較用画像が表す第1の語を提示する校閲方法である。
又は、本発明の一態様は、比較用文書群に含まれる文章を複数の第1の語に分割し、第1の語を画像化することにより取得された比較用画像群を用いた校閲方法であって、指定文書に含まれる文章を複数の第2の語に分割し、複数の第2の語の、比較用文書群における出現頻度を取得し、複数の第2の語のうち、出現頻度がしきい値以下である第2の語を画像化して検証画像を取得し、検証画像と、比較用画像群に含まれる比較用画像と、の類似度を取得し、類似度が第2のしきい値以上である比較用画像が表す第1の語の、検証画像が表す第2の語として置き換えられる確率を取得し、少なくとも確率が最も高い第1の語を提示する校閲方法である。
又は、上記態様において、確率は、機械学習モデルを用いて取得してもよい。
又は、上記態様において、機械学習モデルは、比較用文書群を用いて学習されたものであってもよい。
又は、上記態様において、機械学習モデルは、ニューラルネットワークモデルであってもよい。
又は、本発明の一態様は、比較用文書群に含まれる文章を複数の第1の語に分割し、第1の語を画像化することにより取得された比較用画像群を用いた校閲方法であって、指定文書に含まれる文章を複数の第2の語に分割し、複数の第2の語の、比較用文書群における出現頻度を取得し、複数の第2の語のうち、出現頻度がしきい値以下である第2の語を画像化して検証画像を取得し、検証画像が表す語を推定し、推定の結果を提示する校閲方法である。
又は、上記態様において、推定は、機械学習モデルを用いて行ってもよい。
又は、上記態様において、機械学習モデルは、比較用画像群を用いて学習されたものであってもよい。
又は、上記態様において、機械学習モデルは、比較用画像群に含まれる比較用画像に、正解ラベルとして語を紐付けたデータを用いた、教師あり学習により学習されたものであってもよい。
又は、上記態様において、機械学習モデルは、第1の分類器と、二以上の第2の分類器と、を有し、第1の分類器は、比較用画像群に含まれる比較用画像に対して、グルーピングを行う機能を有し、第2の分類器は、グルーピングが行われた比較用画像が表す語を推定する機能を有し、比較用画像が表す語の推定は、グループごとに異なる前記第2の分類器を用いて行われてもよい。
又は、上記態様において、機械学習モデルは、ニューラルネットワークモデルであってもよい。
又は、上記態様において、提示は、表示により行ってもよい。
本発明の一態様により、ユーザが誤記等であるか否かの判断をしやすい校閲システム、又は校閲方法を提供することができる。又は、本発明の一態様により、利便性が高い校閲システム、又は校閲方法を提供することができる。又は、本発明の一態様により、高い精度で誤記等を検出することができる校閲システム、又は校閲方法を提供することができる。又は、本発明の一態様により、新規な校閲システム、又は校閲方法を提供することができる。
なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から、これら以外の効果を抽出することが可能である。
図1は、校閲システムの構成例を示す図である。
図2は、校閲方法の一例を示す図である。
図3A乃至図3Cは、校閲方法の一例を示す図である。
図4は、校閲方法の一例を示す図である。
図5A乃至図5Eは、校閲方法の一例を示す図である。
図6は、校閲システムの構成例を示す図である。
図7は、校閲方法の一例を示す図である。
図8は、校閲システムの構成例を示す図である。
図9は、校閲方法の一例を示す図である。
図10A及び図10Bは、校閲方法の一例を示す図である。
図11は、校閲方法の一例を示す図である。
図12は、校閲方法の一例を示す図である。
図13は、校閲システムの一例を示す図である。
実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。
また、本明細書等において、「第1」、及び「第2」等という序数詞は、構成要素の混同を避けるために付したものである。従って、構成要素の数を限定するものではない。また、構成要素の順序を限定するものではない。例えば、本明細書において「第1」に言及された構成要素が、特許請求の範囲において「第2」に言及された構成要素とすることもありうる。また例えば、本明細書において「第1」に言及された構成要素を、特許請求の範囲において省略することもありうる。
(実施の形態)
本実施の形態では、本発明の一態様の校閲システム、及び校閲方法について、図面を用いて説明する。
本発明の一態様の校閲システムでは、“T”(アルファベット)と“Τ”(ギリシャ文字)等、見た目は似ているが文字コードが異なる文字を識別することができる。例えば、文書中に”FEΤ”(FとEはアルファベット、Τはギリシャ文字)という語が含まれる場合、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)が”FET”(F、E、Tはいずれもアルファベット)の誤記である可能性がある旨を、校閲システムのユーザに提示することができる。よって、本発明の一態様の校閲システムにより、ユーザが目視では発見することが難しい誤記等を発見しやすくすることができる。
具体的には、データベースに、比較用文書群を登録しておく。また、比較用文書群に含まれる文章を語に分割し、当該語を画像化する。このような画像を、比較用画像とする。比較用画像もデータベースに登録しておく。
この状態で、校閲対象の文書である指定文書を、本発明の一態様の校閲システムに入力する。指定文書に含まれる語のうち、比較用文書群における出現頻度が低い語を、誤記の可能性がある語とする。このような語を画像化し、検証画像とする。検証画像と、比較用画像と、の類似度を取得する。本発明の一態様の校閲システムは、検証画像が表す語が、類似度の高い比較用画像が表す語の誤記である可能性がある旨を提示することができる。
<校閲システム_1>
図1は、校閲システム10aの構成例を示すブロック図である。校閲システム10aは、受付部11、記憶部12、処理部13、及び提示部14を有する。処理部13は、分割部21、出現頻度取得部22、画像生成部23、及び類似度取得部24を有する。
図1では、校閲システム10aの構成要素間のデータ等のやり取りを、矢印で示している。なお、図1に示すデータ等のやり取りは一例であり、例えば矢印によって結合されていない構成要素間でデータ等のやり取りを行うことができる場合がある。また、矢印によって結合されている構成要素間であっても、データ等のやり取りを行わない場合がある。図1以外のブロック図においても同様である。
校閲システム10aは、ユーザが利用するパーソナルコンピュータ(PC)等の情報処理装置に設けられていてもよい。又は、サーバに校閲システム10aの記憶部12、及び処理部13を設け、クライアントPCからネットワーク経由でアクセスして利用する構成としてもよい。
本明細書等において、校閲システム等のシステムが設けられる装置、又は機器等のユーザを、単に「システムのユーザ」という場合がある。例えば、校閲システムが設けられる情報処理装置のユーザを、校閲システムのユーザという場合がある。
[受付部11]
受付部11は、文書を受け付ける機能を有する。具体的には、受付部11は、文書を表すデータを受け付ける機能を有する。受付部11に供給された文書は、処理部13に供給することができる。
本明細書等において特に記載が無い場合、文書とは自然言語による事象の記述を示す。文書は、電子化されて機械可読である。文書は、例えば、特許出願書類、実用新案登録出願書類、意匠登録出願書類、商標登録出願書類、判例、契約書、約款、製品マニュアル、小説、刊行物、白書、及び技術文書等であるが、これらに限定されない。
[記憶部12]
記憶部12は、受付部11に供給されたデータ、及び処理部13から出力されたデータ等を記憶する機能を有する。また、記憶部12は、処理部13が実行するプログラムを記憶する機能を有する。
記憶部12は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。揮発性メモリとしては、DRAM(Dynamic Random Access Memory)、及びSRAM(Static Random Access Memory)等が挙げられる。不揮発性メモリとしては、ReRAM(Resistive Random Access Memory、抵抗変化型メモリともいう)、PRAM(Phase change Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、MRAM(Magnetoresistive Random Access Memory、磁気抵抗型メモリともいう)、及びフラッシュメモリ等が挙げられる。また、記憶部12は、記録メディアドライブを有していてもよい。記録メディアドライブとしては、ハードディスクドライブ(Hard Disk Drive:HDD)、及びソリッドステートドライブ(Solid State Drive:SSD)等が挙げられる。
記憶部12は、データベースを有していてもよい。例えば、データベースとして、出願データベースが挙げられる。出願としては、特許出願、実用新案登録出願、意匠登録出願、及び商標登録出願等の知的財産に係る出願が挙げられる。各出願のステータスに限定は無く、公開の有無、特許庁における係属の有無、及び登録の有無はそれぞれ問わない。例えば、出願データベースは、審査前の出願、審査中の出願、及び登録済みの出願のうち少なくとも一つを有することができ、全てを有していてもよい。
例えば、出願データベースは、複数の特許出願又は実用新案登録出願における、明細書及び請求の範囲の一方又は双方を有することが好ましい。明細書及び請求の範囲は、例えば、テキストデータで保存される。
出願データベースは、出願を識別するための出願管理番号(社内独自の番号を含む)、出願ファミリーを識別するための出願ファミリー管理番号、出願番号、公開番号、登録番号、図面、要約、出願日、優先日、公開日、ステータス、分類(特許分類、実用新案分類等)、カテゴリ、及びキーワード等の少なくとも一つを有していてもよい。これらの情報は、それぞれ、受付部11が文書を受け付ける際に、文書を特定するために用いてもよい。又は、これらの情報は、それぞれ、処理部13の処理結果と共に出力されてもよい。
そのほか、書籍、雑誌、新聞、及び論文等、様々な種類の文書の管理を、データベースで行うことができる。データベースは、文書の文章データを少なくとも有する。データベースは、さらに、各文書を識別する番号、タイトル、発行日等の日付、著者、及び出版社等の少なくとも一つを有していてもよい。これらの情報は、それぞれ、文書を受け付ける際に、文書を特定するために用いてもよい。又は、これらの情報は、それぞれ、処理部13の処理結果と共に出力されてもよい。
校閲システム10aは、システムの外部に存在するデータベースから、文書等のデータを取り出す機能を有していてもよい。また、校閲システム10aは、記憶部12が持つデータベースと、校閲システム10aの外部に存在するデータベースと、の双方からデータを取り出す機能を有していてもよい。
また、データベースの代わりに、ストレージ、及びファイルサーバの一方又は双方を用いてもよい。例えば、校閲システム10aが、ファイルサーバが有するファイルを利用する場合、記憶部12には、ファイルサーバに保存されたファイルのパスが記憶されていることが好ましい。
[処理部13]
処理部13は、受付部11から供給されたデータ、及び記憶部12に記憶されたデータ等を用いて、演算等の処理を行う機能を有する。処理部13は、処理結果を記憶部12、又は提示部14に供給することができる。
処理部13は、例えば中央演算装置(CPU:Central Processing Unit)を有することができる。処理部13は、DSP(Digital Signal Processor)、及びGPU(Graphics Processing Unit)等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、FPGA(Field Programmable Gate Array)、及びFPAA(Field Programmable Analog Array)等のPLD(Programmable Logic Device)によって実現された構成であってもよい。処理部13は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部12のうち少なくとも一方に格納される。
処理部13はメインメモリを有していてもよい。メインメモリは、RAM(Random Access Memory)等の揮発性メモリ、及びROM(Read Only Memory)等の不揮発性メモリのうち少なくとも一方を有する。
RAMとしては、例えばDRAM、及びSRAM等が用いられ、処理部13の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部12に記憶されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部13に直接アクセスされ、操作される。
ROMには、書き換えを必要としない、BIOS(Basic Input/Output System)及びファームウェア等を格納することができる。ROMとしては、マスクROM、OTPROM(One Time Programmable Read Only Memory)、及びEPROM(Erasable Programmable Read Only Memory)等が挙げられる。EPROMとしては、紫外線照射により記憶データの消去を可能とするUV-EPROM(Ultra-Violet Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、及びフラッシュメモリ等が挙げられる。
以下では、処理部13が有する構成要素について説明する。
≪分割部21≫
分割部21は、文書に含まれる文章を単語に分割する機能を有する。例えば英語の文章ではスペースに基づき、単語に分割することができる。また、日本語の文章では、例えば分かち書き処理を行うことにより、単語に分割することができる。分割部21が取得した単語は、出現頻度取得部22、画像生成部23、及び類似度取得部24に供給することができる。ここで、分割部21は、文章を単語に分割する際に、文章のクリーニング処理を行うことが好ましい。クリーニング処理では、文章内に含まれるノイズを除去する。例えば、英語の文章である場合は、当該クリーニング処理とは、セミコロンを削除する、及びコロンをカンマに置き換える等とすることができる。
また、分割部21は、分割した単語に対して例えば形態素解析を行う機能を有する。これにより、単語の品詞を判別することができる。
なお、分割部21は、文書に含まれる文章を、必ずしも1つの単語ごとに分割しなくてもよい。例えば、分割部21は、一部の語を複合語として分割してもよい。つまり、分割した1つの語の中に、2つ以上の単語が含まれてもよい。
≪出現頻度取得部22≫
出現頻度取得部22は、分割部21が文章を分割することにより取得した語の、例えばデータベースに登録された文書群における出現頻度を取得する機能を有する。具体的には、出現頻度取得部22は、例えば分割部21が文章を分割することにより取得した語を表す文字コードと同一の文字コードの語が、データベースに登録された文書群において出現する頻度を取得することができる。ここで、文書群は、1以上の文書の集合を表す。文書群には、例えばデータベースに登録された文書の全て、又は一部が含まれる。例えば、データベースに特許出願、又は論文等の技術文書が登録されている場合、文書群は、データベースに登録された文書のうち特定の技術分野の文書の集合とすることができる。
出現頻度取得部22は、語の出現頻度を、例えばTF(Term Frequency)値として取得することができる。出現頻度取得部22が取得した出現頻度は、例えば記憶部12に供給してデータベースに登録することができ、また画像生成部23に供給することができる。
≪画像生成部23≫
画像生成部23は、語を画像化した画像データを生成する機能を有する。当該画像は、例えば語を表すテキストを白色、背景を黒色とした2値データとすることができる。また、当該画像は、例えば語を表すテキストを黒色、背景を白色とした2値データとしてもよい。さらに、当該画像は、多値のデータとしてもよい。例えば、語を表すテキストを灰色、背景を黒色又は白色としてもよい。また、語を表すテキストを白色又は黒色、背景を灰色としてもよい。さらに、カラーの画像としてもよい。
画像生成部23は、具体的には、分割部21が取得した語を画像化することができる。ここで、画像生成部23は、分割部21が取得した語を全て画像化しなくてもよい。例えば、画像生成部23は、分割部21が取得した語のうち、出現頻度取得部22が取得した出現頻度がしきい値以下の語を画像化することができる。
画像生成部23が取得した画像は、例えば記憶部12に供給してデータベースに登録することができ、また類似度取得部24に供給することができる。
≪類似度取得部24≫
類似度取得部24は、画像生成部23が取得した画像を比較し、類似度を取得する機能を有する。類似度は、例えば領域ベースマッチング、又は特徴ベースマッチングにより算出して取得することができる。また、類似度取得部24は、提示部14に供給する語を上記類似度に基づき選択する機能を有する。ここで、分割部21が前述のクリーニング処理を行うことにより、類似度を高い精度で算出することができる。
本明細書等において、「算出」という用語は、例えば数学的な演算を行うことを示す。また、「取得」という用語は、「算出」という用語が示す意味を含むものとするが、必ずしも数学的な演算を伴わなくてもよい。例えば、Aがデータベースからデータを読み出すことを、Aがデータを取得するということができる。
[提示部14]
提示部14は、処理部13の処理結果に基づいて、情報を校閲システム10aのユーザに提示する機能を有する。当該情報は、例えば類似度取得部24が出力した語とすることができる。提示部14は、例えば情報を表示することにより、当該情報を校閲システム10aのユーザに提示することができる。つまり、提示部14は、例えばディスプレイとすることができる。また、提示部14は、スピーカとしての機能を有してもよい。
校閲システム10aにより、誤記等の校閲を行うことができる。例えば、記憶部12が有するデータベースに、比較用文書群を登録しておく。また、比較用文書群に含まれる文章を分割部21により語に分割し、当該語を画像生成部23が画像化する。このような画像を、比較用画像とする。比較用画像もデータベースに登録しておく。
この状態で、校閲対象の文書である指定文書を受付部11に供給する。指定文書に含まれる語のうち、比較用文書群における出現頻度が低い語を、誤記の可能性がある語とする。このような語を、画像生成部23により画像化し、検証画像とする。検証画像と、比較用画像と、の類似度を類似度取得部24により取得する。検証画像が表す語と、類似度の高い比較用画像が表す語と、を提示部14に供給する。提示部14は、検証画像が表す語が、類似度の高い比較用画像が表す語の誤記である可能性がある旨を提示することができる。
以上により、校閲システム10aは、”T”(アルファベット)と”Τ”(ギリシャ文字)等、見た目は似ているが文字コードが異なる文字を識別することができる。例えば、指定文書に”FEΤ”(FとEはアルファベット、Τはギリシャ文字)という語が含まれる場合、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)が”FET”(F、E、Tはいずれもアルファベット)の誤記である可能性がある旨を、校閲システム10aのユーザに提示することができる。よって、校閲システム10aにより、ユーザが目視では発見することが難しい誤記等を発見しやすくすることができる。したがって、本発明の一態様により、ユーザが誤記等であるか否かの判断をしやすい校閲システム、及び校閲方法を提供することができる。また、本発明の一態様により、利便性が高い校閲システム、及び校閲方法を提供することができる。
また、校閲システム10aは、光学文字認識(OCR)によって読み取った文字を修正する際に用いることができる。例えば、”FET”(F、E、Tはいずれもアルファベット)と記載された文書をOCRにより読み取ったが、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)と認識されたものとする。この場合、OCRが読み取った文書を指定文書とすることにより、校閲システム10aは、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)を”FET”(F、E、Tはいずれもアルファベット)に修正することができる。
以下では、図2乃至図5を用いて、校閲システム10aを用いた校閲方法の一例を説明する。
<校閲方法_1>
まず、校閲システム10aが校閲を行う機能を有するために必要となるデータを取得し、例えばデータベースに登録する。前述のように、当該データベースは、記憶部12が有することができる。又は、当該データベースは、校閲システム10aの外部に存在するデータベースとすることができる。
図2は、校閲システム10aが校閲を行う機能を有するために必要となるデータを取得する方法の一例を示すフローチャートであり、ステップS01からステップS05までの処理を有する。
[ステップS01]
ステップS01では、受付部11が比較用文書群100を受け付ける。図3Aは、ステップS01における処理の一例を示す模式図である。図3Aに示すように、比較用文書群100は、1以上の比較用文書101の集合である。
比較用文書群100には比較用文書101として、例えばデータベースに登録された文書の全て、又は一部が含まれる。ここで、比較用文書群100に、校閲対象の文書である指定文書が属する分野と同一の分野の文書が比較用文書101として多く含まれるようにすると、校閲システム10aは誤記等を高い精度で検出できるようになり好ましい。例えば、指定文書として特許出願、又は論文等の技術文書を想定している場合、比較用文書101も特許出願、又は論文等の技術文書とすることが好ましい。また、指定文書として電気分野の技術文書を想定している場合、比較用文書101も電気分野の技術文書とすることが好ましい。さらに、指定文書として半導体分野の技術文書を想定している場合、比較用文書101も半導体分野の技術文書とすることが好ましい。
[ステップS02]
ステップS02では、分割部21が、比較用文書101に含まれる文章を語に分割することにより、比較用語群102を取得する。図3Bは、ステップS02における処理の一例を示す模式図である。図3Bに示すように、比較用語群102は、語103の集合とすることができる。図3Bでは、比較用文書101に”FET”という語が含まれる例を示している。この場合、比較用語群102に含まれる語103にも、”FET”が含まれる。ここで、比較用文書群100の中に同一の語が複数回出現する場合は、比較用語群102にも、同一の語103を複数含むものとする。例えば、”FET”という語が比較用文書群100の中に100回出現する場合は、比較用語群102は”FET”という語103を100個含むものとする。
前述のように、例えば英語の文章ではスペースに基づき、語に分割することができる。また、日本語の文章では、例えば分かち書き処理を行うことにより、語に分割することができる。語への分割の際に、例えば形態素解析を行ってもよい。
ここで、比較用語群102に含まれる語103を表すテキストのフォントは、統一することが好ましい。また、1つの語に対して、テキストのフォントが異なる複数の語を、比較用語群102に含まれる語103として用意してもよい。
[ステップS03]
ステップS03では、出現頻度取得部22が、語103の、比較用文書群100における出現頻度を算出して取得する。前述のように、出現頻度は、例えばTF値として算出することができる。
ここで、全ての語103に対して、出現頻度を取得しなくてもよい。例えば、形態素解析を行った場合、特定の品詞の語103に対してのみ、出現頻度を取得してもよい。英語の文章では、例えば名詞に対しては出現頻度を取得して、冠詞に対しては出現頻度を取得しなくてもよい。また、日本語の文章では、例えば名詞に対しては出現頻度を取得して、助詞に対しては出現頻度を取得しなくてもよい。
[ステップS04]
ステップS04では、画像生成部23が比較用語群102に含まれる語103を画像化することにより、比較用画像群104を取得する。図3Cは、ステップS04における処理の一例を示す模式図である。図3Cに示すように、比較用画像群104は、語103を画像化した比較用画像105の集合とすることができる。図3Cでは、比較用画像105を、語103を表すテキストを白色、背景を黒色とした2値データとする例を示している。
ステップS04では、例えばステップS03で比較用文書群100における出現頻度を取得する語103を、比較用画像105に変換することができる。ここで、重複する語103は、1つのみ画像化することができる。例えば、比較用語群102に”FET”という語103が100個含まれる場合であっても、画像化する”FET”という語103は1つのみとすることができる。
なお、ステップS03とステップS04は、並行して行うことができる。つまり、出現頻度取得部22による出現頻度の取得と、画像生成部23による語103の画像化と、は並行して行うことができる。また、ステップS03を行った後にステップS04を行ってもよく、ステップS04を行った後にステップS03を行ってもよい。
[ステップS05]
ステップS05では、ステップS03において出現頻度取得部22が取得した語103の出現頻度、及びステップS04において画像生成部23が取得した比較用画像群104を、例えばデータベースに登録する。前述のように、当該データベースは、例えば記憶部12が有するデータベースとすることができる。また、校閲システム10aの外部に存在するデータベースに、出現頻度、及び比較用画像群104を登録してもよい。なお、校閲システム10aがステップS03とステップS04を並行して行わず、例えばステップS03の後にステップS04を行う場合、ステップS03を行って出現頻度取得部22が語103の出現頻度を取得してデータベースに登録し、その後ステップS04を行って画像生成部23が比較用画像群104を取得してデータベースに登録することができる。
以上により、校閲システム10aが校閲を行う機能を有することができる。
図4は、校閲システム10aによる校閲方法の一例を示すフローチャートであり、ステップS11からステップS16までの処理を有する。
[ステップS11]
ステップS11では、受付部11が校閲対象の文書である指定文書111を受け付ける。図5Aは、ステップS11における処理の一例を示す模式図である。図5Aでは、指定文書111は、1つの文書としている。なお、指定文書111として複数の文書を、受付部11が受け付けてもよい。
校閲システム10aのユーザは、指定文書111を、受付部11に直接入力することができる。また、指定文書111を、例えばデータベースに登録されている文書とすることができる。例えばデータベースに登録されている文書を指定文書111とする場合、校閲システム10aのユーザは、文書を特定する情報を入力する(例えばデータベースを検索する)ことで、指定文書111を特定することができる。文書を特定する情報としては、文書を識別する番号、及びタイトル等が挙げられる。
また、校閲システム10aのユーザは、例えば文書の一部(例えば、特定の章)に対して校閲を行いたい場合は、文書の一部を指定文書111としてもよい。
[ステップS12]
ステップS12では、分割部21が、指定文書111に含まれる文章を語に分割することにより、指定文書語群112を取得する。図5Bは、ステップS12における処理の一例を示す模式図である。図5Bに示すように、指定文書語群112は、語113の集合とすることができる。図5Bでは、指定文書111に”FEΤ”(FとEはアルファベット、Τはギリシャ文字)という語が、例えば1つ含まれる例を示している。この場合、指定文書語群112に含まれる語113にも、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)が含まれる。
前述のように、例えば英語の文章ではスペースに基づき、語113に分割することができる。また、日本語の文章では、例えば分かち書き処理を行うことにより、語113に分割することができる。語113への分割の際に例えば形態素解析を行い、語113の品詞を判別してもよい。
ここで、分割部21が例えば形態素解析を行う場合、指定文書111に誤記等が含まれていると、誤記等を含む語に対しては品詞を判別できない場合がある。例えば、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)を名詞と判別できない場合がある。つまり、指定文書111に含まれる文章を語に分割する際は、例えば形態素解析を行うとステップS12において誤記等の可能性がある語を検出でき好ましい。
また、指定文書語群112に含まれる語113を表すテキストのフォントは、比較用語群102に含まれる語103を表すテキストのフォントと同一であることが好ましい。よって、語113を表すテキストのフォントが、語103を表すテキストのフォントと異なる場合は、分割部21は語113を表すテキストのフォントを変換することが好ましい。
[ステップS13]
ステップS13では、出現頻度取得部22が、指定文書語群112に含まれる語113の、比較用文書群100における出現頻度を取得する。出現頻度は、例えばデータベースから読み出して取得することができ、また記憶部12から読み出して取得することができる。例えば、語113を表す文字コードと同一の文字コードの語103の比較用文書群100における出現頻度を、語113の比較用文書群100における出現頻度とすることができる。この場合、出現頻度が取得できない語113は、比較用文書群100に出現しない語であるとすることができる。よって、出現頻度が取得できない語113の比較用文書群100における出現頻度は、0とすることができる。なお、ステップS13において、出現頻度取得部22が、指定文書語群112に含まれる語113の、比較用文書群100における出現頻度を算出してもよい。この場合、語103の比較用文書群100における出現頻度は、例えばデータベースに登録しなくてもよい。よって、例えば図2に示すステップS03を省略することができる。
ここで、全ての語113に対して、出現頻度を取得しなくてもよい。例えば、ステップS12において形態素解析を行った場合、品詞を判別できなかった語113の比較用文書群100における出現頻度は、低い蓋然性が高い。よって、品詞を判別できなかった語113に対しては、出現頻度取得部22は出現頻度を取得しなくてもよい。
比較用文書群100における出現頻度が低い語113は、誤記等である可能性があるとすることができる。ここで、指定文書111が、比較用文書群100に多く含まれる分野の文書と同一の分野の文書であると、誤記等である可能性が低い語113の出現頻度が低くなることを抑制することができる。よって、誤記等の検出の精度を高めることができる。
[ステップS14]
ステップS14では、画像生成部23が、誤記等である可能性がある語113、つまり比較用文書群100における出現頻度が低い語113を画像化することにより、検証画像115を取得する。例えば、出現頻度がしきい値以下である語113を画像化する。また、ステップS13において例えば形態素解析を行った場合は、品詞を判別できなかった語113を画像化する。
画像化する語113を選択する際は、出現頻度の分散を考慮してもよい。分散を考慮することにより、例えば比較用文書群100における出現頻度が他の語113と比較して突出して低い語113を、誤記等である可能性があると判断することができる。よって、校閲システム10aが、誤記等である可能性が低い語113を、誤記等である可能性が高いと判断することを抑制することができる。よって、校閲システム10aが誤記等の可能性がある語113を、高い精度で検出することができる。
図5Cは、ステップS14における処理の一例を示す模式図である。図5Cでは、画像生成部23が語113のうち、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)を画像化して検証画像115を取得する例を示している。図5Cに示すように、検証画像115は、例えば語113を表すテキストを白色、背景を黒色とした2値データとすることができる。
[ステップS15]
ステップS15では、類似度取得部24が、検証画像115と、比較用画像群104に含まれる比較用画像105と、を比較する。これにより、類似度取得部24が、検証画像115と、比較用画像105と、の類似度を取得する。図5Dは、ステップS15における処理の一例を示す模式図である。検証画像115は、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)を表すものとし、”FET”(F、E、Tはいずれもアルファベット)を表す比較用画像105との類似度が高いものとする。前述のように、類似度は、例えば領域ベースマッチング、又は特徴ベースマッチングにより算出して取得することができる。
[ステップS16]
ステップS16では、提示部14が、ステップS15において検証画像115との類似度を取得した比較用画像105のうち、類似度の高い比較用画像105が表す語103を提示する。提示部14は、少なくとも検証画像115との類似度が最も高い比較用画像105が表す語103を提示することが好ましい。例えば、提示部14は、検証画像115との類似度が最も高い比較用画像105が表す語103から数えて、所定の個数の語103を提示することができる。又は、提示部14は、最も高い類似度との差がしきい値以下である類似度の比較用画像105が表す語103を提示することができる。又は、提示部14は、検証画像115との類似度がしきい値以上の比較用画像105が表す語103を提示することができる。
図5Eは、ステップS16における処理の一例を示す模式図である。図5Eに示すように、提示部14は例えばディスプレイとすることができ、検証画像115が表す語が、類似度の高い比較用画像105が表す語103の誤記である可能性がある旨を提示することができる。
ここで、処理部13は、検証画像115が表す語113と、提示部14に提示する語103と、を比較する機能を有してもよい。当該比較は、例えば語113を表す文字コードと、提示部14に提示する語103を表す文字コードと、の相違点を検出することにより行うことができる。これにより、当該相違点を、提示部14に提示することができる。図5Eでは、文書中に含まれる“FEΤ”の“Τ”がギリシャ文字であり、“FET”(Tはアルファベット)の誤記である可能性がある旨を、文書の欄外にコメント表示する例を示している。なお、検証画像115が表す語113と、提示部14に提示する語103と、の比較は、例えば処理部13が有する類似度取得部24が行うことができる。
以上により、校閲システム10aは、見た目は似ているが文字コードが異なる文字を識別することができる。例えば、指定文書111に”FEΤ”(FとEはアルファベット、Τはギリシャ文字)という語が含まれる場合、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)が”FET”(F、E、Tはいずれもアルファベット)の誤記である可能性がある旨を、校閲システム10aのユーザに提示することができる。よって、校閲システム10aにより、ユーザが目視では発見することが難しい誤記等を発見しやすくすることができる。したがって、本発明の一態様により、ユーザが誤記等であるか否かの判断をしやすい校閲システム、及び校閲方法を提供することができる。また、本発明の一態様により、利便性が高い校閲システム、及び校閲方法を提供することができる。
また、校閲システム10aは、光学文字認識(OCR)によって読み取った文字を修正する際に用いることができる。例えば、”FET”(F、E、Tはいずれもアルファベット)と記載された文書をOCRにより読み取ったが、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)と認識されたものとする。この場合、OCRが読み取った文書を指定文書111とすることにより、校閲システム10aは、”FEΤ”(FとEはアルファベット、Τはギリシャ文字)を”FET”(F、E、Tはいずれもアルファベット)に修正することができる。
<校閲システム_2>
図6は、校閲システム10bの構成例を示すブロック図である。校閲システム10bは、校閲システム10aの変形例であり、処理部13がモデル演算部25を有する点が、校閲システム10aと異なる。以下では、校閲システム10bについて、校閲システム10aとの相違点を主に説明する。
モデル演算部25には、例えば分割部21が出力したデータ、及び類似度取得部24が出力したデータ等が供給される。また、モデル演算部25が出力したデータ等は、例えば提示部14に供給される。
モデル演算部25は、数理モデルによる演算を行う機能を有する。モデル演算部25は、例えば機械学習モデルによる演算を行う機能を有し、例えばニューラルネットワークモデルによる演算を行う機能を有する。
本明細書等において、ニューラルネットワークモデルとは、生物の神経回路網を模し、学習によってニューロン同士の結合強度を決定し、問題解決能力を持たせるモデル全般を指す。ニューラルネットワークモデルは、入力層、中間層(隠れ層)、及び出力層を有する。
<校閲方法_2>
以下では、校閲システム10bを用いた校閲方法の一例を説明する。校閲システム10bが校閲を行う機能を有するために必要となるデータは、例えば図2、及び図3A乃至図3Cに示す方法と同様の方法で取得することができる。
図7は、校閲システム10bによる校閲方法の一例を示すフローチャートであり、ステップS11からステップS15、及びステップS21からステップS23までの処理を有する。
ステップS11からステップS15までの処理は、図4に示すステップS11からステップS15までの処理と同様とすることができる。図7では、図4に示す処理と異なる処理を、一点鎖線で囲って示している。
[ステップS21]
ステップS21では、類似度取得部24が、ステップS15において検証画像115との類似度を取得した比較用画像105のうち、類似度の高い比較用画像105が表す語103をモデル演算部25に供給する。これにより、モデル演算部25が、当該類似度の高い比較用画像105が表す語103を取得することができる。
類似度取得部24は、少なくとも検証画像115との類似度が最も高い比較用画像105が表す語103を、モデル演算部25に供給することが好ましい。例えば、類似度取得部24は、検証画像115との類似度が最も高い比較用画像105が表す語103から数えて、所定の個数の語103を、モデル演算部25に供給することができる。又は、類似度取得部24は、最も高い類似度との差がしきい値以下である類似度の比較用画像105が表す語103を、モデル演算部25に供給することができる。又は、類似度取得部24は、検証画像115との類似度がしきい値以上の比較用画像105が表す語103を、モデル演算部25に供給することができる。
[ステップS22]
ステップS22では、モデル演算部25が取得した語103の、検証画像115に対応する語113として置き換えられる確率を語103ごとに取得する。具体的には、モデル演算部25には言語モデルが組み込まれており、言語モデルを用いて当該確率を算出する。当該確率は、例えば指定文書111に含まれる文章に基づき算出することができる。例えば、検証画像115に対応する語113を含む文、又は段落等を、語113を語103に置き換えて言語モデルに供給して、置き換えた語103の出現確率を算出する。これにより、モデル演算部25が取得した語103の、検証画像115に対応する語113として置き換えられる確率を算出することができる。
上記言語モデルは、例えばルールベースのモデルとすることができる。又は、例えば条件付き確率場(Conditional Random Field:CRF)を用いたモデルとすることができる。又は、機械学習モデルとすることができ、具体的には例えばニューラルネットワークモデルとすることができる。ニューラルネットワークモデルとして、例えば再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)を適用することができる。RNNのアーキテクチャとして、例えば長期短期記憶(Long Short-Term Memory:LSTM)を用いることができる。
ここで、モデル演算部25が、上記確率を機械学習モデルを用いて算出する場合、指定文書111と関連が深い文書を機械学習モデルの学習に用いると、上記確率を高い精度で算出することができるため好ましい。前述のように、比較用文書群100には、例えば指定文書111と同一の分野の文書が多く含まれる。よって、比較用文書群100を、機械学習モデルの学習に用いることが好ましい。
[ステップS23]
ステップS23では、提示部14が、上記確率が高い語103を提示する。提示部14は、少なくとも上記確率が最も高い語103を提示することが好ましい。例えば、提示部14は、上記確率が最も高い語103から数えて、所定の個数の語103を提示することができる。又は、提示部14は、最も高い上記確率との差がしきい値以下である確率の語103を提示することができる。又は、提示部14は、上記確率がしきい値以上の語103を提示することができる。
校閲システム10bでは、画像化した場合は類似しているが意味は大きく異なり、文脈上誤記等に対する訂正候補となる可能性が低い語103が、提示部14に提示されることを抑制することができる。よって、校閲システム10bは、利便性が高い校閲システムとすることができる。
<校閲システム_3>
図8は、校閲システム10cの構成例を示すブロック図である。校閲システム10cは、校閲システム10bの変形例であり、処理部13が類似度取得部24を有さない点が、校閲システム10bと異なる。校閲システム10cでは、例えば画像生成部23が出力したデータは、モデル演算部25に供給される。
<校閲方法_3>
以下では、校閲システム10cを用いた校閲方法の一例を説明する。ここで、モデル演算部25には、画像判定モデルが組み込まれているものとする。画像判定モデルは、語を画像化したデータがモデル演算部25に供給されると、当該画像が表す語を推定する機能を有する。
画像判定モデルは、例えば機械学習モデルとすることができ、具体的には例えばニューラルネットワークモデルとすることができる。ニューラルネットワークモデルとして、例えば畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を適用することができる。
校閲システム10cが校閲を行う機能を有するために必要となるデータは、例えば図2、及び図3A乃至図3Cに示す方法と同様の方法で取得することができる。
図9は、校閲システム10cによる校閲方法の一例を示すフローチャートであり、ステップS11からステップS14、及びステップS31からステップS32までの処理を有する。
ステップS11からステップS14までの処理は、図4に示すステップS11からステップS14までの処理と同様とすることができる。図9では、図4に示す処理と異なる処理を、一点鎖線で囲って示している。
[ステップS31]
ステップS31では、検証画像115が、モデル演算部25に組み込まれた画像判定モデルに供給される。これにより、画像判定モデルが、検証画像115が表す語を推定する。具体的には、画像判定モデルが、検証画像115が表す語の確率を算出する。例えば、画像判定モデルに”FEΤ”(FとEはアルファベット、Τはギリシャ文字)という語を画像化したデータが供給された場合、当該画像判定モデルは”FET”(F、E、Tはいずれもアルファベット)の確率が高いと判定することができる。
[ステップS32]
ステップS32では、提示部14が、推定結果を提示する。具体的には、検証画像115が表す語としての確率が高い語を提示する。提示部14は、少なくとも当該確率が最も高い語を提示することが好ましい。例えば、提示部14は、当該確率が最も高い語から数えて、所定の個数の語を提示することができる。又は、提示部14は、最も高い当該確率との差がしきい値以下である確率の語を提示することができる。又は、提示部14は、当該確率がしきい値以上の語を提示することができる。
校閲システム10cでは、検証画像115と比較用画像105との類似度を、領域ベースマッチング、又は特徴ベースマッチング等により算出しなくてよい。よって、処理部13での計算量を少なくすることができる。よって、校閲システム10cは、高速に駆動し、かつ低消費電力の校閲システムとすることができる。
[画像判定モデル]
以下では、モデル演算部25に組み込むことができる画像判定モデルとして機械学習モデルを適用する場合の、画像判定モデルの構成例、及び学習方法の一例を説明する。
図10Aは、画像判定モデル120の学習方法の一例を示す模式図である。画像判定モデル120の学習を行う際は、まず、受付部11に学習用文書を供給する。その後、例えば図2に示すステップS02と同様の方法で、分割部21が学習用語群122を取得し、ステップS04と同様の方法で、画像生成部23が学習用画像群124を取得する。学習用語群122は語123の集合とすることができ、学習用画像群124は学習用画像125の集合とすることができる。画像判定モデル120の学習は、学習用画像125に正解ラベルとして語123を紐付けたデータを用いた教師あり学習により行うことができる。学習により、画像判定モデル120は学習結果126を取得することができる。学習結果126は、例えば重み係数とすることができる。
ここで、学習用文書として、指定文書111と関連が深い文書を用いると、検証画像115が表す語を高い精度で推定することができるため好ましい。前述のように、比較用文書群100には、例えば指定文書111と同一の分野の文書が多く含まれる。よって、比較用文書群100を、学習用文書に用いることが好ましい。
また、学習用画像群124に含まれる学習用画像125は、画像生成部23が取得した画像そのものに限らない。例えば、画像生成部23が取得した画像に含まれる語を並進、回転、拡大、又は縮小等した画像を、学習用画像群124に含めてもよい。これにより、学習用画像125の数を増やすことができる。よって、画像判定モデル120が高い精度で推論できるように、学習を行うことができる。したがって、本発明の一態様の校閲システムが、指定文書111に含まれる誤記等を高い精度で検出することができる。
また、学習用画像群124には、例えば見た目が似ているが文字コードが異なる文字を含む画像を、学習用画像125として含めてもよい。さらに、学習用画像群124には、例えば生じやすい誤記を含む画像を、学習用画像125として含めてもよい。例えば、画像生成部23が“out-of-plane”(-はハイフン)という語を画像化した場合は、学習用画像群124には当該画像化した学習用画像125の他、“out-of-plane”(-はマイナス)という語を画像化した学習用画像125を含めてもよい。この場合、“out-of-plane”(-はハイフン)という語を画像化した学習用画像125、及び“out-of-plane”(-はマイナス)という語を画像化した学習用画像125には、共に例えば“out-of-plane”(-はハイフン)という語123を正解ラベルとして紐付けることができる。また、例えば画像生成部23が“system”という語を画像化した場合は、学習用画像群124には当該画像化した学習用画像125の他、誤記を含む“systm”という語を画像化した学習用画像125を含めてもよい。この場合、“system”という語を画像化した学習用画像125、及び“systm”という語を画像化した学習用画像125には、共に“system”という語123を正解ラベルとして紐付けることができる。
以上により、例えば図9に示すステップS31において画像判定モデル120に供給される検証画像115を、学習用画像125に近づけることができる。よって、画像判定モデル120は、高い精度で推論を行うことができる。具体的には、検証画像115が表す語を、高い精度で推定することができる。よって、本発明の一態様の校閲システムが、指定文書111に含まれる誤記等を高い精度で検出することができる。
図10Bは、画像判定モデル130の構成例、及び学習方法の一例を示す模式図である。画像判定モデル130は、分類器131と、複数の分類器134と、を有する。
本明細書等において、複数の要素に同じ符号を用いる場合、特に、それらを区別する必要があるときには、符号に“_”等の識別用の符号を付記して記載する。
画像判定モデル130に画像が供給されると、まず分類器131が当該画像を分類する。分類器131によって分類された画像は、当該分類の結果に対応する分類器134によりさらに分類することができる。具体的には、分類器134は、画像が表す語を推定することができる。つまり、画像判定モデル130に供給された画像に対して、分類器131がグルーピングを行った後、当該画像が属するグループに対応する分類器134が語の推定を行うことができる。以上より、画像判定モデル130は、分類器131により1次分類を行った後、分類器134により2次分類を行うことができる。
図10Bは、画像判定モデル130の学習方法の一例を示す模式図である。図10Bでは、分類器131の学習を、教師なし学習であるクラスタリングにより行う例を示している。例えば、分類器131に学習用画像群124が供給されると、学習用画像群124に含まれる学習用画像125の特徴量に基づき、クラスタリングを行うことができる。クラスタリングは、例えばK-means法により行うことができる。また、クラスタリングは、単リンク法、完全リンク法、群平均法、Ward法、セントロイド法、重み付き平均法、又はメジアン法により行ってもよい。分類器131は、上記学習により学習結果132を取得することができる。学習結果132は、例えば重み係数とすることができる。
図10Bでは、学習用画像125として、それぞれ”a1“、”a2“、”b1“、”FET“、”c1“、”c2“という語を画像化した6つの画像が分類器131に供給される例を示している。また、図10Bでは、クラスタリングにより3つのクラスタ133が生成される例を示している。さらに、図10Bでは、クラスタ133_1に”a1“、”a2”という語を画像化した2つの学習用画像125が含まれ、クラスタ133_2に”b1“、”FET”という語を画像化した2つの学習用画像125が含まれ、クラスタ133_3に”c1“、”c2”という語を画像化した2つの学習用画像125が含まれる例を示している。
図10Bに示す例では、分類器134は、クラスタ133ごとに設けることができる。つまり、例えばクラスタリングにより3つのクラスタ133が生成される場合は、分類器134も3つ設けることができる。図10Bに示す例では、クラスタ133_1に分類される画像が分類器134_1に供給され、クラスタ133_2に分類される画像が分類器134_2に供給され、クラスタ133_3に分類される画像が分類器134_3に供給される例を示している。
分類器134は、画像が表す語を推定する機能を有する。つまり、分類器134は、図10Aに示す画像判定モデル120と同様の機能を有する。また、分類器134の学習は、画像判定モデル120の学習と同様の方法で行うことができる。つまり、分類器134の学習は、例えば各クラスタ133に含まれる学習用画像125に正解ラベルとして語123を紐付けたデータを用いた、教師あり学習により行うことができる。学習により、分類器134は学習結果135を取得することができる。ここで、分類器134_1乃至分類器134_3が取得する学習結果135を、それぞれ学習結果135_1乃至学習結果135_3とする。学習結果135は、例えば重み係数とすることができる。
なお、図10Bでは、分類器131が教師なし学習を行い、分類器134が教師あり学習を行う例を示したが、画像判定モデル130の学習方法はこれに限定されない。例えば、分類器131と分類器134がともに教師あり学習を行ってもよい。
画像判定モデル130の学習は、画像判定モデル130全体としては、画像判定モデル120と同様の方法で行うことができる。つまり、例えば学習用画像125に正解ラベルとして語123を紐付けたデータを画像判定モデル130に供給することで、教師あり学習により画像判定モデル130の学習を行うことができる。
例えば図10Bに示す方法で学習された画像判定モデル130に、検証画像115等の画像が供給されると、当該画像がいずれかのクラスタ133に分類される。その後、分類されたクラスタ133に対応する分類器134により、検証画像115が表す語が推定される。
画像判定モデル130では、画像をクラスタに分類した後に、当該画像が表す語が推定される。よって、画像が表す語を推定するモデルである分類器134の規模を小さくすることができる。したがって、画像判定モデル130は学習を行いやすい機械学習モデルであり、高い精度で推論を行うことができる。具体的には、検証画像115が表す語を、高い精度で推定することができる。よって、本発明の一態様の校閲システムが、指定文書111に含まれる誤記等を高い精度で検出することができる。なお、図10Bでは、画像判定モデル130が2次分類まで行う例を示したが、3次分類まで行ってもよいし、4次分類以上行ってもよい。例えば、画像判定モデル130が3次分類まで行う場合は、3次分類により画像が表す語を推定することができる。
<校閲方法_4>
以上説明した校閲方法_1乃至校閲方法_3は、適宜組み合わせることができる。図11は、校閲方法_1乃至校閲方法_3に示す方法を組み合わせた校閲方法の一例を示すフローチャートであり、ステップS11からステップS15、及びステップS41からステップS43までの処理を有する。図11に示す処理は、校閲システム10bにより行うことができる。ここで、モデル演算部25には、言語モデルの他、画像判定モデルが組み込まれているものとする。
ステップS11からステップS15までの処理は、図4に示すステップS11からステップS15までの処理と同様とすることができる。図11では、図4に示す処理と異なる処理を、一点鎖線で囲って示している。
[ステップS41]
ステップS41では、検証画像115が、モデル演算部25に組み込まれた画像判定モデルに供給される。これにより、モデル演算部25が、検証画像115が表す語の確率を算出する。当該確率を第1の確率とする。第1の確率は、ステップS15で類似度取得部24が取得した類似度を考慮して算出する。例えば、画像判定モデルが算出した確率に対応する値に、当該確率を算出した語を画像化した比較用画像105の、検証画像115との類似度に対応する値を加えることにより、第1の確率を算出する。ステップS41により、モデル演算部25が第1の確率を取得することができる。
[ステップS42]
ステップS42では、モデル演算部25が、第1の確率が高い語の、検証画像115に対応する語113として置き換えられる確率を取得する。当該確率を第2の確率とする。第2の確率は、モデル演算部25に組み込まれた言語モデルにより算出することができる。
ここで、モデル演算部25は、少なくとも第1の確率が最も高い語については、第2の確率を算出することが好ましい。例えば、モデル演算部25は、第1の確率が最も高い語から数えて、所定の個数の語について、第2の確率を算出することができる。又は、モデル演算部25は、最も高い第1の確率との差がしきい値以下である第1の確率の語について、第2の確率を算出することができる。又は、モデル演算部25は、第1の確率がしきい値以上の語について、第2の確率を算出することができる。
[ステップS43]
ステップS43では、提示部14が、第2の確率が高い語を提示する。提示部14は、少なくとも第2の確率が最も高い語を提示することが好ましい。例えば、提示部14は、第2の確率が最も高い語から数えて、所定の個数の語を提示することができる。又は、提示部14は、最も高い第2の確率との差がしきい値以下である第2の確率の語を提示することができる。又は、提示部14は、第2の確率がしきい値以上の語を提示することができる。
例えば図11に示す方法で本発明の一態様の校閲システムを駆動させることにより、指定文書111に含まれる誤記等の検出精度を高めつつ、本発明の一態様の校閲システムの利便性を高めることができる。
<校閲方法_5>
図12は、校閲システム10bによる校閲方法の一例を示すフローチャートであり、ステップS11からステップS15、ステップS21からステップS22、及びステップS51からステップS53までの処理を有する。
ステップS11からステップS15、及びステップS21からステップS22までの処理は、図7に示す処理と同様とすることができる。図12では、図7に示す処理と異なる処理を、一点鎖線で囲って示している。
[ステップS51]
ステップS51では、モデル演算部25が、検証画像115に対応する語113として置き換えられる確率を取得した語103のうち、当該確率が高い語103の同音異義語を取得する。モデル演算部25は、少なくとも当該確率が最も高い語103の同音異義語を取得することが好ましい。例えば、モデル演算部25は、当該確率が最も高い語103から数えて、所定の個数の語103の同音異義語を取得することができる。又は、モデル演算部25は、最も高い当該確率との差がしきい値以下である確率の語103の同音異義語を取得することができる。又は、モデル演算部25は、当該確率がしきい値以上の語103の同音異義語を取得することができる。
[ステップS52]
ステップS52では、モデル演算部25が、上記取得した同音異義語の、検証画像115に対応する語113として置き換えられる確率を取得する。当該確率は、モデル演算部25に組み込まれた言語モデルを用いて算出することができる。
[ステップS53]
ステップS53では、モデル演算部25が同音異義語を取得した語103そのものと、検証画像115に対応する語113として置き換えられる確率が語103より上昇した同音異義語と、を提示部14に提示する。例えば、語103における当該確率より、確率がしきい値以上に上昇した同音異義語を提示部14に提示することができる。
図11等に示す方法で校閲システム10b等を駆動させることにより、校閲システム10bは、同音異義語による誤記等を検出することができる。例えば、指定文書111が日本語の文章を含む場合は、漢字の誤変換を検出することができる。よって、校閲システム10bの利便性を高めることができる。
<校閲方法_6>
図4、図7、図9、図11、及び図12に示す方法では、ステップS12において、分割部21が、指定文書111に含まれる文章を語113に分割する。前述のように、例えば英語の文章ではスペースに基づき、語113に分割することができる。この場合、指定文書111に例えば“transistor”という語が“transistor”の誤記として含まれているとすると、“tran”と“sistor”が異なる語113として分割される場合がある。“tran”という語が比較用語群102に含まれない場合、“tran”という語を画像化した検証画像115と類似度の高い比較用画像105が存在しない場合がある。同様に、“sistor”という語が比較用語群102に含まれない場合、“sistor”という語を画像化した検証画像115と類似度の高い比較用画像105が存在しない場合がある。よって、指定文書111に例えば“tran sistor”という語が含まれていても、訂正候補として“transistor”を提示できない場合がある。
このような場合、N-gram(N文字インデックス法、又はNグラム法等ともいう)等により、文章を所定の文字数で分割することが好ましい。例えば、指定文書111に含まれる文章を10文字で分割する場合、スペースを文字数に含まないとすると、“tran sistor”で1つの語113とすることができる。
具体的には、例えばステップS12では、指定文書111に含まれる文章を、スペースに基づき語113に分割する。よって、指定文書111に“tran sistor”という語が含まれる場合、ステップS12では“tran”と“sistor”が異なる語113として分割される。
ステップS13において、出現頻度取得部22が、語113の比較用文書群100における出現頻度を取得する。ここで、“tran”の出現頻度と“sistor”の出現頻度は、共に低いものとする。そして、“tran”の直前の語113の出現頻度と、“sistor”の直後の語113の出現頻度は、共に高いものとする。この場合、出現頻度が高い語113に挟まれた、出現頻度が低い一連の語113に対してN-gramを適用する。これにより、出現頻度取得部22が“tran sistor”という語113を取得できたものとする。
ステップS14において、画像生成部23が、比較用文書群100における出現頻度が低い語113の他、N-gramによって取得された語113を画像化し、検証画像115を取得する。その後、図4、図7、図9、図11、又は図12に示す処理を行う。
“tran sistor”という語113を画像化した検証画像115は、“transistor”という語103を画像化した比較用画像105との類似度が高くなる。よって、提示部14は、指定文書111に含まれる“tran sistor”が、“transistor”の誤記である可能性がある旨を提示することができる。したがって、本発明の一態様の校閲システムの利便性を高めることができる。
図13は、本実施の形態の校閲システムを示すイメージ図である。
図13に示す校閲システムは、サーバ1100と、端末(電子機器ともいう)と、を有する。サーバ1100と各端末との間の通信は、インターネット回線1110を介して行うことができる。
サーバ1100は、端末からインターネット回線1110を介して入力されたデータを用いて、演算を行うことができる。サーバ1100は、演算の結果を、インターネット回線1110を介して端末に送信することができる。これにより、端末における演算の負担を低減することができる。
図13では、端末として、情報端末1300、情報端末1400、及び情報端末1500を示している。情報端末1300は、スマートフォン等の携帯情報端末の一例である。情報端末1400は、タブレット端末の一例である。また、情報端末1400は、キーボードを有する筐体1450と接続することで、ノート型情報端末として用いることもできる。情報端末1500は、デスクトップ型情報端末の一例である。
このような形態を構成することにより、ユーザは、情報端末1300、情報端末1400、及び情報端末1500等からサーバ1100に対してアクセスすることができる。そして、ユーザは、インターネット回線1110を介した通信によって、サーバ1100の管理者が提供するサービスを受けることができる。当該サービスとしては、例えば、本発明の一態様の校閲システムを用いたサービスが挙げられる。当該サービスにおいて、サーバ1100で人工知能を利用してもよい。
10a:校閲システム、10b:校閲システム、10c:校閲システム、11:受付部、12:記憶部、13:処理部、14:提示部、21:分割部、22:出現頻度取得部、23:画像生成部、24:類似度取得部、25:モデル演算部、100:比較用文書群、101:比較用文書、102:比較用語群、103:語、104:比較用画像群、105:比較用画像、111:指定文書、112:指定文書語群、113:語、115:検証画像、120:画像判定モデル、122:学習用語群、123:語、124:学習用画像群、125:学習用画像、126:学習結果、130:画像判定モデル、131:分類器、132:学習結果、133:クラスタ、134:分類器、135:学習結果、1100:サーバ、1110:インターネット回線、1300:情報端末、1400:情報端末、1450:筐体、1500:情報端末

Claims (6)

  1. 分割部と、出現頻度取得部と、画像生成部と、モデル演算部と、提示部と、を有し、
    前記分割部は、比較用文書群に含まれる文章を複数の第1の語に分割する機能、及び指定文書に含まれる文章を複数の第2の語に分割する機能を有し、
    前記出現頻度取得部は、前記複数の第2の語の、前記比較用文書群における出現頻度を取得する機能を有し、
    前記画像生成部は、前記第1の語を画像化して比較用画像群を取得する機能を有し、
    前記画像生成部は、前記複数の第2の語のうち、前記出現頻度が第1のしきい値以下である前記第2の語を画像化して検証画像を取得する機能を有し、
    前記モデル演算部は、前記検証画像が表す語を推定する機能を有し、
    前記提示部は、前記推定の結果を提示する機能を有する校閲システム。
  2. 請求項において、
    前記モデル演算部は、機械学習モデルを用いた演算を行う機能を有する校閲システム。
  3. 請求項において、
    前記機械学習モデルは、前記比較用画像群を用いて学習されたものである校閲システム。
  4. 請求項において、
    前記機械学習モデルは、前記比較用画像群に含まれる比較用画像に、正解ラベルとして語を紐付けたデータを用いた、教師あり学習により学習されたものである校閲システム。
  5. 請求項又はにおいて、
    前記機械学習モデルは、第1の分類器と、二以上の第2の分類器と、を有し、
    前記第1の分類器は、前記比較用画像群に含まれる比較用画像に対して、グルーピングを行う機能を有し、
    前記第2の分類器は、前記グルーピングが行われた前記比較用画像が表す語を推定する機能を有し、
    前記比較用画像が表す語の推定は、グループごとに異なる前記第2の分類器を用いて行われる校閲システム。
  6. 請求項乃至のいずれか一項において、
    前記機械学習モデルは、ニューラルネットワークモデルである校閲システム。
JP2022569309A 2020-12-14 2021-12-02 校閲システム Active JP7828298B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020206688 2020-12-14
JP2020206688 2020-12-14
PCT/IB2021/061206 WO2022130093A1 (ja) 2020-12-14 2021-12-02 校閲システム、及び校閲方法

Publications (3)

Publication Number Publication Date
JPWO2022130093A1 JPWO2022130093A1 (ja) 2022-06-23
JPWO2022130093A5 JPWO2022130093A5 (ja) 2024-12-09
JP7828298B2 true JP7828298B2 (ja) 2026-03-11

Family

ID=82057420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022569309A Active JP7828298B2 (ja) 2020-12-14 2021-12-02 校閲システム

Country Status (4)

Country Link
US (1) US20240071116A1 (ja)
JP (1) JP7828298B2 (ja)
CN (1) CN116601640A (ja)
WO (1) WO2022130093A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12511797B2 (en) * 2023-09-08 2025-12-30 Adobe Inc. Semantic image synthesis

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10007863B1 (en) 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
US20190102653A1 (en) 2017-09-29 2019-04-04 Konica Minolta Laboratory U.S.A., Inc. Local connectivity feature transform of binary images containing text characters for optical character/word recognition
JP2019204214A (ja) 2018-05-22 2019-11-28 大日本印刷株式会社 学習装置、学習方法、プログラム及び推定装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010007863A1 (en) * 1998-06-18 2001-07-12 Merck & Co., Inc. Wet granulation formulation for bisphosphonic acids
US5764799A (en) * 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
JPH09190506A (ja) * 1996-01-11 1997-07-22 Nec Eng Ltd 文字読取装置
US8196030B1 (en) * 2008-06-02 2012-06-05 Pricewaterhousecoopers Llp System and method for comparing and reviewing documents
JP2012043385A (ja) * 2010-08-23 2012-03-01 Toshiba Corp 文字認識装置および文字認識方法
JP5962419B2 (ja) * 2012-10-15 2016-08-03 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US10878269B2 (en) * 2018-06-19 2020-12-29 Sap Se Data extraction using neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10007863B1 (en) 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
US20190102653A1 (en) 2017-09-29 2019-04-04 Konica Minolta Laboratory U.S.A., Inc. Local connectivity feature transform of binary images containing text characters for optical character/word recognition
JP2019204214A (ja) 2018-05-22 2019-11-28 大日本印刷株式会社 学習装置、学習方法、プログラム及び推定装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田中 駿 外2名,複数分野の文書を用いた日本語誤り表現の検出,言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD-ROM] ,日本,言語処理学会,2012年03月31日,pp.779-782

Also Published As

Publication number Publication date
JPWO2022130093A1 (ja) 2022-06-23
CN116601640A (zh) 2023-08-15
US20240071116A1 (en) 2024-02-29
WO2022130093A1 (ja) 2022-06-23

Similar Documents

Publication Publication Date Title
Nurseitov et al. Handwritten Kazakh and Russian (HKR) database for text recognition
US20200073882A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
Thessen et al. Applications of natural language processing in biodiversity science
Mathew et al. Multilingual OCR for Indic scripts
US11379690B2 (en) System to extract information from documents
US20170323170A1 (en) Method and system for data extraction from images of semi-structured documents
US12265909B2 (en) Systems and methods for a k-nearest neighbor based mechanism of natural language processing models
CA3048356A1 (en) Unstructured data parsing for structured information
AU2015357110A1 (en) Method for text recognition and computer program product
US11868313B1 (en) Apparatus and method for generating an article
US12399917B2 (en) Methods and apparatus for intelligent editing of legal documents using ranked tokens
US11507901B1 (en) Apparatus and methods for matching video records with postings using audiovisual data processing
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
Shekhar et al. An effective cybernated word embedding system for analysis and language identification in code-mixed social media text
Goyal et al. Recurrent neural network-based model for named entity recognition with improved word embeddings
JP7828298B2 (ja) 校閲システム
US20230289396A1 (en) Apparatuses and methods for linking posting data
CN115617951A (zh) 合同信息提取方法、装置、计算机设备、介质和程序产品
Mahmoud et al. Hybrid attention-based approach for arabic paraphrase detection
Ayman et al. Navigating tenses in Bengali sentences: A stacked ensemble model for enhanced prediction
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
Nagy et al. Adaptive and interactive approaches to document analysis
CN116030469A (zh) 一种处理方法、装置、设备和计算机可读存储介质
Dehghani et al. Persian Typographical Error Type Detection using Many-to-Many Deep Neural Networks on Algorithmically-Generated Misspellings
Sohana et al. Bengali Stop Word Detection Using Different Machine Learning Algorithms

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20260203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20260227

R150 Certificate of patent or registration of utility model

Ref document number: 7828298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150