JP7828298B2

JP7828298B2 - 校閲システム

Info

Publication number: JP7828298B2
Application number: JP2022569309A
Authority: JP
Inventors: 純平桃; 祥子齊藤
Original assignee: Semiconductor Energy Laboratory Co Ltd
Current assignee: Semiconductor Energy Laboratory Co Ltd
Priority date: 2020-12-14
Filing date: 2021-12-02
Publication date: 2026-03-11
Anticipated expiration: 2041-12-02
Also published as: JPWO2022130093A1; CN116601640A; US20240071116A1; WO2022130093A1

Description

本発明の一態様は、文書の校閲システム、及び校閲方法に関する。

なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置（例えば、タッチセンサ等）、入出力装置（例えば、タッチパネル等）、それらの駆動方法、又はそれらの製造方法を一例として挙げることができる。

語を入力し、当該語が記載されている位置を文書全体から検索する場合、文書に誤記が含まれていると、入力した語と同一の語であっても、誤記によって検索されない場合がある。例えば、“ｓｙｓｔｅｍ”を表す語が、誤記を含んで“ｓｙｓｔｍ”と文書中に記載されている場合、検索したい語として“ｓｙｓｔｅｍ”を入力しても“ｓｙｓｔｍ”は検索されない。よって、誤記を検出することができれば、誤記を訂正することができ、又は誤記を考慮して検索することができるため、検索の網羅性を高めることができる。誤記を検出する方法として、検索対象の文書に含まれる単語をソートし、類似するが異なる単語を、誤記の可能性がある単語として表示する方法が開示されている（特許文献１）。

国際公開第２０１４／１７１５１９号

上記特許文献１に示す方法では、誤記であるか否かの最終的な判断はユーザが行うが、例えば“Ｔ”（アルファベット）と“Τ”（ギリシャ文字）等、人間が一見して違いを判別することが難しい文字の違いの場合、誤記として判断することが難しい。しかしながら、例えば“Ｔ”（アルファベット）と“Τ”（ギリシャ文字）は、見た目は似ていても文字コードが異なるため、コンピュータは異なる文字として認識する。よって、例えば“Ｔ”（アルファベット）と記載すべき文字が“Τ”（ギリシャ文字）と記載されている場合、一見して誤記と判断できる誤記が含まれる場合と同様に、検索の網羅性が低下する。したがって、人間が一見して違いを判別することが難しい文字の違いであっても、ユーザが誤記であるか否かが判定できるようにすることが好ましい。

本発明の一態様は、ユーザが誤記等であるか否かの判断をしやすい校閲システム、又は校閲方法を提供することを課題の一つとする。又は、本発明の一態様は、利便性が高い校閲システム、又は校閲方法を提供することを課題の一つとする。又は、本発明の一態様は、高い精度で誤記等を検出することができる校閲システム、又は校閲方法を提供することを課題の一つとする。又は、本発明の一態様は、新規な校閲システム、又は校閲方法を提供することを課題の一つとする。

なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求項の記載から、これら以外の課題を抽出することが可能である。

本発明の一態様は、分割部と、出現頻度取得部と、画像生成部と、類似度取得部と、提示部と、を有し、分割部は、比較用文書群に含まれる文章を複数の第１の語に分割する機能、及び指定文書に含まれる文章を複数の第２の語に分割する機能を有し、出現頻度取得部は、複数の第２の語の、比較用文書群における出現頻度を取得する機能を有し、画像生成部は、第１の語を画像化して比較用画像群を取得する機能を有し、画像生成部は、複数の第２の語のうち、出現頻度がしきい値以下である第２の語を画像化して検証画像を取得する機能を有し、類似度取得部は、検証画像と、比較用画像群に含まれる比較用画像と、の類似度を取得する機能を有し、提示部は、比較用画像のうち、少なくとも類似度が最も高い比較用画像が表す第１の語を提示する機能を有する校閲システムである。

又は、本発明の一態様は、分割部と、出現頻度取得部と、画像生成部と、類似度取得部と、モデル演算部と、提示部と、を有し、分割部は、比較用文書群に含まれる文章を複数の第１の語に分割する機能、及び指定文書に含まれる文章を複数の第２の語に分割する機能を有し、出現頻度取得部は、複数の第２の語の、比較用文書群における出現頻度を取得する機能を有し、画像生成部は、第１の語を画像化して比較用画像群を取得する機能を有し、画像生成部は、複数の第２の語のうち、出現頻度が第１のしきい値以下である第２の語を画像化して検証画像を取得する機能を有し、類似度取得部は、検証画像と、比較用画像群に含まれる比較用画像と、の類似度を取得する機能を有し、モデル演算部は、類似度が第２のしきい値以上である比較用画像が表す第１の語の、検証画像が表す第２の語として置き換えられる確率を取得する機能を有し、提示部は、少なくとも確率が最も高い第１の語を提示する機能を有する校閲システムである。

又は、上記態様において、モデル演算部は、機械学習モデルを用いた演算を行う機能を有してもよい。

又は、上記態様において、機械学習モデルは、比較用文書群を用いて学習されたものであってもよい。

又は、上記態様において、機械学習モデルは、ニューラルネットワークモデルであってもよい。

又は、本発明の一態様は、分割部と、出現頻度取得部と、画像生成部と、モデル演算部と、提示部と、を有し、分割部は、比較用文書群に含まれる文章を複数の第１の語に分割する機能、及び指定文書に含まれる文章を複数の第２の語に分割する機能を有し、出現頻度取得部は、複数の第２の語の、比較用文書群における出現頻度を取得する機能を有し、画像生成部は、第１の語を画像化して比較用画像群を取得する機能を有し、画像生成部は、複数の第２の語のうち、出現頻度が第１のしきい値以下である第２の語を画像化して検証画像を取得する機能を有し、モデル演算部は、検証画像が表す語を推定する機能を有し、提示部は、推定の結果を提示する機能を有する校閲システムである。

又は、上記態様において、機械学習モデルは、比較用画像群を用いて学習されたものであってもよい。

又は、上記態様において、機械学習モデルは、比較用画像群に含まれる比較用画像に、正解ラベルとして語を紐付けたデータを用いた、教師あり学習により学習されたものであってもよい。

又は、上記態様において、機械学習モデルは、第１の分類器と、二以上の第２の分類器と、を有し、第１の分類器は、比較用画像群に含まれる比較用画像に対して、グルーピングを行う機能を有し、第２の分類器は、グルーピングが行われた比較用画像が表す語を推定する機能を有し、推定は、グループごとに異なる第２の分類器を用いて行われてもよい。

又は、上記態様において、提示部は、表示を行う機能を有してもよい。

又は、本発明の一態様は、比較用文書群に含まれる文章を複数の第１の語に分割し、第１の語を画像化することにより取得された比較用画像群を用いた校閲方法であって、指定文書に含まれる文章を複数の第２の語に分割し、複数の第２の語の、比較用文書群における出現頻度を取得し、複数の第２の語のうち、出現頻度がしきい値以下である第２の語を画像化して検証画像を取得し、検証画像と、比較用画像群に含まれる比較用画像と、の類似度を取得して比較用画像のうち、少なくとも類似度が最も高い比較用画像が表す第１の語を提示する校閲方法である。

又は、本発明の一態様は、比較用文書群に含まれる文章を複数の第１の語に分割し、第１の語を画像化することにより取得された比較用画像群を用いた校閲方法であって、指定文書に含まれる文章を複数の第２の語に分割し、複数の第２の語の、比較用文書群における出現頻度を取得し、複数の第２の語のうち、出現頻度がしきい値以下である第２の語を画像化して検証画像を取得し、検証画像と、比較用画像群に含まれる比較用画像と、の類似度を取得し、類似度が第２のしきい値以上である比較用画像が表す第１の語の、検証画像が表す第２の語として置き換えられる確率を取得し、少なくとも確率が最も高い第１の語を提示する校閲方法である。

又は、上記態様において、確率は、機械学習モデルを用いて取得してもよい。

又は、本発明の一態様は、比較用文書群に含まれる文章を複数の第１の語に分割し、第１の語を画像化することにより取得された比較用画像群を用いた校閲方法であって、指定文書に含まれる文章を複数の第２の語に分割し、複数の第２の語の、比較用文書群における出現頻度を取得し、複数の第２の語のうち、出現頻度がしきい値以下である第２の語を画像化して検証画像を取得し、検証画像が表す語を推定し、推定の結果を提示する校閲方法である。

又は、上記態様において、推定は、機械学習モデルを用いて行ってもよい。

又は、上記態様において、機械学習モデルは、第１の分類器と、二以上の第２の分類器と、を有し、第１の分類器は、比較用画像群に含まれる比較用画像に対して、グルーピングを行う機能を有し、第２の分類器は、グルーピングが行われた比較用画像が表す語を推定する機能を有し、比較用画像が表す語の推定は、グループごとに異なる前記第２の分類器を用いて行われてもよい。

又は、上記態様において、提示は、表示により行ってもよい。

本発明の一態様により、ユーザが誤記等であるか否かの判断をしやすい校閲システム、又は校閲方法を提供することができる。又は、本発明の一態様により、利便性が高い校閲システム、又は校閲方法を提供することができる。又は、本発明の一態様により、高い精度で誤記等を検出することができる校閲システム、又は校閲方法を提供することができる。又は、本発明の一態様により、新規な校閲システム、又は校閲方法を提供することができる。

なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から、これら以外の効果を抽出することが可能である。

図１は、校閲システムの構成例を示す図である。
図２は、校閲方法の一例を示す図である。
図３Ａ乃至図３Ｃは、校閲方法の一例を示す図である。
図４は、校閲方法の一例を示す図である。
図５Ａ乃至図５Ｅは、校閲方法の一例を示す図である。
図６は、校閲システムの構成例を示す図である。
図７は、校閲方法の一例を示す図である。
図８は、校閲システムの構成例を示す図である。
図９は、校閲方法の一例を示す図である。
図１０Ａ及び図１０Ｂは、校閲方法の一例を示す図である。
図１１は、校閲方法の一例を示す図である。
図１２は、校閲方法の一例を示す図である。
図１３は、校閲システムの一例を示す図である。

実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。

また、本明細書等において、「第１」、及び「第２」等という序数詞は、構成要素の混同を避けるために付したものである。従って、構成要素の数を限定するものではない。また、構成要素の順序を限定するものではない。例えば、本明細書において「第１」に言及された構成要素が、特許請求の範囲において「第２」に言及された構成要素とすることもありうる。また例えば、本明細書において「第１」に言及された構成要素を、特許請求の範囲において省略することもありうる。

（実施の形態）
本実施の形態では、本発明の一態様の校閲システム、及び校閲方法について、図面を用いて説明する。

本発明の一態様の校閲システムでは、“Ｔ”（アルファベット）と“Τ”（ギリシャ文字）等、見た目は似ているが文字コードが異なる文字を識別することができる。例えば、文書中に”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）という語が含まれる場合、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）が”ＦＥＴ”（Ｆ、Ｅ、Ｔはいずれもアルファベット）の誤記である可能性がある旨を、校閲システムのユーザに提示することができる。よって、本発明の一態様の校閲システムにより、ユーザが目視では発見することが難しい誤記等を発見しやすくすることができる。

具体的には、データベースに、比較用文書群を登録しておく。また、比較用文書群に含まれる文章を語に分割し、当該語を画像化する。このような画像を、比較用画像とする。比較用画像もデータベースに登録しておく。

この状態で、校閲対象の文書である指定文書を、本発明の一態様の校閲システムに入力する。指定文書に含まれる語のうち、比較用文書群における出現頻度が低い語を、誤記の可能性がある語とする。このような語を画像化し、検証画像とする。検証画像と、比較用画像と、の類似度を取得する。本発明の一態様の校閲システムは、検証画像が表す語が、類似度の高い比較用画像が表す語の誤記である可能性がある旨を提示することができる。

＜校閲システム＿１＞
図１は、校閲システム１０ａの構成例を示すブロック図である。校閲システム１０ａは、受付部１１、記憶部１２、処理部１３、及び提示部１４を有する。処理部１３は、分割部２１、出現頻度取得部２２、画像生成部２３、及び類似度取得部２４を有する。

図１では、校閲システム１０ａの構成要素間のデータ等のやり取りを、矢印で示している。なお、図１に示すデータ等のやり取りは一例であり、例えば矢印によって結合されていない構成要素間でデータ等のやり取りを行うことができる場合がある。また、矢印によって結合されている構成要素間であっても、データ等のやり取りを行わない場合がある。図１以外のブロック図においても同様である。

校閲システム１０ａは、ユーザが利用するパーソナルコンピュータ（ＰＣ）等の情報処理装置に設けられていてもよい。又は、サーバに校閲システム１０ａの記憶部１２、及び処理部１３を設け、クライアントＰＣからネットワーク経由でアクセスして利用する構成としてもよい。

本明細書等において、校閲システム等のシステムが設けられる装置、又は機器等のユーザを、単に「システムのユーザ」という場合がある。例えば、校閲システムが設けられる情報処理装置のユーザを、校閲システムのユーザという場合がある。

［受付部１１］
受付部１１は、文書を受け付ける機能を有する。具体的には、受付部１１は、文書を表すデータを受け付ける機能を有する。受付部１１に供給された文書は、処理部１３に供給することができる。

本明細書等において特に記載が無い場合、文書とは自然言語による事象の記述を示す。文書は、電子化されて機械可読である。文書は、例えば、特許出願書類、実用新案登録出願書類、意匠登録出願書類、商標登録出願書類、判例、契約書、約款、製品マニュアル、小説、刊行物、白書、及び技術文書等であるが、これらに限定されない。

［記憶部１２］
記憶部１２は、受付部１１に供給されたデータ、及び処理部１３から出力されたデータ等を記憶する機能を有する。また、記憶部１２は、処理部１３が実行するプログラムを記憶する機能を有する。

記憶部１２は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。揮発性メモリとしては、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、及びＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等が挙げられる。不揮発性メモリとしては、ＲｅＲＡＭ（ＲｅｓｉｓｔｉｖｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、抵抗変化型メモリともいう）、ＰＲＡＭ（ＰｈａｓｅｃｈａｎｇｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＦｅＲＡＭ（ＦｅｒｒｏｅｌｅｃｔｒｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＭＲＡＭ（ＭａｇｎｅｔｏｒｅｓｉｓｔｉｖｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、磁気抵抗型メモリともいう）、及びフラッシュメモリ等が挙げられる。また、記憶部１２は、記録メディアドライブを有していてもよい。記録メディアドライブとしては、ハードディスクドライブ（ＨａｒｄＤｉｓｋＤｒｉｖｅ：ＨＤＤ）、及びソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）等が挙げられる。

記憶部１２は、データベースを有していてもよい。例えば、データベースとして、出願データベースが挙げられる。出願としては、特許出願、実用新案登録出願、意匠登録出願、及び商標登録出願等の知的財産に係る出願が挙げられる。各出願のステータスに限定は無く、公開の有無、特許庁における係属の有無、及び登録の有無はそれぞれ問わない。例えば、出願データベースは、審査前の出願、審査中の出願、及び登録済みの出願のうち少なくとも一つを有することができ、全てを有していてもよい。

例えば、出願データベースは、複数の特許出願又は実用新案登録出願における、明細書及び請求の範囲の一方又は双方を有することが好ましい。明細書及び請求の範囲は、例えば、テキストデータで保存される。

出願データベースは、出願を識別するための出願管理番号（社内独自の番号を含む）、出願ファミリーを識別するための出願ファミリー管理番号、出願番号、公開番号、登録番号、図面、要約、出願日、優先日、公開日、ステータス、分類（特許分類、実用新案分類等）、カテゴリ、及びキーワード等の少なくとも一つを有していてもよい。これらの情報は、それぞれ、受付部１１が文書を受け付ける際に、文書を特定するために用いてもよい。又は、これらの情報は、それぞれ、処理部１３の処理結果と共に出力されてもよい。

そのほか、書籍、雑誌、新聞、及び論文等、様々な種類の文書の管理を、データベースで行うことができる。データベースは、文書の文章データを少なくとも有する。データベースは、さらに、各文書を識別する番号、タイトル、発行日等の日付、著者、及び出版社等の少なくとも一つを有していてもよい。これらの情報は、それぞれ、文書を受け付ける際に、文書を特定するために用いてもよい。又は、これらの情報は、それぞれ、処理部１３の処理結果と共に出力されてもよい。

校閲システム１０ａは、システムの外部に存在するデータベースから、文書等のデータを取り出す機能を有していてもよい。また、校閲システム１０ａは、記憶部１２が持つデータベースと、校閲システム１０ａの外部に存在するデータベースと、の双方からデータを取り出す機能を有していてもよい。

また、データベースの代わりに、ストレージ、及びファイルサーバの一方又は双方を用いてもよい。例えば、校閲システム１０ａが、ファイルサーバが有するファイルを利用する場合、記憶部１２には、ファイルサーバに保存されたファイルのパスが記憶されていることが好ましい。

［処理部１３］
処理部１３は、受付部１１から供給されたデータ、及び記憶部１２に記憶されたデータ等を用いて、演算等の処理を行う機能を有する。処理部１３は、処理結果を記憶部１２、又は提示部１４に供給することができる。

処理部１３は、例えば中央演算装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を有することができる。処理部１３は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、及びＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、及びＦＰＡＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＡｎａｌｏｇＡｒｒａｙ）等のＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）によって実現された構成であってもよい。処理部１３は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部１２のうち少なくとも一方に格納される。

処理部１３はメインメモリを有していてもよい。メインメモリは、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性メモリ、及びＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性メモリのうち少なくとも一方を有する。

ＲＡＭとしては、例えばＤＲＡＭ、及びＳＲＡＭ等が用いられ、処理部１３の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部１２に記憶されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにＲＡＭにロードされる。ＲＡＭにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部１３に直接アクセスされ、操作される。

ＲＯＭには、書き換えを必要としない、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）及びファームウェア等を格納することができる。ＲＯＭとしては、マスクＲＯＭ、ＯＴＰＲＯＭ（ＯｎｅＴｉｍｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等が挙げられる。ＥＰＲＯＭとしては、紫外線照射により記憶データの消去を可能とするＵＶ－ＥＰＲＯＭ（Ｕｌｔｒａ－ＶｉｏｌｅｔＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びフラッシュメモリ等が挙げられる。

以下では、処理部１３が有する構成要素について説明する。

≪分割部２１≫
分割部２１は、文書に含まれる文章を単語に分割する機能を有する。例えば英語の文章ではスペースに基づき、単語に分割することができる。また、日本語の文章では、例えば分かち書き処理を行うことにより、単語に分割することができる。分割部２１が取得した単語は、出現頻度取得部２２、画像生成部２３、及び類似度取得部２４に供給することができる。ここで、分割部２１は、文章を単語に分割する際に、文章のクリーニング処理を行うことが好ましい。クリーニング処理では、文章内に含まれるノイズを除去する。例えば、英語の文章である場合は、当該クリーニング処理とは、セミコロンを削除する、及びコロンをカンマに置き換える等とすることができる。

また、分割部２１は、分割した単語に対して例えば形態素解析を行う機能を有する。これにより、単語の品詞を判別することができる。

なお、分割部２１は、文書に含まれる文章を、必ずしも１つの単語ごとに分割しなくてもよい。例えば、分割部２１は、一部の語を複合語として分割してもよい。つまり、分割した１つの語の中に、２つ以上の単語が含まれてもよい。

≪出現頻度取得部２２≫
出現頻度取得部２２は、分割部２１が文章を分割することにより取得した語の、例えばデータベースに登録された文書群における出現頻度を取得する機能を有する。具体的には、出現頻度取得部２２は、例えば分割部２１が文章を分割することにより取得した語を表す文字コードと同一の文字コードの語が、データベースに登録された文書群において出現する頻度を取得することができる。ここで、文書群は、１以上の文書の集合を表す。文書群には、例えばデータベースに登録された文書の全て、又は一部が含まれる。例えば、データベースに特許出願、又は論文等の技術文書が登録されている場合、文書群は、データベースに登録された文書のうち特定の技術分野の文書の集合とすることができる。

出現頻度取得部２２は、語の出現頻度を、例えばＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）値として取得することができる。出現頻度取得部２２が取得した出現頻度は、例えば記憶部１２に供給してデータベースに登録することができ、また画像生成部２３に供給することができる。

≪画像生成部２３≫
画像生成部２３は、語を画像化した画像データを生成する機能を有する。当該画像は、例えば語を表すテキストを白色、背景を黒色とした２値データとすることができる。また、当該画像は、例えば語を表すテキストを黒色、背景を白色とした２値データとしてもよい。さらに、当該画像は、多値のデータとしてもよい。例えば、語を表すテキストを灰色、背景を黒色又は白色としてもよい。また、語を表すテキストを白色又は黒色、背景を灰色としてもよい。さらに、カラーの画像としてもよい。

画像生成部２３は、具体的には、分割部２１が取得した語を画像化することができる。ここで、画像生成部２３は、分割部２１が取得した語を全て画像化しなくてもよい。例えば、画像生成部２３は、分割部２１が取得した語のうち、出現頻度取得部２２が取得した出現頻度がしきい値以下の語を画像化することができる。

画像生成部２３が取得した画像は、例えば記憶部１２に供給してデータベースに登録することができ、また類似度取得部２４に供給することができる。

≪類似度取得部２４≫
類似度取得部２４は、画像生成部２３が取得した画像を比較し、類似度を取得する機能を有する。類似度は、例えば領域ベースマッチング、又は特徴ベースマッチングにより算出して取得することができる。また、類似度取得部２４は、提示部１４に供給する語を上記類似度に基づき選択する機能を有する。ここで、分割部２１が前述のクリーニング処理を行うことにより、類似度を高い精度で算出することができる。

本明細書等において、「算出」という用語は、例えば数学的な演算を行うことを示す。また、「取得」という用語は、「算出」という用語が示す意味を含むものとするが、必ずしも数学的な演算を伴わなくてもよい。例えば、Ａがデータベースからデータを読み出すことを、Ａがデータを取得するということができる。

［提示部１４］
提示部１４は、処理部１３の処理結果に基づいて、情報を校閲システム１０ａのユーザに提示する機能を有する。当該情報は、例えば類似度取得部２４が出力した語とすることができる。提示部１４は、例えば情報を表示することにより、当該情報を校閲システム１０ａのユーザに提示することができる。つまり、提示部１４は、例えばディスプレイとすることができる。また、提示部１４は、スピーカとしての機能を有してもよい。

校閲システム１０ａにより、誤記等の校閲を行うことができる。例えば、記憶部１２が有するデータベースに、比較用文書群を登録しておく。また、比較用文書群に含まれる文章を分割部２１により語に分割し、当該語を画像生成部２３が画像化する。このような画像を、比較用画像とする。比較用画像もデータベースに登録しておく。

この状態で、校閲対象の文書である指定文書を受付部１１に供給する。指定文書に含まれる語のうち、比較用文書群における出現頻度が低い語を、誤記の可能性がある語とする。このような語を、画像生成部２３により画像化し、検証画像とする。検証画像と、比較用画像と、の類似度を類似度取得部２４により取得する。検証画像が表す語と、類似度の高い比較用画像が表す語と、を提示部１４に供給する。提示部１４は、検証画像が表す語が、類似度の高い比較用画像が表す語の誤記である可能性がある旨を提示することができる。

以上により、校閲システム１０ａは、”Ｔ”（アルファベット）と”Τ”（ギリシャ文字）等、見た目は似ているが文字コードが異なる文字を識別することができる。例えば、指定文書に”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）という語が含まれる場合、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）が”ＦＥＴ”（Ｆ、Ｅ、Ｔはいずれもアルファベット）の誤記である可能性がある旨を、校閲システム１０ａのユーザに提示することができる。よって、校閲システム１０ａにより、ユーザが目視では発見することが難しい誤記等を発見しやすくすることができる。したがって、本発明の一態様により、ユーザが誤記等であるか否かの判断をしやすい校閲システム、及び校閲方法を提供することができる。また、本発明の一態様により、利便性が高い校閲システム、及び校閲方法を提供することができる。

また、校閲システム１０ａは、光学文字認識（ＯＣＲ）によって読み取った文字を修正する際に用いることができる。例えば、”ＦＥＴ”（Ｆ、Ｅ、Ｔはいずれもアルファベット）と記載された文書をＯＣＲにより読み取ったが、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）と認識されたものとする。この場合、ＯＣＲが読み取った文書を指定文書とすることにより、校閲システム１０ａは、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）を”ＦＥＴ”（Ｆ、Ｅ、Ｔはいずれもアルファベット）に修正することができる。

以下では、図２乃至図５を用いて、校閲システム１０ａを用いた校閲方法の一例を説明する。

＜校閲方法＿１＞
まず、校閲システム１０ａが校閲を行う機能を有するために必要となるデータを取得し、例えばデータベースに登録する。前述のように、当該データベースは、記憶部１２が有することができる。又は、当該データベースは、校閲システム１０ａの外部に存在するデータベースとすることができる。

図２は、校閲システム１０ａが校閲を行う機能を有するために必要となるデータを取得する方法の一例を示すフローチャートであり、ステップＳ０１からステップＳ０５までの処理を有する。

［ステップＳ０１］
ステップＳ０１では、受付部１１が比較用文書群１００を受け付ける。図３Ａは、ステップＳ０１における処理の一例を示す模式図である。図３Ａに示すように、比較用文書群１００は、１以上の比較用文書１０１の集合である。

比較用文書群１００には比較用文書１０１として、例えばデータベースに登録された文書の全て、又は一部が含まれる。ここで、比較用文書群１００に、校閲対象の文書である指定文書が属する分野と同一の分野の文書が比較用文書１０１として多く含まれるようにすると、校閲システム１０ａは誤記等を高い精度で検出できるようになり好ましい。例えば、指定文書として特許出願、又は論文等の技術文書を想定している場合、比較用文書１０１も特許出願、又は論文等の技術文書とすることが好ましい。また、指定文書として電気分野の技術文書を想定している場合、比較用文書１０１も電気分野の技術文書とすることが好ましい。さらに、指定文書として半導体分野の技術文書を想定している場合、比較用文書１０１も半導体分野の技術文書とすることが好ましい。

［ステップＳ０２］
ステップＳ０２では、分割部２１が、比較用文書１０１に含まれる文章を語に分割することにより、比較用語群１０２を取得する。図３Ｂは、ステップＳ０２における処理の一例を示す模式図である。図３Ｂに示すように、比較用語群１０２は、語１０３の集合とすることができる。図３Ｂでは、比較用文書１０１に”ＦＥＴ”という語が含まれる例を示している。この場合、比較用語群１０２に含まれる語１０３にも、”ＦＥＴ”が含まれる。ここで、比較用文書群１００の中に同一の語が複数回出現する場合は、比較用語群１０２にも、同一の語１０３を複数含むものとする。例えば、”ＦＥＴ”という語が比較用文書群１００の中に１００回出現する場合は、比較用語群１０２は”ＦＥＴ”という語１０３を１００個含むものとする。

前述のように、例えば英語の文章ではスペースに基づき、語に分割することができる。また、日本語の文章では、例えば分かち書き処理を行うことにより、語に分割することができる。語への分割の際に、例えば形態素解析を行ってもよい。

ここで、比較用語群１０２に含まれる語１０３を表すテキストのフォントは、統一することが好ましい。また、１つの語に対して、テキストのフォントが異なる複数の語を、比較用語群１０２に含まれる語１０３として用意してもよい。

［ステップＳ０３］
ステップＳ０３では、出現頻度取得部２２が、語１０３の、比較用文書群１００における出現頻度を算出して取得する。前述のように、出現頻度は、例えばＴＦ値として算出することができる。

ここで、全ての語１０３に対して、出現頻度を取得しなくてもよい。例えば、形態素解析を行った場合、特定の品詞の語１０３に対してのみ、出現頻度を取得してもよい。英語の文章では、例えば名詞に対しては出現頻度を取得して、冠詞に対しては出現頻度を取得しなくてもよい。また、日本語の文章では、例えば名詞に対しては出現頻度を取得して、助詞に対しては出現頻度を取得しなくてもよい。

［ステップＳ０４］
ステップＳ０４では、画像生成部２３が比較用語群１０２に含まれる語１０３を画像化することにより、比較用画像群１０４を取得する。図３Ｃは、ステップＳ０４における処理の一例を示す模式図である。図３Ｃに示すように、比較用画像群１０４は、語１０３を画像化した比較用画像１０５の集合とすることができる。図３Ｃでは、比較用画像１０５を、語１０３を表すテキストを白色、背景を黒色とした２値データとする例を示している。

ステップＳ０４では、例えばステップＳ０３で比較用文書群１００における出現頻度を取得する語１０３を、比較用画像１０５に変換することができる。ここで、重複する語１０３は、１つのみ画像化することができる。例えば、比較用語群１０２に”ＦＥＴ”という語１０３が１００個含まれる場合であっても、画像化する”ＦＥＴ”という語１０３は１つのみとすることができる。

なお、ステップＳ０３とステップＳ０４は、並行して行うことができる。つまり、出現頻度取得部２２による出現頻度の取得と、画像生成部２３による語１０３の画像化と、は並行して行うことができる。また、ステップＳ０３を行った後にステップＳ０４を行ってもよく、ステップＳ０４を行った後にステップＳ０３を行ってもよい。

［ステップＳ０５］
ステップＳ０５では、ステップＳ０３において出現頻度取得部２２が取得した語１０３の出現頻度、及びステップＳ０４において画像生成部２３が取得した比較用画像群１０４を、例えばデータベースに登録する。前述のように、当該データベースは、例えば記憶部１２が有するデータベースとすることができる。また、校閲システム１０ａの外部に存在するデータベースに、出現頻度、及び比較用画像群１０４を登録してもよい。なお、校閲システム１０ａがステップＳ０３とステップＳ０４を並行して行わず、例えばステップＳ０３の後にステップＳ０４を行う場合、ステップＳ０３を行って出現頻度取得部２２が語１０３の出現頻度を取得してデータベースに登録し、その後ステップＳ０４を行って画像生成部２３が比較用画像群１０４を取得してデータベースに登録することができる。

以上により、校閲システム１０ａが校閲を行う機能を有することができる。

図４は、校閲システム１０ａによる校閲方法の一例を示すフローチャートであり、ステップＳ１１からステップＳ１６までの処理を有する。

［ステップＳ１１］
ステップＳ１１では、受付部１１が校閲対象の文書である指定文書１１１を受け付ける。図５Ａは、ステップＳ１１における処理の一例を示す模式図である。図５Ａでは、指定文書１１１は、１つの文書としている。なお、指定文書１１１として複数の文書を、受付部１１が受け付けてもよい。

校閲システム１０ａのユーザは、指定文書１１１を、受付部１１に直接入力することができる。また、指定文書１１１を、例えばデータベースに登録されている文書とすることができる。例えばデータベースに登録されている文書を指定文書１１１とする場合、校閲システム１０ａのユーザは、文書を特定する情報を入力する（例えばデータベースを検索する）ことで、指定文書１１１を特定することができる。文書を特定する情報としては、文書を識別する番号、及びタイトル等が挙げられる。

また、校閲システム１０ａのユーザは、例えば文書の一部（例えば、特定の章）に対して校閲を行いたい場合は、文書の一部を指定文書１１１としてもよい。

［ステップＳ１２］
ステップＳ１２では、分割部２１が、指定文書１１１に含まれる文章を語に分割することにより、指定文書語群１１２を取得する。図５Ｂは、ステップＳ１２における処理の一例を示す模式図である。図５Ｂに示すように、指定文書語群１１２は、語１１３の集合とすることができる。図５Ｂでは、指定文書１１１に”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）という語が、例えば１つ含まれる例を示している。この場合、指定文書語群１１２に含まれる語１１３にも、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）が含まれる。

前述のように、例えば英語の文章ではスペースに基づき、語１１３に分割することができる。また、日本語の文章では、例えば分かち書き処理を行うことにより、語１１３に分割することができる。語１１３への分割の際に例えば形態素解析を行い、語１１３の品詞を判別してもよい。

ここで、分割部２１が例えば形態素解析を行う場合、指定文書１１１に誤記等が含まれていると、誤記等を含む語に対しては品詞を判別できない場合がある。例えば、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）を名詞と判別できない場合がある。つまり、指定文書１１１に含まれる文章を語に分割する際は、例えば形態素解析を行うとステップＳ１２において誤記等の可能性がある語を検出でき好ましい。

また、指定文書語群１１２に含まれる語１１３を表すテキストのフォントは、比較用語群１０２に含まれる語１０３を表すテキストのフォントと同一であることが好ましい。よって、語１１３を表すテキストのフォントが、語１０３を表すテキストのフォントと異なる場合は、分割部２１は語１１３を表すテキストのフォントを変換することが好ましい。

［ステップＳ１３］
ステップＳ１３では、出現頻度取得部２２が、指定文書語群１１２に含まれる語１１３の、比較用文書群１００における出現頻度を取得する。出現頻度は、例えばデータベースから読み出して取得することができ、また記憶部１２から読み出して取得することができる。例えば、語１１３を表す文字コードと同一の文字コードの語１０３の比較用文書群１００における出現頻度を、語１１３の比較用文書群１００における出現頻度とすることができる。この場合、出現頻度が取得できない語１１３は、比較用文書群１００に出現しない語であるとすることができる。よって、出現頻度が取得できない語１１３の比較用文書群１００における出現頻度は、０とすることができる。なお、ステップＳ１３において、出現頻度取得部２２が、指定文書語群１１２に含まれる語１１３の、比較用文書群１００における出現頻度を算出してもよい。この場合、語１０３の比較用文書群１００における出現頻度は、例えばデータベースに登録しなくてもよい。よって、例えば図２に示すステップＳ０３を省略することができる。

ここで、全ての語１１３に対して、出現頻度を取得しなくてもよい。例えば、ステップＳ１２において形態素解析を行った場合、品詞を判別できなかった語１１３の比較用文書群１００における出現頻度は、低い蓋然性が高い。よって、品詞を判別できなかった語１１３に対しては、出現頻度取得部２２は出現頻度を取得しなくてもよい。

比較用文書群１００における出現頻度が低い語１１３は、誤記等である可能性があるとすることができる。ここで、指定文書１１１が、比較用文書群１００に多く含まれる分野の文書と同一の分野の文書であると、誤記等である可能性が低い語１１３の出現頻度が低くなることを抑制することができる。よって、誤記等の検出の精度を高めることができる。

［ステップＳ１４］
ステップＳ１４では、画像生成部２３が、誤記等である可能性がある語１１３、つまり比較用文書群１００における出現頻度が低い語１１３を画像化することにより、検証画像１１５を取得する。例えば、出現頻度がしきい値以下である語１１３を画像化する。また、ステップＳ１３において例えば形態素解析を行った場合は、品詞を判別できなかった語１１３を画像化する。

画像化する語１１３を選択する際は、出現頻度の分散を考慮してもよい。分散を考慮することにより、例えば比較用文書群１００における出現頻度が他の語１１３と比較して突出して低い語１１３を、誤記等である可能性があると判断することができる。よって、校閲システム１０ａが、誤記等である可能性が低い語１１３を、誤記等である可能性が高いと判断することを抑制することができる。よって、校閲システム１０ａが誤記等の可能性がある語１１３を、高い精度で検出することができる。

図５Ｃは、ステップＳ１４における処理の一例を示す模式図である。図５Ｃでは、画像生成部２３が語１１３のうち、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）を画像化して検証画像１１５を取得する例を示している。図５Ｃに示すように、検証画像１１５は、例えば語１１３を表すテキストを白色、背景を黒色とした２値データとすることができる。

［ステップＳ１５］
ステップＳ１５では、類似度取得部２４が、検証画像１１５と、比較用画像群１０４に含まれる比較用画像１０５と、を比較する。これにより、類似度取得部２４が、検証画像１１５と、比較用画像１０５と、の類似度を取得する。図５Ｄは、ステップＳ１５における処理の一例を示す模式図である。検証画像１１５は、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）を表すものとし、”ＦＥＴ”（Ｆ、Ｅ、Ｔはいずれもアルファベット）を表す比較用画像１０５との類似度が高いものとする。前述のように、類似度は、例えば領域ベースマッチング、又は特徴ベースマッチングにより算出して取得することができる。

［ステップＳ１６］
ステップＳ１６では、提示部１４が、ステップＳ１５において検証画像１１５との類似度を取得した比較用画像１０５のうち、類似度の高い比較用画像１０５が表す語１０３を提示する。提示部１４は、少なくとも検証画像１１５との類似度が最も高い比較用画像１０５が表す語１０３を提示することが好ましい。例えば、提示部１４は、検証画像１１５との類似度が最も高い比較用画像１０５が表す語１０３から数えて、所定の個数の語１０３を提示することができる。又は、提示部１４は、最も高い類似度との差がしきい値以下である類似度の比較用画像１０５が表す語１０３を提示することができる。又は、提示部１４は、検証画像１１５との類似度がしきい値以上の比較用画像１０５が表す語１０３を提示することができる。

図５Ｅは、ステップＳ１６における処理の一例を示す模式図である。図５Ｅに示すように、提示部１４は例えばディスプレイとすることができ、検証画像１１５が表す語が、類似度の高い比較用画像１０５が表す語１０３の誤記である可能性がある旨を提示することができる。

ここで、処理部１３は、検証画像１１５が表す語１１３と、提示部１４に提示する語１０３と、を比較する機能を有してもよい。当該比較は、例えば語１１３を表す文字コードと、提示部１４に提示する語１０３を表す文字コードと、の相違点を検出することにより行うことができる。これにより、当該相違点を、提示部１４に提示することができる。図５Ｅでは、文書中に含まれる“ＦＥΤ”の“Τ”がギリシャ文字であり、“ＦＥＴ”（Ｔはアルファベット）の誤記である可能性がある旨を、文書の欄外にコメント表示する例を示している。なお、検証画像１１５が表す語１１３と、提示部１４に提示する語１０３と、の比較は、例えば処理部１３が有する類似度取得部２４が行うことができる。

以上により、校閲システム１０ａは、見た目は似ているが文字コードが異なる文字を識別することができる。例えば、指定文書１１１に”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）という語が含まれる場合、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）が”ＦＥＴ”（Ｆ、Ｅ、Ｔはいずれもアルファベット）の誤記である可能性がある旨を、校閲システム１０ａのユーザに提示することができる。よって、校閲システム１０ａにより、ユーザが目視では発見することが難しい誤記等を発見しやすくすることができる。したがって、本発明の一態様により、ユーザが誤記等であるか否かの判断をしやすい校閲システム、及び校閲方法を提供することができる。また、本発明の一態様により、利便性が高い校閲システム、及び校閲方法を提供することができる。

また、校閲システム１０ａは、光学文字認識（ＯＣＲ）によって読み取った文字を修正する際に用いることができる。例えば、”ＦＥＴ”（Ｆ、Ｅ、Ｔはいずれもアルファベット）と記載された文書をＯＣＲにより読み取ったが、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）と認識されたものとする。この場合、ＯＣＲが読み取った文書を指定文書１１１とすることにより、校閲システム１０ａは、”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）を”ＦＥＴ”（Ｆ、Ｅ、Ｔはいずれもアルファベット）に修正することができる。

＜校閲システム＿２＞
図６は、校閲システム１０ｂの構成例を示すブロック図である。校閲システム１０ｂは、校閲システム１０ａの変形例であり、処理部１３がモデル演算部２５を有する点が、校閲システム１０ａと異なる。以下では、校閲システム１０ｂについて、校閲システム１０ａとの相違点を主に説明する。

モデル演算部２５には、例えば分割部２１が出力したデータ、及び類似度取得部２４が出力したデータ等が供給される。また、モデル演算部２５が出力したデータ等は、例えば提示部１４に供給される。

モデル演算部２５は、数理モデルによる演算を行う機能を有する。モデル演算部２５は、例えば機械学習モデルによる演算を行う機能を有し、例えばニューラルネットワークモデルによる演算を行う機能を有する。

本明細書等において、ニューラルネットワークモデルとは、生物の神経回路網を模し、学習によってニューロン同士の結合強度を決定し、問題解決能力を持たせるモデル全般を指す。ニューラルネットワークモデルは、入力層、中間層（隠れ層）、及び出力層を有する。

＜校閲方法＿２＞
以下では、校閲システム１０ｂを用いた校閲方法の一例を説明する。校閲システム１０ｂが校閲を行う機能を有するために必要となるデータは、例えば図２、及び図３Ａ乃至図３Ｃに示す方法と同様の方法で取得することができる。

図７は、校閲システム１０ｂによる校閲方法の一例を示すフローチャートであり、ステップＳ１１からステップＳ１５、及びステップＳ２１からステップＳ２３までの処理を有する。

ステップＳ１１からステップＳ１５までの処理は、図４に示すステップＳ１１からステップＳ１５までの処理と同様とすることができる。図７では、図４に示す処理と異なる処理を、一点鎖線で囲って示している。

［ステップＳ２１］
ステップＳ２１では、類似度取得部２４が、ステップＳ１５において検証画像１１５との類似度を取得した比較用画像１０５のうち、類似度の高い比較用画像１０５が表す語１０３をモデル演算部２５に供給する。これにより、モデル演算部２５が、当該類似度の高い比較用画像１０５が表す語１０３を取得することができる。

類似度取得部２４は、少なくとも検証画像１１５との類似度が最も高い比較用画像１０５が表す語１０３を、モデル演算部２５に供給することが好ましい。例えば、類似度取得部２４は、検証画像１１５との類似度が最も高い比較用画像１０５が表す語１０３から数えて、所定の個数の語１０３を、モデル演算部２５に供給することができる。又は、類似度取得部２４は、最も高い類似度との差がしきい値以下である類似度の比較用画像１０５が表す語１０３を、モデル演算部２５に供給することができる。又は、類似度取得部２４は、検証画像１１５との類似度がしきい値以上の比較用画像１０５が表す語１０３を、モデル演算部２５に供給することができる。

［ステップＳ２２］
ステップＳ２２では、モデル演算部２５が取得した語１０３の、検証画像１１５に対応する語１１３として置き換えられる確率を語１０３ごとに取得する。具体的には、モデル演算部２５には言語モデルが組み込まれており、言語モデルを用いて当該確率を算出する。当該確率は、例えば指定文書１１１に含まれる文章に基づき算出することができる。例えば、検証画像１１５に対応する語１１３を含む文、又は段落等を、語１１３を語１０３に置き換えて言語モデルに供給して、置き換えた語１０３の出現確率を算出する。これにより、モデル演算部２５が取得した語１０３の、検証画像１１５に対応する語１１３として置き換えられる確率を算出することができる。

上記言語モデルは、例えばルールベースのモデルとすることができる。又は、例えば条件付き確率場（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ：ＣＲＦ）を用いたモデルとすることができる。又は、機械学習モデルとすることができ、具体的には例えばニューラルネットワークモデルとすることができる。ニューラルネットワークモデルとして、例えば再帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲＮＮ）を適用することができる。ＲＮＮのアーキテクチャとして、例えば長期短期記憶（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ：ＬＳＴＭ）を用いることができる。

ここで、モデル演算部２５が、上記確率を機械学習モデルを用いて算出する場合、指定文書１１１と関連が深い文書を機械学習モデルの学習に用いると、上記確率を高い精度で算出することができるため好ましい。前述のように、比較用文書群１００には、例えば指定文書１１１と同一の分野の文書が多く含まれる。よって、比較用文書群１００を、機械学習モデルの学習に用いることが好ましい。

［ステップＳ２３］
ステップＳ２３では、提示部１４が、上記確率が高い語１０３を提示する。提示部１４は、少なくとも上記確率が最も高い語１０３を提示することが好ましい。例えば、提示部１４は、上記確率が最も高い語１０３から数えて、所定の個数の語１０３を提示することができる。又は、提示部１４は、最も高い上記確率との差がしきい値以下である確率の語１０３を提示することができる。又は、提示部１４は、上記確率がしきい値以上の語１０３を提示することができる。

校閲システム１０ｂでは、画像化した場合は類似しているが意味は大きく異なり、文脈上誤記等に対する訂正候補となる可能性が低い語１０３が、提示部１４に提示されることを抑制することができる。よって、校閲システム１０ｂは、利便性が高い校閲システムとすることができる。

＜校閲システム＿３＞
図８は、校閲システム１０ｃの構成例を示すブロック図である。校閲システム１０ｃは、校閲システム１０ｂの変形例であり、処理部１３が類似度取得部２４を有さない点が、校閲システム１０ｂと異なる。校閲システム１０ｃでは、例えば画像生成部２３が出力したデータは、モデル演算部２５に供給される。

＜校閲方法＿３＞
以下では、校閲システム１０ｃを用いた校閲方法の一例を説明する。ここで、モデル演算部２５には、画像判定モデルが組み込まれているものとする。画像判定モデルは、語を画像化したデータがモデル演算部２５に供給されると、当該画像が表す語を推定する機能を有する。

画像判定モデルは、例えば機械学習モデルとすることができ、具体的には例えばニューラルネットワークモデルとすることができる。ニューラルネットワークモデルとして、例えば畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）を適用することができる。

校閲システム１０ｃが校閲を行う機能を有するために必要となるデータは、例えば図２、及び図３Ａ乃至図３Ｃに示す方法と同様の方法で取得することができる。

図９は、校閲システム１０ｃによる校閲方法の一例を示すフローチャートであり、ステップＳ１１からステップＳ１４、及びステップＳ３１からステップＳ３２までの処理を有する。

ステップＳ１１からステップＳ１４までの処理は、図４に示すステップＳ１１からステップＳ１４までの処理と同様とすることができる。図９では、図４に示す処理と異なる処理を、一点鎖線で囲って示している。

［ステップＳ３１］
ステップＳ３１では、検証画像１１５が、モデル演算部２５に組み込まれた画像判定モデルに供給される。これにより、画像判定モデルが、検証画像１１５が表す語を推定する。具体的には、画像判定モデルが、検証画像１１５が表す語の確率を算出する。例えば、画像判定モデルに”ＦＥΤ”（ＦとＥはアルファベット、Τはギリシャ文字）という語を画像化したデータが供給された場合、当該画像判定モデルは”ＦＥＴ”（Ｆ、Ｅ、Ｔはいずれもアルファベット）の確率が高いと判定することができる。

［ステップＳ３２］
ステップＳ３２では、提示部１４が、推定結果を提示する。具体的には、検証画像１１５が表す語としての確率が高い語を提示する。提示部１４は、少なくとも当該確率が最も高い語を提示することが好ましい。例えば、提示部１４は、当該確率が最も高い語から数えて、所定の個数の語を提示することができる。又は、提示部１４は、最も高い当該確率との差がしきい値以下である確率の語を提示することができる。又は、提示部１４は、当該確率がしきい値以上の語を提示することができる。

校閲システム１０ｃでは、検証画像１１５と比較用画像１０５との類似度を、領域ベースマッチング、又は特徴ベースマッチング等により算出しなくてよい。よって、処理部１３での計算量を少なくすることができる。よって、校閲システム１０ｃは、高速に駆動し、かつ低消費電力の校閲システムとすることができる。

［画像判定モデル］
以下では、モデル演算部２５に組み込むことができる画像判定モデルとして機械学習モデルを適用する場合の、画像判定モデルの構成例、及び学習方法の一例を説明する。

図１０Ａは、画像判定モデル１２０の学習方法の一例を示す模式図である。画像判定モデル１２０の学習を行う際は、まず、受付部１１に学習用文書を供給する。その後、例えば図２に示すステップＳ０２と同様の方法で、分割部２１が学習用語群１２２を取得し、ステップＳ０４と同様の方法で、画像生成部２３が学習用画像群１２４を取得する。学習用語群１２２は語１２３の集合とすることができ、学習用画像群１２４は学習用画像１２５の集合とすることができる。画像判定モデル１２０の学習は、学習用画像１２５に正解ラベルとして語１２３を紐付けたデータを用いた教師あり学習により行うことができる。学習により、画像判定モデル１２０は学習結果１２６を取得することができる。学習結果１２６は、例えば重み係数とすることができる。

ここで、学習用文書として、指定文書１１１と関連が深い文書を用いると、検証画像１１５が表す語を高い精度で推定することができるため好ましい。前述のように、比較用文書群１００には、例えば指定文書１１１と同一の分野の文書が多く含まれる。よって、比較用文書群１００を、学習用文書に用いることが好ましい。

また、学習用画像群１２４に含まれる学習用画像１２５は、画像生成部２３が取得した画像そのものに限らない。例えば、画像生成部２３が取得した画像に含まれる語を並進、回転、拡大、又は縮小等した画像を、学習用画像群１２４に含めてもよい。これにより、学習用画像１２５の数を増やすことができる。よって、画像判定モデル１２０が高い精度で推論できるように、学習を行うことができる。したがって、本発明の一態様の校閲システムが、指定文書１１１に含まれる誤記等を高い精度で検出することができる。

また、学習用画像群１２４には、例えば見た目が似ているが文字コードが異なる文字を含む画像を、学習用画像１２５として含めてもよい。さらに、学習用画像群１２４には、例えば生じやすい誤記を含む画像を、学習用画像１２５として含めてもよい。例えば、画像生成部２３が“ｏｕｔ－ｏｆ－ｐｌａｎｅ”（－はハイフン）という語を画像化した場合は、学習用画像群１２４には当該画像化した学習用画像１２５の他、“ｏｕｔ－ｏｆ－ｐｌａｎｅ”（－はマイナス）という語を画像化した学習用画像１２５を含めてもよい。この場合、“ｏｕｔ－ｏｆ－ｐｌａｎｅ”（－はハイフン）という語を画像化した学習用画像１２５、及び“ｏｕｔ－ｏｆ－ｐｌａｎｅ”（－はマイナス）という語を画像化した学習用画像１２５には、共に例えば“ｏｕｔ－ｏｆ－ｐｌａｎｅ”（－はハイフン）という語１２３を正解ラベルとして紐付けることができる。また、例えば画像生成部２３が“ｓｙｓｔｅｍ”という語を画像化した場合は、学習用画像群１２４には当該画像化した学習用画像１２５の他、誤記を含む“ｓｙｓｔｍ”という語を画像化した学習用画像１２５を含めてもよい。この場合、“ｓｙｓｔｅｍ”という語を画像化した学習用画像１２５、及び“ｓｙｓｔｍ”という語を画像化した学習用画像１２５には、共に“ｓｙｓｔｅｍ”という語１２３を正解ラベルとして紐付けることができる。

以上により、例えば図９に示すステップＳ３１において画像判定モデル１２０に供給される検証画像１１５を、学習用画像１２５に近づけることができる。よって、画像判定モデル１２０は、高い精度で推論を行うことができる。具体的には、検証画像１１５が表す語を、高い精度で推定することができる。よって、本発明の一態様の校閲システムが、指定文書１１１に含まれる誤記等を高い精度で検出することができる。

図１０Ｂは、画像判定モデル１３０の構成例、及び学習方法の一例を示す模式図である。画像判定モデル１３０は、分類器１３１と、複数の分類器１３４と、を有する。

本明細書等において、複数の要素に同じ符号を用いる場合、特に、それらを区別する必要があるときには、符号に“＿”等の識別用の符号を付記して記載する。

画像判定モデル１３０に画像が供給されると、まず分類器１３１が当該画像を分類する。分類器１３１によって分類された画像は、当該分類の結果に対応する分類器１３４によりさらに分類することができる。具体的には、分類器１３４は、画像が表す語を推定することができる。つまり、画像判定モデル１３０に供給された画像に対して、分類器１３１がグルーピングを行った後、当該画像が属するグループに対応する分類器１３４が語の推定を行うことができる。以上より、画像判定モデル１３０は、分類器１３１により１次分類を行った後、分類器１３４により２次分類を行うことができる。

図１０Ｂは、画像判定モデル１３０の学習方法の一例を示す模式図である。図１０Ｂでは、分類器１３１の学習を、教師なし学習であるクラスタリングにより行う例を示している。例えば、分類器１３１に学習用画像群１２４が供給されると、学習用画像群１２４に含まれる学習用画像１２５の特徴量に基づき、クラスタリングを行うことができる。クラスタリングは、例えばＫ－ｍｅａｎｓ法により行うことができる。また、クラスタリングは、単リンク法、完全リンク法、群平均法、Ｗａｒｄ法、セントロイド法、重み付き平均法、又はメジアン法により行ってもよい。分類器１３１は、上記学習により学習結果１３２を取得することができる。学習結果１３２は、例えば重み係数とすることができる。

図１０Ｂでは、学習用画像１２５として、それぞれ”ａ１“、”ａ２“、”ｂ１“、”ＦＥＴ“、”ｃ１“、”ｃ２“という語を画像化した６つの画像が分類器１３１に供給される例を示している。また、図１０Ｂでは、クラスタリングにより３つのクラスタ１３３が生成される例を示している。さらに、図１０Ｂでは、クラスタ１３３＿１に”ａ１“、”ａ２”という語を画像化した２つの学習用画像１２５が含まれ、クラスタ１３３＿２に”ｂ１“、”ＦＥＴ”という語を画像化した２つの学習用画像１２５が含まれ、クラスタ１３３＿３に”ｃ１“、”ｃ２”という語を画像化した２つの学習用画像１２５が含まれる例を示している。

図１０Ｂに示す例では、分類器１３４は、クラスタ１３３ごとに設けることができる。つまり、例えばクラスタリングにより３つのクラスタ１３３が生成される場合は、分類器１３４も３つ設けることができる。図１０Ｂに示す例では、クラスタ１３３＿１に分類される画像が分類器１３４＿１に供給され、クラスタ１３３＿２に分類される画像が分類器１３４＿２に供給され、クラスタ１３３＿３に分類される画像が分類器１３４＿３に供給される例を示している。

分類器１３４は、画像が表す語を推定する機能を有する。つまり、分類器１３４は、図１０Ａに示す画像判定モデル１２０と同様の機能を有する。また、分類器１３４の学習は、画像判定モデル１２０の学習と同様の方法で行うことができる。つまり、分類器１３４の学習は、例えば各クラスタ１３３に含まれる学習用画像１２５に正解ラベルとして語１２３を紐付けたデータを用いた、教師あり学習により行うことができる。学習により、分類器１３４は学習結果１３５を取得することができる。ここで、分類器１３４＿１乃至分類器１３４＿３が取得する学習結果１３５を、それぞれ学習結果１３５＿１乃至学習結果１３５＿３とする。学習結果１３５は、例えば重み係数とすることができる。

なお、図１０Ｂでは、分類器１３１が教師なし学習を行い、分類器１３４が教師あり学習を行う例を示したが、画像判定モデル１３０の学習方法はこれに限定されない。例えば、分類器１３１と分類器１３４がともに教師あり学習を行ってもよい。

画像判定モデル１３０の学習は、画像判定モデル１３０全体としては、画像判定モデル１２０と同様の方法で行うことができる。つまり、例えば学習用画像１２５に正解ラベルとして語１２３を紐付けたデータを画像判定モデル１３０に供給することで、教師あり学習により画像判定モデル１３０の学習を行うことができる。

例えば図１０Ｂに示す方法で学習された画像判定モデル１３０に、検証画像１１５等の画像が供給されると、当該画像がいずれかのクラスタ１３３に分類される。その後、分類されたクラスタ１３３に対応する分類器１３４により、検証画像１１５が表す語が推定される。

画像判定モデル１３０では、画像をクラスタに分類した後に、当該画像が表す語が推定される。よって、画像が表す語を推定するモデルである分類器１３４の規模を小さくすることができる。したがって、画像判定モデル１３０は学習を行いやすい機械学習モデルであり、高い精度で推論を行うことができる。具体的には、検証画像１１５が表す語を、高い精度で推定することができる。よって、本発明の一態様の校閲システムが、指定文書１１１に含まれる誤記等を高い精度で検出することができる。なお、図１０Ｂでは、画像判定モデル１３０が２次分類まで行う例を示したが、３次分類まで行ってもよいし、４次分類以上行ってもよい。例えば、画像判定モデル１３０が３次分類まで行う場合は、３次分類により画像が表す語を推定することができる。

＜校閲方法＿４＞
以上説明した校閲方法＿１乃至校閲方法＿３は、適宜組み合わせることができる。図１１は、校閲方法＿１乃至校閲方法＿３に示す方法を組み合わせた校閲方法の一例を示すフローチャートであり、ステップＳ１１からステップＳ１５、及びステップＳ４１からステップＳ４３までの処理を有する。図１１に示す処理は、校閲システム１０ｂにより行うことができる。ここで、モデル演算部２５には、言語モデルの他、画像判定モデルが組み込まれているものとする。

ステップＳ１１からステップＳ１５までの処理は、図４に示すステップＳ１１からステップＳ１５までの処理と同様とすることができる。図１１では、図４に示す処理と異なる処理を、一点鎖線で囲って示している。

［ステップＳ４１］
ステップＳ４１では、検証画像１１５が、モデル演算部２５に組み込まれた画像判定モデルに供給される。これにより、モデル演算部２５が、検証画像１１５が表す語の確率を算出する。当該確率を第１の確率とする。第１の確率は、ステップＳ１５で類似度取得部２４が取得した類似度を考慮して算出する。例えば、画像判定モデルが算出した確率に対応する値に、当該確率を算出した語を画像化した比較用画像１０５の、検証画像１１５との類似度に対応する値を加えることにより、第１の確率を算出する。ステップＳ４１により、モデル演算部２５が第１の確率を取得することができる。

［ステップＳ４２］
ステップＳ４２では、モデル演算部２５が、第１の確率が高い語の、検証画像１１５に対応する語１１３として置き換えられる確率を取得する。当該確率を第２の確率とする。第２の確率は、モデル演算部２５に組み込まれた言語モデルにより算出することができる。

ここで、モデル演算部２５は、少なくとも第１の確率が最も高い語については、第２の確率を算出することが好ましい。例えば、モデル演算部２５は、第１の確率が最も高い語から数えて、所定の個数の語について、第２の確率を算出することができる。又は、モデル演算部２５は、最も高い第１の確率との差がしきい値以下である第１の確率の語について、第２の確率を算出することができる。又は、モデル演算部２５は、第１の確率がしきい値以上の語について、第２の確率を算出することができる。

［ステップＳ４３］
ステップＳ４３では、提示部１４が、第２の確率が高い語を提示する。提示部１４は、少なくとも第２の確率が最も高い語を提示することが好ましい。例えば、提示部１４は、第２の確率が最も高い語から数えて、所定の個数の語を提示することができる。又は、提示部１４は、最も高い第２の確率との差がしきい値以下である第２の確率の語を提示することができる。又は、提示部１４は、第２の確率がしきい値以上の語を提示することができる。

例えば図１１に示す方法で本発明の一態様の校閲システムを駆動させることにより、指定文書１１１に含まれる誤記等の検出精度を高めつつ、本発明の一態様の校閲システムの利便性を高めることができる。

＜校閲方法＿５＞
図１２は、校閲システム１０ｂによる校閲方法の一例を示すフローチャートであり、ステップＳ１１からステップＳ１５、ステップＳ２１からステップＳ２２、及びステップＳ５１からステップＳ５３までの処理を有する。

ステップＳ１１からステップＳ１５、及びステップＳ２１からステップＳ２２までの処理は、図７に示す処理と同様とすることができる。図１２では、図７に示す処理と異なる処理を、一点鎖線で囲って示している。

［ステップＳ５１］
ステップＳ５１では、モデル演算部２５が、検証画像１１５に対応する語１１３として置き換えられる確率を取得した語１０３のうち、当該確率が高い語１０３の同音異義語を取得する。モデル演算部２５は、少なくとも当該確率が最も高い語１０３の同音異義語を取得することが好ましい。例えば、モデル演算部２５は、当該確率が最も高い語１０３から数えて、所定の個数の語１０３の同音異義語を取得することができる。又は、モデル演算部２５は、最も高い当該確率との差がしきい値以下である確率の語１０３の同音異義語を取得することができる。又は、モデル演算部２５は、当該確率がしきい値以上の語１０３の同音異義語を取得することができる。

［ステップＳ５２］
ステップＳ５２では、モデル演算部２５が、上記取得した同音異義語の、検証画像１１５に対応する語１１３として置き換えられる確率を取得する。当該確率は、モデル演算部２５に組み込まれた言語モデルを用いて算出することができる。

［ステップＳ５３］
ステップＳ５３では、モデル演算部２５が同音異義語を取得した語１０３そのものと、検証画像１１５に対応する語１１３として置き換えられる確率が語１０３より上昇した同音異義語と、を提示部１４に提示する。例えば、語１０３における当該確率より、確率がしきい値以上に上昇した同音異義語を提示部１４に提示することができる。

図１１等に示す方法で校閲システム１０ｂ等を駆動させることにより、校閲システム１０ｂは、同音異義語による誤記等を検出することができる。例えば、指定文書１１１が日本語の文章を含む場合は、漢字の誤変換を検出することができる。よって、校閲システム１０ｂの利便性を高めることができる。

＜校閲方法＿６＞
図４、図７、図９、図１１、及び図１２に示す方法では、ステップＳ１２において、分割部２１が、指定文書１１１に含まれる文章を語１１３に分割する。前述のように、例えば英語の文章ではスペースに基づき、語１１３に分割することができる。この場合、指定文書１１１に例えば“ｔｒａｎｓｉｓｔｏｒ”という語が“ｔｒａｎｓｉｓｔｏｒ”の誤記として含まれているとすると、“ｔｒａｎ”と“ｓｉｓｔｏｒ”が異なる語１１３として分割される場合がある。“ｔｒａｎ”という語が比較用語群１０２に含まれない場合、“ｔｒａｎ”という語を画像化した検証画像１１５と類似度の高い比較用画像１０５が存在しない場合がある。同様に、“ｓｉｓｔｏｒ”という語が比較用語群１０２に含まれない場合、“ｓｉｓｔｏｒ”という語を画像化した検証画像１１５と類似度の高い比較用画像１０５が存在しない場合がある。よって、指定文書１１１に例えば“ｔｒａｎｓｉｓｔｏｒ”という語が含まれていても、訂正候補として“ｔｒａｎｓｉｓｔｏｒ”を提示できない場合がある。

このような場合、Ｎ－ｇｒａｍ（Ｎ文字インデックス法、又はＮグラム法等ともいう）等により、文章を所定の文字数で分割することが好ましい。例えば、指定文書１１１に含まれる文章を１０文字で分割する場合、スペースを文字数に含まないとすると、“ｔｒａｎｓｉｓｔｏｒ”で１つの語１１３とすることができる。

具体的には、例えばステップＳ１２では、指定文書１１１に含まれる文章を、スペースに基づき語１１３に分割する。よって、指定文書１１１に“ｔｒａｎｓｉｓｔｏｒ”という語が含まれる場合、ステップＳ１２では“ｔｒａｎ”と“ｓｉｓｔｏｒ”が異なる語１１３として分割される。

ステップＳ１３において、出現頻度取得部２２が、語１１３の比較用文書群１００における出現頻度を取得する。ここで、“ｔｒａｎ”の出現頻度と“ｓｉｓｔｏｒ”の出現頻度は、共に低いものとする。そして、“ｔｒａｎ”の直前の語１１３の出現頻度と、“ｓｉｓｔｏｒ”の直後の語１１３の出現頻度は、共に高いものとする。この場合、出現頻度が高い語１１３に挟まれた、出現頻度が低い一連の語１１３に対してＮ－ｇｒａｍを適用する。これにより、出現頻度取得部２２が“ｔｒａｎｓｉｓｔｏｒ”という語１１３を取得できたものとする。

ステップＳ１４において、画像生成部２３が、比較用文書群１００における出現頻度が低い語１１３の他、Ｎ－ｇｒａｍによって取得された語１１３を画像化し、検証画像１１５を取得する。その後、図４、図７、図９、図１１、又は図１２に示す処理を行う。

“ｔｒａｎｓｉｓｔｏｒ”という語１１３を画像化した検証画像１１５は、“ｔｒａｎｓｉｓｔｏｒ”という語１０３を画像化した比較用画像１０５との類似度が高くなる。よって、提示部１４は、指定文書１１１に含まれる“ｔｒａｎｓｉｓｔｏｒ”が、“ｔｒａｎｓｉｓｔｏｒ”の誤記である可能性がある旨を提示することができる。したがって、本発明の一態様の校閲システムの利便性を高めることができる。

図１３は、本実施の形態の校閲システムを示すイメージ図である。

図１３に示す校閲システムは、サーバ１１００と、端末（電子機器ともいう）と、を有する。サーバ１１００と各端末との間の通信は、インターネット回線１１１０を介して行うことができる。

サーバ１１００は、端末からインターネット回線１１１０を介して入力されたデータを用いて、演算を行うことができる。サーバ１１００は、演算の結果を、インターネット回線１１１０を介して端末に送信することができる。これにより、端末における演算の負担を低減することができる。

図１３では、端末として、情報端末１３００、情報端末１４００、及び情報端末１５００を示している。情報端末１３００は、スマートフォン等の携帯情報端末の一例である。情報端末１４００は、タブレット端末の一例である。また、情報端末１４００は、キーボードを有する筐体１４５０と接続することで、ノート型情報端末として用いることもできる。情報端末１５００は、デスクトップ型情報端末の一例である。

このような形態を構成することにより、ユーザは、情報端末１３００、情報端末１４００、及び情報端末１５００等からサーバ１１００に対してアクセスすることができる。そして、ユーザは、インターネット回線１１１０を介した通信によって、サーバ１１００の管理者が提供するサービスを受けることができる。当該サービスとしては、例えば、本発明の一態様の校閲システムを用いたサービスが挙げられる。当該サービスにおいて、サーバ１１００で人工知能を利用してもよい。

１０ａ：校閲システム、１０ｂ：校閲システム、１０ｃ：校閲システム、１１：受付部、１２：記憶部、１３：処理部、１４：提示部、２１：分割部、２２：出現頻度取得部、２３：画像生成部、２４：類似度取得部、２５：モデル演算部、１００：比較用文書群、１０１：比較用文書、１０２：比較用語群、１０３：語、１０４：比較用画像群、１０５：比較用画像、１１１：指定文書、１１２：指定文書語群、１１３：語、１１５：検証画像、１２０：画像判定モデル、１２２：学習用語群、１２３：語、１２４：学習用画像群、１２５：学習用画像、１２６：学習結果、１３０：画像判定モデル、１３１：分類器、１３２：学習結果、１３３：クラスタ、１３４：分類器、１３５：学習結果、１１００：サーバ、１１１０：インターネット回線、１３００：情報端末、１４００：情報端末、１４５０：筐体、１５００：情報端末

Claims

分割部と、出現頻度取得部と、画像生成部と、モデル演算部と、提示部と、を有し、
前記分割部は、比較用文書群に含まれる文章を複数の第１の語に分割する機能、及び指定文書に含まれる文章を複数の第２の語に分割する機能を有し、
前記出現頻度取得部は、前記複数の第２の語の、前記比較用文書群における出現頻度を取得する機能を有し、
前記画像生成部は、前記第１の語を画像化して比較用画像群を取得する機能を有し、
前記画像生成部は、前記複数の第２の語のうち、前記出現頻度が第１のしきい値以下である前記第２の語を画像化して検証画像を取得する機能を有し、
前記モデル演算部は、前記検証画像が表す語を推定する機能を有し、
前記提示部は、前記推定の結果を提示する機能を有する校閲システム。
請求項１において、
前記モデル演算部は、機械学習モデルを用いた演算を行う機能を有する校閲システム。
請求項２において、
前記機械学習モデルは、前記比較用画像群を用いて学習されたものである校閲システム。
請求項３において、
前記機械学習モデルは、前記比較用画像群に含まれる比較用画像に、正解ラベルとして語を紐付けたデータを用いた、教師あり学習により学習されたものである校閲システム。
請求項３又は４において、
前記機械学習モデルは、第１の分類器と、二以上の第２の分類器と、を有し、
前記第１の分類器は、前記比較用画像群に含まれる比較用画像に対して、グルーピングを行う機能を有し、
前記第２の分類器は、前記グルーピングが行われた前記比較用画像が表す語を推定する機能を有し、
前記比較用画像が表す語の推定は、グループごとに異なる前記第２の分類器を用いて行われる校閲システム。
請求項２乃至５のいずれか一項において、
前記機械学習モデルは、ニューラルネットワークモデルである校閲システム。