JP6413659B2 - Fuzzy word determination apparatus, fluctuation word determination method, fluctuation word determination program, and document analysis apparatus - Google Patents
Fuzzy word determination apparatus, fluctuation word determination method, fluctuation word determination program, and document analysis apparatus Download PDFInfo
- Publication number
- JP6413659B2 JP6413659B2 JP2014225821A JP2014225821A JP6413659B2 JP 6413659 B2 JP6413659 B2 JP 6413659B2 JP 2014225821 A JP2014225821 A JP 2014225821A JP 2014225821 A JP2014225821 A JP 2014225821A JP 6413659 B2 JP6413659 B2 JP 6413659B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word
- pair
- fluctuation
- notation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、たとえば、自然言語を用いて記載された文書から表記ゆれを抽出するゆれ語判定装置等に関する。 The present invention relates to a shake word determination device that extracts a written shake from a document written using a natural language, for example.
情報処理装置によって、自然言語を用いて記載された文書を分析することにより、その文書に含まれる表記ゆれを抽出するシステムが開発されている。 A system for extracting notation fluctuations contained in a document by analyzing a document described using a natural language by an information processing apparatus has been developed.
特許文献1に開示された表記ゆれ検出装置は、用語抽出部と、類似度算出部と、表記ゆれ候補判定部と、グループ分類部とを有する。該用語抽出部は、形態素解析や字面解析等の手順に従い、電子データによって構成された文書から用語を抽出する。次に、該類似度算出部は、抽出された用語のうち任意の2つの用語を選択し、選択した2つの用語間において、編集距離等を算出することにより、該用語の間が類似する度合を表す類似度を算出する。次に、表記ゆれ候補判定部は、算出された類似度に基づき、表記ゆれ候補を判定する。その後、グループ分類部は、表記ゆれ候補間において共通する文字列や、表記ゆれ候補間の類似度を参照しながら、表記ゆれ候補をグループ分けする。
The notation fluctuation detection device disclosed in
特許文献2に開示された異表記取得装置は、用語対格納部と、学習データ格納部と、素性取得部と、機械学習部と、出力部とを備える。まず、該素性取得部は、用語対格納部に格納されている用語対(ペア)ごとに、該用語対の特徴が学習データ格納部に格納されている素性の特徴に一致する場合に、素性を取得する。学習データ格納部に格納されている素性は、用語対の異なる文字である編集箇所の字種に関する字種関連素性、用語辞書を用いて取得された素性である辞書関連素性、用語対を構成する2つの用語の類似度を示す類似度素性のうちの一つ以上で構成される。該素性は、用語対が異表記であるかを示す正負情報に関連付けされている。次に、機械学習部は、教師あり学習法に従い、用語対格納部の各用語対が異表記の用語対であるか否かを判定し、出力部に判定結果を出力する。
The different notation acquisition device disclosed in
非特許文献1に開示された表記ゆれ検出装置は、文書に含まれる複合語ペアの中で、文字列の類似度が近く、かつ、文書中の出現頻度に偏りがあるペアのうち、表記ゆれではないパターンに当てはまるものを除いたペアを、表記ゆれのペアとして検出する。
The notation fluctuation detection device disclosed in
しかし、特許文献1に開示された表記ゆれ検出装置は、文字列の類似度は近いが、意味の異なる用語のペアを検出する。この結果、該表記ゆれ検出装置に関しては、精度が低くなるという課題がある。例えば、「入力情報」と「出力情報」という用語のペアは、文字列として相互に類似しているが、表記ゆれではない。
However, the notation fluctuation detection device disclosed in
特許文献2に開示された異表記取得装置に関しては、学習データ格納部に格納された素性のうち、特に辞書関連素性について、文脈によって正負の判定が異なるケースが多いという課題がある。即ち、辞書において意味が類似している用語対であるか否かと、異表記であるか否かの判定とは、関連性が低い。例えば、「保持データ」と「保存データ」という用語のペアは、辞書上の意味において類似しているが、文書の用語の設定によっては、表記ゆれとなる場合と、表記ゆれとならない場合とがある。また、同じ文書内でも辞書において意味が類似している場合であっても、表記ゆれとなる場合と、表記ゆれとならない場合とがある。通常、表記ゆれと、辞書に記された意味との間に、一貫した傾向はない。そのため、該異表記取得装置における処理は、実質的に、字種関連素性と用語関連素性とだけを用いて異表記を判定する処理と同じである可能性が高い。
Regarding the different notation acquisition device disclosed in
非特許文献1に開示された表記ゆれ検出ツールは、表記ゆれではないパターンを取り除く場合に、表記ゆれではない熟語ペアを格納した辞書を参照する。このため、その辞書を作成するのに手間がかかるという課題がある。
The notation fluctuation detection tool disclosed in
本発明の主たる目的は、文書において、表記ゆれとなる表現を精度よく抽出することができるゆれ語判定装置等を提供することにある。 A main object of the present invention is to provide a shake word determination device and the like that can accurately extract an expression that causes a shake in a document.
前述の目的を達成するために、本発明の一態様において、ゆれ語判定装置は、以下の構成を備える。 In order to achieve the above-described object, in one aspect of the present invention, a swing word determination apparatus includes the following configuration.
すなわち、ゆれ語判定装置は、
特定の品詞の単語が連なる第1文字列と、前記特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とが関連付けされた第1の組に関して、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と、前記第4文字列とを関連付けることによって第2の組を作成し、前記第2の組と前記第1の組とを関連付けする差分抽出手段と、
前記第2の組に関連付けされた前記第1の組の個数に基づき、前記第2の組が、表記におけるゆれを表すゆれ語であるか否かを判定する選定手段と
を備える。
That is, the shake word determination device
With respect to a first set in which a first character string in which words of a specific part of speech are connected and a second character string similar to the first character string among character strings in which the words of a specific part of speech are connected, A third character string included in the first character string and not included in the second character string, and a fourth character string included in the second character string and not included in the first character string Differential extraction means for creating a second set by associating the third character string with the fourth character string, and associating the second set with the first set;
Selection means for determining whether or not the second set is a fuzzy word representing a fluctuation in notation based on the number of the first sets associated with the second set.
また、本発明の他の見地として、ゆれ語判定方法は、
特定の品詞の単語が連なる第1文字列と、前記特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とが関連付けされた第1の組に関して、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と、前記第4文字列とを関連付けることによって第2の組を作成し、前記第2の組と前記第1の組とを関連付けし、
前記第2の組に関連付けされた前記第1の組の個数に基づき、前記第2の組が、表記におけるゆれを表すゆれ語であるか否かを判定する。
Further, as another aspect of the present invention, the swing word determination method is:
With respect to a first set in which a first character string in which words of a specific part of speech are connected and a second character string similar to the first character string among character strings in which the words of a specific part of speech are connected, A third character string included in the first character string and not included in the second character string, and a fourth character string included in the second character string and not included in the first character string And creating a second set by associating the third character string with the fourth character string, associating the second set with the first set,
Based on the number of the first set associated with the second set, it is determined whether or not the second set is a fuzzy word representing a fluctuation in notation.
さらに、同目的は、係るゆれ語判定プログラム、及び、そのプログラムを記録するコンピュータ読み取り可能な記録媒体によっても実現される。 Furthermore, this object is also realized by such a shake word determination program and a computer-readable recording medium for recording the program.
本発明に係るゆれ語判定装置等によれば、文書において、表記ゆれとなる表現を精度よく抽出することができるという効果がある。 According to the shake word determination device and the like according to the present invention, there is an effect that it is possible to accurately extract an expression that becomes a notation shake in a document.
次に、本発明を実施する実施形態について図面を参照しながら詳細に説明する。尚、第1の実施形態に係る文書分析装置を、第2の実施形態に係るゆれ語判定装置を用いて実現することができる。 Next, embodiments for carrying out the present invention will be described in detail with reference to the drawings. Note that the document analysis apparatus according to the first embodiment can be realized using the shake word determination apparatus according to the second embodiment.
<第1の実施形態>
図1は、本発明の第1の実施形態に係る文書分析装置10が有する構成の一例を示すブロック図である。尚、図1において、実線にて示された構成要素は、第1の実施形態に係る文書分析装置10が有する構成要素であることを表す。また、点線にて示された構成要素は、第1の実施形態に係る文書分析装置10が有してもよい構成要素であることを表す。
<First Embodiment>
FIG. 1 is a block diagram showing an example of the configuration of the
文書分析装置10は、入力部101、形態素辞書102、表記ゆれ候補抽出部103、差分抽出部104、非ゆれ語選定部105、表記ゆれ語抽出部106、及び、出力部107を有する。
The
入力部101は、表記ゆれを抽出する対象である文書(文書データ、入力文書)を受け取る。
The
形態素辞書102は、形態素解析処理にて参照される辞書(情報)であり、少なくとも、単語とその品詞とが関連付けされた辞書である。尚、形態素辞書102においては、さらに、該単語と、該単語の読みを表す読み情報とが関連付けされていてもよい。
The
表記ゆれ候補抽出部103は、例えば、後述するような抽出手順に従い、入力文書の中から表記ゆれであると推定される候補(すなわち、1つ以上の単語、文字列、複合語)のペア(以降、「表記ゆれ候補ペア」と表す)を抽出する。以降、該候補を、「表記ゆれ候補」と表す。
The notation fluctuation
表記ゆれ候補ペアを抽出する抽出手順は、例えば、非特許文献1に記載された手順であってもよい。
The extraction procedure for extracting the notation fluctuation candidate pair may be, for example, the procedure described in
表記ゆれ候補ペアを抽出する抽出手順においては、たとえば、形態素辞書102を参照しながら入力文書を形態素解析処理することにより、入力文書における文章を単語(形態素、すなわち、意味を成す最小の文字列)に区切るとともに、該単語の品詞を特定する。次に、抽出手順においては、得られた単語及び該単語の品詞のうち、あらかじめ指定された品詞が連続している単語をつなぎ合わせることにより複合語を抽出する。指定された品詞が複数ある場合は、指定された品詞のいずれかが連続している単語をつなぎ合わせることにより複合語を抽出する。そして、複合語の一覧から任意の2つの複合語をペア(組)として取り出し、ペアごとに、編集距離、文字列の類似度、または、複合語の出現回数の偏りの度合い等に基づき、表記ゆれの度合いを算出する。次に、抽出手順においては、該表記ゆれの度合いが指定した閾値以上の複合語ペアを表記ゆれ候補ペアとして抽出する。
In the extraction procedure for extracting the notation fluctuation candidate pair, for example, by referring to the
差分抽出部104は、表記ゆれ候補抽出部103が抽出した表記ゆれ候補ペアにおいて、差分を表す構成語もしくは差分を表す文字列を抽出し、抽出した構成語(文字列)を相互に関連付けすることにより、差分ペアを作成する。次に、差分抽出部104は、該差分ペアと、該差分ペアを抽出した基である表記ゆれ候補ペアとを関連付けて保持する。ここで、構成語は、複合語を構成する形態素を表す。
The
非ゆれ語選定部105は、該入力文書において、ある差分ペアに関連付けされている表記ゆれ候補ペアの種類数を集計する。次に、非ゆれ語選定部105は、該種類数があらかじめ指定された閾値以上の場合に、当該差分ペアを非ゆれ語のペア(以降、「非ゆれ語ペア」と表す)として選定する。ここで、非ゆれ語ペアは、表記ゆれには該当しない語のペアを表す。また、非ゆれ語選定部105は、差分ペアに関連付けされた表記ゆれ候補ペアの種類数が閾値以上であるとしても、特定の条件を満たす場合に、非ゆれ語ペアとして選定しない機能を備えていてもよい。特定の条件は、例えば、表記ゆれ候補ペアにおける一方の語が他方の語を包含する場合、表記ゆれ候補ペアにおける2つの語の読みが一致している場合、及び、表記ゆれ候補ペアにおける2つの語に関して辞書における意味が近い場合である。また、特定の条件は、例えば、差分ペアに関連付けされた表記ゆれ候補ペアにおける2つの語に関して、文書内において出現する出現回数の偏りが大きい場合などであってもよい。
The non-swaying
表記ゆれ語抽出部106は、たとえば、表記ゆれ候補抽出部103が抽出した表記ゆれ候補ペアのうち、非ゆれ語ペアを除外することにより、表記ゆれ語と推定されるペア(以降、「表記ゆれ語ペア」と表す)を抽出する。
The written fluctuation
出力部107は、表記ゆれ語抽出部106が抽出した表記ゆれ語ペアを、例えば、ユーザが判別可能な態様(ユーザインターフェース、UI)に従い出力する。該UIは、例えば、ユーザが認識可能な一覧表示、外部装置への情報提供等である。
The
図2を参照しながら、第1の実施形態に係る文書分析装置10における処理について説明する。図2は、本発明の第1の実施形態に係る文書分析装置10における動作を示すフローチャートである。
Processing in the
入力部101は、表記ゆれを抽出する対象である文書(入力文書)を受け取る(ステップS101)。
The
表記ゆれ候補抽出部103は、上述したような表記ゆれ候補ペアの抽出手順に従い、入力文書から表記ゆれ候補ペアを抽出する(ステップS102)。差分抽出部104は、表記ゆれ候補抽出部103が抽出した表記ゆれ候補ペアごとに、差分を表す構成語、もしくは、差分を表す文字列を抽出し、抽出した構成語(文字列)を、相互に関連付けすることにより、差分ペアを作成する(ステップS103)。次に、差分抽出部104は、差分ペアと、該差分ペアを抽出した基である表記ゆれ候補ペアとを関連付けて保持する。
The notation fluctuation
非ゆれ語選定部105は、差分ペアのうち、関連付けされた表記ゆれ候補ペアの種類数が、指定された閾値以上である表記ゆれ候補ペアを、非ゆれ語ペアとして選定する。(ステップS104)。この場合に、非ゆれ語選定部105は、ある差分ペアに関連付けされた表記ゆれ候補ペアの種類数が閾値以上であっても、特定の条件に当てはまる場合に、非ゆれ語ペアとして選定しなくてもよい。
The non-swaying
表記ゆれ語抽出部106は、たとえば、表記ゆれ候補抽出部103が抽出した表記ゆれ候補ペアから、非ゆれ語ペアを除外することにより、表記ゆれ語ペアを抽出する(ステップS105)。
For example, the written fluctuation
出力部107は、抽出された表記ゆれ語ペアを出力する(ステップS106)。ステップS106における出力の態様は、例えば、ユーザが認識可能な一覧表示、外部装置への情報提供等の態様であってもよい。
The
次に、本発明の第1の実施形態の処理について、図3、図4、図5、図6、図7、及び、図8に示す具体例を参照しながら説明する。 Next, processing according to the first embodiment of the present invention will be described with reference to specific examples shown in FIGS. 3, 4, 5, 6, 7, and 8.
図3は、表記ゆれ候補ペア情報の一例と、差分ペア情報の一例とを概念的に表す図である。図3における表記ゆれ候補ペア情報T1は、表記ゆれ候補抽出部103が抽出する表記ゆれ候補ペアが格納される。差分抽出部104は、表記ゆれ候補ペアを形態素解析処理する等により、構成語を作成する。次に、差分抽出部104は、構成語単位で文字列を比較し、異なる構成語を差分として抽出する。例えば、表記ゆれ候補ペア情報T1の1行目には、「返納処理」と「返品処理」という表記ゆれ候補ペアが格納されている。
FIG. 3 is a diagram conceptually illustrating an example of notation fluctuation candidate pair information and an example of difference pair information. In the notation fluctuation candidate pair information T1 in FIG. 3, the notation fluctuation candidate pair extracted by the notation fluctuation
この場合に、差分抽出部104は、該表記ゆれ候補ペアに含まれる構成語を比較することにより、「返納」と「返品」という差分を抽出する。もしくは、例えば、差分抽出部104は、該表記ゆれ候補ペアに関して文字列単位にて文字コードを基に比較することにより、「納」と「品」という差分を抽出してもよい。そして、差分抽出部104は、差分として抽出された構成語(文字列)を相互に関連付けすることにより、差分ペアを作成する。さらに、差分抽出部104は、差分ペアと、該差分ペアを抽出した基である表記ゆれ候補ペアとを関連付けする。差分抽出部104は、他の表記ゆれ候補に対しても同様に差分ペアを抽出する。
In this case, the
非ゆれ語選定部105は、差分ペアのうち、該差分ペアに関連付けされた表記ゆれ候補ペアの種類数が、指定された閾値以上のペアを非ゆれ語ペアとして選定する。図3に示す例では、「返納/返品」の差分ペアに関連付けされている表記ゆれ候補ペアは、「返納処理/返品処理」、「返納情報/返品情報」、及び、「一部返納/一部返品」の3種類である。非ゆれ語選定部105は、他の差分ペアについても同様に関連付けされた表記ゆれ候補ペアの種類数をカウントする。非ゆれ語選定部105は、たとえば、閾値が2である場合に、種類数が2以上であれば、非ゆれ語ペアとして選定する。図3に示す例の場合に、非ゆれ語選定部105は、「返納/返品」、「設計/設置」、及び、「実績/成績」の差分ペアを、非ゆれ語ペアとして選定する。
The non-sway
また、非ゆれ語選定部105は、差分ペアに関連付けされた表記ゆれ候補ペアの種類数が閾値以上であるとしても、特定の条件に当てはまる場合に、非ゆれ語ペアとして選定しなくてもよい。図4は、図3に示す表記ゆれ候補ペア情報T1と同様の表記ゆれ候補ペアの一覧表に表記ゆれ候補ペアの入力文書内における出現回数を付与した表記ゆれ候補ペア情報T2の一例と、差分ペア情報の一例とを概念的に表す図である。例えば、該特定の条件が「差分ペアにおいて、一方の語が他方の語を包含している場合に、非ゆれ語ペアとして選定しない」であれば、図4の差分ペアのうち、「額/金額」は、該特定の条件を満たすので、非ゆれ語ペアとして選定されない。
In addition, the non-blurred
例えば、該特定の条件が「差分ペアにおいて、2つの語の読みが一致している場合に、非ゆれ語ペアとして選定しない」であれば、図4に例示する差分ペアのうち、「決済/決裁」と「精算/清算」とは、非ゆれ語ペアとして選定されない。尚、読みは、たとえば、形態素辞書等における読み情報として定義されている。 For example, if the specific condition is “not selected as a non-swaying word pair when the readings of two words match in a difference pair”, among the difference pairs illustrated in FIG. The “decision” and “settlement / clearing” are not selected as non-blurred word pairs. Note that reading is defined as reading information in a morpheme dictionary, for example.
該特定の条件が「差分ペアにおいて、2つの語の辞書上の意味が近い場合に、非ゆれ語ペアとして選定しない」である場合について説明する。この場合に、さらに、単語に関する、上位/下位関係、部分/全体関係、同義関係(同義語)、類義関係(類義語)、用法等に基づき、複数の単語間における関連を表す一般概念情報が記憶されている概念辞書に基づき、非ゆれ語ペアであるか否かを判定してもよい。たとえば、概念辞書において、「利用/使用」が、同義、類義等意味が近いことに基づき、相互に関連付けされている場合に、非ゆれ語選定部105は、「利用/使用」を、非ゆれ語ペアとして選定しない。
A case will be described in which the specific condition is “when a difference pair has similar meanings in a dictionary of two words, it is not selected as a non-blurred word pair”. In this case, further, general concept information representing a relationship between a plurality of words based on upper / lower relations, partial / whole relations, synonym relations (synonyms), synonym relations (synonyms), usages, and the like regarding words. Based on the stored concept dictionary, it may be determined whether or not it is a non-blurred word pair. For example, in the concept dictionary, when “use / use” is related to each other based on the meanings of synonyms and synonyms, the non-swaying
該特定の条件が「差分ペアに関連付けされている表記ゆれ候補ペアの出現回数に偏りがある場合に、非ゆれ語ペアとして選定しない」である場合に、表記ゆれ候補ペアに含まれる各表記ゆれ候補の出現回数の偏りを評価する。非ゆれ語選定部105は、たとえば、差分ペアに対して表記ゆれ候補ペアが1つのみ関連付けされている場合に、該表記ゆれ候補ペアに含まれる各表記ゆれ候補の出現回数の偏りを評価すればよい。差分ペアに対して複数の表記ゆれ候補ペアが関連付けされている場合には、出現回数の偏りを評価する処理は、例えば、後述の(1)または(2)に示す処理である。すなわち、
(1)「ある差分ペアに関連付けされている表記ゆれ候補ペア」に含まれる表記ゆれ候補の出現回数の累積に基づき偏りを評価する、
(2)「ある差分ペアに関連付けされている表記ゆれ候補ペア」の種類ごとに出現回数の偏りを評価する。
When the specific condition is “when the number of occurrences of the notation-swing candidate pair associated with the difference pair is biased, it is not selected as a non-swaying word pair”, and each notation shake included in the notation-swaying candidate pair Evaluate the bias in the number of appearances of candidates. For example, when only one notation fluctuation candidate pair is associated with a difference pair, the non-sway
(1) Evaluate the bias based on the cumulative number of occurrences of the notation fluctuation candidate included in the “notation fluctuation candidate pair associated with a certain difference pair”.
(2) Evaluating the deviation of the number of appearances for each type of “notation fluctuation candidate pair associated with a certain difference pair”.
出現回数の偏りを評価する手順は、例えば、後述の(3)乃至(5)に示す処理である。すなわち、
(3)差分ペアに関連付けされている表記ゆれ候補ペアのうち、一方の表記ゆれ候補の出現回数が所定の閾値以下であり、かつ、他方の表記ゆれ候補の出現回数が所定の閾値以上の場合に、偏りがあると判定する、
(4)差分ペアに関連付けされている表記ゆれ候補ペアにおいて、出現回数が多い方の表記ゆれ候補の出現回数に対する、出現回数が少ない方の表記ゆれ候補の出現回数の割合が閾値以下である場合に、偏りがあると判定する、
(5)上記(3)及び上記(4)に示す判定方法が組み合わせられた方法(たとえば、すくなくとも一方を満たす等)に従い、偏りがあるか否かを判定する。
The procedure for evaluating the deviation of the number of appearances is, for example, the processes shown in (3) to (5) described later. That is,
(3) Among the notation fluctuation candidate pairs associated with the difference pair, when the number of appearances of one notation fluctuation candidate is equal to or less than a predetermined threshold and the number of appearances of the other notation fluctuation candidate is equal to or more than a predetermined threshold To determine that there is a bias,
(4) In the notation fluctuation candidate pair associated with the difference pair, the ratio of the number of occurrences of the notation fluctuation candidate with the smaller number of appearances to the appearance frequency of the notation fluctuation candidate with the larger number of appearances is equal to or less than the threshold value To determine that there is a bias,
(5) According to a method in which the determination methods shown in (3) and (4) above are combined (for example, at least one of them is satisfied), it is determined whether there is a bias.
ある差分ペアに関連付けされている表記ゆれ候補ペアにおいて、一方の表記ゆれ候補の出現回数が2以下であり、かつ、他方の表記ゆれ候補の出現回数が20以上である場合に出現回数の偏りがあると判定する場合の具体的な計算例について説明する。 In a notation fluctuation candidate pair associated with a certain difference pair, when the number of appearances of one notation fluctuation candidate is 2 or less and the number of appearances of the other notation fluctuation candidate is 20 or more, there is a deviation in the number of appearances. A specific calculation example in the case where it is determined that there is one will be described.
差分ペアに対して複数の表記ゆれ候補が関連付けされている場合に、出現回数の偏りを上記(1)に示す処理に従い算出する場合に、まず、差分ペアに対して複数の表記ゆれ候補がある場合の出現回数を求める。 When a plurality of notation fluctuation candidates are associated with a difference pair, when the deviation of the number of appearances is calculated according to the process shown in (1) above, first, there are a plurality of notation fluctuation candidates for the difference pair. Find the number of occurrences of the case.
図4に例示するような表記ゆれ候補ペア情報T2の差分ペアごとに表記ゆれ候補の出現回数を累積した結果を図5に例示する差分ペア情報T3に示す。図5は、差分ペア情報の一例を概念的に表す図である。差分ペア情報T3を参照すると、差分ペアを抽出する基となる表記ゆれ候補ペア情報に含まれる表記ゆれ候補の出現回数に偏りがあるのは、R24にて示される「清算/精算」なる差分ペアと、R1にて示される「実績/成績」なる差分ペアである。したがって、「清算/精算」と、「実績/成績」とは、非ゆれ語ペアから除外される。 The difference pair information T3 illustrated in FIG. 5 shows the result of accumulating the number of appearances of the variation candidates for each difference pair of the notation variation candidate pair information T2 illustrated in FIG. FIG. 5 is a diagram conceptually illustrating an example of difference pair information. When the difference pair information T3 is referred to, the number of occurrences of the notation fluctuation candidate included in the notation fluctuation candidate pair information that is the basis for extracting the difference pair is biased. The difference pair “clearing / settlement” indicated by R24 And a difference pair “result / result” indicated by R1. Therefore, “clearing / settlement” and “actual result / score” are excluded from the non-blurred word pair.
複数の表記ゆれ候補ペアが差分ペアに関連付けされている場合には、出現回数の偏りを上記(2)に示す処理に従い算出する場合に、表記ゆれ候補ペア情報T2において、偏りがあると判定されるのは、表記ゆれ候補ペアR5、R9、R10、または、R11である。表記ゆれ候補ペアR5は、差分ペア「精算/清算」に関連付けされる。表記ゆれ候補ペアR9は、差分ペア「実績/成績」に関連付けされる。表記ゆれ候補ペアR10は、差分ペア「決済/決裁」に関連付けされる。表記ゆれ候補ペアR11は、差分ペア「実績/成績」に関連付けされる。 When a plurality of notation fluctuation candidate pairs are associated with the difference pair, it is determined that there is a deviation in the notation fluctuation candidate pair information T2 when the appearance frequency deviation is calculated according to the process shown in (2) above. The notation variation candidate pair R5, R9, R10, or R11. The notation fluctuation candidate pair R5 is associated with the difference pair “settlement / clearing”. The notation fluctuation candidate pair R9 is associated with the difference pair “actual result / score”. The notation fluctuation candidate pair R10 is associated with the difference pair “settlement / decision”. The notation fluctuation candidate pair R11 is associated with the difference pair “actual result / score”.
差分ペア「決済/決裁」に関連付けされた表記ゆれ候補ペアは、表記ゆれ候補ペアR2と、表記ゆれ候補ペアR10とである。これらの表記ゆれ候補ペアのうち、表記ゆれ候補ペアR10に含まれる表記ゆれ候補の出現回数に偏りがある。 The notation fluctuation candidate pairs associated with the difference pair “settlement / decision” are the notation fluctuation candidate pair R2 and the notation fluctuation candidate pair R10. Among these notation fluctuation candidate pairs, the number of occurrences of the notation fluctuation candidates included in the notation fluctuation candidate pair R10 is biased.
また、差分ペア「実績/成績」に関連付けされた表記ゆれ候補ペアは、表記ゆれ候補ペアR9と、表記ゆれ候補ペアR11とである。これらの表記ゆれ候補ペアは、ともに、該表記ゆれ候補ペアに含まれる表記ゆれ候補の出現回数に偏りがある。 In addition, the notation fluctuation candidate pairs associated with the difference pair “actual / score” are the notation fluctuation candidate pair R9 and the notation fluctuation candidate pair R11. Both of these notation fluctuation candidate pairs are biased in the number of appearances of the notation fluctuation candidates included in the notation fluctuation candidate pair.
ある差分ペアに関連付けされた全ての表記ゆれ候補ペアの偏りがある場合に、該差分ペアを、非ゆれ語ペアとして選定しなくてもよい。または、表記ゆれ候補ペアにおける表記ゆれ候補の出現回数の偏りが指定した閾値以上である場合に、該表記ゆれ候補に関連付けされた該差分ペアを、非ゆれ語ペアとして選定しなくてもよい。 When there is a bias of all the notation fluctuation candidate pairs associated with a certain difference pair, the difference pair may not be selected as a non-vibration word pair. Alternatively, when the deviation of the number of occurrences of the notation fluctuation candidate in the notation fluctuation candidate pair is equal to or greater than the specified threshold value, the difference pair associated with the notation fluctuation candidate may not be selected as the non-shake word pair.
前者の場合に、差分ペア「決済/決裁」は、非ゆれ語ペアとして選定される可能性がある。また、差分ペア「実績/成績」は、非ゆれ語ペアとして選定されない。 In the former case, the difference pair “settlement / decision” may be selected as a non-blurred word pair. Further, the difference pair “actual result / score” is not selected as a non-blurred word pair.
後者の場合、閾値が1であるとき、差分ペアに関連付けされた表記ゆれ候補ペアにおける表記ゆれ候補の出現回数の偏りが、一つでも大きければ、非ゆれ語ペアとして選定されない。したがって、上述した例において、差分ペア「決済/決裁」と、差分ペア「実績/成績」とは、非ゆれ語ペアとして選定されない。 In the latter case, when the threshold value is 1, if the deviation of the number of occurrences of the notation fluctuation candidate in the notation fluctuation candidate pair associated with the difference pair is even one, it is not selected as a non-vibration word pair. Therefore, in the above-described example, the difference pair “settlement / decision” and the difference pair “actual result / score” are not selected as the non-blurred word pair.
図6は、表記ゆれ語抽出部106が抽出する表記ゆれ語ペアの一例を概念的に表す図である。表記ゆれ語抽出部106は、たとえば、図3に例示する表記ゆれ候補ペア情報T1に含まれる表記ゆれ候補のうち、非ゆれ語ペアを含む表記ゆれ候補ペアを除外したものを表記ゆれ語ペアとして抽出する。出力部107は、例えば、図6に例示するように、該表記ゆれ語ペアの一覧を表示する。
FIG. 6 is a diagram conceptually illustrating an example of a written fluctuation word pair extracted by the written fluctuation
図7は、出力部107が出力する情報を表示するユーザインターフェース(UI)の一例を表す図である。図7に例示するUIにおいて、出力部107は、表記ゆれ語ペアを一覧表示し、さらに、表記ゆれ語ペアに含まれる表記ゆれ語が、入力文書中において使用される箇所の文(または、文の一部、以降、文の一部も含めて文と表す)も併せて表示する。出力部107は、文中の表記ゆれ語ペアに含まれる表記ゆれに相当する文字列を、太字にする、または、他と異なる色に設定するなどの態様に従い、該文字列を強調表示してもよい。また、出力部107は、各表記ゆれ語に関して、入力文書における出現回数を、該強調表示に併記する表示をしてもよい。
FIG. 7 is a diagram illustrating an example of a user interface (UI) that displays information output by the
図7に例示するようなUIを参照することにより、ユーザは、容易に表記ゆれ語を確認することができる。この理由は、該UIにおいて、表記ゆれ語と、該表記ゆれ語を含む文とを関連付けして表示するからである。該UIにおいて表記ゆれ語が強調表示されることにより、ユーザは、より一層容易に表記ゆれ語を確認することができる。 By referring to the UI as illustrated in FIG. 7, the user can easily check the written fluctuation word. The reason for this is that, in the UI, the written fluctuation word and a sentence including the written fluctuation word are displayed in association with each other. By highlighting the written fluctuation word on the UI, the user can more easily check the written fluctuation word.
出力部107に関する別の例を図8に示す。図8は、出力部107が出力する情報を表示するユーザインターフェースの一例を表す図である。図8に示すUIの例において、出力部107は、非ゆれ語ペアと、表記ゆれ候補語とが関連付けされた情報を表示する。出力部107は、さらに、ユーザが非ゆれ語ペアから、非ゆれ語ペアとして選定しないペアを選択できるチェックボックスを表示する。非ゆれ語選定部105は、「除外」欄に示されたチェックボックスにてチェックされた非ゆれ語ペアに関して、非ゆれ語ペアとして選定しない。
Another example relating to the
出力部107の別の例を図9に示す。図9は、出力部107が出力する情報を表示するユーザインターフェースの一例を表す図である。図9に示す例において、出力部107は、入力文書を表示し、さらに、該入力文書における表記ゆれ語を、たとえば、フォントの太さを変える等の態様に従い強調表示する。さらに、出力部107は、該表記ゆれ語を含むゆれ語ペアが存在する場合に、ゆれ語に関連付けされる吹き出し等の態様を用いて、該吹き出しの中に該ゆれ語ペアに含まれる他方の表記ゆれ語と、該表記ゆれ語の出現回数とを表示する。図9に例示するUIにおいて、出力部107は、出現回数が少ないゆれ語のみに吹き出しを表示しているが、出現回数が多いゆれ語に吹き出しを表示してもよい。
Another example of the
図9に例示するようなUIを参照することにより、ユーザは、容易に表記ゆれ語を確認することができる。この理由は、文書に含まれる表記ゆれ語に関して、吹き出し等の態様に、該表記ゆれ語と対となる語句を表示するからである。 By referring to the UI as illustrated in FIG. 9, the user can easily check the written fluctuation word. This is because, with respect to the written fluctuation word included in the document, a phrase that is paired with the written fluctuation word is displayed in a form such as a balloon.
上述したように、本実施形態に係る文書分析装置10によれば、表記ゆれとなる表現を精度よく抽出することができる。この理由は、文書分析装置10が、表記ゆれ候補ペアの中から、表記ゆれ候補の種類数等に基づき、非ゆれ語ペアを選定するからである。
As described above, according to the
文書分析装置10は、相互に類似する2つの複合語の組み合わせである表記ゆれ候補語のペアを抽出し、該表記ゆれ候補語のペアから、該ペアに含まれる表記ゆれ候補語間の差分となる部分を抽出し、抽出した差分を差分ペアとして関連付けする。次に、文書分析装置10は、差分ペアに付けられた表記ゆれ候補の種類数が所定の閾値以上である場合に、該差分のペアを非ゆれ語ペアとして抽出する。
The
したがって、本実施形態に係る文書分析装置等によれば、非ゆれ語を含む複合語を表記ゆれ候補語から除外する処理等によって、文書において、表記ゆれとなる表現を精度よく抽出することができるという効果がある。 Therefore, according to the document analysis apparatus and the like according to the present embodiment, it is possible to accurately extract an expression that causes a notation fluctuation in a document by a process of excluding a compound word including a non-waving word from a notation fluctuation candidate word. There is an effect.
<第2の実施形態>
次に、図10と図11とを参照しながら、第2の実施形態に係るゆれ語判定装置201について説明する。図10は、本発明の第2の実施形態に係るゆれ語判定装置201が有する構成の一例を示すブロック図である。図11は、第2の実施形態に係るゆれ語判定装置201における処理の流れを示すフローチャートである。
<Second Embodiment>
Next, the shake
第2の実施形態に係るゆれ語判定装置201は、差分抽出部202と、選定部203とを有する。
The shake
ゆれ語判定装置201は、第1の組301を受信する。
The fluctuation
第1の組301においては、たとえば、特定の品詞の単語が連なる文字列のうち、相互に類似する文字列が関連付けされている。たとえば、文字列は、第1の実施形態に例示するように、入力された文書を形態素解析処理することにより単語を求め、特定の品詞が連続する単語を抽出することにより求められる。相互に類似する文字列は、たとえば、複数の文字列に関して、編集距離等を用いて文字列間が類似する程度を表す類似度を求め、類似度が所定の値以上であるか否かに応じて求めることができる。
In the
以降においては、説明の便宜上、第1の組301においては、第1文字列と、第2文字列とが関連付けされているとする。
Hereinafter, for convenience of explanation, it is assumed that the first character string and the second character string are associated with each other in the
差分抽出部202は、第1の組301に含まれる第1文字列と、第2文字列とを読み取り、該第1文字列と、該第2文字列との差分を求める(ステップS201)。ここで、差分を表す文字列を第3文字列、及び、第4文字列と表す。第3文字列は、第1文字列に含まれるが第2文字列には含まれない文字列である。第4文字列は、第2文字列に含まれるが第1文字列には含まれない文字列である。すなわち、差分抽出部202は、第1文字列と第2文字列とから、第3文字列と第4文字列とを抽出する。
The
次に、差分抽出部202は、該第3文字列と、該第4文字列とを関連付けすることにより、第2の組を作成する(ステップS202)。次に、差分抽出部202は、該第2の組と、第1の組301とを関連付けする(ステップS203)。
Next, the
差分抽出部202は、複数の第1の組301に関して、上述した処理を実行する。
The
次に、選定部203は、第2の組に関連付けされた第1の組の個数を求める。選定部203は、求めた個数に基づき、第2の組が非ゆれ語ペアであるか否かを判定する(ステップS204)。たとえば、選定部203は、第2の組に関連付けされた第1の組の個数が、所定の個数(たとえば、2)以上である場合に、第2の組を非ゆれ語ペアである(すなわち、表記ゆれ語ペアでない)と判定する。また、選定部203は、第2の組に関連付けされた第1の組の個数が所定の個数未満である場合に、第2の組を非ゆれ語ペアでない(すなわち、表記ゆれ語ペアである)と判定する。
Next, the
すなわち、選定部203は、非ゆれ語ペアであると判定された第2の組に含まれる第3文字列及び第4文字列を、非ゆれ語であると判定する。また、選定部203は、表記ゆれ語ペアであると判定された第2の組に含まれる第3文字列及び第4文字列を、表記ゆれ語であると判定する。選定部203は、判定した結果を判定結果302として出力する。
That is, the
本実施形態に係るゆれ語判定装置201によれば、表記ゆれとなる表現を精度よく抽出することができる。この理由は、表記ゆれ語を含む文字列の種類数が所定の個数よりも少ない場合に、表記ゆれ語である可能性が高く、表記ゆれ語を含む文字列の種類数が所定の個数よりも多い場合に、表記ゆれ語でない可能性が高いからである。
According to the shake
ゆれ語判定装置201は、ゆれ語を含む文字列の種類数が所定の個数よりも少ない場合に、第2の組が非ゆれ語ペアでないと判定する。また、ゆれ語判定装置201は、ゆれ語を含む文字列の種類数が所定の個数よりも多い場合に、第2の組が非ゆれ語ペアであると判定する。したがって、本実施形態に係るゆれ語判定装置201によれば、表記ゆれとなる表現を精度よく抽出することができる。
The fluctuation
尚、差分抽出部202における機能を用いて差分抽出部202を実現することができる。また、非ゆれ語選定部105における機能を用いて選定部203を実現することができる。
Note that the
(ハードウェア構成例)
上述した本発明の各実施形態における文書分析装置を、1つの計算処理装置(情報処理装置、コンピュータ)を用いて実現するハードウェア資源の構成例について説明する。但し、係る文書分析装置は、物理的または機能的に少なくとも2つの計算処理装置を用いて実現してもよい。また、係る文書分析装置は、専用の装置として実現してもよい。
(Hardware configuration example)
A configuration example of hardware resources that implements the document analysis apparatus according to each embodiment of the present invention described above using one calculation processing apparatus (information processing apparatus, computer) will be described. However, the document analysis apparatus may be realized using at least two calculation processing apparatuses physically or functionally. The document analysis apparatus may be realized as a dedicated apparatus.
図12は、第1の実施形態または第2の実施形態に係るゆれ語判定装置を実現可能な計算処理装置のハードウェア構成例を概略的に示す図である。計算処理装置20は、中央処理演算装置(Central Processing Unit、以降「CPU」と表す)21、メモリ22、ディスク23、及び、不揮発性記録媒体24を有する。計算処理装置20は、さらに、入力装置25、出力装置26、通信インターフェース(以降、「通信IF」と表す。)27、及び、ディスプレー28を有する。計算処理装置20は、通信IF27を介して、他の計算処理装置、及び、通信装置と情報を送受信することができる。
FIG. 12 is a diagram schematically illustrating a hardware configuration example of a calculation processing device capable of realizing the shake word determination device according to the first embodiment or the second embodiment. The
不揮発性記録媒体24は、コンピュータが読み取り可能な、たとえば、コンパクトディスク(Compact Disc)、デジタルバーサタイルディスク(Digital_Versatile_Disc)である。また、不揮発性記録媒体24は、ユニバーサルシリアルバスメモリ(USBメモリ)、ソリッドステートドライブ(Solid_State_Drive)等であってもよい。不揮発性記録媒体24は、電源を供給しなくても係るプログラムを保持し、持ち運びを可能にする。不揮発性記録媒体24は、上述した媒体に限定されない。また、不揮発性記録媒体24の代わりに、通信IF27を介して、通信ネットワークを介して係るプログラムを持ち運びしてもよい。
The
すなわち、CPU21は、ディスク23が記憶するソフトウェア・プログラム(コンピュータ・プログラム:以下、単に「プログラム」と称する)を、実行する際にメモリ22にコピーし、演算処理を実行する。CPU21は、プログラム実行に必要なデータをメモリ22から読み取る。表示が必要な場合には、CPU21は、ディスプレー28に出力結果を表示する。外部への出力が必要な場合には、CPU21は、出力装置26に出力結果を出力する。外部からプログラムを入力する場合、CPU21は、入力装置25からプログラムを読み取る。CPU21は、上述した図1、または、図10に示す各部が表す機能(処理)に対応するところのメモリ22にあるゆれ語判定プログラム(図2、または、図11)を解釈し実行する。CPU21は、上述した本発明の各実施形態において説明した処理を順次行う。
That is, the
すなわち、このような場合、本発明は、係るゆれ語判定プログラムによっても成し得ると捉えることができる。更に、係るゆれ語判定プログラムが記録されたコンピュータ読み取り可能な不揮発性の記録媒体によっても、本発明は成し得ると捉えることができる。 That is, in such a case, it can be understood that the present invention can also be achieved by such a shake word determination program. Furthermore, it can be understood that the present invention can also be realized by a computer-readable non-volatile recording medium in which such a shake word determination program is recorded.
以上、上述した実施形態を模範的な例として本発明を説明した。しかし、本発明は、上述した実施形態には限定されない。すなわち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。 The present invention has been described above using the above-described embodiment as an exemplary example. However, the present invention is not limited to the above-described embodiment. That is, the present invention can apply various modes that can be understood by those skilled in the art within the scope of the present invention.
尚、上述した各実施形態の一部又は全部は、以下の付記のようにも記載されうる。しかし、上述した各実施形態により例示的に説明した本発明は、以下には限られない。すなわち、
(付記1)
特定の品詞の単語が連なる第1文字列と、前記特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とが関連付けされた第1の組に関して、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と、前記第4文字列とを関連付けることによって第2の組を作成し、前記第2の組と前記第1の組とを関連付けする差分抽出手段と、
前記第2の組に関連付けされた前記第1の組の個数に基づき、前記第2の組が、表記におけるゆれを表すゆれ語であるか否かを判定する選定手段と
を備えるゆれ語判定装置。
In addition, a part or all of each embodiment mentioned above can be described also as the following additional remarks. However, the present invention described by way of example with the above-described embodiments is not limited to the following. That is,
(Appendix 1)
With respect to a first set in which a first character string in which words of a specific part of speech are connected and a second character string similar to the first character string among character strings in which the words of a specific part of speech are connected, A third character string included in the first character string and not included in the second character string, and a fourth character string included in the second character string and not included in the first character string Differential extraction means for creating a second set by associating the third character string with the fourth character string, and associating the second set with the first set;
A swing word determination device comprising: selection means for determining whether the second pair is a swing word representing a swing in notation based on the number of the first pair associated with the second pair. .
(付記2)
前記選定手段は、前記第2の組が前記ゆれ語でないと判定する場合であっても、前記第3文字列が前記第4文字列を含む場合、または、前記第4文字列が前記第3文字列を含む場合には、前記ゆれ語であると判定する
付記1に記載のゆれ語判定装置。
(Appendix 2)
Even if the selection means determines that the second set is not the fuzzy word, the third character string includes the fourth character string, or the fourth character string is the third character string. The fluctuation word determination device according to
(付記3)
前記選定手段は、前記第2の組が前記ゆれ語でないと判定する場合であっても、前記第3文字列を形態素解析処理することにより算出される読みと、前記第4文字列を形態素解析処理することにより算出される読みとが一致する場合には、前記ゆれ語であると判定する
付記1または付記2に記載のゆれ語判定装置。
(Appendix 3)
Even if the selection means determines that the second set is not the fuzzy word, a reading calculated by performing a morphological analysis process on the third character string and a morphological analysis on the fourth character string The fluctuation word determination apparatus according to
(付記4)
前記選定手段は、前記第2の組が前記ゆれ語でないと判定する場合であっても、同義語及び類義語を相互に関連付けする関連情報において、前記第3文字列及び前記第4文字列が関連付けされている場合には、前記ゆれ語であると判定する
付記1乃至付記3のいずれかに記載のゆれ語判定装置。
(Appendix 4)
The selection means associates the third character string and the fourth character string in related information associating synonyms and synonyms with each other even when the second set is determined not to be the swing word. If it is, the swing word determination device according to any one of
(付記5)
文書において前記第1文字列が出現する第1回数と、前記文書において前記第2文字列が出現する第2回数とを求める算定手段を
をさらに備え、
前記選定機能は、前記第2の組が前記ゆれ語でないと判定する場合であっても、前記第2の組に含まれる前記第3文字列に関して、前記第2の組に関連付けされた前記第1の組に含まれる第1文字列の第1回数を累計することにより第3回数を求め、前記第2の組に含まれる前記第4文字列を対象として、前記第2の組に関連付けされた前記第1の組に含まれる第2文字列の第2回数を累計することにより第4回数を求め、前記第3回数と、前記第4回数とに基づいて、さらに、前記第2の組が前記ゆれ語であるか否かを判定する
付記1乃至付記4のいずれかに記載のゆれ語判定装置。
(Appendix 5)
A calculation means for obtaining a first number of times the first character string appears in the document and a second number of times the second character string appears in the document;
The selection function determines the third character string associated with the second set with respect to the third character string included in the second set, even when the second set is determined not to be the swing word. The third number is obtained by accumulating the first number of first character strings included in one set, and the fourth character string included in the second set is associated with the second set. The fourth number is obtained by accumulating the second number of second character strings included in the first group, and the second group is further determined based on the third number and the fourth number. The swing word determination device according to any one of
(付記6)
前記選定手段は、前記第1の組の個数が所定の個数以上である場合に、前記ゆれ語でないと判定し、前記第1の組の個数が前記所定の個数よりも少ない場合に、前記ゆれ語であると判定する
付記1乃至付記5のいずれかに記載のゆれ語判定装置。
(Appendix 6)
The selection means determines that the number of the first set is not a fluctuation word when the number of the first set is equal to or greater than a predetermined number, and the number of the fluctuations when the number of the first set is less than the predetermined number. The fluctuation word determination device according to any one of
(付記7)
付記1乃至付記6のいずれかに記載のゆれ語判定装置と、
前記単語と前記品詞とが関連付けされた形態素情報に基づき、文書を形態素解析処理し、算出された品詞に基づき、前記特定の品詞の単語が連なる文字列を抽出し、得られた文字列の間において類似する程度を表す類似度に基づき、前記第1文字列と、前記第2文字列と抽出し、前記第1文字列と、前記第2文字列とを関連付けすることにより前記第2の組を作成する作成手段と、
前記文書の少なくとも一部を表示する表示手段と
をさらに備える文書分析装置。
(Appendix 7)
The fluctuation word judging device according to any one of
Based on the morpheme information in which the word and the part of speech are associated, the document is subjected to morphological analysis processing, based on the calculated part of speech, the character string including the words of the specific part of speech is extracted, and between the obtained character strings And extracting the first character string and the second character string on the basis of the degree of similarity representing the degree of similarity and associating the first character string with the second character string. Creating means to create
And a display unit for displaying at least a part of the document.
(付記8)
前記表示手段は、前記ゆれ語判定装置が前記ゆれ語であると判定した前記第2の組に関連付けされている前記第1の組に含まれる前記第1文字列及び前記第2文字列の部分を強調した態様によって、前記文書を表示する
付記7に記載の文書分析装置。
(Appendix 8)
The display means includes a portion of the first character string and the second character string included in the first group that is associated with the second group that is determined by the swing word determination device to be the swing word. The document analysis apparatus according to appendix 7, wherein the document is displayed in a manner that emphasizes.
(付記9)
前記表示手段は、前記ゆれ語判定装置が前記ゆれ語でないと判定した前記第2の組に関連付けされている前記第1の組に含まれる前記第1文字列及び前記第2文字列と、前記第2の組に含まれる前記第3文字列及び前記第4文字列とを関連付けて表示する
付記7または付記8に記載の文書分析装置。
(Appendix 9)
The display means includes the first character string and the second character string included in the first group associated with the second group determined by the fluctuation word determination device as not being the fluctuation word, The document analysis apparatus according to appendix 7 or appendix 8, wherein the third character string and the fourth character string included in the second set are displayed in association with each other.
(付記10)
前記表示手段は、前記ゆれ語判定装置が前記ゆれ語であると判定した前記第2の組に関連付けされている前記第1の組に含まれる前記第1文字列に、前記第1の組に含まれる前記第2文字列を付加する態様によって、前記文書を表示する
付記7乃至付記9のいずれかに記載の文書分析装置。
(Appendix 10)
The display means includes the first character string included in the first set associated with the second set determined by the shake word determination device as the shake word, and the first set. The document analysis device according to any one of appendix 7 to appendix 9, wherein the document is displayed by adding the second character string included therein.
(付記11)
情報処理装置が、
特定の品詞の単語が連なる第1文字列と、前記特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とが関連付けされた第1の組に関して、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と、前記第4文字列とを関連付けることによって第2の組を作成し、前記第2の組と前記第1の組とを関連付けし、
前記第2の組に関連付けされた前記第1の組の個数に基づき、前記第2の組が、表記におけるゆれを表すゆれ語であるか否かを判定する
ゆれ語判定方法。
(Appendix 11)
Information processing device
With respect to a first set in which a first character string in which words of a specific part of speech are connected and a second character string similar to the first character string among character strings in which the words of a specific part of speech are connected, A third character string included in the first character string and not included in the second character string, and a fourth character string included in the second character string and not included in the first character string And creating a second set by associating the third character string with the fourth character string, associating the second set with the first set,
A variation word determination method for determining whether or not the second set is a variation word representing a variation in notation based on the number of the first group associated with the second group.
(付記12)
特定の品詞の単語が連なる第1文字列と、前記特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とが関連付けされた第1の組に関して、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と、前記第4文字列とを関連付けることによって第2の組を作成し、前記第2の組と前記第1の組とを関連付けする差分抽出機能と、
前記第2の組に関連付けされた前記第1の組の個数に基づき、前記第2の組が、表記におけるゆれを表すゆれ語であるか否かを判定する選定機能と
をコンピュータに実現させるゆれ語判定プログラム。
(Appendix 12)
With respect to a first set in which a first character string in which words of a specific part of speech are connected and a second character string similar to the first character string among character strings in which the words of a specific part of speech are connected, A third character string included in the first character string and not included in the second character string, and a fourth character string included in the second character string and not included in the first character string A difference extraction function for creating a second set by associating the third character string with the fourth character string, and associating the second set with the first set;
A selection function for determining whether or not the second set is a fuzzy word representing a fluctuation in notation based on the number of the first sets associated with the second set. Word determination program.
10 文書分析装置
101 入力部
102 形態素辞書
103 表記ゆれ候補抽出部
104 差分抽出部
105 非ゆれ語選定部
106 表記ゆれ語抽出部
107 出力部
201 ゆれ語判定装置
202 差分抽出部
203 選定部
301 第1の組
302 判定結果
20 計算処理装置
21 CPU
22 メモリ
23 ディスク
24 不揮発性記録媒体
25 入力装置
26 出力装置
27 通信IF
28 ディスプレー
DESCRIPTION OF
22
28 Display
Claims (10)
前記第2の組に関連付けされた前記第1の組の個数に基づき、前記第2の組が、表記におけるゆれを表すゆれ語であるか否かを判定する選定手段と
を備えるゆれ語判定装置。 With respect to a first set in which a first character string in which words of a specific part of speech are connected and a second character string similar to the first character string among character strings in which the words of a specific part of speech are connected, A third character string included in the first character string and not included in the second character string, and a fourth character string included in the second character string and not included in the first character string Differential extraction means for creating a second set by associating the third character string with the fourth character string, and associating the second set with the first set;
A swing word determination device comprising: selection means for determining whether the second pair is a swing word representing a swing in notation based on the number of the first pair associated with the second pair. .
請求項1に記載のゆれ語判定装置。 Even if the selection means determines that the second set is not the fuzzy word, the third character string includes the fourth character string, or the fourth character string is the third character string. The fluctuation word determination device according to claim 1, wherein when it includes a character string, the fluctuation word is determined to be the fluctuation word.
請求項1または請求項2に記載のゆれ語判定装置。 Even if the selection means determines that the second set is not the fuzzy word, a reading calculated by performing a morphological analysis process on the third character string and a morphological analysis on the fourth character string The fluctuation word determination device according to claim 1, wherein the word is determined to be the fluctuation word when the reading calculated by processing matches.
請求項1乃至請求項3のいずれかに記載のゆれ語判定装置。 The selection means associates the third character string and the fourth character string in related information associating synonyms and synonyms with each other even when the second set is determined not to be the swing word. The swing word determination apparatus according to claim 1, wherein if it is determined, the swing word is determined to be the swing word.
前記単語と前記品詞とが関連付けされた形態素情報に基づき、文書を形態素解析処理し、算出された品詞に基づき、前記特定の品詞の単語が連なる文字列を抽出し、得られた文字列の間において類似する程度を表す類似度に基づき、前記第1文字列と、前記第2文字列と抽出し、前記第1文字列と、前記第2文字列とを関連付けすることにより前記第2の組を作成する作成手段と、
前記文書の少なくとも一部を表示する表示手段と
をさらに備える文書分析装置。 The fluctuation word judging device according to any one of claims 1 to 4,
Based on the morpheme information in which the word and the part of speech are associated, the document is subjected to morphological analysis processing, based on the calculated part of speech, the character string including the words of the specific part of speech is extracted, and between the obtained character strings And extracting the first character string and the second character string on the basis of the degree of similarity representing the degree of similarity and associating the first character string with the second character string. Creating means to create
And a display unit for displaying at least a part of the document.
請求項5に記載の文書分析装置。 The display means includes a portion of the first character string and the second character string included in the first group that is associated with the second group that is determined by the swing word determination device to be the swing word. The document analysis apparatus according to claim 5, wherein the document is displayed in a manner that emphasizes.
請求項5または請求項6に記載の文書分析装置。 The display means includes the first character string and the second character string included in the first group associated with the second group determined by the fluctuation word determination device as not being the fluctuation word, The document analysis apparatus according to claim 5, wherein the third character string and the fourth character string included in the second set are displayed in association with each other.
請求項5乃至請求項7のいずれかに記載の文書分析装置。 The display means includes the first character string included in the first set associated with the second set determined by the shake word determination device as the shake word, and the first set. The document analysis apparatus according to any one of claims 5 to 7, wherein the document is displayed by a mode in which the second character string included is added.
特定の品詞の単語が連なる第1文字列と、前記特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とが関連付けされた第1の組に関して、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と、前記第4文字列とを関連付けることによって第2の組を作成し、前記第2の組と前記第1の組とを関連付けし、
前記第2の組に関連付けされた前記第1の組の個数に基づき、前記第2の組が、表記におけるゆれを表すゆれ語であるか否かを判定する
ゆれ語判定方法。 Information processing device
With respect to a first set in which a first character string in which words of a specific part of speech are connected and a second character string similar to the first character string among character strings in which the words of a specific part of speech are connected, A third character string included in the first character string and not included in the second character string, and a fourth character string included in the second character string and not included in the first character string And creating a second set by associating the third character string with the fourth character string, associating the second set with the first set,
A variation word determination method for determining whether or not the second set is a variation word representing a variation in notation based on the number of the first group associated with the second group.
前記第2の組に関連付けされた前記第1の組の個数に基づき、前記第2の組が、表記におけるゆれを表すゆれ語であるか否かを判定する選定機能と
をコンピュータに実現させるゆれ語判定プログラム。 With respect to a first set in which a first character string in which words of a specific part of speech are connected and a second character string similar to the first character string among character strings in which the words of a specific part of speech are connected, A third character string included in the first character string and not included in the second character string, and a fourth character string included in the second character string and not included in the first character string A difference extraction function for creating a second set by associating the third character string with the fourth character string, and associating the second set with the first set;
A selection function for determining whether or not the second set is a fuzzy word representing a fluctuation in notation based on the number of the first sets associated with the second set. Word determination program.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014225821A JP6413659B2 (en) | 2014-11-06 | 2014-11-06 | Fuzzy word determination apparatus, fluctuation word determination method, fluctuation word determination program, and document analysis apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014225821A JP6413659B2 (en) | 2014-11-06 | 2014-11-06 | Fuzzy word determination apparatus, fluctuation word determination method, fluctuation word determination program, and document analysis apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016091344A JP2016091344A (en) | 2016-05-23 |
| JP6413659B2 true JP6413659B2 (en) | 2018-10-31 |
Family
ID=56019683
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014225821A Active JP6413659B2 (en) | 2014-11-06 | 2014-11-06 | Fuzzy word determination apparatus, fluctuation word determination method, fluctuation word determination program, and document analysis apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6413659B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022074509A (en) * | 2020-11-04 | 2022-05-18 | 株式会社東芝 | Difference extractor, method and program |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0721182A (en) * | 1993-07-02 | 1995-01-24 | Matsushita Electric Ind Co Ltd | Character processing apparatus and method |
| JP5094486B2 (en) * | 2008-03-14 | 2012-12-12 | 日本電信電話株式会社 | Synonymity determination device, method, program, and recording medium |
-
2014
- 2014-11-06 JP JP2014225821A patent/JP6413659B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016091344A (en) | 2016-05-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10664660B2 (en) | Method and device for extracting entity relation based on deep learning, and server | |
| Hellendoorn et al. | Will they like this? evaluating code contributions with language models | |
| US11983488B1 (en) | Systems and methods for language model-based text editing | |
| JP5071373B2 (en) | Language processing apparatus, language processing method, and language processing program | |
| JP6828335B2 (en) | Search program, search device and search method | |
| CN104794212A (en) | Context sentiment classification method and system based on user comment text | |
| JP6737151B2 (en) | Synonym expression extraction device, synonym expression extraction method, and synonym expression extraction program | |
| CN110750297B (en) | A Python code reference information generation method based on program analysis and text analysis | |
| WO2023183096A1 (en) | Self-supervised system for learning a user interface language | |
| JP6558863B2 (en) | Model creation device, estimation device, method, and program | |
| JP6427466B2 (en) | Synonym pair acquisition apparatus, method and program | |
| JP6309795B2 (en) | Information processing apparatus, information processing method, and program | |
| JP5117744B2 (en) | Word meaning tag assigning device and method, program, and recording medium | |
| CN111046627B (en) | A Chinese text display method and system | |
| WO2024191475A1 (en) | Systems and methods for language model-based text editing | |
| JP6413659B2 (en) | Fuzzy word determination apparatus, fluctuation word determination method, fluctuation word determination program, and document analysis apparatus | |
| CN113935387B (en) | Text similarity determination method, device and computer readable storage medium | |
| JP6613569B2 (en) | Notation shaking dictionary creation support device, notation shaking dictionary creation support method, and notation shaking dictionary creation support program | |
| CN119885078A (en) | User position detection method and system for target topics, electronic equipment and storage medium | |
| KR102519955B1 (en) | Apparatus and method for extracting of topic keyword | |
| Bhawna et al. | Natural Language Processing Based Two-Stage Machine Learning Model for Automatic Mapping of Activity Codes Using Drilling Descriptions | |
| JP6641749B2 (en) | Document generality estimating apparatus, document generality estimating method and program | |
| CN103616962A (en) | An information processing method and device | |
| US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium | |
| JP2009163565A (en) | Sentence shaping apparatus and sentence shaping program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171016 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180822 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180917 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6413659 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |