JP5457946B2 - Related word calculation device, related word calculation method, and related word calculation program - Google Patents
Related word calculation device, related word calculation method, and related word calculation program Download PDFInfo
- Publication number
- JP5457946B2 JP5457946B2 JP2010133934A JP2010133934A JP5457946B2 JP 5457946 B2 JP5457946 B2 JP 5457946B2 JP 2010133934 A JP2010133934 A JP 2010133934A JP 2010133934 A JP2010133934 A JP 2010133934A JP 5457946 B2 JP5457946 B2 JP 5457946B2
- Authority
- JP
- Japan
- Prior art keywords
- group
- groups
- distance
- word
- grouping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は単語の共起頻度を基に関連語を算出する技術に関するものである。 The present invention relates to a technique for calculating related words based on word co-occurrence frequencies.
従来技術に係る同義語計算装置(例えば特許文献1)は、少なくとも2種類の関連度辞書を用い、一の関連度辞書に基づいて単語グループを初期化するとともに、少なくとも2種類の関連度を反映した同義語辞書を作成する。そして、これらの関連度辞書に基づいて単語グループを併合処理することによって同義語グループを作成する。 A synonym calculation device according to the related art (for example, Patent Document 1) uses at least two types of association degree dictionaries, initializes word groups based on one association degree dictionary, and reflects at least two types of associations. Create a synonym dictionary. Then, a synonym group is created by merging word groups based on these relevance dictionaries.
従来技術は同義語グループの作成を目的としている。従来技術においては、同義語より広い意味の関連語を求める場合、単に閾値を相対的に大きな値に変更する対処では、同義語の上位概念の語や同じ種類の語のように有用な関連語だけでなく、関連性がない語も統合化されてしまうという問題がある。 The prior art aims at creating synonym groups. In the related art, when a related word having a broader meaning than a synonym is obtained, a simple related word such as a higher-level concept word or the same kind of word is used in the countermeasure of simply changing the threshold value to a relatively large value. In addition, there is a problem that unrelated words are integrated.
また、各単語に対する特徴量をベクトルで表わし、初期状態として各単語を個別のグループと定め、グループに含まれる単語のベクトル重心との距離などの方法でグループの距離を計算するとともに、2つのグループの統合後のグループを仮定して同様な距離を計算し、統合前後の距離の増加量が最小となるグループを順に統合するクラスタリング技術が存在する。この方法でもグループの距離の増加量に対して閾値を設けることで、距離の近い語が統合化されるが、閾値を大きくした場合、関連性がない語も統合化されてしまうという問題は同様に存在する。 In addition, the feature amount for each word is represented by a vector, each word is defined as an individual group as an initial state, and the distance between the group and the vector center of gravity of the word included in the group is calculated, and two groups are calculated. There is a clustering technique that calculates a similar distance assuming a group after integration, and sequentially integrates the groups with the smallest increase in distance before and after integration. Even in this method, by setting a threshold for the amount of increase in group distance, words that are close to each other are integrated. However, if the threshold is increased, unrelated words are also integrated. Exists.
本発明は単語のグループ化において、統合におけるグループ間の距離が最小となるグループ対を統合する処理に加え、2つのグループが統合に相応しくない条件である場合には両者のグループを統合化の対象から除外する。これにより同義語より広い範囲の関連語を精度良く得ることができる。 The invention Oite grouping of words, in addition to processing the distance between the groups to integrate smallest group pairs in integration, integration groups of both if the two groups are not suitable conditions for integration Exclude from As a result, related words in a wider range than synonyms can be obtained with high accuracy.
本発明の関連語計算装置の態様としては、単語をグループ化する関連語計算装置であって、単語間の共起頻度情報を格納した統計情報データベースから各単語の共起頻度に基づき作成された各単語のベクトルに基づき各単語のグループを作成するグループ化手段と、前記作成された各グループのベクトルに基づき計算された値から任意の2つのグループ間の距離として前記2つのグループの統合時の拡散度の増加量を算出する計算を全てのグループの組に対して行い、前記算出された距離と統合前の各グループの拡散度との比率をそれぞれ算出し、その2つの比率の値がいずれも閾値を超えるグループの組の両グループを統合化の対象から除外するグループ間計算手段と、前記除外によって残されたグループの集合からグループ間で統合した場合の当該グループ間の距離が最小となるグループの対を選択しこの選択されたグループ間の距離が閾値未満である場合には当該グループの対を前記グループ化手段に供する一方で前記距離が閾値以上である場合には当該対の各グループのデータを出力するグループ化判定手段とを備える。 The related word calculation device according to the present invention is a related word calculation device for grouping words, which is created based on the co-occurrence frequency of each word from a statistical information database storing co-occurrence frequency information between words. and grouping means for forming groups of each word based on the vector of each word, upon the integration of the two groups as the distance between the calculated arbitrary from the values of two groups based on the vectors of the group to which the created a calculation for calculating the amount of increase in diffusivity performed for the set of all the groups, the ratio of the diffusivity of each group before integration with the calculated distance calculated respectively, the value of the two ratios is either a set of inter-group calculation means excluded from the integration of both groups of groups also exceeds the threshold, integrated between groups from the set of groups left by the exclusion If the distance between the selected groups is less than a threshold value, the pair of groups is provided to the grouping means while the distance is a threshold value. In the case of the above, a grouping determination unit that outputs data of each group of the pair is provided.
本発明の関連語計算方法の態様としては、単語をグループ化する関連語計算方法であって、グループ化手段が単語間の共起頻度情報を格納した統計情報データベースから各単語の共起頻度に基づき作成された各単語のベクトルに基づき各単語のグループを作成するステップと、グループ間計算手段が、前記作成された各グループのベクトルに基づき計算された値から任意の2つのグループ間の距離として前記2つのグループの統合時の拡散度の増加量を算出する計算を全てのグループの組に対して行い、前記算出された距離と統合前の各グループの拡散度との比率をそれぞれ算出し、その2つの比率の値がいずれも閾値を超えるグループの組の両グループを統合化の対象から除外するステップと、グループ化判定手段が、前記除外によって残されたグループの集合からグループ間で統合した場合の当該グループ間の距離が最小となるグループの対を選択し、この選択されたグループ間の距離が閾値未満である場合には当該グループの対を前記グループ化手段に供する一方で、前記距離が閾値以上である場合には当該対の各グループのデータを出力するステップとを有する。 An aspect of the related word calculation method of the present invention is a related word calculation method for grouping words, wherein the grouping means calculates the co-occurrence frequency of each word from a statistical information database storing co-occurrence frequency information between words. A step of creating a group of each word based on a vector of each word created based on, and a calculation means between groups as a distance between any two groups from a value calculated based on the vector of each created group Performing a calculation to calculate the amount of increase in diffusivity during the integration of the two groups for all groups, and calculating the ratio between the calculated distance and the diffusivity of each group before integration, and excluded from step integrating both groups of pairs of groups value of the two ratios is greater than the both the threshold, grouping determination means, remaining by the exclusion The group pair that minimizes the distance between the groups when the group is integrated from the set of selected groups is selected. If the distance between the selected groups is less than the threshold, the group pair is selected. And providing to the grouping means, and outputting the data of each group of the pair when the distance is greater than or equal to a threshold value.
上記の発明においては、統合における距離が最小となるグループ統合において、誤った統合の影響により正しい2つのグループが統合化されなかった場合でも、他の統合化の条件を適用して上記の誤ったグループ統合を対象から除外することで、同義語より広い範囲の関連語をより一層精度良く算出できる。 In the above invention, in the group integration in which the distance in the integration is the minimum, even if two correct groups are not integrated due to the effect of the incorrect integration, the above-mentioned erroneous integration is applied by applying other integration conditions. By excluding group integration from the target, related terms in a wider range than synonyms can be calculated with higher accuracy.
尚、本発明は前記関連語計算装置を構成する各手段としてコンピュータを機能させる関連語計算プログラムの態様とすることもできる。 In addition, this invention can also be made into the aspect of the related word calculation program which makes a computer function as each means which comprises the said related word calculation apparatus.
以上の発明によれば同義語より広い範囲の関連語を精度良く得られる。 According to the above invention, related words in a wider range than synonyms can be obtained with high accuracy.
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments.
[実施形態1]
(概要)
実施形態1に係る関連語計算装置は、統合におけるグループ間の距離が最小となるグループ対を統合する処理に加え、2つのグループが統合に相応しくない条件である場合には両者のグループを統合化の対象から除外する。
[Embodiment 1]
(Overview)
The related term calculation apparatus according to the first embodiment integrates both groups in a case where two groups are not suitable for integration, in addition to the process of integrating the group pair that minimizes the distance between the groups in the integration. Exclude from
(装置の構成)
図1に示された本実施形態の関連語計算装置100は、単語統計情報データベース110、ベクトル作成部120、グループ化部130、グループ間計算部140、グループ化判定部150、作業領域160、グループデータペース170で構成される。
(Device configuration)
The related
関連語計算装置100の各機能部110〜170は例えばコンピュータのハードウェアリソースによって実現されている。すなわち、関連語計算装置100はCPU、メモリ、記憶装置(例えば、ハードディスクドライブ装置)、入力デバイス、出力デバイス等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)との協働することで機能部110〜170が実装される。
The
単語統計情報データベース110は図4に例示したように単語間の共起頻度情報を予め格納している。例示された単語統計情報データベースは単語1と単語2の共起情報と出現頻度のデータを格納している。
The word
ベクトル作成部120は単語統計情報データベース110から引き出した各単語の共起頻度に基づき各単語のベクトルを作成する。この作成された各単語のベクトルは作業領域160に出力される。
The
グループ化部130は前記作成された各単語のベクトルに基づき各単語のグループを作成する。グループ化部130は、初期処理の段階では、作業領域160から引き出したベクトルの要素に基づき各単語のグループのデータを作成し、作業領域160へ出力する。また、グループ化部130は、グループ化判定部150において2つのグループのグループ化が可能と判定された場合、2つのグループを統合してグループのデータを更新し、作業領域160に反映させる。
The
グループ間計算部140は作業領域160に保持された各グループのベクトルに基づき計算された値から任意の2つのグループ間の距離を算出する計算を全てのグループの組に対して行い当該距離に基づく値が閾値を超えるグループをグループ化の対象から除外する。
The
グループ化判定部150は前記除外によって残されたグループの集合からグループ間で統合した場合の当該グループ間の距離が最小となるグループの対を選択する。そして、この選択されたグループ間の距離が閾値未満である場合には当該グループの対をグループ化部130に供する。一方、前記距離が閾値以上である場合には当該対の各グループのデータをグループデータベース170に出力する。
The
(処理フローの説明)
図2を参照しながら関連語計算装置100の処理フロー(S100〜S160)について具体例に基づき説明する。
(Description of processing flow)
The processing flow (S100 to S160) of the related
S100:ベクトル作成部120は、単語統計情報データベース110に格納されている各単語の共起頻度に基づき各単語のベクトルを作成して作業領域160へ出力する。
S100: The
具体的には例えば図4に示された単語統計情報データベース110のデータに基づき図5に示された単語w1に対する単語w2の共起頻度を要素とするベクトルを作成する。図5に示されたベクトルデータ5における単語w1,…,wnには個別の識別子(ID)が付与されている。単語w1を特徴付けるベクトルは対象単語w1に対する共起単語w1,…,wnの各要素によって表される。さらに、各単語のベクトルの値の和が1になるよう正規化を行うため、各単語の全ベクトルの和で各ベクトル要素を割る処理がなされている。作成されたベクトルは、作業領域160へ出力される。
Specifically, for example, based on the data in the word
S110:グループ化部130はS100で作成された各単語のベクトルを作業領域160から引き出して当該各単語のグループを作成して作業領域160へ出力する。
S <b> 110: The
S110の初期処理では各単語をそれぞれ単一のグループとするため図6に例示したグループデータ6が作成される。グループデータ6における各単語のグループの識別子gIDのカラムには図5に示されたベクトルデータ5の各単語の識別子IDと一致した識別子が格納され、単語リストのカラムにはベクトルデータ5における識別子IDに対応した対象単語が格納される。また、グループデータ6にはS120(グループ間計算部140による演算処理)に供される各グループの拡散度も計算して格納されている。尚、ベクトルデータ5は以後のステップにおいて各グループに対応するベクトルとして扱われる。
In the initial processing of S110,
S120:グループ間計算部140は、S110で作成された各グループのベクトルを作業領域160から引き出し、このベクトルに基づき計算された値から任意の2つのグループ間の距離を算出する計算を全てのグループの組について行う。
S120: The
グループ間の距離の指標としては、例えば、「2つのグループの統合に伴う拡散度の増加量」が挙げられる。拡散度はその値が小さいほどデータの偏り度合いが高くなるとすると、グループの統合は拡散度の値を大きくする方向に働くため、統合時の拡散度の増加量が小さいほどグループの特徴が保持されやすくなり、全グループで最適な状態となる。尚、グループの結束度やグループ間の区別度などによって同様な結果が得られるのであれば、拡散度を用いる方法に限定されない。 As an index of the distance between groups, for example, “amount of increase in diffusivity associated with integration of two groups” can be cited. If the degree of diffusion is smaller, the degree of data bias becomes higher. Since group integration works in a direction to increase the value of diffusion, the smaller the increase in diffusion during integration, the more the group characteristics are retained. It becomes easy and it becomes the optimal state in all groups. Note that the method is not limited to the method using the degree of diffusion as long as similar results can be obtained depending on the degree of group cohesion and the degree of distinction between groups.
例えばグループAの拡散度K(A)は、図5に示されたベクトルデータ5を用いると、グループAに対するベクトルtf(A,i)(i=1,…,n)、Aに属する単語数NAとした場合、以下の式(1)による演算によって各ベクトル要素の拡散度から算出される。尚、後述の式(3)に供されるグループBの拡散度K(B)も同様の演算によって算出できる。
For example, when the
グループAとグループBの統合後の拡散度K(AB)は以下の式(2)による演算によって算出される。 The degree of diffusion K (AB) after the integration of group A and group B is calculated by the calculation according to the following equation (2).
そして、グループAとグループBの統合時の拡散度の増加量D(A,B)は以下の式(3)による演算によって算出される。 Then, the amount of increase D (A, B) of the diffusivity when the group A and the group B are integrated is calculated by the following equation (3).
D(A,B)=K(AB)−(K(A)+K(B)) …(3)
以上の計算を全てのグループの組について行う。そして、図8に例示したようにgID(A)側の各グループに対して増加量(D)が最小となるグループの組のデータを選択して作業領域160に格納する。尚、gID(A)とgID(B)を入れ替えると同じ組となる場合、重複を避けるためgID(A)のグループ識別子が小さい番号の組のみ選択する。
D (A, B) = K (AB) − (K (A) + K (B)) (3)
The above calculation is performed for all groups. Then, as illustrated in FIG. 8, the data of the group set that minimizes the increase (D) is selected for each group on the gID (A) side and stored in the
S130:グループ間計算部140は、S120で算出された距離(拡散度の増加量D)に基づく値が閾値を超えるグループを作業領域160から引き出し、当該グループを統合化の対象から除外する。
S130: The
統合前の2つのグループA,Bの拡散度K(A),K(B)と、グループA,Bが統合された時の拡散度K(AB)の増加量D(A,B)を比べた際に、Dの値がK(A)やK(B)の大部分を占める場合がある。この場合、各グループの単語出現状況の違いが大きいため、後述のS150でのグループ化判定部150で統合化を行うかどうかの判定を満たしたとしても、意味的に違うグループ同士の統合がなされる。そこで、S120で算出された距離(拡散度の増加量D)に基づく値として、統合時の拡散度の増加量と各グループの拡散度との比率である「D(A,B)/K(A)」及び「D(A,B)/K(B)」が挙げられる。比率「D(A,B)/K(A)」「D(A,B)/K(B)」がいずれも所定の閾値を超える場合は処理対象から除外する。前記閾値を超えるグループが除外された残りのグループの集合は作業領域160へ出力する。
Compare the diffusion amount K (A), K (B) of the two groups A, B before integration with the increase D (A, B) of the diffusion degree K (AB) when the groups A, B are integrated. The value of D may occupy most of K (A) or K (B). In this case, since the difference in the word appearance status of each group is large, even if the determination of whether or not to perform the integration in the
S140:グループ化判定部150は、S130での除外によって得られた残りのグループの集合から、S120で得られた作業領域160に格納されたグループ間の距離が最小となるグループの対を選択する。
S140: The grouping
S150:グループ化判定部150は、S140で選択されたグループの対が統合化可能であるか否かの判断を当該グループ間の距離の値に基づき行う。
S150: The grouping
具体的には、グループ間の距離が所定の閾値を満たすか否かを判断することによって統合化が可能かを判定する。そして、前記距離の値が閾値未満である場合(Yes)、統合化が可能である判断し前記グループの対をS160に供して統合処理を継続させる。一方、前記距離の値が閾値以上である場合(No)、前記グループの対をS170に供して統合処理を終了させる。 Specifically, it is determined whether integration is possible by determining whether the distance between groups satisfies a predetermined threshold. If the distance value is less than the threshold (Yes), it is determined that integration is possible, and the group pair is provided to S160 to continue the integration process. On the other hand, when the value of the distance is greater than or equal to the threshold (No), the group pair is used in S170 to end the integration process.
S160:グループ化部130はS150から供された前記グループの対を統合させることでグループデータの単語集合のベクトルや拡散度のデータを更新する。
S160: The
グループデータの更新にあたり、ベクトルデータはグループ番号である識別子IDの小さいグループに統合させるようにし、単語の出現頻度は加算される。統合されるグループデータの単語リストの単語はグループ番号の小さい方のグループに属するようにし、この小さい方のグループの拡散度は統合後の値に更新される。グループに属する単語が空である場合、そのグループは統合済みで以後の処理では不要となるため、処理対象から外す。このように更新されたグループデータ6はS120に供される。
In updating the group data, the vector data is integrated into a group having a small identifier ID which is a group number, and the appearance frequency of words is added. The words in the word list of the group data to be integrated belong to the group with the smaller group number, and the diffusivity of the smaller group is updated to the value after integration. If a word belonging to a group is empty, the group is already integrated and is not necessary for the subsequent processing, and is therefore excluded from the processing target. The
S170:グループ化判定部150は、ステップS150で前記距離が閾値以上であると判断した場合(No)、S120〜S160の統合処理を終了する。そして、この統合処理によって得られた図7に例示したような単語を統合化したグループデータ7を作業領域160から引き出してグループデータベース170に出力する。
S170: When the
(実施形態1の効果)
以上のように、本実施形態によれば、語のグループ化において、統合におけるグループ間の距離が最小となるグループが統合されることに加え、2つのグループが統合化に相応しくない条件では当該両者のグループが統合化対象から除外される。これにより同義語より広い範囲の関連語が精度よく得られる。
(Effect of Embodiment 1)
As described above, according to the present embodiment, in the grouping of words, in addition to the integration of the group that minimizes the distance between the groups in the integration, the two groups are not suitable for the integration. Are excluded from consolidation. As a result, related words in a wider range than synonyms can be obtained with high accuracy.
特にS130のように、2つのグループのそれぞれの拡散度と当該グループ間の距離の比を全てのグループの組に対して計算を行い、前記距離が閾値を超えるグループを統合化の対象から除外することで、グループの拡散度に依存した関連語の統合化が実現する。 In particular, as in S <b> 130, the ratio of the diffusivity of each of the two groups and the ratio of the distance between the groups is calculated for all groups, and the group whose distance exceeds the threshold is excluded from the integration targets. As a result, integration of related terms depending on the spread of the group is realized.
S130で統合時の拡散度の増加量と各グループの拡散度との比率「D(A,B)/K(A)」「D(A,B)/K(B)」のいずれも所定の閾値を超える場合に統合化の処理対象からの除外を行う前と行った場合の違いについて図9、図10を参照しながら説明する。ここでは、統合時の拡散度の増加量と各グループの拡散度との比率の閾値を「0.3」、グループ化判定部150での2つのグループ間距離の閾値を「4」とした場合の事例について説明する。
In S130, the ratio between the amount of increase in diffusivity during integration and the diffusivity of each group “D (A, B) / K (A)” and “D (A, B) / K (B)” is predetermined. A difference between when the threshold value is exceeded and before the exclusion from the integration processing target will be described with reference to FIGS. 9 and 10. Here, when the threshold value of the ratio between the amount of increase in diffusivity at the time of integration and the diffusivity of each group is “0.3”, and the threshold value of the distance between two groups in the
統合時の拡散度の増加量と各グループの拡散度との比率の閾値に基づき除去する前では図9(a)(b)に例示されたように鉄道に関する単語を含むグループにはバスに関する単語が含まれている。図示された数値はグループ拡散度Kの値を示し、括弧の数値は統合時の拡散度の増加量Dの値を示す。 Before removal based on the threshold value of the ratio between the amount of increase in diffusivity during integration and the diffusivity of each group, as shown in FIG. 9A and FIG. It is included. The illustrated numerical value indicates the value of the group diffusion degree K, and the numerical value in parentheses indicates the value of the increase amount D of the diffusion degree at the time of integration.
前記比率の閾値で除外する場合を考えると図9(c)に例示された“電車”、“本数”、“多い”が属するグループはK(A)=3.7、K(B)=2.8、D(A,B)=0.9である場合、当該比率の値はD(A,B)/K(B)=0.32となり閾値「0.3」を超える。この閾値に基づき統合化の対象から除外するようにすると、図10(c)に示されたように“電車”は“本数”及び“多い”が属するグループに統合されなくなる。 Considering the case of exclusion by the ratio threshold, the groups to which “train”, “number”, and “large” illustrated in FIG. 9C belong are K (A) = 3.7 and K (B) = 2. .8, D (A, B) = 0.9, the value of the ratio is D (A, B) / K (B) = 0.32, which exceeds the threshold “0.3”. If it is excluded from the integration targets based on this threshold, “train” is not integrated into the group to which “number” and “many” belong, as shown in FIG.
そして、“電車”は、図10(a)に例示したように“バス停”や“路線バス”よりも優先して鉄道に関する単語を含むグループに属することになる。それに伴って“バス停”、“路線バス”は図10(b)に例示したように“リムジンバス”が含まれているバスおよび公共交通の移動に関係する単語を含むグループに属することとなる。 As shown in FIG. 10A, “train” belongs to a group including words related to railways in preference to “bus stop” and “route bus”. Accordingly, “bus stop” and “route bus” belong to a group including a bus including “limousine bus” and a word related to movement of public transportation as illustrated in FIG.
以上のように拡散度の増加量に依存した統合処理によって“電車”や“バス停”及び“路線バス”が適切に統合化される。 As described above, the “train”, the “bus stop”, and the “route bus” are appropriately integrated by the integration process depending on the amount of increase in diffusion.
[実施形態2]
(概要)
実施形態2に係る関連語計算装置100は、統合における距離が最小となるグループ統合では2つのグループがグループ化されなかった場合でも、他の条件を考慮することで統合化が可能であれば当該両者のグループの統合を実行する。
[Embodiment 2]
(Overview)
The related
実施形態1に係るS150のグループ化判定の過程では、グループ間の距離(拡散度の増加量)が閾値以上であると判断されても、既にグループ化が進んだ大きなグループとまだグループ化がそれほどされていない小さいグループとの間で統合化が可能となる場合がある。 In the grouping determination process of S150 according to the first embodiment, even if it is determined that the distance between groups (the amount of increase in the degree of diffusion) is greater than or equal to the threshold value, the grouping is not so much as the group that has already been grouped. It may be possible to integrate with small groups that are not.
そこで、実施形態2では、S150にてグループ間の距離(拡散度の増加量)が閾値以上と判断された場合に、大きなグループとしてグループのベクトル要素が正である要素数が閾値よりも多いものと小さいグループとしてグループのベクトル要素が正である要素数が閾値よりも少ないものからなる一対のグループを統合処理に供している。これにより、同義語より広い範囲の関連語をより精度よく算出できる。 Therefore, in the second embodiment, when it is determined in S150 that the distance between groups (the amount of increase in the degree of diffusion) is equal to or greater than the threshold, the number of elements in which the group vector elements are positive as a large group is greater than the threshold. As a small group, a pair of groups having the number of elements whose group vector elements are positive is smaller than a threshold value is subjected to integration processing. As a result, related words in a wider range than synonyms can be calculated more accurately.
(装置の構成)
実施形態2に係る関連語計算装置100は実施形態1と異なる処理手順を実行するグループ化判定部150を備えたこと以外は実施形態1に係る関連語計算装置100と同じ装置構成である。
(Device configuration)
The related
(処理フローの説明)
図3を参照しながら実施形態2に係る関連語計算装置100の処理フロー(S100〜S180)について説明する。
(Description of processing flow)
A processing flow (S100 to S180) of the related
S100:ベクトル作成部120は、単語統計情報データベース110に格納されている各単語の共起頻度に基づき各単語のベクトルを作成して作業領域160へ出力する。
S100: The
S110:グループ化部130はS100で作成された各単語のベクトルを作業領域160から引き出して当該各単語のグループを作成して作業領域160へ出力する。
S <b> 110: The
S120:グループ間計算部140は、S110で作成された各グループのベクトルを作業領域160から引き出し、このベクトルに基づき計算された値から任意の2つのグループ間の距離を算出する計算を全てのグループの組について行う。そして、各グループに対して増加量(D)が最小となるグループの組のデータを選択して作業領域160に格納する。
S120: The
S130:グループ間計算部140は、S120で算出された距離(拡散度の増加量D)に基づく値が閾値を超えるグループを作業領域160から引き出し、当該グループを統合化の対象から除外する。
S130: The
S140:グループ化判定部150は、S130での除外によって得られた残りのグループの集合から、S120で得られた作業領域160に格納されたグループ間の距離が最小となるグループの対を選択する。
S140: The grouping
S150:グループ化判定部150は、S140で選択されたグループの対が統合化可能であるか否かの判断を当該グループ間の距離の値に基づき行う。具体的には、グループ間の距離が所定の閾値を満たすか否かを判断することによって統合化が可能かを判定する。そして、前記距離の値が閾値未満である場合(Yes)、統合化が可能である判断し前記グループの対をS160に供して統合処理を継続させる。一方、前記距離の値が閾値以上である場合(No)、前記グループの対をS180に供する。
S150: The grouping
S160:グループ化部130はS150から供された前記グループの対を統合させることでグループデータの単語集合のベクトルや拡散度のデータを更新する。更新されたグループデータ6はS120に供される。
S160: The
S180:グループ化判定部150は、S150から供されたグループの対のうちで一方のグループのベクトル全要素における要素値が正となる要素数の割合が所定の閾値以上であり且つ他方のグループのベクトル全要素における要素値が正となる要素数の割合が所定の閾値未満である場合(Yes)、当該グループの対をS160に供して統合処理を継続させる。一方、この統合処理の継続の条件を満たさない場合(No)、当該グループの対をS170に供して統合処理を終了させる。
S180: The grouping
S170:グループ化判定部150は、ステップS180で統合処理の継続の条件を満たさないと判断した場合(No)、S120〜S180の統合処理を終了する。そして、この統合処理によって得られた図7に例示したような単語を統合化したグループデータ7を作業領域160から引き出してグループデータベース170に出力する。
S170: If the
(実施形態2の効果)
以上のように統合における距離が最小となるグループ統合では2つのグループが統合化されなかった場合でも他の条件を考慮することで統合化が可能である場合には当該両者のグループが統合に供されるので、同義語より広い範囲の関連語をより精度良く得られる。
(Effect of Embodiment 2)
As described above, in the group integration in which the distance in the integration is minimized, even if two groups are not integrated, if the integration is possible by considering other conditions, the two groups are used for the integration. Therefore, related words in a wider range than synonyms can be obtained with higher accuracy.
実施形態2においては、グループのベクトル要素が正である要素数が閾値よりも多いグループとグループのベクトル要素が正である要素数が閾値よりも少ないグループからなる一対のグループの統合処理についてさらに制限を設けてもよい。具体的には、S180で、選択された一方のグループのベクトル全要素における要素値が正となる要素数の割合が所定の閾値以上であり且つ他方のグループのベクトル全要素における要素値が正となる要素数の割合が所定の閾値未満であるグループの対であってかつグループ間の距離が閾値未満のものをS160の更新処理に供すればよい。この処理によって、さらにより一層精度良く、同義語より広い範囲の関連語を算出できる。 In the second embodiment, a further limitation is imposed on the integration processing of a pair of groups including a group in which the number of elements in which the group vector elements are positive is greater than the threshold and a group in which the number of elements in which the group vector elements are positive is less than the threshold. May be provided. Specifically, in S180, the ratio of the number of elements in which the element values in all the vector elements of one selected group are positive is equal to or greater than a predetermined threshold value, and the element values in all the vector elements in the other group are positive. What is necessary is just to use for the update process of S160 the pair of the group whose ratio of the number of elements which are less than a predetermined threshold value, and the distance between groups is less than a threshold value. By this processing, related words in a wider range than synonyms can be calculated with even higher accuracy.
[本発明のプログラムとしての態様]
以上説明した実施形態の関連語計算装置100における各機能部120〜150の一部もしくは全部の機能をコンピュータのプログラムで構成し、この関連語計算プログラムをコンピュータによって実行して本発明を実現することができる。また、本実施形態の関連語計算方法における手順をコンピュータのプログラムで構成し、この関連語計算プログラムをコンピュータに実行させることができる。さらに、コンピュータで前記機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
[Aspect as Program of the Present Invention]
A part or all of the functions of each of the
100…関連語計算装置
110…単語統計情報データベース
120…ベクトル作成部(ベクトル作成手段)
130…グループ化部(グループ化手段)
140…グループ間計算部(グループ間計算手段)
150…グループ化判定部(グループ化判定手段)
160…作業領域
170…グループデータベース
DESCRIPTION OF
130 ... Grouping unit (grouping means)
140 ... Inter-group calculation section (inter-group calculation means)
150 ... Grouping determination unit (grouping determination means)
160 ...
Claims (5)
単語間の共起頻度情報を格納した統計情報データベースから各単語の共起頻度に基づき作成された各単語のベクトルに基づき各単語のグループを作成するグループ化手段と、
前記作成された各グループのベクトルに基づき計算された値から任意の2つのグループ間の距離として前記2つのグループの統合時の拡散度の増加量を算出する計算を全てのグループの組に対して行い、前記算出された距離と統合前の各グループの拡散度との比率をそれぞれ算出し、その2つの比率の値がいずれも閾値を超えるグループの組の両グループを統合化の対象から除外するグループ間計算手段と、
前記除外によって残されたグループの集合からグループ間で統合した場合の当該グループ間の距離が最小となるグループの対を選択しこの選択されたグループ間の距離が閾値未満である場合には当該グループの対を前記グループ化手段に供する一方で前記距離が閾値以上である場合には当該対の各グループのデータを出力するグループ化判定手段と
を備えたこと
を特徴とする関連語計算装置。 A related word calculation device for grouping words,
A grouping means for creating a group of each word based on a vector of each word created based on a co-occurrence frequency of each word from a statistical information database storing co-occurrence frequency information between words;
A calculation for calculating the amount of increase in diffusivity at the time of integration of the two groups as a distance between any two groups from a value calculated based on the generated vector of each group is performed for all sets of groups. And calculate the ratio between the calculated distance and the diffusivity of each group before integration, and exclude both groups in the group of groups whose two ratio values both exceed the threshold from the integration target Inter-group calculation means,
When a group pair that minimizes the distance between the groups is selected from the set of groups left by the exclusion and the distance between the selected groups is less than a threshold, the group A related word calculation apparatus comprising: a grouping determination unit that outputs the data of each group of the pair when the pair is provided to the grouping unit and the distance is equal to or greater than a threshold value.
を特徴とする請求項1に記載の関連語計算装置。 The grouping determining means is configured such that the ratio of the number of elements in which the element values in all vector elements of one group are positive in the pair of groups is equal to or greater than a predetermined threshold value and the element values in all vector elements of the other group the proportion of the number of elements to be positive is less than a predetermined threshold value, related word calculation device according pairs of said groups in claim 1, characterized in that in addition to the condition to be subjected to the grouping means.
グループ化手段が単語間の共起頻度情報を格納した統計情報データベースから各単語の共起頻度に基づき作成された各単語のベクトルに基づき各単語のグループを作成するステップと、
グループ間計算手段が、前記作成された各グループのベクトルに基づき計算された値から任意の2つのグループ間の距離として前記2つのグループの統合時の拡散度の増加量を算出する計算を全てのグループの組に対して行い、前記算出された距離と統合前の各グループの拡散度との比率をそれぞれ算出し、その2つの比率の値がいずれも閾値を超えるグループの組の両グループを統合化の対象から除外するステップと、
グループ化判定手段が、前記除外によって残されたグループの集合からグループ間で統合した場合の当該グループ間の距離が最小となるグループの対を選択し、この選択されたグループ間の距離が閾値未満である場合には当該グループの対を前記グループ化手段に供する一方で、前記距離が閾値以上である場合には当該対の各グループのデータを出力するステップと
を有すること
を特徴とする関連語計算方法。 A related word calculation method for grouping words,
A step of creating a group of each word based on a vector of each word created based on the co-occurrence frequency of each word from a statistical information database in which the grouping means stores co-occurrence frequency information between words;
The inter-group calculating means calculates all the calculations for calculating the amount of increase in diffusivity when integrating the two groups as the distance between any two groups from the values calculated based on the created vector of each group. This is done for a group of groups, and the ratio between the calculated distance and the diffusivity of each group before integration is calculated separately, and both groups of the group of groups whose two ratio values both exceed the threshold are integrated. A step to be excluded from
The grouping determination means selects a pair of groups that minimizes the distance between the groups when the group is integrated from the set of groups left by the exclusion, and the distance between the selected groups is less than the threshold value. A pair of the group is provided to the grouping means, and if the distance is greater than or equal to a threshold value, data of each group of the pair is output. Method of calculation.
を特徴とする請求項3に記載の関連語計算方法。 In providing the group pair to the grouping means, the ratio of the number of elements in which the element values of all vector elements of one group are positive among the pair of groups is equal to or greater than a predetermined threshold and the other group 4. The method according to claim 3 , further comprising adding, as a condition for providing the group pair to the grouping means, that a ratio of the number of elements having positive element values in all vector elements is less than a predetermined threshold value. The related word calculation method described.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010133934A JP5457946B2 (en) | 2010-06-11 | 2010-06-11 | Related word calculation device, related word calculation method, and related word calculation program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010133934A JP5457946B2 (en) | 2010-06-11 | 2010-06-11 | Related word calculation device, related word calculation method, and related word calculation program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011258114A JP2011258114A (en) | 2011-12-22 |
| JP5457946B2 true JP5457946B2 (en) | 2014-04-02 |
Family
ID=45474198
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010133934A Expired - Fee Related JP5457946B2 (en) | 2010-06-11 | 2010-06-11 | Related word calculation device, related word calculation method, and related word calculation program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5457946B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104246758B (en) | 2012-02-22 | 2018-05-18 | 诺基亚技术有限公司 | Adaptable System |
| JP7088795B2 (en) * | 2018-09-19 | 2022-06-21 | ヤフー株式会社 | Information processing equipment, information processing methods, and programs |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4125951B2 (en) * | 2002-12-25 | 2008-07-30 | 日本電信電話株式会社 | Text automatic classification method and apparatus, program, and recording medium |
| JP5079471B2 (en) * | 2007-11-27 | 2012-11-21 | 株式会社日立製作所 | Synonym extraction device |
-
2010
- 2010-06-11 JP JP2010133934A patent/JP5457946B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011258114A (en) | 2011-12-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Meng et al. | A novel potential edge weight method for identifying influential nodes in complex networks based on neighborhood and position | |
| CN108492201B (en) | A social network influence maximization method based on community structure | |
| US8725495B2 (en) | Systems, methods and devices for generating an adjective sentiment dictionary for social media sentiment analysis | |
| US9535954B2 (en) | Join processing device, data management device, and string similarity join system | |
| JP6414363B2 (en) | Prediction system, method and program | |
| JP6311851B2 (en) | Co-clustering system, method and program | |
| CN105653689B (en) | A method and device for determining the influence of a user's dissemination | |
| CN102662964B (en) | Method and device for grouping friends of user | |
| CN104915335B (en) | The method and apparatus of the document sets that are the theme generation summary | |
| Binder et al. | The rate of convergence of the walk on spheres algorithm | |
| Buzdalov et al. | Fixed-target runtime analysis | |
| CN111491300B (en) | Risk detection method, apparatus, device and storage medium | |
| JP5457946B2 (en) | Related word calculation device, related word calculation method, and related word calculation program | |
| CN109657060B (en) | Method and system for pushing safety production accident cases | |
| JPWO2007026870A1 (en) | Data clustering apparatus, clustering method, and clustering program | |
| CN110457599B (en) | Hot topic tracking method and device, server and readable storage medium | |
| CN108197186A (en) | A kind of Dynamic Graph matching inquiry method applied in social networks | |
| KR101394339B1 (en) | System and method for processing genome sequence in consideration of seed length | |
| CN107480130B (en) | Method for judging attribute value identity of relational data based on WEB information | |
| JP5981382B2 (en) | Partial tree merging device, partial tree merging method, and partial tree merging program | |
| CN105046107B (en) | A kind of discovery method of limited die body | |
| CN114065906A (en) | Method and system for reducing complexity of computing network | |
| CN118096417B (en) | A method, system, computer and storage medium for discovering communication network patterns | |
| CN112015729B (en) | Data management device, method and computer storage medium thereof | |
| JP2017182767A (en) | Emotion propagation device, emotion propagation method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120904 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130726 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130806 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131002 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140110 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5457946 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |