JP5483442B2 - Information processing apparatus, dictionary updating method, and program - Google Patents
Information processing apparatus, dictionary updating method, and program Download PDFInfo
- Publication number
- JP5483442B2 JP5483442B2 JP2010227495A JP2010227495A JP5483442B2 JP 5483442 B2 JP5483442 B2 JP 5483442B2 JP 2010227495 A JP2010227495 A JP 2010227495A JP 2010227495 A JP2010227495 A JP 2010227495A JP 5483442 B2 JP5483442 B2 JP 5483442B2
- Authority
- JP
- Japan
- Prior art keywords
- electronic information
- genre
- phrase
- dictionary
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理装置、辞書更新方法およびプログラムに関し、特には、ジャンル付与に使用する辞書を有する情報処理装置、辞書更新方法およびプログラムに関する。 The present invention relates to an information processing apparatus, a dictionary updating method, and a program, and more particularly, to an information processing apparatus having a dictionary used for genre assignment, a dictionary updating method, and a program.
特許文献1には、電子情報である分類対象情報から抽出された単語と、データベース(辞書)に記憶されたジャンル単語と、の関連度を算出し、その関連度に基づいて、分類対象情報を分類するジャンル分類装置が記載されている。 In Patent Literature 1, the degree of association between a word extracted from classification target information, which is electronic information, and a genre word stored in a database (dictionary) is calculated. A genre classification device for classification is described.
特許文献1に記載のジャンル分類装置は、予めデータベース(辞書)に記憶されたジャンル単語を用いて、分類対象情報を分類している。このため、特許文献1に記載のジャンル分類装置は、辞書にジャンル単語が適切に設定されなければ、電子情報を適切に分類できない。 The genre classification apparatus described in Patent Literature 1 classifies classification target information using genre words stored in advance in a database (dictionary). For this reason, the genre classification device described in Patent Literature 1 cannot properly classify electronic information unless genre words are appropriately set in the dictionary.
一方、電子情報で使用される単語が属するジャンルは、時期によって変わってしまう可能性がある。例えば、「南アフリカ」という単語は、2010年W杯開催前後では「スポーツ」または「サッカー」のジャンルに属することが適切であるが、それ以外の時期では「スポーツ」または「サッカー」のジャンルに属することは適切でなくなる。 On the other hand, the genre to which the word used in the electronic information belongs may change depending on the time. For example, it is appropriate that the word “South Africa” belongs to the “sports” or “soccer” genre before and after the 2010 World Cup, but otherwise belongs to the “sports” or “soccer” genre. That is no longer appropriate.
特許文献1に記載のジャンル分類装置は、一度設定されたジャンル単語を継続して使用するため、時期によって属するジャンルが変化する単語に対して、適切にジャンルを付与することができないという課題があった。 Since the genre classification device described in Patent Document 1 continuously uses a genre word that has been set once, there is a problem that a genre cannot be appropriately assigned to a word whose genre changes depending on the time. It was.
本発明の目的は、上述した課題を解決可能な情報処理装置、辞書更新方法およびプログラムを提供することである。 The objective of this invention is providing the information processing apparatus, the dictionary update method, and program which can solve the subject mentioned above.
本発明の情報処理装置は、ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶する記憶手段と、所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、前記語句を登録すると決定した場合に、前記語句を前記付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含む。 The information processing apparatus according to the present invention includes a storage unit that stores a dictionary in which a genre and a phrase related to the genre are associated with each other for each genre, and is registered on the network during the predetermined time every time the predetermined time elapses. And storing means for storing electronic information to which any one of the genres is assigned, and as each time the electronic information is stored, the phrase shown in the electronic information is associated with the assigned genre given to the electronic information. The number a of first electronic information which is electronic information stored in the storage means between the time when the electronic information is stored and the time before the time is stored, Of the first electronic information, the number b of the second electronic information to which the assigned genre is assigned, the number c of the third electronic information including the phrase in the first electronic information, and the third electronic information Control means for registering the word / phrase in the dictionary in association with the given genre when it is decided to register the word / phrase, based on the number d of the fourth electronic information to which the given genre is given; including.
本発明の辞書更新方法は、情報処理装置が行う辞書更新方法であって、ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、当該語句を登録すると決定した場合に、当該語句を前記付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含む。 The dictionary update method of the present invention is a dictionary update method performed by the information processing apparatus, and stores a dictionary in which a genre and a word related to the genre are associated with each other in a storage unit, and a predetermined time. A storage step of storing in the storage means electronic information that is registered on the network and given any of the genres for each predetermined time, and each time the electronic information is stored, the electronic information is stored. The storage means between the time when the electronic information is stored and the time prior to the time when the electronic information is stored in the dictionary in association with the assigned genre given to the electronic information. The number a of first electronic information stored in the electronic information, the number b of second electronic information to which the given genre is assigned among the first electronic information, and the first power information. When the number c of third electronic information including the word in the information and the number d of fourth electronic information to which the assigned genre is given out of the third electronic information are determined and the word is registered And a control step of registering the word / phrase in the dictionary in association with the assigned genre when determined.
本発明のプログラムは、コンピュータを、上記情報処理装置が有する各手段として機能させる。 The program of the present invention causes a computer to function as each unit included in the information processing apparatus.
本発明によれば、時期によって属するジャンルが変化する語句に応じて適切に辞書を更新することが可能になる。 According to the present invention, it is possible to appropriately update a dictionary according to a phrase whose genre to which the time belongs changes.
以下、本発明の実施形態を図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明の一実施形態のジャンル付与サーバ(情報処理装置)を含むジャンル付与システムを示したブロック図である。 FIG. 1 is a block diagram showing a genre assignment system including a genre assignment server (information processing apparatus) according to an embodiment of the present invention.
図1において、ジャンル付与システムは、文書収集サーバ1と、ジャンル付与サーバ2と、利用者PC(パーソナルコンピュータ)3と、サーバ4と、を含む。文書収集サーバ1とジャンル付与サーバ2と利用者PC3とサーバ4とは、ネットワーク5を介して相互に通信可能である。ジャンル付与サーバ2は、取得部21と、選別部22と、格納部23と、記憶部24と、制御部25と、付与部26と、を含む。なお、文書収集サーバ1は、ジャンル付与サーバ2に組み込まれてもよい。また、利用者PC3およびサーバ4は、1台に限らず複数台でもよい。 In FIG. 1, the genre assignment system includes a document collection server 1, a genre assignment server 2, a user PC (personal computer) 3, and a server 4. The document collection server 1, genre assignment server 2, user PC 3, and server 4 can communicate with each other via a network 5. The genre assignment server 2 includes an acquisition unit 21, a selection unit 22, a storage unit 23, a storage unit 24, a control unit 25, and an assignment unit 26. The document collection server 1 may be incorporated in the genre assignment server 2. Further, the number of user PCs 3 and servers 4 is not limited to one and may be a plurality.
文書収集サーバ1は、一般的に蓄積装置と呼ぶことができる。 The document collection server 1 can be generally called a storage device.
文書収集サーバ1は、ネットワーク5上に登録された電子情報を収集して蓄積する。ネットワーク5上に登録された電子情報は、例えば、利用者PC3からネットワーク5上に登録された、新着ツイート(新着ミニブログ)またはブログ等の、文書を有する電子情報である。文書収集サーバ1は、収集された電子情報を、その電子情報の収集日時と関連づけて蓄積する。 The document collection server 1 collects and stores electronic information registered on the network 5. The electronic information registered on the network 5 is electronic information having a document such as a new tweet (new mini blog) or a blog registered on the network 5 from the user PC 3. The document collection server 1 accumulates the collected electronic information in association with the collection date and time of the electronic information.
取得部21は、一般的に取得手段と呼ぶことができる。 Acquisition unit 21 can be generally referred to as acquisition means.
取得部21は、文書収集サーバ1から、5分が経過するごとに、その5分の間にネットワーク5上に登録された電子情報を取得する。なお、5分は、一般的に所定時間と呼ぶことができる。なお、所定時間は5分に限らず適宜変更可能である。 The acquisition unit 21 acquires electronic information registered on the network 5 during 5 minutes from the document collection server 1 every 5 minutes. Note that 5 minutes can generally be called a predetermined time. The predetermined time is not limited to 5 minutes and can be changed as appropriate.
選別部22は、一般的に選別手段と呼ぶことができる。 Sorting unit 22 can be generally referred to as sorting means.
選別部22は、取得部21にて取得された電子情報に、その電子情報が示す内容に応じたジャンルを付与する。選別部22は、ジャンルが付与された電子情報のうち、複数のジャンルが付与された電子情報を削除し、1つのジャンルのみが付与された1つまたは複数の電子情報を、格納部23に格納する。 The sorting unit 22 gives a genre corresponding to the content indicated by the electronic information to the electronic information acquired by the acquiring unit 21. The selection unit 22 deletes electronic information to which a plurality of genres are assigned from among the electronic information to which genres are assigned, and stores one or more pieces of electronic information to which only one genre is assigned in the storage unit 23. To do.
本実施形態では、選別部22は、記憶部24に記憶されたジャンル辞書24aを利用して、取得部21にて取得された電子情報にジャンルを付与する。ジャンル辞書24aでは、予め定められたジャンルごとに、ジャンルとそのジャンルに関する語句とが、互いに関連づけられている。 In the present embodiment, the selection unit 22 uses the genre dictionary 24 a stored in the storage unit 24 to give a genre to the electronic information acquired by the acquisition unit 21. In the genre dictionary 24a, for each predetermined genre, a genre and a phrase related to the genre are associated with each other.
図2は、ジャンル辞書24aの一例を示した図である。なお、ジャンル辞書24aは、一般的に辞書と呼ぶことができる。 FIG. 2 is a diagram showing an example of the genre dictionary 24a. The genre dictionary 24a can be generally called a dictionary.
図2において、ジャンル辞書24aは、「政治」、「電車」、「IT」、「食べ物」、「サッカー」および「アイドル」という6つのジャンルを有する。「政治」、「電車」、「IT」、「食べ物」、「サッカー」および「アイドル」という6つのジャンルは、一般的に、予め定められた複数の特定のジャンルと呼ぶことができる。特定のジャンルは、「政治」、「電車」、「IT」、「食べ物」、「サッカー」および「アイドル」に限らず適宜変更可能である。
ジャンル辞書24aは、ジャンルごとに、強検索リスト24a1と、学習リスト24a2と、を有する。
In FIG. 2, the genre dictionary 24a has six genres of “politics”, “train”, “IT”, “food”, “soccer”, and “idol”. The six genres “politics”, “train”, “IT”, “food”, “soccer”, and “idol” can be generally referred to as a plurality of predetermined specific genres. The specific genre is not limited to “politics”, “train”, “IT”, “food”, “soccer”, and “idol”, but can be changed as appropriate.
The genre dictionary 24a has a strong search list 24a1 and a learning list 24a2 for each genre.
図3は、「サッカー」のジャンルの強検索リスト24a1に記載された単語を示した図である。 FIG. 3 is a diagram illustrating words described in the strong search list 24a1 of the genre “soccer”.
強検索リスト24a1には、強検索リスト24a1が属するジャンルの話題の単語であると判断できる単語(他のジャンルの話題には含まれない単語)が記載される。強検索リスト24a1は、ジャンル付与サーバ2の管理者等によって、事前に用意される。 The strong search list 24a1 describes words (words not included in topics of other genres) that can be determined as topics words of the genre to which the strong search list 24a1 belongs. The strong search list 24a1 is prepared in advance by an administrator of the genre assignment server 2 or the like.
図4は、「サッカー」のジャンルの学習リスト24a2に記載された語句を示した図である。 FIG. 4 is a diagram illustrating words and phrases described in the learning list 24a2 of the genre “soccer”.
学習リスト24a2には、学習リスト24a2が属するジャンルの話題の語句である可能性が高い語句、つまり、学習リスト24a2が属するジャンルに関する語句が記載される。学習リスト24a2に記載の語句は、例えば、単語およびURL(Uniform Resource Locator)である。なお、URLは、画像を特定するためのURLでもよい。 In the learning list 24a2, words and phrases that are highly likely to be topical phrases of the genre to which the learning list 24a2 belongs, that is, words and phrases related to the genre to which the learning list 24a2 belongs are described. The words and phrases described in the learning list 24a2 are, for example, a word and a URL (Uniform Resource Locator). The URL may be a URL for specifying an image.
本実施形態では、学習リスト24a2に記載される語句は、制御部25にて決定される。なお、学習リスト24a2に記載された語句には、学習リスト24a2が属するジャンルの話題である可能性が高いほど数値が高くなるポイントが付してある。 In the present embodiment, the words / phrases described in the learning list 24a2 are determined by the control unit 25. It should be noted that the phrase described in the learning list 24a2 is given a point where the numerical value increases as the possibility that the topic is in the genre to which the learning list 24a2 belongs is higher.
選別部22は、取得部21にて取得された電子情報のうち、強検索リスト24a1に記載された単語を有する電子情報に、その単語が属するジャンルを付与する。 The sorting unit 22 gives the genre to which the word belongs to the electronic information having the word described in the strong search list 24a1 among the electronic information acquired by the acquiring unit 21.
また、選別部22は、取得部21にて取得された電子情報ごとに、電子情報と各ジャンルの学習リスト24a2との類似度を計算する。 The sorting unit 22 calculates the similarity between the electronic information and the learning list 24a2 of each genre for each electronic information acquired by the acquiring unit 21.
選別部22は、取得部21にて取得された電子情報に、その電子情報との類似度が一定閾値を超えた学習リスト24a2が属するジャンルを付与する。なお、一定閾値は、選別部22内に設定されている。 The selection unit 22 gives the electronic information acquired by the acquisition unit 21 the genre to which the learning list 24a2 whose similarity with the electronic information exceeds a certain threshold belongs. The constant threshold is set in the sorting unit 22.
図5は、選別部22が行う類似度計算の一例を説明するための図である。 FIG. 5 is a diagram for explaining an example of similarity calculation performed by the selection unit 22.
選別部22は、電子情報B1から単語を抽出する。なお、単語の抽出手法としては公知技術が使用される。 The selection unit 22 extracts words from the electronic information B1. A known technique is used as a word extraction method.
以下では、選別部22は、電子情報B1から、「□□」、「メーカー」、「簡単」、「携帯」および「タッチ」を抽出したとする。図5では、電子情報B1から抽出された単語が、B1=(□□、メーカー、簡単、携帯、タッチ)として、表されている。なお、選別部22は、電子情報B1から抽出された単語のそれぞれに1ポイントを付加する。 Hereinafter, it is assumed that the sorting unit 22 has extracted “□□”, “Manufacturer”, “Easy”, “Mobile”, and “Touch” from the electronic information B1. In FIG. 5, the word extracted from the electronic information B1 is represented as B1 = (□□, maker, simple, mobile, touch). The sorting unit 22 adds 1 point to each word extracted from the electronic information B1.
また、あるジャンルの学習リストRには、「□□」、「メーカー」、「携帯」、「タッチ」が記載されているとする。図5では、学習リストRが、R=(□□、メーカー、携帯、タッチ)として表されている。なお、学習リストRでは、「□□」に10ポイントが付加され、「メーカー」に2ポイントが付加され、「携帯」に1ポイントが付加され、「タッチ」に0.5ポイントが付加されているとする。 Further, it is assumed that “□□”, “maker”, “mobile”, and “touch” are described in the learning list R of a certain genre. In FIG. 5, the learning list R is represented as R = (□□, manufacturer, mobile phone, touch). In the learning list R, 10 points are added to “□□”, 2 points are added to “maker”, 1 point is added to “mobile”, and 0.5 point is added to “touch”. Suppose that
選別部22は、類似度計算式sim(R,B1)=|R・B1|/|R||B1|に従って、類似度sim(R,B1)を計算する。図5に示した例では、
|R・B1|=10+2+1+0.5=13.5、
|R|=sqrt(100+4+1+0.25)=10.26、
|B1|=sqrt(1+1+1+1+1)=2.23となり、よって、
sim(R,B1)=13.5/(10.26×2.23)=0.59、となる。
The selection unit 22 calculates the similarity sim (R, B1) according to the similarity calculation formula sim (R, B1) = | R · B1 | / | R || B1 |. In the example shown in FIG.
| R · B1 | = 10 + 2 + 1 + 0.5 = 13.5
| R | = sqrt (100 + 4 + 1 + 0.25) = 10.26,
| B1 | = sqrt (1 + 1 + 1 + 1 + 1) = 2.23, so
sim (R, B1) = 13.5 / (10.26 × 2.23) = 0.59.
本実施形態で用いられる類似度計算式では、ポイントの高い単語を多く含み無関係な単語をあまり含まない電子情報ほど、類似度が高くなる。 In the similarity calculation formula used in the present embodiment, the similarity is higher for electronic information that includes many high-point words and less irrelevant words.
なお、選別部22は、学習リスト24a2を用いず、強検索リスト24a1のみを用いて、電子情報にジャンルを付与してもよい。 Note that the selection unit 22 may add a genre to the electronic information using only the strong search list 24a1 without using the learning list 24a2.
選別部22は、ジャンル辞書24aを用いたジャンル付与処理が終了すると、取得部21にて取得された電子情報のうち、ジャンル辞書24aに示された如何なるジャンルも付与されていない電子情報に、「その他」というジャンルを付与する。 When the genre assigning process using the genre dictionary 24a is completed, the sorting unit 22 adds, to the electronic information that is not given any genre shown in the genre dictionary 24a among the electronic information obtained by the obtaining unit 21. A genre of “others” is given.
選別部22は、取得部21にて取得された各電子情報へのジャンル付与が終了すると、ジャンルが付与された電子情報のうち、複数のジャンルが付与された電子情報を削除し、1つのジャンルのみが付与された1つまたは複数の電子情報を格納部23に格納する。 When the genre assignment to each electronic information acquired by the acquisition unit 21 is completed, the selection unit 22 deletes the electronic information to which a plurality of genres are assigned from the electronic information to which the genre is assigned. One or a plurality of pieces of electronic information to which only “A” is assigned are stored in the storage unit 23.
以下、本実施形態では、5分ごとに、その5分の間に登録され複数のジャンルのいずれかが付与された複数の電子情報が格納部23に格納される状況での説明を行う。 Hereinafter, in the present embodiment, a description is given of a situation in which a plurality of electronic information registered every five minutes and assigned with any of a plurality of genres is stored in the storage unit 23 every five minutes.
格納部23は、一般的に格納手段と呼ぶことができる。 Storage unit 23 can generally be referred to as storage means.
格納部23は、5分ごとに、その5分の間に登録され複数のジャンルのいずれかが付与された複数の電子情報を格納する。 The storage unit 23 stores a plurality of pieces of electronic information registered every five minutes and assigned with any of a plurality of genres every five minutes.
記憶部24は、一般的に記憶手段と呼ぶことができる。 Storage unit 24 can generally be referred to as storage means.
記憶部24は、ジャンル辞書24aを記憶する。 The storage unit 24 stores a genre dictionary 24a.
制御部25は、一般的に決定手段と呼ぶことができる。 Control unit 25 can be generally referred to as determining means.
制御部25は、格納部23に複数の電子情報が格納されるごとに、複数の電子情報のいずれかに示された語句(以下「対象語句」と称する)のそれぞれについて、その対象語句を、その対象語句を示した電子情報に付与されたジャンル(以下「付与ジャンル」と称する)に関連づけてジャンル辞書24a(学習リスト24a2)に登録するか否かを決定する。なお、対象語句は、単語およびURLを含む。 Each time a plurality of pieces of electronic information are stored in the storage unit 23, the control unit 25 sets the target word / phrase for each of the words / phrases (hereinafter referred to as “target words / phrases”) indicated in any of the plurality of pieces of electronic information. It is determined whether or not to register in the genre dictionary 24a (learning list 24a2) in association with the genre (hereinafter referred to as “grant genre”) given to the electronic information indicating the target word / phrase. The target phrase includes a word and a URL.
制御部25は、まず、複数の電子情報が格納部23に格納された時点から、該時点よりも前の時点までの間に、格納部23に格納された電子情報(以下「第1電子情報」と称する)の数aと、第1電子情報のうち付与ジャンルが付与された第2電子情報の数bと、第1電子情報のうち対象語句を含む第3電子情報の数cと、第3電子情報のうち付与ジャンルが付与された第4電子情報の数dと、を算出する。 First, the control unit 25 stores the electronic information stored in the storage unit 23 (hereinafter referred to as “first electronic information”) between the time when the plurality of pieces of electronic information are stored in the storage unit 23 and the time before the time. Of the first electronic information, the number b of the second electronic information to which the assigned genre is assigned, the number c of the third electronic information including the target phrase in the first electronic information, The number d of the 4th electronic information to which the grant genre was given among the three electronic information was calculated.
本実施形態では、制御部25は、複数の電子情報が格納部23に格納されるごとに、その複数の電子情報の数aAと、その複数の電子情報のうち付与ジャンルが付与された電子情報(第8電子情報)の数bAと、その複数の電子情報のうち対象語句を含む電子情報(第9電子情報)の数cAと、その複数の電子情報のうち付与ジャンルが付与され対象語句を含む電子情報(第10電子情報)の数dAと、を算出する。 In the present embodiment, each time a plurality of pieces of electronic information are stored in the storage unit 23, the control unit 25 includes the number aA of the plurality of pieces of electronic information and the piece of electronic information to which a given genre is assigned. The number bA of (eighth electronic information), the number cA of electronic information (the ninth electronic information) including the target word / phrase among the plurality of electronic information, and the target word / phrase with the given genre among the plurality of electronic information. The number dA of electronic information (tenth electronic information) to be included is calculated.
そして、制御部25は、複数の電子情報が、最初に格納部23に格納された際には、aAを第1電子情報の数aとして算出し、bAを第2電子情報の数bとして算出し、cAを第3電子情報の数cとして算出し、dAを第4電子情報の数dとして算出する。 Then, when a plurality of pieces of electronic information are first stored in the storage unit 23, the control unit 25 calculates aA as the number a of the first electronic information and bA as the number b of the second electronic information. Then, cA is calculated as the number c of the third electronic information, and dA is calculated as the number d of the fourth electronic information.
その後、複数の電子情報が格納部23に格納されるごとに、制御部25は、以下のように、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出する。 Thereafter, each time a plurality of pieces of electronic information are stored in the storage unit 23, the control unit 25, as described below, the number a of the first electronic information, the number b of the second electronic information, and the third electronic information The number c and the number d of the fourth electronic information are calculated.
制御部25は、前回算出された第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の第1電子情報の数aとして算出する。 The control unit 25 multiplies the first multiplication value, which is a value obtained by multiplying the number of first electronic information calculated previously by the first weighting factor, and the second weighting factor, the number aA of the plurality of electronic information calculated this time. The sum of the calculated value and the second multiplied value is calculated as the number of first electronic information a.
制御部25は、前回算出された第2電子情報の数bに第1重み係数を乗算した値である第3乗算値と、今回算出した複数の電子情報の数bAに第2重み係数を乗算した値である第4乗算値と、の和を、今回の第2電子情報の数bとして算出する。 The control unit 25 multiplies the number b of the second electronic information calculated previously by the first weighting factor and the third weighting value multiplied by the second weighting factor and the number bA of the plurality of electronic information calculated this time. The sum of the calculated value and the fourth multiplication value is calculated as the number b of the second electronic information this time.
制御部25は、前回算出された第3電子情報の数cに第1重み係数を乗算した値である第5乗算値と、今回算出した複数の電子情報の数cAに第2重み係数を乗算した値である第6乗算値と、の和を、今回の第3電子情報の数cとして算出する。 The control unit 25 multiplies the fifth weighted value, which is a value obtained by multiplying the number c of the third electronic information calculated last time by the first weighting factor, and the second weighting factor by the number cA of the plurality of electronic information calculated this time. The sum of the calculated value and the sixth multiplication value is calculated as the number c of the third electronic information at this time.
制御部25は、前回算出された第4電子情報の数dに第1重み係数を乗算した値である第7乗算値と、今回算出した複数の電子情報の数dAに第2重み係数を乗算した値である第8乗算値と、の和を、今回の第4電子情報の数dとして算出する。 The control unit 25 multiplies the seventh weight, which is a value obtained by multiplying the number d of the fourth electronic information calculated previously by the first weighting factor, and the second weighting factor, the number dA of the plurality of electronic information calculated this time. The sum of the calculated value and the eighth multiplication value is calculated as the number d of the fourth electronic information this time.
なお、第1重み係数は、(n−1)/nの値から所定値αを差し引いたものであり、第2重み係数は、1/nの値に所定値αを加算したものであることが望ましい。なお、複数の電子情報が格納された回数の累積値(累積回数)が、所定の規定値よりも小さい場合、nは累積回数となり、累積回数が、その所定の規定値以上の場合、nは、所定の規定値となる。所定の規定値は、例えば、制御部25に格納されている。 The first weighting factor is obtained by subtracting the predetermined value α from the value of (n−1) / n, and the second weighting factor is obtained by adding the predetermined value α to the value of 1 / n. Is desirable. In addition, when the accumulated value (accumulated number) of the number of times when a plurality of electronic information is stored is smaller than a predetermined specified value, n is the accumulated number, and when the accumulated number is equal to or greater than the predetermined specified value, n is It becomes a predetermined specified value. The predetermined specified value is stored in the control unit 25, for example.
例えば、制御部25は、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dとを、以下の計算式に従って計算する。 For example, the control unit 25 calculates the number a of the first electronic information, the number b of the second electronic information, the number c of the third electronic information, and the number d of the fourth electronic information according to the following calculation formulas. To do.
なお、上記tは、所定時間である5分ごとに1ずつ増える値であり、格納部23へ複数の電子情報を格納した回数の累計値と読み替えることもできる。また、上記Tは、例えば、計算対象期間(過去データ学習対象期間)である3時間=180分を、所定時間である5分で割った値である36である。なお、Tは、所定の規定値の一例である。計算対象期間は、3時間に限らず適宜変更可能である。 Note that t is a value incremented by 1 every 5 minutes, which is a predetermined time, and can be read as a cumulative value of the number of times a plurality of pieces of electronic information are stored in the storage unit 23. The T is 36, which is a value obtained by dividing 3 hours = 180 minutes, which is a calculation target period (past data learning target period), by 5 minutes, which is a predetermined time. T is an example of a predetermined specified value. The calculation target period is not limited to 3 hours and can be changed as appropriate.
制御部25は、第1電子情報の数aを算出する場合、(1)〜(2)式の「P」を「a」に置き換え、かつ、Ctを、累積回数tのときに新たに格納部23に格納された電子情報の数と置き換えることによって、第1電子情報の数aを算出する。 When calculating the number a of the first electronic information, the control unit 25 replaces “P” in the expressions (1) to (2) with “a”, and newly stores Ct when the cumulative number of times is t. By replacing the number of electronic information stored in the unit 23, the number a of the first electronic information is calculated.
以下、制御部25が(1)〜(2)式を用いて第1電子情報の数aを算出する例を説明する。 Hereinafter, an example in which the control unit 25 calculates the number a of the first electronic information using the expressions (1) to (2) will be described.
制御部25は、第1電子情報の数a1を、a1=C1、すなわち、累積回数t=1のときに格納部23に新たに格納された複数の電子情報の数とする。 The control unit 25 sets the number a 1 of the first electronic information as a number of a plurality of electronic information newly stored in the storage unit 23 when a 1 = C 1 , that is, the cumulative number t = 1.
制御部25は、1≦t≦Tのとき、(1)式に従って第1電子情報の数at+1を算出し、t>Tのとき、(2)式に従って、第1電子情報の数at+1を算出する。 When 1 ≦ t ≦ T, the control unit 25 calculates the number of first electronic information a t + 1 according to equation (1), and when t> T, the number of first electronic information according to equation (2). a t + 1 is calculated.
なお、制御部25が、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を計算する場合、(1)〜(2)式の「P」を、それぞれ、「b」、「c」、「d」に置き換え、かつ、Ctを、それぞれ、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち付与ジャンルが付与された電子情報の数、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち対象語句を含む電子情報の数、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち対象語句を含み付与ジャンルが付与された電子情報の数に置き換える。 When the control unit 25 calculates the number b of the second electronic information, the number c of the third electronic information, and the number d of the fourth electronic information, “P” in the expressions (1) to (2) ”Is replaced with“ b ”,“ c ”, and“ d ”, respectively, and Ct is a given genre among a plurality of electronic information newly stored in the storage unit 23 when the cumulative number of times is t. Of the plurality of electronic information newly stored in the storage unit 23 when the number of added electronic information is the cumulative number t, the number of electronic information including the target phrase is newly stored in the storage unit 23 when the cumulative number is t. Of the plurality of stored electronic information, the number is replaced with the number of electronic information that includes the target word / phrase and is assigned with a given genre.
制御部25は、tについての同一のサフィックスを有するa、b、cおよびdに基づいて、対象語句を付与ジャンルに関連づけて記憶部24内のジャンル辞書24a(学習リスト24a2)に登録するか否かを決定する。 Whether or not the control unit 25 associates the target word / phrase with the given genre and registers it in the genre dictionary 24a (learning list 24a2) in the storage unit 24 based on a, b, c, and d having the same suffix for t. To decide.
例えば、制御部25は、(b/a)<(d/c)が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定する。一方、(b/a)<(d/c)が成り立たない場合、制御部25は、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録しないと決定する。 For example, if (b / a) <(d / c) holds, the control unit 25 determines to register the target word / phrase in the genre dictionary 24a in association with the assigned genre. On the other hand, if (b / a) <(d / c) does not hold, the control unit 25 determines not to register the target word / phrase in the genre dictionary 24a in association with the assigned genre.
なお、制御部25は、(b/a)<(d/c)が成り立ち、かつ、判定値F=(2×(d/c)×(d/b))/((d/c)+(d/b))>所定閾値、が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定してもよい。 The control unit 25 satisfies (b / a) <(d / c), and the determination value F = (2 × (d / c) × (d / b)) / ((d / c) + If (d / b))> predetermined threshold value holds, it may be determined that the target word / phrase is associated with the assigned genre and registered in the genre dictionary 24a.
この場合、制御部25は、(b/a)<(d/c)が成り立たない場合、または、判定値F>所定閾値、が成り立たない場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録しないと決定する。 In this case, when (b / a) <(d / c) does not hold or when the determination value F> the predetermined threshold does not hold, the control unit 25 associates the target phrase with the assigned genre in the genre dictionary 24a. Decide not to register.
また、制御部25は、(b/a)<(d/c)、が成り立ち、かつ、判定値F>所定閾値、が成り立ち、かつ、判定値F>その他のジャンルに関する判断値Ff、が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定してもよい。この際、制御部25は、判定値F×dの値を、対象語句のポイントとして、対象語句に付与してもよい。但し、Ff=(2×(df/c)×(df/bf))/((df/c)+(df/bf))であり、bfは第1電子情報のうちその他ジャンルが付与された電子情報の数であり、dfは第3電子情報のうちその他ジャンルが付与された電子情報の数である。 In addition, the control unit 25 satisfies (b / a) <(d / c), satisfies the determination value F> predetermined threshold, and satisfies the determination value F> the determination value Ff related to other genres. In this case, it may be determined that the target word / phrase is registered in the genre dictionary 24a in association with the assigned genre. At this time, the control unit 25 may assign the value of the determination value F × d to the target word / phrase as a point of the target word / phrase. However, Ff = (2 × (df / c) × (df / bf)) / ((df / c) + (df / bf))), and bf is given the other genre in the first electronic information. It is the number of electronic information, and df is the number of electronic information to which other genres are assigned among the third electronic information.
この場合、制御部25は、(b/a)<(d/c)、が成り立たない場合、または、判定値F>所定閾値、が成り立たない場合、または、判定値F>判断値Ff、が成り立たない場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録しないと決定する。 In this case, the control unit 25 determines that (b / a) <(d / c) does not hold, or if the determination value F> the predetermined threshold value does not hold, or the determination value F> the determination value Ff. If not, it is determined that the target word / phrase is not registered in the genre dictionary 24a in association with the assigned genre.
また、制御部25は、ジャンル辞書24aに対象語句と付与ジャンルとが記憶されている状況で、格納部23に複数の電子情報が格納されると、さらに、記憶部24内の対象語句のうち、その複数の電子情報のいずれにも示されていない対象語句(以下「過去語句」と称する)を、ジャンル辞書24aから削除するか否かを決定する。 In addition, when the target word / phrase and the assigned genre are stored in the genre dictionary 24a and the plurality of pieces of electronic information are stored in the storage unit 23, the control unit 25 further includes the target words / phrases in the storage unit 24. Then, it is determined whether or not to delete the target word / phrase (hereinafter referred to as “past word / phrase”) not shown in any of the plurality of electronic information from the genre dictionary 24a.
制御部25は、まず、第1電子情報の数aと、第1電子情報のうち過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、第1電子情報のうち過去語句を含む第6電子情報の数c1と、第6電子情報のうち関連ジャンルが付与された第7電子情報の数d1と、を算出する。 First, the control unit 25 includes the number a of the first electronic information, the number b1 of the fifth electronic information to which the related genre, which is the genre associated with the past phrase in the first electronic information, and the first electronic information. The number c1 of the sixth electronic information including the past phrase and the number d1 of the seventh electronic information to which the related genre is assigned among the sixth electronic information are calculated.
制御部25は、第1電子情報の数aと、第5電子情報の数b1と、第6電子情報の数c1と、第7電子情報の数d1とを、上述した(1)〜(2)式に従って計算する。 The control unit 25 determines the number a of the first electronic information, the number b1 of the fifth electronic information, the number c1 of the sixth electronic information, and the number d1 of the seventh electronic information (1) to (2) described above. Calculate according to formula.
なお、制御部25が、第5電子情報の数b1と、第6電子情報の数c1と、第7電子情報の数d1と、を計算する場合、(1)〜(2)式の「P」を、それぞれ、「b1」、「c1」、「d1」に置き換え、かつ、Ctを、それぞれ、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち関連ジャンルが付与された電子情報の数、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち過去語句を含む電子情報の数、累積回数tのときに新たに格納部23に格納された複数の電子情報のうち過去語句を含み関連ジャンルが付与された電子情報の数に置き換える。 When the control unit 25 calculates the number b1 of the fifth electronic information, the number c1 of the sixth electronic information, and the number d1 of the seventh electronic information, “P” in the expressions (1) to (2) ”Is replaced with“ b1 ”,“ c1 ”, and“ d1 ”, respectively, and the related genre among the plurality of electronic information newly stored in the storage unit 23 when Ct is the cumulative number of times t, respectively. Of the plurality of electronic information newly stored in the storage unit 23 when the number of added electronic information is the cumulative number t, the number of electronic information including past words is newly stored in the storage unit 23 when the cumulative number is t. Of the plurality of stored electronic information, the number is replaced with the number of electronic information including a past word and having a related genre.
制御部25は、tについての同一のサフィックスを有するa、b1、c1およびd1に基づいて、過去語句をジャンル辞書24aから削除するか否かを決定する。 The control unit 25 determines whether or not to delete the past phrase from the genre dictionary 24a based on a, b1, c1 and d1 having the same suffix for t.
例えば、制御部25は、(b1/a)<(d1/c1)が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定する。一方、(b1/a)<(d1/c1)が成り立つ場合、制御部25は、過去語句をジャンル辞書24aから削除しないと決定する。 For example, if (b1 / a) <(d1 / c1) does not hold, the control unit 25 determines to delete the past word / phrase from the genre dictionary 24a. On the other hand, when (b1 / a) <(d1 / c1) holds, the control unit 25 determines not to delete the past word / phrase from the genre dictionary 24a.
なお、制御部25は、(b1/a)<(d1/c1)、が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定してもよい。 The controller 25 determines that (b1 / a) <(d1 / c1) does not hold, or the determination value F1 = (2 × (d1 / c1) × (d1 / b1)) / ((d1 / If c1) + (d1 / b1))> predetermined threshold does not hold, it may be determined that the past phrase is deleted from the genre dictionary 24a.
この場合、制御部25は、(b1/a)<(d1/c1)、が成り立ち、かつ、判定値F1>所定閾値、が成り立つ場合、過去語句をジャンル辞書24aから削除しないと決定する。 In this case, if (b1 / a) <(d1 / c1) holds and the determination value F1> the predetermined threshold holds, the control unit 25 determines not to delete the past phrase from the genre dictionary 24a.
また、制御部25は、(b1/a)<(d1/c1)、が成り立たない場合、または、判定値F1>所定閾値、が成り立たない場合、または、判定値F1>その他のジャンルに関する判断値Ff1、が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定してもよい。但し、Ff1=(2×(df1/c1)×(df1/bf1))/((df1/c1)+(df1/bf1))であり、bf1は第1電子情報のうちその他ジャンルが付与された電子情報の数であり、df1は第3電子情報のうちその他ジャンルが付与された電子情報の数である。 In addition, the control unit 25 determines that (b1 / a) <(d1 / c1) does not hold, or if the determination value F1> predetermined threshold does not hold, or the determination value F1> the determination value related to other genres. If Ff1 does not hold, it may be determined to delete the past phrase from the genre dictionary 24a. However, Ff1 = (2 × (df1 / c1) × (df1 / bf1)) / ((df1 / c1) + (df1 / bf1)), and bf1 is assigned the other genre in the first electronic information. It is the number of electronic information, and df1 is the number of electronic information to which other genres are assigned among the third electronic information.
この場合、制御部25は、(b1/a)<(d1/c1)、が成り立ち、かつ、判定値F1>所定閾値、が成り立ち、かつ、判定値F1>判断値Ff1、が成り立つ場合、過去語句をジャンル辞書24aから削除しないと決定する。 In this case, if the control unit 25 satisfies (b1 / a) <(d1 / c1), the determination value F1> the predetermined threshold, and the determination value F1> the determination value Ff1, the past It is determined not to delete the phrase from the genre dictionary 24a.
制御部25は、対象語句を付与ジャンルに関連づけてジャンル辞書24aに記憶すると決定した場合、その対象語句を付与ジャンルに関連づけてジャンル辞書24a内の学習リスト24a2に記憶する。 When it is determined that the target word / phrase is stored in the genre dictionary 24a in association with the given genre, the control unit 25 associates the target word / phrase with the given genre and stores it in the learning list 24a2 in the genre dictionary 24a.
なお、制御部25は、付与ジャンルに関連づけてジャンル辞書24aに記憶すると決定された対象語句に、判定値F×dの値がポイントとして付与されている場合、その対象語句をそのポイントと共に、付与ジャンルに関連づけてジャンル辞書24a内の学習リスト24a2に記憶する。 In addition, when the value of the determination value F × d is given as a point to the target word / phrase determined to be stored in the genre dictionary 24a in association with the given genre, the control unit 25 gives the target word / phrase together with the point. The information is stored in the learning list 24a2 in the genre dictionary 24a in association with the genre.
また、制御部25は、過去語句をジャンル辞書24aから削除すると決定した場合、その過去語句をジャンル辞書24a内の学習リスト24a2から削除する。 When the control unit 25 determines to delete the past phrase from the genre dictionary 24a, the control unit 25 deletes the past phrase from the learning list 24a2 in the genre dictionary 24a.
付与部26は、一般的に付与手段と呼ぶことができる。 The granting unit 26 can generally be referred to as granting means.
付与部26は、利用者PC3またはサーバ4から、ジャンル付与が要求された語句を受信した状況で、その語句が記憶部24(ジャンル辞書24a)に記憶されていると、その語句に関連づけられた付与ジャンルを、その語句の送信元(利用者PC3またはサーバ4)に送信する。 In the situation where the genre request has been received from the user PC 3 or the server 4, if the word / phrase is stored in the storage unit 24 (genre dictionary 24 a), the assigning unit 26 is associated with the word / phrase. The assigned genre is transmitted to the transmission source (user PC 3 or server 4) of the phrase.
なお、ジャンル付与サーバ2は、コンピュータにて実現されてもよい。この場合、コンピュータは、コンピュータにて読み取り可能なCD−ROM(Compact Disk Read Only Memory)のような記録媒体に記録されたプログラムを読込み実行することによって、取得部21、選別部22、格納部23、記憶部24、制御部25および付与部26として機能する。記録媒体は、CD−ROMに限らず適宜変更可能である。 The genre assignment server 2 may be realized by a computer. In this case, the computer reads and executes a program recorded on a recording medium such as a CD-ROM (Compact Disk Read Only Memory) readable by the computer, thereby obtaining the acquisition unit 21, the selection unit 22, and the storage unit 23. , Function as a storage unit 24, a control unit 25, and a grant unit 26. The recording medium is not limited to the CD-ROM and can be changed as appropriate.
次に、動作を説明する。 Next, the operation will be described.
図6は、ジャンル付与サーバ2の動作を説明するための図である。 FIG. 6 is a diagram for explaining the operation of the genre assignment server 2.
取得部21は、文書収集サーバ1から、5分ごとに、その5分間分の電子情報(新着ツイート)を取得する(ステップS601)。 The acquisition unit 21 acquires electronic information (new arrival tweets) for 5 minutes from the document collection server 1 every 5 minutes (step S601).
取得部21が5分間分の電子情報を取得すると、選別部22は、記憶部24内のジャンル辞書24aを利用して、取得部21にて取得された電子情報に、その電子情報が示す内容に応じたジャンルを付与する(ステップS602、S603)。 When the acquisition unit 21 acquires the electronic information for 5 minutes, the selection unit 22 uses the genre dictionary 24a in the storage unit 24 to display the electronic information acquired by the acquisition unit 21 in the content indicated by the electronic information. A genre corresponding to the above is assigned (steps S602 and S603).
本実施形態では、選別部22は、取得部21にて取得された電子情報のうち、強検索リスト24a1に記載された単語を有する電子情報に、その単語が属するジャンルを付与する。また、選別部22は、取得部21にて取得された電子情報に、その電子情報との類似度が一定閾値を超えた学習リスト24a2が属するジャンルを付与する。 In the present embodiment, the selection unit 22 gives the genre to which the word belongs to the electronic information having the word described in the strong search list 24a1 among the electronic information acquired by the acquisition unit 21. In addition, the selection unit 22 gives the electronic information acquired by the acquisition unit 21 the genre to which the learning list 24a2 whose similarity with the electronic information exceeds a certain threshold belongs.
選別部22は、ジャンル辞書24aを用いたジャンル付与処理が終了した際に、取得部21にて取得された電子情報のうち、ジャンル辞書24aに示された如何なるジャンルも付与されていない電子情報に、「その他」というジャンルを付与する。 When the genre assigning process using the genre dictionary 24a is completed, the selecting unit 22 selects electronic information that is not assigned any genre shown in the genre dictionary 24a among the electronic information acquired by the acquiring unit 21. , The genre of “others” is given.
選別部22は、取得部21にて取得された各電子情報へのジャンル付与が終了すると、ジャンルが付与された電子情報のうち、複数のジャンルが付与された電子情報を削除し、1つのジャンルのみが付与された1つまたは複数の電子情報を、格納部23に格納する(ステップS604、S605)。 When the genre assignment to each electronic information acquired by the acquisition unit 21 is completed, the selection unit 22 deletes the electronic information to which a plurality of genres are assigned from the electronic information to which the genre is assigned. One or a plurality of pieces of electronic information to which only is assigned is stored in the storage unit 23 (steps S604 and S605).
ここで、1つのジャンルのみが付与された電子情報を格納部23に格納する点について説明する。 Here, the point that electronic information to which only one genre is assigned is stored in the storage unit 23 will be described.
本実施形態では、格納部23に格納された電子情報に示された語句を、その電子情報に付与されたジャンルの学習リスト24a2に記載するか否かを決定する処理が行われる。 In the present embodiment, a process is performed for determining whether or not to write the phrase shown in the electronic information stored in the storage unit 23 in the learning list 24a2 of the genre given to the electronic information.
このため、複数のジャンルが付与された電子情報が格納部23に格納されると、その電子情報に示された語句が、複数のジャンルのうちのいずれのジャンルに対応するのかが不明となる。 For this reason, when electronic information to which a plurality of genres are assigned is stored in the storage unit 23, it is unclear to which genre of the plurality of genres the word / phrase indicated in the electronic information corresponds.
例えば、「サッカー」と「IT」のジャンルが付与された「サッカーとITが好きな○○さんは、休日、フットサルか、パソコンショップ巡りをよくする。」という電子情報が、格納部23に格納された場合、以下のような問題が生じる。なお、「フットサル」と「パソコンショップ」はジャンル辞書24aに登録されていないとする。 For example, the storage unit 23 stores electronic information that is given the genres of “soccer” and “IT”, “Mr. XX who likes soccer and IT often goes around holidays, futsal, or visits to computer shops.” If this happens, the following problems will occur. It is assumed that “futsal” and “computer shop” are not registered in the genre dictionary 24a.
この電子情報内の「フットサル」という語句が「IT」の話題(ジャンル)と誤認識されたり、「パソコンショップ」という語句が「サッカー」の話題(ジャンル)と誤認識されたりする問題が生じる。 There is a problem that the phrase “futsal” in the electronic information is misrecognized as the topic (genre) of “IT”, or the phrase “computer shop” is misrecognized as the topic (genre) of “soccer”.
このため、本実施形態では、1つのジャンルのみが付与された電子情報を格納部23に格納することによって、ジャンル辞書24aの精度が悪化することを防止する。 For this reason, in this embodiment, the electronic information to which only one genre is assigned is stored in the storage unit 23, thereby preventing the accuracy of the genre dictionary 24a from deteriorating.
制御部25は、格納部23に複数の電子情報が格納されるごとに、複数の電子情報のいずれかに示された対象語句のそれぞれについて、aとbとcとdとbfとdfとを算出し、過去語句のそれぞれについて、aとb1とc1とd1とbf1とdf1とを算出する(ステップS606)。 Each time a plurality of pieces of electronic information are stored in the storage unit 23, the control unit 25 sets a, b, c, d, bf, and df for each of the target words indicated in any of the plurality of pieces of electronic information. Then, a, b1, c1, d1, bf1, and df1 are calculated for each of the past words (step S606).
以下、対象語句のそれぞれについて、aとbとcとdとbfとdfとを算出し、過去語句のそれぞれについて、aとb1とc1とd1とbf1とdf1とを算出する処理を、統計量更新処理と称する。 Hereinafter, a process of calculating a, b, c, d, bf, and df for each of the target words and phrases, and calculating a, b1, c1, d1, bf1, and df1 for each of the past words, This is referred to as update processing.
制御部25は、統計量更新処理を終了すると、aとbとcとdとbfとdfとb1とc1とd1とbf1とdf1とに基づいて、学習リスト24a2内の語句を更新するジャンル辞書学習を実行する(ステップS607)。 When the statistic update process ends, the control unit 25 updates the words in the learning list 24a2 based on a, b, c, d, bf, df, b1, c1, d1, bf1, and df1. Learning is executed (step S607).
次に、ジャンル辞書学習について、具体的な例をあげて説明する。 Next, genre dictionary learning will be described with a specific example.
本実施形態では、ジャンル辞書学習として手順1〜3が実行される。 In this embodiment, steps 1 to 3 are executed as genre dictionary learning.
図7は、ジャンル辞書学習の手順1を説明するための図である。 FIG. 7 is a diagram for explaining the procedure 1 of genre dictionary learning.
以下では、図7に示すように、選別部22が行うジャンル付与処理により、ツイート(ミニブログ)Aに「サッカー」のジャンルが付与され、ツイートBに「IT」のジャンルが付与され、ツイートCに「その他」のジャンルが付与され、ツイートDに「サッカー」と「IT」のジャンルが付与され、ツイートEに「サッカー」のジャンルが付与され、ツイートFに「IT」のジャンルが付与されたとする。 In the following, as shown in FIG. 7, the genre of the “soccer” is given to the tweet (miniblog) A, the genre of “IT” is given to the tweet B, and the tweet C "Other" genre is given to Tweet D, "Soccer" and "IT" genres are given to Tweet D, "Soccer" genre is given to Tweet E, and "IT" genre is given to Tweet F To do.
ツイートDには複数のジャンルが付与されており、このため、ツイートDはジャンル辞書学習のノイズとなるので、ツイートDは選別部22によって削除される。 A plurality of genres are assigned to the tweet D. For this reason, the tweet D becomes noise of genre dictionary learning, and therefore the tweet D is deleted by the selection unit 22.
また、説明を簡単にするために、統計量更新処理によって、ツイートA、B、C、EおよびFが、第1電子情報として選択されたとする。このため、第1電子情報の数aは、5(ツイートA、B、C、EおよびF)となる。 For the sake of simplicity, it is assumed that tweets A, B, C, E, and F are selected as the first electronic information by the statistical amount update process. For this reason, the number a of the first electronic information is 5 (tweets A, B, C, E, and F).
また、図7に示すように、「南アフリカ」という語句は、ツイートAおよびEに含まれ、ツイートB、CおよびFには含まれず、「アメリカ」という語句は、ツイートA、BおよびCに含まれ、ツイートEおよびFには含まれないとする。 As shown in FIG. 7, the phrase “South Africa” is included in tweets A and E, not included in tweets B, C, and F, and the phrase “America” is included in tweets A, B, and C. And are not included in tweets E and F.
制御部25は、「サッカー」のジャンル(付与ジャンル)が付与されたツイートAに記載の「南アフリカ」という対象語句を、「サッカー」のジャンルの学習リスト24a2に記憶する候補とするか否かを、以下のように決定する。 The control unit 25 determines whether or not the target phrase “South Africa” described in the tweet A to which the “soccer” genre (given genre) is assigned is a candidate to be stored in the learning list 24a2 of the “soccer” genre. Determine as follows.
この場合、第1電子情報のうち付与ジャンルである「サッカー」が付与された第2電子情報の数bは、2(ツイートAおよびE)となる。 In this case, the number “b” of the second electronic information to which “soccer” as the grant genre is given among the first electronic information is 2 (tweets A and E).
また、第1電子情報のうち対象語句である「南アフリカ」を含む第3電子情報の数cは、2(ツイートAおよびE)となる。 Further, the number c of the third electronic information including “South Africa” which is the target word in the first electronic information is 2 (tweets A and E).
また、第3電子情報のうち付与ジャンルである「サッカー」が付与された第4電子情報の数dは、2(ツイートAおよびE)となる。 In addition, the number d of the fourth electronic information to which “soccer” as the grant genre is given among the third electronic information is 2 (tweets A and E).
制御部25は、第1電子情報の数aに対する第2電子情報の数b(第1電子情報のうち付与ジャンルである「サッカー」が付与された電子情報の数b)の割合を示すジャンルシェア率b/aを計算する。この場合、b/a=2/5=40%となる。 The control unit 25 represents the genre share indicating the ratio of the number b of the second electronic information to the number a of the first electronic information (the number b of the electronic information to which the assigned genre “soccer” is assigned among the first electronic information). Calculate the rate b / a. In this case, b / a = 2/5 = 40%.
続いて、制御部25は、第4電子情報の数d(第1電子情報のうち対象語句である「南アフリカ」を含み付与ジャンルである「サッカー」が付与された電子情報の数)に対する第3電子情報の数c(第1電子情報のうち対象語句である「南アフリカ」を含む電子情報の数)の割合を示す分類後シェア率d/cを計算する。この場合、d/c=2/2=100%となる。 Subsequently, the control unit 25 selects the third number d for the number d of fourth electronic information (the number of pieces of electronic information to which “soccer” is given as the grant genre including the target phrase “South Africa” in the first electronic information). A post-classification share rate d / c indicating the ratio of the number of electronic information c (the number of electronic information including “South Africa” as the target word in the first electronic information) is calculated. In this case, d / c = 2/2 = 100%.
制御部25は、b/a(=40%)<d/c(=100%)が成り立つので、「南アフリカ」を、サッカーのジャンルの学習リスト24a2に記載する候補として決定する。なお、制御部25は、(b/a)<(d/c)が成り立つ場合、「南アフリカ」をサッカーのジャンルの学習リスト24a2に記載すると決定してもよい。 Since b / a (= 40%) <d / c (= 100%) holds, the control unit 25 determines “South Africa” as a candidate to be listed in the soccer genre learning list 24a2. Note that the control unit 25 may determine that “South Africa” is listed in the soccer genre learning list 24a2 when (b / a) <(d / c) holds.
続いて、制御部25は、ツイートAに記載の「アメリカ」という対象語句を、ツイートAが属する「サッカー」のジャンル(付与ジャンル)に関連づけて、「サッカー」のジャンルの学習リスト24a2に記憶する候補とするか否かを、以下のように決定する。 Subsequently, the control unit 25 associates the target word “USA” described in Tweet A with the genre (given genre) of “Soccer” to which Tweet A belongs, and stores it in the learning list 24a2 of the genre of “Soccer”. Whether or not to be a candidate is determined as follows.
この場合、第1電子情報のうち付与ジャンルである「サッカー」が付与された第2電子情報の数bは、2(ツイートAおよびE)となる。 In this case, the number b of the second electronic information to which “soccer” as the grant genre is given among the first electronic information is 2 (tweets A and E).
また、第1電子情報のうち対象語句である「アメリカ」を含む第3電子情報の数cは、3(ツイートA、BおよびC)となる。 In addition, the number c of the third electronic information including the target word “America” in the first electronic information is 3 (tweets A, B, and C).
また、「アメリカ」を含む第3電子情報のうち付与ジャンルである「サッカー」が付与された第4電子情報の数dは、1(ツイートA)となる。 In addition, the number d of the fourth electronic information to which “soccer” as the grant genre is assigned among the third electronic information including “America” is 1 (tweet A).
制御部25は、第1電子情報の数aに対する第2電子情報の数b(第1電子情報のうち付与ジャンルである「サッカー」が付与された電子情報の数b)の割合を示すジャンルシェア率b/aを計算する。この場合、b/a=2/5=40%となる。 The control unit 25 represents the genre share indicating the ratio of the number b of the second electronic information to the number a of the first electronic information (the number b of the electronic information to which the assigned genre “soccer” is assigned among the first electronic information). Calculate the rate b / a. In this case, b / a = 2/5 = 40%.
続いて、制御部25は、第4電子情報の数d(第1電子情報のうち対象語句である「アメリカ」を含み付与ジャンルである「サッカー」が付与された電子情報の数)に対する第3電子情報の数c(第1電子情報のうち対象語句である「アメリカ」を含む電子情報の数)の割合を示す分類後シェア率d/cを計算する。この場合、d/c=1/3=33%となる。 Subsequently, the control unit 25 determines the third number d for the fourth electronic information d (the number of electronic information including the target word “America” and the assigned genre “soccer” among the first electronic information). A post-classification share rate d / c indicating the ratio of the number of electronic information c (the number of electronic information including the target word “America” in the first electronic information) is calculated. In this case, d / c = 1/3 = 33%.
制御部25は、b/a(=40%)<d/c(=33%)が成り立たないので、「アメリカ」を、サッカーのジャンルの学習リスト24a2に記載しないと決定する。 Since b / a (= 40%) <d / c (= 33%) does not hold, the control unit 25 determines that “USA” is not included in the soccer genre learning list 24a2.
図8は、ジャンル辞書学習の手順2を説明するための図である。 FIG. 8 is a diagram for explaining procedure 2 of genre dictionary learning.
制御部25は、手順2では、手順1で各ジャンルのリストに記載する候補として挙がった語句(ワード、URL)に対し、それらを含むツイート(電子情報)からF値(判定値)を計算する。 In step 2, the control unit 25 calculates an F value (determination value) from the tweet (electronic information) including the words (words and URLs) listed as candidates to be listed in the list of each genre in step 1. .
なお、F値=(2×適合率×再現率)/(適合率+再現率)である。 Note that F value = (2 × compliance rate × reproducibility) / (adaptation rate + reproducibility).
但し、適合率=[d(語句×ジャンル)]/[c(語句)]であり、再現率=[d(語句×ジャンル)]/[b(ジャンル)]である。 However, the relevance rate = [d (phrase × genre)] / [c (phrase)], and the reproduction rate = [d (phrase × genre)] / [b (genre)].
制御部25は、F値が予め定められた閾値(所定閾値)よりも大きい語句を、その語句を含むツイート(電子情報)に付与されたジャンルの学習リストに記憶する候補として残す。なお、制御部25は、F値が予め定められた閾値(所定閾値)よりも大きい語句を、その語句を含むツイート(電子情報)に付与されたジャンルの学習リストに記憶すると決定してもよい。閾値は、例えば、0.4である。なお、閾値は、0.4に限らず適宜変更可能である。 The control unit 25 leaves a word / phrase having an F value larger than a predetermined threshold (predetermined threshold) as a candidate to be stored in the genre learning list attached to the tweet (electronic information) including the word / phrase. Note that the control unit 25 may determine to store a phrase whose F value is larger than a predetermined threshold (predetermined threshold) in a genre learning list attached to a tweet (electronic information) including the phrase. . The threshold is 0.4, for example. The threshold value is not limited to 0.4 and can be changed as appropriate.
例えば、手順1で、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」について、制御部25は、以下のようにF値を決定する。 For example, for “South Africa” determined as a candidate to be included in the soccer genre learning list 24a2 in step 1, the control unit 25 determines the F value as follows.
サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」では、適合率=d(第1電子情報のうち対象語句である「南アフリカ」を含み付与ジャンルである「サッカー」が付与された電子情報の数)/c(第1電子情報のうち対象語句である「南アフリカ」を含む電子情報の数)=2/2=1となる。 In “South Africa” determined as a candidate to be included in the soccer genre learning list 24 a 2, relevance rate = d (the first electronic information includes the target word “South Africa” and the given genre “soccer” is assigned. Number of electronic information) / c (number of electronic information including “South Africa” as the target word in the first electronic information) = 2/2 = 1.
また、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」では、再現率=d(第1電子情報のうち対象語句である「南アフリカ」を含み付与ジャンルである「サッカー」が付与された電子情報の数)/b(第1電子情報のうち付与ジャンルである「サッカー」が付与された電子情報の数)=2/2=1となる。 In addition, in “South Africa” determined as a candidate to be included in the soccer genre learning list 24a2, recall rate = d (the first electronic information includes the target phrase “South Africa” and the given genre “soccer” Number of electronic information provided) / b (number of electronic information provided with “soccer” as an assigned genre in the first electronic information) = 2/2 = 1.
よって、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」のF値は、F値=(2×1×1)/(1+1)=2/2=1となる。 Therefore, the F value of “South Africa” determined as a candidate to be included in the soccer genre learning list 24a2 is F value = (2 × 1 × 1) / (1 + 1) = 2/2 = 1.
したがって、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」のF値=1は、閾値=0.7よりも大きく、よって、制御部25は、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「南アフリカ」を、サッカーのジャンルの学習リスト24a2に記載する候補として残す。 Therefore, the F value = 1 of “South Africa” determined as a candidate to be included in the soccer genre learning list 24a2 is larger than the threshold = 0.7. Therefore, the control unit 25 recognizes the soccer genre learning list 24a2. “South Africa” determined as a candidate to be described in (1) is left as a candidate to be described in the soccer genre learning list 24a2.
また、図8に示したように、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「スペイン」のF値は、F値=0.8となり、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「イングランド」のF値は、F値=0.67となり、それぞれ、サッカーのジャンルの学習リスト24a2に記載する候補として残される。 Further, as shown in FIG. 8, the F value of “Spain” determined as a candidate to be included in the soccer genre learning list 24a2 is F value = 0.8, which is described in the soccer genre learning list 24a2. The F value of “England” determined as a candidate to be played is F value = 0.67, which is left as a candidate to be described in the soccer genre learning list 24a2.
図9は、ジャンル辞書学習の手順3を説明するための図である。 FIG. 9 is a diagram for explaining the procedure 3 of genre dictionary learning.
制御部25は、手順3では、手順2で各ジャンルの学習リストに記載する候補として残った語句(ワード、URL)が適切かどうかを検証する。 In step 3, the control unit 25 verifies whether the words (words, URLs) remaining as candidates to be written in the learning list of each genre in step 2 are appropriate.
本実施形態では、制御部25は、候補として残った語句(ワード、URL)のF値が、候補として残った語句(ワード、URL)が「その他」のジャンルの学習リストに記載される場合のF値(Ff)よりも大きい場合に、手順2で各ジャンルの学習リストに記載する候補として残った語句(ワード、URL)が適切であると判定する。 In the present embodiment, the control unit 25 uses the F value of a word / word remaining as a candidate in the learning list of a genre in which the word / word remaining as a candidate is “other”. When it is larger than the F value (Ff), it is determined in step 2 that the words (words, URLs) remaining as candidates to be described in the learning list of each genre are appropriate.
図9では、第1電子情報91として、ツイートA、B、C、EおよびFに加えて、「その他」のジャンルが付与され、「ドイツ」という語句を含むツイートGおよびHが存在するとする。 In FIG. 9, it is assumed that in addition to the tweets A, B, C, E, and F, the first electronic information 91 includes a genre of “others” and tweets G and H including the phrase “Germany”.
この場合、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「ドイツ」のF値は、適合率=2/4=0.5、再現率=2/2=1であるため、F値=(2×0.5×1)/(0.5+1)=0.66となる。 In this case, the F value of “Germany” determined as a candidate to be listed in the soccer genre learning list 24a2 is F = 2/4 = 0.5 and recall = 2/2 = 1. Value = (2 × 0.5 × 1) / (0.5 + 1) = 0.66.
一方、「ドイツ」が「その他」のジャンルの学習リストに記載される場合のF値(Ff)は、適合率=2/4=0.5、再現率=2/3=0.66であるため、F値(Ff)=(2×0.5×0.66)/(0.5+0.66)=0.57となる。 On the other hand, the F value (Ff) when “Germany” is included in the learning list of the genre of “others” is the precision rate = 2/4 = 0.5 and the recall rate = 2/3 = 0.66. Therefore, F value (Ff) = (2 × 0.5 × 0.66) / (0.5 + 0.66) = 0.57.
よって、「ドイツ」という語句に関しては、「サッカー」のジャンルのF値が「その他」のジャンルのF値(Ff)よりも高いので、制御部25は、「ドイツ」を、サッカーのジャンルの学習リスト24a2に記載すると決定する。 Therefore, for the phrase “Germany”, the F value of the “soccer” genre is higher than the F value (Ff) of the “other” genre, so the control unit 25 learns “Germany” as a soccer genre. It is determined to be listed in list 24a2.
この際、制御部25は、サッカーに関するF値(F値=0.66)に、第4電子情報の数d(第1電子情報のうち付与ジャンルである「サッカー」が付与され「ドイツ」という語句を含む電子情報の数)を乗算した値(1.32)を、サッカーのジャンルの学習リスト24a2での「ドイツ」のポイント値とする。この場合、1.32ポイントが付加された「ドイツ」が、サッカーのジャンルの学習リスト24a2に登録される。 At this time, the control unit 25 adds the number d of the fourth electronic information d (“soccer”, which is the genre of the first electronic information, to the F value (F value = 0.66) related to soccer, and is called “Germany” A value (1.32) obtained by multiplying the number of electronic information including words) is set as the point value of “Germany” in the soccer genre learning list 24a2. In this case, “Germany” with 1.32 points added is registered in the soccer genre learning list 24a2.
また、図9では、第1電子情報92として、ツイートA、B、C、E、F、G、Hに加えて、「サッカー」のジャンルが付与され、「イタリア」という語句を含むツイートIおよびJが存在するとする。 In FIG. 9, as the first electronic information 92, in addition to the tweets A, B, C, E, F, G, and H, the genre “soccer” is given, and the tweets I and I include the phrase “Italy”. Suppose that J exists.
この場合、サッカーのジャンルの学習リスト24a2に記載する候補として決定された「イタリア」のF値は、適合率=2/4=0.5、再現率=2/4=0.5であるため、F値=(2×0.5×0.5)/(0.5+0.5)=0.5となる。 In this case, the F value of “Italy” determined as a candidate to be included in the soccer genre learning list 24a2 is the precision rate = 2/4 = 0.5 and the recall rate = 2/4 = 0.5. F value = (2 × 0.5 × 0.5) / (0.5 + 0.5) = 0.5.
一方、「イタリア」が「その他」のジャンルの学習リストに記載される場合のF値(Ff)は、適合率=2/4=0.5、再現率=2/3=0.66であるため、F値(Ff)=(2×0.5×0.66)/(0.5+0.66)=0.57となる。 On the other hand, the F value (Ff) in the case where “Italy” is listed in the learning list of the genre “others” is the precision rate = 2/4 = 0.5 and the recall rate = 2/3 = 0.66. Therefore, F value (Ff) = (2 × 0.5 × 0.66) / (0.5 + 0.66) = 0.57.
よって、「イタリア」という語句に関しては、「サッカー」のジャンルのF値が「その他」のジャンルのF値(Ff)以下なので、制御部25は、「イタリア」を、サッカーのジャンルの学習リスト24a2に記載しないと決定する。 Therefore, regarding the phrase “Italy”, the F value of the “soccer” genre is equal to or less than the F value (Ff) of the “other” genre, so the control unit 25 designates “Italy” as a learning list 24a2 of soccer genres. It is determined that it is not described in.
なお、制御部25が過去語句を学習リスト24a2から削除するかを決定する処理は、手順1〜3において、語句を過去語句に読み替え、語句を学習リスト24a2に記載しないと決定する旨を、過去語句を学習リスト24a2から削除すると決定する旨と読み替え、F値をF1値と読み替え、Ff値をFf1値と読み替えることにより説明される。 Note that the process in which the control unit 25 determines whether to delete the past phrase from the learning list 24a2 is based on the fact that in Steps 1 to 3, it is determined that the phrase is replaced with the past phrase and the phrase is not described in the learning list 24a2. It is explained that the phrase is determined to be deleted from the learning list 24a2, that the F value is replaced with the F1 value, and the Ff value is replaced with the Ff1 value.
制御部25は、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定した場合、その対象語句を付与ジャンルに関連づけて記憶部24内の学習リスト24a2に登録する。また、制御部25は、過去語句をジャンル辞書24aから削除すると決定した場合、その過去語句を記憶部24内の学習リスト24a2から削除する。 When it is determined that the target word / phrase is associated with the assigned genre and registered in the genre dictionary 24a, the control unit 25 associates the target word / phrase with the given genre and registers it in the learning list 24a2 in the storage unit 24. Further, when the control unit 25 determines to delete the past phrase from the genre dictionary 24 a, the control unit 25 deletes the past phrase from the learning list 24 a 2 in the storage unit 24.
付与部26は、利用者PC3またはサーバ4から、ジャンル付与が要求された語句を受信した状況で、その語句が記憶部24(ジャンル辞書24a)に記憶されていると、その語句に関連づけられた付与ジャンルを、その語句の送信元(利用者PC3またはサーバ4)に送信する。 In the situation where the genre request has been received from the user PC 3 or the server 4, if the word / phrase is stored in the storage unit 24 (genre dictionary 24 a), the assigning unit 26 is associated with the word / phrase. The assigned genre is transmitted to the transmission source (user PC 3 or server 4) of the phrase.
本実施形態によれば、制御部25は、複数の電子情報が格納された時点から該時点よりも前の時点までの間に格納部23に格納された電子情報を対象にして算出される値(a、b、cおよびd)に基づいて、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録するか否かを決定する。 According to the present embodiment, the control unit 25 calculates a value calculated for the electronic information stored in the storage unit 23 from the time when a plurality of pieces of electronic information are stored to the time before the time. Based on (a, b, c and d), it is determined whether or not the target word / phrase is associated with the given genre and registered in the genre dictionary 24a.
このため、ジャンル辞書24aに記憶される対象語句は、新たに登録された電子情報に基づいて更新される。よって、ジャンル辞書24a内の対象語句を適切な状態に更新することが可能になる。 For this reason, the target word / phrase stored in the genre dictionary 24a is updated based on the newly registered electronic information. Therefore, the target word / phrase in the genre dictionary 24a can be updated to an appropriate state.
また、ジャンル辞書24aに記憶された対象語句は、ジャンル付与が要求された語句にジャンルを付与する際に使用される。 The target words / phrases stored in the genre dictionary 24a are used when a genre is assigned to a word / phrase requested to be given a genre.
このため、ジャンル付与が要求された語句にジャンルを付与する際に使用される対象語句を、新たに登録された電子情報に基づいて更新することが可能になる。 For this reason, it becomes possible to update the target word / phrase used when assigning a genre to a word / phrase for which genre assignment is requested based on newly registered electronic information.
よって、時期によって属するジャンルが変化する語句に対して、適切にジャンルを付与することが可能になる。 Therefore, it is possible to appropriately assign a genre to a phrase whose genre changes according to time.
また、対象語句として、画像を特定するURLが用いられると、URLにて特定される画像に対して、適切にジャンルを付与することが可能になる。 Further, when a URL that specifies an image is used as the target phrase, a genre can be appropriately assigned to the image specified by the URL.
また、本実施形態では、制御部25は、(b/a)<(d/c)が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定する。この場合、付与ジャンルの話題である可能性が高い語句を、ジャンル辞書24aに登録することが可能になる。 In the present embodiment, when (b / a) <(d / c) holds, the control unit 25 determines to register the target word / phrase in the genre dictionary 24a in association with the assigned genre. In this case, it is possible to register words / phrases that are highly likely to be topics of the assigned genre in the genre dictionary 24a.
また、本実施形態では、制御部25は、(b/a)<(d/c)、が成り立ち、かつ、判定値F>所定閾値、が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定する。この場合、付与ジャンルの話題である可能性がより高い語句を、ジャンル辞書24aに登録することが可能になる。 In the present embodiment, the control unit 25 associates the target phrase with the assigned genre and holds the genre dictionary when (b / a) <(d / c) holds and the determination value F> the predetermined threshold holds. It is decided to register in 24a. In this case, it is possible to register words / phrases that are more likely to be topics of the assigned genre in the genre dictionary 24a.
また、本実施形態では、制御部25は、(b/a)<(d/c)、が成り立ち、かつ、判定値F=>所定閾値、が成り立ち、かつ、判定値F>その他のジャンルに関する判断値Fα、が成り立つ場合、対象語句を付与ジャンルに関連づけてジャンル辞書24aに登録すると決定する。この場合、付与ジャンルの話題である可能性がさらに高い語句を、ジャンル辞書24aに登録することが可能になる。 Further, in the present embodiment, the control unit 25 satisfies (b / a) <(d / c), the determination value F => the predetermined threshold, and the determination value F> other genres. When the determination value Fα holds, it is determined that the target word / phrase is associated with the assigned genre and registered in the genre dictionary 24a. In this case, it is possible to register words / phrases that are more likely to be topics of the assigned genre in the genre dictionary 24a.
また、本実施形態では、制御部25は、複数の電子情報が格納された時点から該時点よりも前の時点までの間に格納部23に格納された電子情報を対象にして算出される値(a、b1、c1およびd1)に基づいて、過去語句をジャンル辞書24aから削除するか否かを決定する。 In the present embodiment, the control unit 25 is a value calculated for electronic information stored in the storage unit 23 between the time when a plurality of pieces of electronic information are stored and the time before the time. Based on (a, b1, c1, and d1), it is determined whether or not to delete the past phrase from the genre dictionary 24a.
このため、ジャンル辞書24aに記憶される過去語句は、新たに登録された電子情報に基づいて更新される。よって、ジャンル辞書24a内の語句を適切な状態に更新することが可能になる。 For this reason, the past phrase memorize | stored in the genre dictionary 24a is updated based on the newly registered electronic information. Therefore, it is possible to update the word / phrase in the genre dictionary 24a to an appropriate state.
また、ジャンル辞書24aに記憶された過去語句は、ジャンル付与が要求された語句にジャンルを付与する際に使用される。 The past words / phrases stored in the genre dictionary 24a are used when a genre is assigned to a word / phrase requested to be given a genre.
このため、ジャンル付与が要求された語句にジャンルを付与する際に使用される過去語句を、新たに登録された電子情報に基づいて更新することが可能になる。 For this reason, it becomes possible to update the past phrase used when assigning a genre to a phrase for which genre assignment is requested, based on newly registered electronic information.
よって、時期によって属するジャンルが変化する語句に対して、適切にジャンルを付与することが可能になる。 Therefore, it is possible to appropriately assign a genre to a phrase whose genre changes according to time.
また、本実施形態では、制御部25は、(b1/a)<(d1/c1)が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定する。この場合、付与ジャンルの話題である可能性が高い過去語句を、ジャンル辞書24aに残すことが可能になる。 In the present embodiment, the control unit 25 determines to delete the past phrase from the genre dictionary 24a when (b1 / a) <(d1 / c1) does not hold. In this case, it is possible to leave past words / phrases that are highly likely to be topics of the assigned genre in the genre dictionary 24a.
また、本実施形態では、制御部25は、(b1/a)<(d1/c1)、が成り立たない場合、または、判定値F1>所定閾値、が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定する。この場合、付与ジャンルの話題である可能性がより高い過去語句を、ジャンル辞書24aに残すことが可能になる。 Further, in the present embodiment, the control unit 25, when (b1 / a) <(d1 / c1) does not hold or when the determination value F1> predetermined threshold does not hold, the past phrase is retrieved from the genre dictionary 24a. Decide to delete. In this case, it is possible to leave a past phrase that is more likely to be a topic of the assigned genre in the genre dictionary 24a.
また、本実施形態では、制御部25は、(b1/a)<(d1/c1)、が成り立たない場合、または、判定値F1=>所定閾値、が成り立たない場合、または、判定値F1>その他のジャンルに関する判断値Fα1、が成り立たない場合、過去語句をジャンル辞書24aから削除すると決定する。この場合、付与ジャンルの話題である可能性がさらに高い過去語句を、ジャンル辞書24aに残すことが可能になる。 In the present embodiment, the control unit 25 determines that (b1 / a) <(d1 / c1) does not hold, or if the determination value F1 => predetermined threshold does not hold, or the determination value F1>. When the judgment value Fα1 regarding other genres does not hold, it is determined that the past phrase is deleted from the genre dictionary 24a. In this case, it is possible to leave a past word / phrase that is more likely to be a topic of the assigned genre in the genre dictionary 24a.
また、本実施形態では、制御部25は、複数の電子情報が格納されるごとに、aAとbAとcAとdAとを算出する。 In the present embodiment, the control unit 25 calculates aA, bA, cA, and dA each time a plurality of pieces of electronic information are stored.
そして、制御部25は、複数の電子情報が、最初に格納された際には、aAを第1電子情報の数aとして算出し、bAを第2電子情報の数bとして算出し、cAを第3電子情報の数cとして算出し、dAを第4電子情報の数dとして算出する。 Then, when a plurality of pieces of electronic information are stored for the first time, the control unit 25 calculates aA as the number a of the first electronic information, bA as the number b of the second electronic information, and cA It is calculated as the number c of the third electronic information, and dA is calculated as the number d of the fourth electronic information.
また、制御部25は、その後に複数の電子情報が格納されるごとに、以下のように、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出する。 In addition, each time a plurality of pieces of electronic information are stored, the control unit 25 performs the following steps: a number of first electronic information a, number b of second electronic information, and number c of third electronic information, as described below. And the number d of the fourth electronic information are calculated.
制御部25は、前回算出された第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の第1電子情報の数aとして算出する。 The control unit 25 multiplies the first multiplication value, which is a value obtained by multiplying the number of first electronic information calculated previously by the first weighting factor, and the second weighting factor, the number aA of the plurality of electronic information calculated this time. The sum of the calculated value and the second multiplied value is calculated as the number of first electronic information a.
制御部25は、前回算出された第2電子情報の数bに第1重み係数を乗算した値である第3乗算値と、今回算出した複数の電子情報の数bAに第2重み係数を乗算した値である第4乗算値と、の和を、今回の第2電子情報の数bとして算出する。 The control unit 25 multiplies the number b of the second electronic information calculated previously by the first weighting factor and the third weighting value multiplied by the second weighting factor and the number bA of the plurality of electronic information calculated this time. The sum of the calculated value and the fourth multiplication value is calculated as the number b of the second electronic information this time.
制御部25は、前回算出された第3電子情報の数cに第1重み係数を乗算した値である第5乗算値と、今回算出した複数の電子情報の数cAに第2重み係数を乗算した値である第6乗算値と、の和を、今回の第3電子情報の数cとして算出する。 The control unit 25 multiplies the fifth weighted value, which is a value obtained by multiplying the number c of the third electronic information calculated last time by the first weighting factor, and the second weighting factor by the number cA of the plurality of electronic information calculated this time. The sum of the calculated value and the sixth multiplication value is calculated as the number c of the third electronic information at this time.
制御部25は、前回算出された第4電子情報の数dに第1重み係数を乗算した値である第7乗算値と、今回算出した複数の電子情報の数dAに第2重み係数を乗算した値である第8乗算値と、の和を、今回の第4電子情報の数dとして算出する。 The control unit 25 multiplies the seventh weight, which is a value obtained by multiplying the number d of the fourth electronic information calculated previously by the first weighting factor, and the second weighting factor, the number dA of the plurality of electronic information calculated this time. The sum of the calculated value and the eighth multiplication value is calculated as the number d of the fourth electronic information this time.
このため、制御部25は、前回の算出結果と今回の算出結果とから、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出する。 For this reason, the control unit 25 calculates the number a of the first electronic information, the number b of the second electronic information, the number c of the third electronic information, and the fourth electron from the previous calculation result and the current calculation result. The number d of information is calculated.
よって、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出するために使用する過去分のデータを少なくでき、第1電子情報の数aと、第2電子情報の数bと、第3電子情報の数cと、第4電子情報の数dと、を算出するために要する処理量を少なくすることが可能になる。 Therefore, the past data used to calculate the number a of the first electronic information, the number b of the second electronic information, the number c of the third electronic information, and the number d of the fourth electronic information are calculated. The amount of processing required to calculate the number a of the first electronic information, the number b of the second electronic information, the number c of the third electronic information, and the number d of the fourth electronic information can be reduced. It becomes possible.
また、この場合、格納部23には、最新の複数の電子情報のみが格納されていればよく、例えば、選択部22は、最新の複数の電子情報を格納部23に格納する直前に、以前に格納された電子情報を削除してもよい。 In this case, the storage unit 23 only needs to store the latest plurality of electronic information. For example, the selection unit 22 immediately before storing the latest plurality of electronic information in the storage unit 23 The electronic information stored in may be deleted.
よって、データを記憶するためのストレージに要するコストを削減できる。 Therefore, the cost required for storage for storing data can be reduced.
また、本実施形態では、第1重み係数は、(n−1)/nの値から所定値αを差し引いたものであり、第2重み係数は、1/nの値に所定値αを加算したものである。このため、所定値αが大きければ大きいほど、新しい情報を重要視することが可能になる。 In this embodiment, the first weighting factor is obtained by subtracting the predetermined value α from the value of (n−1) / n, and the second weighting factor is obtained by adding the predetermined value α to the value of 1 / n. It is a thing. For this reason, as the predetermined value α is larger, new information can be emphasized.
また、本実施形態では、取得部21は、文書収集サーバ1から、5分(所定時間)ごとに、その5分の間に登録された電子情報を取得する。選別部22は、取得部21にて取得された電子情報に、その電子情報が示す内容に応じたジャンルを付与し、ジャンルが付与された電子情報のうち、複数のジャンルが付与された電子情報を削除し、1つのジャンルのみが付与された1つまたは複数の電子情報を、格納部23に格納する。 Moreover, in this embodiment, the acquisition part 21 acquires the electronic information registered during the 5 minutes from the document collection server 1 every 5 minutes (predetermined time). The sorting unit 22 assigns a genre corresponding to the content indicated by the electronic information to the electronic information acquired by the acquiring unit 21, and the electronic information to which a plurality of genres are assigned among the electronic information to which the genre is assigned. And one or more pieces of electronic information to which only one genre is assigned are stored in the storage unit 23.
本実施形態では、格納部23に格納された電子情報に示された語句を、その電子情報に付与されたジャンルの学習リスト24a2に記載する。このため、複数のジャンルが付与された電子情報が格納部23に格納されると、その電子情報に示された語句が、複数のジャンルのうちのいずれのジャンルに対応するのかが不明となる。 In the present embodiment, the words and phrases shown in the electronic information stored in the storage unit 23 are described in the learning list 24a2 of the genre given to the electronic information. For this reason, when electronic information to which a plurality of genres are assigned is stored in the storage unit 23, it is unclear to which genre of the plurality of genres the word / phrase indicated in the electronic information corresponds.
本実施形態では、1つのジャンルのみが付与された電子情報を格納部23に格納することによって、ジャンル辞書24aの精度の悪化を防止することが可能になる。 In the present embodiment, it is possible to prevent deterioration of the accuracy of the genre dictionary 24a by storing electronic information to which only one genre is assigned in the storage unit 23.
なお、本実施形態において、aとbとcとdとbfとdfとb1とc1とd1とbf1とdf1との算出手法は、(1)〜(2)式を用いる手法に限らない。例えば、格納部23に、過去の数回分の電子情報を格納しておき、その格納された電子情報をもとに、aとbとcとdとbfとdfとb1とc1とd1とbf1とdf1とを算出してもよい。 In the present embodiment, the calculation method of a, b, c, d, bf, df, b1, c1, d1, bf1, and df1 is not limited to the method using equations (1) to (2). For example, electronic information for the past several times is stored in the storage unit 23, and a, b, c, d, bf, df, b1, c1, d1, and bf1 are stored based on the stored electronic information. And df1 may be calculated.
また、本実施形態では、取得部21と選別部22とが共同して、5分ごとに、その5分の間にネットワーク5上に登録され複数のジャンルのいずれかが付与された複数の電子情報を、格納部23に格納したが、例えば、ユーザまたは他のサーバが、5分ごとに、その5分の間にネットワーク5上に登録され複数のジャンルのいずれかが付与された複数の電子情報を、格納部23に格納してもよい。 Further, in the present embodiment, the acquisition unit 21 and the selection unit 22 cooperate with each other, and every five minutes, a plurality of electronic devices that are registered on the network 5 and given any one of a plurality of genres during the five minutes. The information is stored in the storage unit 23. For example, a user or another server is registered on the network 5 every 5 minutes and is assigned with any of a plurality of genres. Information may be stored in the storage unit 23.
以上説明した実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。 In the embodiment described above, the illustrated configuration is merely an example, and the present invention is not limited to the configuration.
1 文書収集サーバ
2 ジャンル付与サーバ
21 取得部
22 選別部
23 格納部
24 記憶部
25 制御部
26 付与部
3 利用者PC
4 サーバ
5 ネットワーク
DESCRIPTION OF SYMBOLS 1 Document collection server 2 Genre assignment server 21 Acquisition part 22 Sorting part 23 Storage part 24 Storage part 25 Control part 26 Giving part 3 User PC
4 servers 5 networks
Claims (24)
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、前記語句を登録すると決定した場合に、前記語句を前記付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含み、
前記制御手段は、(b/a)<(d/c)が成り立つ場合、前記語句を前記付与ジャンルに関連づけて前記辞書に登録すると決定する、情報処理装置。 Storage means for storing a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
Storage means for storing electronic information registered on the network and given any of the genres for each predetermined time;
Every time the electronic information is stored, whether or not the words shown in the electronic information are registered in the dictionary in association with the assigned genre given to the electronic information from the time when the electronic information is stored. The number a of first electronic information that is electronic information stored in the storage means before the time point before the time point, and the number of second electronic information to which the assigned genre is assigned among the first electronic information. b, the number c of the third electronic information including the phrase in the first electronic information, and the number d of the fourth electronic information to which the assigned genre is assigned among the third electronic information. and, when it is determined to register the phrase, looking contains a control means for registering in the dictionary in association with the phrase to the grant genre,
The information processing apparatus according to claim 1, wherein the control unit determines that the word / phrase is registered in the dictionary in association with the assigned genre when (b / a) <(d / c) holds .
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、前記語句を登録すると決定した場合に、前記語句を前記付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含み、
前記制御手段は、(b/a)<(d/c)が成り立ち、かつ、判定値F=(2×(d/c)×(d/b))/((d/c)+(d/b))>所定閾値、が成り立つ場合、前記語句を前記付与ジャンルに関連づけて前記辞書に登録すると決定する、情報処理装置。 Storage means for storing a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
Storage means for storing electronic information registered on the network and given any of the genres for each predetermined time;
Every time the electronic information is stored, whether or not the words shown in the electronic information are registered in the dictionary in association with the assigned genre given to the electronic information from the time when the electronic information is stored. The number a of first electronic information that is electronic information stored in the storage means before the time point before the time point, and the number of second electronic information to which the assigned genre is assigned among the first electronic information. b, the number c of the third electronic information including the phrase in the first electronic information, and the number d of the fourth electronic information to which the assigned genre is assigned among the third electronic information. And, when it is determined to register the word / phrase, control means for registering the word / phrase in the dictionary in association with the given genre,
The control means satisfies (b / a) <(d / c), and determination value F = (2 × (d / c) × (d / b)) / ((d / c) + (d / B))> An information processing apparatus that determines that the word / phrase is registered in the dictionary in association with the given genre when the predetermined threshold is satisfied.
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、前記語句を登録すると決定した場合に、前記語句を前記付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含み、
前記辞書には、前記ジャンルとして、予め定められた複数のジャンルと、前記複数のジャンルのいずれでもないその他ジャンルとが、記憶されており、
前記制御手段は、
(b/a)<(d/c)が成り立ち、かつ、
判定値F=(2×(d/c)×(d/b))/((d/c)+(d/b))>所定閾値、が成り立ち、かつ、
前記判定値F>その他のジャンルに関する判断値Ff(但し、Ff=(2×(df/c)×(df/bf))/((df/c)+(df/bf))であり、bfは前記第1電子情報のうち前記その他ジャンルが付与された電子情報の数であり、dfは前記第3電子情報のうち前記その他ジャンルが付与された電子情報の数である。)、が成り立つ場合、前記語句を前記付与ジャンルに関連づけて前記辞書に登録すると決定する、情報処理装置。 Storage means for storing a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
Storage means for storing electronic information registered on the network and given any of the genres for each predetermined time;
Every time the electronic information is stored, whether or not the words shown in the electronic information are registered in the dictionary in association with the assigned genre given to the electronic information from the time when the electronic information is stored. The number a of first electronic information that is electronic information stored in the storage means before the time point before the time point, and the number of second electronic information to which the assigned genre is assigned among the first electronic information. b, the number c of the third electronic information including the phrase in the first electronic information, and the number d of the fourth electronic information to which the assigned genre is assigned among the third electronic information. And, when it is determined to register the word / phrase, control means for registering the word / phrase in the dictionary in association with the given genre,
In the dictionary, a plurality of predetermined genres and other genres that are not any of the plurality of genres are stored as the genres,
The control means includes
(B / a) <(d / c) holds, and
Determination value F = (2 × (d / c) × (d / b)) / ((d / c) + (d / b))> predetermined threshold value, and
The determination value F> the determination value Ff relating to other genres (where Ff = (2 × (df / c) × (df / bf)) / ((df / c) + (df / bf))), bf Is the number of electronic information to which the other genre is assigned in the first electronic information, and df is the number of electronic information to which the other genre is assigned in the third electronic information. The information processing apparatus determines to register the word / phrase in the dictionary in association with the given genre.
前記制御手段は、前記電子情報が格納されると、さらに、前記辞書内の語句のうち、当該電子情報も示されていない過去語句を、前記辞書から削除するかを、前記第1電子情報の数aと、前記第1電子情報のうち前記過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除し、
前記制御手段は、(b1/a)<(d1/c1)が成り立たない場合、前記過去語句を前記辞書から削除すると決定する、情報処理装置。 The information processing apparatus according to any one of claims 1 to 3 ,
When the electronic information is stored, the control means further determines whether or not to delete from the dictionary a past phrase that is not indicated by the electronic information among words in the dictionary. A number a1, a number b1 of fifth electronic information to which a related genre that is a genre associated with the past phrase is included in the first electronic information, and a sixth including the past phrase in the first electronic information. When it is determined based on the number c1 of electronic information and the number d1 of seventh electronic information to which the related genre is assigned among the sixth electronic information, and when it is determined to delete the past phrase from the dictionary, Deleting the past phrase from the dictionary;
The information processing apparatus, wherein the control unit determines to delete the past phrase from the dictionary when (b1 / a) <(d1 / c1) does not hold.
前記制御手段は、前記電子情報が格納されると、さらに、前記辞書内の語句のうち、当該電子情報も示されていない過去語句を、前記辞書から削除するかを、前記第1電子情報の数aと、前記第1電子情報のうち前記過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除し、
前記制御手段は、(b1/a)<(d1/c1)が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合、前記過去語句を前記辞書から削除すると決定する、情報処理装置。 The information processing apparatus according to any one of claims 1 to 3 ,
When the electronic information is stored, the control means further determines whether or not to delete from the dictionary a past phrase that is not indicated by the electronic information among words in the dictionary. A number a1, a number b1 of fifth electronic information to which a related genre that is a genre associated with the past phrase is included in the first electronic information, and a sixth including the past phrase in the first electronic information. When it is determined based on the number c1 of electronic information and the number d1 of seventh electronic information to which the related genre is assigned among the sixth electronic information, and when it is determined to delete the past phrase from the dictionary, Deleting the past phrase from the dictionary;
In the case where (b1 / a) <(d1 / c1) does not hold, or the determination value F1 = (2 × (d1 / c1) × (d1 / b1)) / ((d1 / c1) + If (d1 / b1))> predetermined threshold does not hold, the information processing apparatus determines to delete the past word / phrase from the dictionary.
前記制御手段は、前記電子情報が格納されると、さらに、前記辞書内の語句のうち、当該電子情報も示されていない過去語句を、前記辞書から削除するかを、前記第1電子情報の数aと、前記第1電子情報のうち前記過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除し、
前記辞書には、前記ジャンルとして、予め定められた複数のジャンルと、当該複数のジャンルのいずれでもないその他ジャンルとが、記憶されており、
前記制御手段は、
(b1/a)<(d1/c1)が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合、または、前記判定値F1>その他のジャンルに関する判断値Ff1(但し、Ff1=(2×(df1/c1)×(df1/bf1))/((df1/c1)+(df1/bf1))であり、bf1は前記第1電子情報のうち前記その他ジャンルが付与された電子情報の数であり、df1は前記第3電子情報のうち前記その他ジャンルが付与された電子情報の数である。)が成り立たない場合、前記過去語句を前記辞書から削除すると決定する、情報処理装置。 The information processing apparatus according to any one of claims 1 to 3 ,
When the electronic information is stored, the control means further determines whether or not to delete from the dictionary a past phrase that is not indicated by the electronic information among words in the dictionary. A number a1, a number b1 of fifth electronic information to which a related genre that is a genre associated with the past phrase is included in the first electronic information, and a sixth including the past phrase in the first electronic information. When it is determined based on the number c1 of electronic information and the number d1 of seventh electronic information to which the related genre is assigned among the sixth electronic information, and when it is determined to delete the past phrase from the dictionary, Deleting the past phrase from the dictionary;
In the dictionary, a plurality of predetermined genres and other genres that are not any of the plurality of genres are stored as the genres,
The control means includes
When (b1 / a) <(d1 / c1) does not hold, or the determination value F1 = (2 × (d1 / c1) × (d1 / b1)) / ((d1 / c1) + (d1 / b1) )> Predetermined threshold value does not hold, or the determination value F1> the determination value Ff1 relating to other genres (where Ff1 = (2 × (df1 / c1) × (df1 / bf1)) / ((df1 / c1) ) + (Df1 / bf1)), bf1 is the number of electronic information to which the other genre is assigned in the first electronic information, and df1 is the number of electronic information to which the other genre is assigned in the third electronic information The number of electronic information) is not established, the information processing apparatus determines to delete the past phrase from the dictionary.
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、 Storage means for storing electronic information registered on the network and given any of the genres for each predetermined time;
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含み、 Control means for registering the word / phrase indicated in the electronic information in the dictionary in association with a given genre given to the electronic information each time the electronic information is stored,
前記制御手段は、前記電子情報が格納されると、さらに、当該電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された第1電子情報の数aと、前記第1電子情報のうち、前記辞書内の語句であって当該電子情報に示されていない過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて、(b1/a)<(d1/c1)が成り立たない場合に、前記過去語句を前記辞書から削除すると決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除する、情報処理装置。 When the electronic information is stored, the control means further includes the number of first electronic information a stored in the storage means between the time when the electronic information is stored and the time before the time a. And among the first electronic information, a number b1 of fifth electronic information to which a related genre that is a genre related to a past phrase that is a word in the dictionary and is not indicated in the electronic information is given, Based on the number c1 of the sixth electronic information including the past phrase in the first electronic information and the number d1 of the seventh electronic information to which the related genre is assigned among the sixth electronic information, (b1 If / a) <(d1 / c1) does not hold, it is determined to delete the past word / phrase from the dictionary, and when it is determined to delete the past word / phrase from the dictionary, the past word / phrase is deleted from the dictionary. , Information processing equipment .
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、 Storage means for storing electronic information registered on the network and given any of the genres for each predetermined time;
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含み、 Control means for registering the word / phrase indicated in the electronic information in the dictionary in association with a given genre given to the electronic information each time the electronic information is stored,
前記制御手段は、前記電子情報が格納されると、さらに、当該電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された第1電子情報の数aと、前記第1電子情報のうち、前記辞書内の語句であって当該電子情報に示されていない過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて、(b1/a)<(d1/c1)が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合に、前記過去語句を前記辞書から削除すると決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除する、情報処理装置。 When the electronic information is stored, the control means further includes the number of first electronic information a stored in the storage means between the time when the electronic information is stored and the time before the time a. And among the first electronic information, a number b1 of fifth electronic information to which a related genre that is a genre related to a past phrase that is a word in the dictionary and is not indicated in the electronic information is given, Based on the number c1 of the sixth electronic information including the past phrase in the first electronic information and the number d1 of the seventh electronic information to which the related genre is assigned among the sixth electronic information, (b1 / A) <(d1 / c1) does not hold, or determination value F1 = (2 × (d1 / c1) × (d1 / b1)) / ((d1 / c1) + (d1 / b1))> If the predetermined threshold does not hold, the past phrase is An information processing apparatus that determines to delete from the dictionary and deletes the past phrase from the dictionary when it is determined to delete the past phrase from the dictionary.
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、 Storage means for storing electronic information registered on the network and given any of the genres for each predetermined time;
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含み、 Control means for registering the word / phrase indicated in the electronic information in the dictionary in association with a given genre given to the electronic information each time the electronic information is stored,
前記辞書には、前記ジャンルとして、予め定められた複数のジャンルと、当該複数のジャンルのいずれでもないその他ジャンルとが、記憶されており、 In the dictionary, a plurality of predetermined genres and other genres that are not any of the plurality of genres are stored as the genres,
前記制御手段は、前記電子情報が格納されると、さらに、当該電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された第1電子情報の数aと、前記第1電子情報のうち、前記辞書内の語句であって当該電子情報に示されていない過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて、(b1/a)<(d1/c1)が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合、または、前記判定値F1>その他のジャンルに関する判断値Ff1(但し、Ff1=(2×(df1/c1)×(df1/bf1))/((df1/c1)+(df1/bf1))であり、bf1は前記第1電子情報のうち前記その他ジャンルが付与された電子情報の数であり、df1は前記第3電子情報のうち前記その他ジャンルが付与された電子情報の数である。)が成り立たない場合に、前記過去語句を前記辞書から削除すると決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除する、情報処理装置。 When the electronic information is stored, the control means further includes the number of first electronic information a stored in the storage means between the time when the electronic information is stored and the time before the time a. And among the first electronic information, a number b1 of fifth electronic information to which a related genre that is a genre related to a past phrase that is a word in the dictionary and is not indicated in the electronic information is given, Based on the number c1 of the sixth electronic information including the past phrase in the first electronic information and the number d1 of the seventh electronic information to which the related genre is assigned among the sixth electronic information, (b1 / A) <(d1 / c1) does not hold, or determination value F1 = (2 × (d1 / c1) × (d1 / b1)) / ((d1 / c1) + (d1 / b1))> If the predetermined threshold value does not hold, or the determination value F 1> a judgment value Ff1 regarding other genres (where Ff1 = (2 × (df1 / c1) × (df1 / bf1)) / ((df1 / c1) + (df1 / bf1))), and bf1 is the first value The number of electronic information to which the other genre is assigned in one electronic information, and df1 is the number of electronic information to which the other genre is assigned in the third electronic information). An information processing apparatus that determines to delete a past phrase from the dictionary, and deletes the past phrase from the dictionary when it is determined to delete the past phrase from the dictionary.
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、前記語句を登録すると決定した場合に、前記語句を前記付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含み、
前記制御手段は、
前記電子情報が格納されるごとに、当該電子情報の数aAと、当該電子情報のうち前記付与ジャンルが付与された第8電子情報の数bAと、当該電子情報のうち前記語句を含む第9電子情報の数cAと、当該電子情報のうち前記付与ジャンルが付与され前記語句を含む第10電子情報の数dAと、を算出し、
前記電子情報が、最初に格納された際には、前記aAを前記第1電子情報の数aとして算出し、前記bAを前記第2電子情報の数bとして算出し、前記cAを前記第3電子情報の数cとして算出し、前記dAを前記第4電子情報の数dとして算出し、
その後、前記電子情報が格納されるごとに、前回算出された前記第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した前記複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の前記第1電子情報の数aとして算出し、前回算出された前記第2電子情報の数bに前記第1重み係数を乗算した値である第3乗算値と、今回算出した前記複数の電子情報の数bAに前記第2重み係数を乗算した値である第4乗算値と、の和を、今回の前記第2電子情報の数bとして算出し、前回算出された前記第3電子情報の数cに前記第1重み係数を乗算した値である第5乗算値と、今回算出した前記複数の電子情報の数cAに前記第2重み係数を乗算した値である第6乗算値と、の和を、今回の前記第3電子情報の数cとして算出し、前回算出された前記第4電子情報の数dに前記第1重み係数を乗算した値である第7乗算値と、今回算出した前記複数の電子情報の数dAに前記第2重み係数を乗算した値である第8乗算値と、の和を、今回の前記第4電子情報の数dとして算出する、情報処理装置。 Storage means for storing a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
Storage means for storing electronic information registered on the network and given any of the genres for each predetermined time;
Every time the electronic information is stored, whether or not the words shown in the electronic information are registered in the dictionary in association with the assigned genre given to the electronic information from the time when the electronic information is stored. The number a of first electronic information that is electronic information stored in the storage means before the time point before the time point, and the number of second electronic information to which the assigned genre is assigned among the first electronic information. b, the number c of the third electronic information including the phrase in the first electronic information, and the number d of the fourth electronic information to which the assigned genre is assigned among the third electronic information. And, when it is determined to register the word / phrase, control means for registering the word / phrase in the dictionary in association with the given genre,
The control means includes
Each time the electronic information is stored, the number aA of the electronic information, the number bA of the eighth electronic information to which the assigned genre is assigned among the electronic information, and the ninth of the electronic information including the phrase Calculating the number cA of electronic information and the number dA of the tenth electronic information to which the assigned genre is given and including the word / phrase among the electronic information,
When the electronic information is stored for the first time, the aA is calculated as the number a of the first electronic information, the bA is calculated as the number b of the second electronic information, and the cA is calculated as the third electronic information. Calculating as the number c of electronic information, and calculating the dA as the number d of the fourth electronic information,
Thereafter, each time the electronic information is stored, a first multiplication value, which is a value obtained by multiplying the number a of the first electronic information calculated previously by a first weighting factor, and the plurality of electronic information calculated this time. The sum of the second multiplication value, which is a value obtained by multiplying the number aA by the second weighting factor, is calculated as the current number a of the first electronic information, and the previously calculated number b of the second electronic information is calculated. A sum of a third multiplication value that is a value obtained by multiplying the first weighting factor and a fourth multiplication value that is a value obtained by multiplying the number bA of the plurality of pieces of electronic information calculated this time by the second weighting factor, A fifth multiplication value that is a value obtained by multiplying the number c of the third electronic information calculated last time by the number c of the third electronic information calculated this time and the first weighting factor, The sum of the number of electronic information cA and the sixth multiplication value, which is a value obtained by multiplying the second weighting coefficient, is calculated this time. A seventh multiplication value that is a value obtained by multiplying the number d of the fourth electronic information calculated previously by the number d of the third electronic information multiplied by the first weighting factor, and the plurality of electronic information calculated this time An information processing apparatus that calculates a sum of an eighth multiplication value that is a value obtained by multiplying the number dA of the second weighting coefficient by the number dA of the fourth electronic information.
前記第1重み係数は、(n−1)/n(但し、前記電子情報が格納された累積回数が、所定の規定値よりも小さい場合、nは前記累積回数となり、前記累積回数が、前記所定の規定値以上の場合、nは前記所定の規定値となる。)の値から所定値αを差し引いたものであり、前記第2重み係数は、1/nの値に前記所定値αを加算したものである、情報処理装置。 The information processing apparatus according to claim 10 ,
The first weighting factor is (n-1) / n (however, when the accumulated number of times the electronic information is stored is smaller than a predetermined specified value, n is the accumulated number, and the accumulated number is When the value is equal to or greater than a predetermined specified value, n is the predetermined specified value.) The predetermined value α is subtracted from the value, and the second weighting coefficient is 1 / n. An information processing apparatus that is an addition.
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納する格納手段と、
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録する制御手段と、を含み、
前記制御手段は、前記電子情報が格納されると、さらに、前記辞書内の語句のうち、当該電子情報も示されていない過去語句を、前記辞書から削除するかを、前記第1電子情報の数aと、前記第1電子情報のうち前記過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除し、
前記制御手段は、
前記電子情報が格納されるごとに、当該電子情報の数aAと、当該電子情報のうち前記関連ジャンルが付与された第11電子情報の数b1Aと、当該電子情報のうち前記過去語句を含む第12電子情報の数c1Aと、当該電子情報のうち前記関連ジャンルが付与され前記過去語句を含む第13電子情報の数d1Aと、を算出し、
前記電子情報が、最初に格納された際には、前記aAを前記第1電子情報の数aとして算出し、前記b1Aを前記第5電子情報の数b1として算出し、前記c1Aを前記第6電子情報の数c1として算出し、前記d1Aを前記第7電子情報の数d1として算出し、
その後、前記電子情報が格納されるごとに、前回算出された前記第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した前記複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の前記第1電子情報の数aとして算出し、前回算出された前記第5電子情報の数b1に前記第1重み係数を乗算した値である第9乗算値と、今回算出した前記複数の電子情報の数b1Aに前記第2重み係数を乗算した値である第10乗算値と、の和を、今回の前記第5電子情報の数b1として算出し、前回算出された前記第6電子情報の数c1に前記第1重み係数を乗算した値である第11乗算値と、今回算出した前記複数の電子情報の数c1Aに前記第2重み係数を乗算した値である第12乗算値と、の和を、今回の前記第6電子情報の数c1として算出し、前回算出された前記第7電子情報の数d1に前記第1重み係数を乗算した値である第13乗算値と、今回算出した前記複数の電子情報の数d1Aに前記第2重み係数を乗算した値である第14乗算値と、の和を、今回の前記第7電子情報の数d1として算出する、情報処理装置。 Storage means for storing a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
Storage means for storing electronic information registered on the network and given any of the genres for each predetermined time;
Control means for registering the word / phrase indicated in the electronic information in the dictionary in association with a given genre given to the electronic information each time the electronic information is stored,
When the electronic information is stored, the control means further determines whether or not to delete from the dictionary a past phrase that is not indicated by the electronic information among words in the dictionary. A number a1, a number b1 of fifth electronic information to which a related genre that is a genre associated with the past phrase is included in the first electronic information, and a sixth including the past phrase in the first electronic information. When it is determined based on the number c1 of electronic information and the number d1 of seventh electronic information to which the related genre is assigned among the sixth electronic information, and when it is determined to delete the past phrase from the dictionary, Deleting the past phrase from the dictionary;
The control means includes
Each time the electronic information is stored, the number aA of the electronic information, the number b1A of the eleventh electronic information to which the related genre is assigned out of the electronic information, and the past phrase of the electronic information are included. Calculating the number c1A of 12 electronic information and the number d1A of 13th electronic information to which the related genre is given and including the past phrase in the electronic information;
When the electronic information is stored for the first time, the aA is calculated as the number a of the first electronic information, the b1A is calculated as the number b1 of the fifth electronic information, and the c1A is calculated as the sixth electronic information. Calculated as the number c1 of electronic information, and calculated d1A as the number d1 of the seventh electronic information,
Thereafter, each time the electronic information is stored, a first multiplication value, which is a value obtained by multiplying the number a of the first electronic information calculated previously by a first weighting factor, and the plurality of electronic information calculated this time. The sum of the second multiplication value, which is a value obtained by multiplying the number aA by the second weighting factor, is calculated as the current number a of the first electronic information, and the previously calculated number b1 of the fifth electronic information is calculated. A sum of a ninth multiplication value that is a value obtained by multiplying the first weighting factor and a tenth multiplication value that is a value obtained by multiplying the number b1A of the plurality of pieces of electronic information calculated this time by the second weighting factor, An eleventh multiplication value that is a value obtained by multiplying the number c1 of the sixth electronic information calculated previously by the number c1 of the sixth electronic information calculated this time and the first weighting factor, and the plurality of the plurality of the electronic information calculated this time. A twelfth multiplied value that is a value obtained by multiplying the number c1A of electronic information by the second weighting factor. , The 13th multiplication value that is a value obtained by multiplying the previously calculated number d1 of the seventh electronic information by the first weighting factor, and the current number of the sixth electronic information c1 An information processing apparatus that calculates a sum of the calculated number d1A of the plurality of pieces of electronic information and a fourteenth multiplied value that is a value obtained by multiplying the second weighting coefficient as the number d1 of the seventh electronic information.
前記第1重み係数は、(n−1)/n(但し、前記電子情報が格納された累積回数が、所定の規定値よりも小さい場合、nは前記累積回数となり、前記累積回数が、前記所定の規定値以上の場合、nは前記所定の規定値となる。)の値から所定値αを差し引いたものであり、前記第2重み係数は、1/nの値に前記所定値αを加算したものである、情報処理装置。 The information processing apparatus according to claim 12 ,
The first weighting factor is (n-1) / n (however, when the accumulated number of times the electronic information is stored is smaller than a predetermined specified value, n is the accumulated number, and the accumulated number is When the value is equal to or greater than a predetermined specified value, n is the predetermined specified value.) The predetermined value α is subtracted from the value, and the second weighting coefficient is 1 / n. An information processing apparatus that is an addition.
ネットワーク上に登録された電子情報を収集して蓄積する蓄積装置から、前記所定時間ごとに、当該所定時間の間に登録された電子情報を取得する取得手段と、
前記取得手段にて取得された電子情報に、当該電子情報が示す内容に応じたジャンルを付与し、前記ジャンルが付与された電子情報のうち、1つのジャンルのみが付与された電子情報を、前記格納手段に格納する選別手段と、をさらに含む情報処理装置。 The information processing apparatus according to any one of claims 1 to 13 ,
An acquisition means for acquiring electronic information registered during the predetermined time from the storage device that collects and stores electronic information registered on the network for each predetermined time;
A genre corresponding to the content indicated by the electronic information is given to the electronic information obtained by the obtaining means, and the electronic information to which only one genre is given among the electronic information to which the genre is given, An information processing apparatus further comprising sorting means stored in the storage means.
ジャンル付与が要求された語句を受信した状況で、当該語句が前記記憶手段に記憶されていると、当該語句に関連づけられた付与ジャンルを、前記語句の送信元に送信する付与手段を、さらに含む情報処理装置。 The information processing apparatus according to any one of claims 1 to 14 ,
In a situation in which a phrase requested to be assigned a genre is received, when the phrase is stored in the storage unit, a granting unit that transmits a grant genre associated with the phrase to the transmission source of the phrase is further included. Information processing device.
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、当該語句を登録すると決定した場合に、当該語句を前記付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含み、
前記制御ステップでは、(b/a)<(d/c)が成り立つ場合、前記語句を前記付与ジャンルに関連づけて前記辞書に登録すると決定する、辞書更新方法。 A dictionary updating method performed by an information processing device,
A storage step of storing in the storage means a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
A storage step of storing in the storage means electronic information that is registered on the network and given any one of the genres for each predetermined time,
Every time the electronic information is stored, whether or not the words shown in the electronic information are registered in the dictionary in association with the assigned genre given to the electronic information from the time when the electronic information is stored. The number a of first electronic information that is electronic information stored in the storage means before the time point before the time point, and the number of second electronic information to which the assigned genre is assigned among the first electronic information. b, the number c of the third electronic information including the phrase in the first electronic information, and the number d of the fourth electronic information to which the assigned genre is assigned among the third electronic information. and, when it is determined to register the word, look including a control step of registering the dictionary in association with the word to the grant genre, and
In the control step, when (b / a) <(d / c) is satisfied, the dictionary update method determines that the word / phrase is registered in the dictionary in association with the assigned genre .
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、 A storage step of storing in the storage means a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、 A storage step of storing in the storage means electronic information that is registered on the network and given any one of the genres for each predetermined time,
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、当該語句を登録すると決定した場合に、当該語句を前記付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含み、 Every time the electronic information is stored, whether or not the words shown in the electronic information are registered in the dictionary in association with the assigned genre given to the electronic information from the time when the electronic information is stored. The number a of first electronic information that is electronic information stored in the storage means before the time point before the time point, and the number of second electronic information to which the assigned genre is assigned among the first electronic information. b, the number c of the third electronic information including the phrase in the first electronic information, and the number d of the fourth electronic information to which the assigned genre is assigned among the third electronic information. And, when it is determined to register the word / phrase, a control step of registering the word / phrase in the dictionary in association with the given genre,
前記制御ステップでは、(b/a)<(d/c)が成り立ち、かつ、判定値F=(2×(d/c)×(d/b))/((d/c)+(d/b))>所定閾値、が成り立つ場合、前記語句を前記付与ジャンルに関連づけて前記辞書に登録すると決定する、辞書更新方法。 In the control step, (b / a) <(d / c) is satisfied, and the determination value F = (2 × (d / c) × (d / b)) / ((d / c) + (d / B))> a predetermined threshold, a dictionary update method that determines that the word is registered in the dictionary in association with the given genre.
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、 A storage step of storing in the storage means a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、 A storage step of storing in the storage means electronic information that is registered on the network and given any one of the genres for each predetermined time,
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、当該語句を登録すると決定した場合に、当該語句を前記付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含み、 Every time the electronic information is stored, whether or not the words shown in the electronic information are registered in the dictionary in association with the assigned genre given to the electronic information from the time when the electronic information is stored. The number a of first electronic information that is electronic information stored in the storage means before the time point before the time point, and the number of second electronic information to which the assigned genre is assigned among the first electronic information. b, the number c of the third electronic information including the phrase in the first electronic information, and the number d of the fourth electronic information to which the assigned genre is assigned among the third electronic information. And, when it is determined to register the word / phrase, a control step of registering the word / phrase in the dictionary in association with the given genre,
前記辞書には、前記ジャンルとして、予め定められた複数のジャンルと、前記複数のジャンルのいずれでもないその他ジャンルとが、記憶されており、 In the dictionary, a plurality of predetermined genres and other genres that are not any of the plurality of genres are stored as the genres,
前記制御ステップでは、 In the control step,
(b/a)<(d/c)が成り立ち、かつ、 (B / a) <(d / c) holds, and
判定値F=(2×(d/c)×(d/b))/((d/c)+(d/b))>所定閾値、が成り立ち、かつ、 Determination value F = (2 × (d / c) × (d / b)) / ((d / c) + (d / b))> predetermined threshold value, and
前記判定値F>その他のジャンルに関する判断値Ff(但し、Ff=(2×(df/c)×(df/bf))/((df/c)+(df/bf))であり、bfは前記第1電子情報のうち前記その他ジャンルが付与された電子情報の数であり、dfは前記第3電子情報のうち前記その他ジャンルが付与された電子情報の数である。)、が成り立つ場合、前記語句を前記付与ジャンルに関連づけて前記辞書に登録すると決定する、辞書更新方法。 The determination value F> the determination value Ff relating to other genres (where Ff = (2 × (df / c) × (df / bf)) / ((df / c) + (df / bf))), bf Is the number of electronic information to which the other genre is assigned in the first electronic information, and df is the number of electronic information to which the other genre is assigned in the third electronic information. A dictionary updating method for determining that the word is registered in the dictionary in association with the assigned genre.
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含み、
前記制御ステップでは、前記電子情報が格納されると、さらに、当該電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された第1電子情報の数aと、前記第1電子情報のうち、前記辞書内の語句であって当該電子情報に示されていない過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて、(b1/a)<(d1/c1)が成り立たない場合に、前記過去語句を前記辞書から削除すると決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除する、辞書更新方法。 A dictionary updating method performed by an information processing device,
A storage step of storing in the storage means a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
A storage step of storing in the storage means electronic information that is registered on the network and given any one of the genres for each predetermined time,
Each time the electronic information is stored, a control step of registering the word / phrase indicated in the electronic information in the dictionary in association with a given genre given to the electronic information,
In the control step, when the electronic information is stored, the number a of the first electronic information stored in the storage unit between the time when the electronic information is stored and the time before the time is a. And among the first electronic information, a number b1 of fifth electronic information to which a related genre that is a genre related to a past phrase that is a word in the dictionary and is not indicated in the electronic information is given, Based on the number c1 of the sixth electronic information including the past phrase in the first electronic information and the number d1 of the seventh electronic information to which the related genre is assigned among the sixth electronic information, (b1 If / a) <(d1 / c1) does not hold, it is determined to delete the past word / phrase from the dictionary, and when it is determined to delete the past word / phrase from the dictionary, the past word / phrase is deleted from the dictionary. ,dictionary New method.
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、 A storage step of storing in the storage means a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、 A storage step of storing in the storage means electronic information that is registered on the network and given any one of the genres for each predetermined time,
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含み、 Each time the electronic information is stored, a control step of registering the word / phrase indicated in the electronic information in the dictionary in association with a given genre given to the electronic information,
前記制御ステップでは、前記電子情報が格納されると、さらに、当該電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された第1電子情報の数aと、前記第1電子情報のうち、前記辞書内の語句であって当該電子情報に示されていない過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて、(b1/a)<(d1/c1)が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合、前記過去語句を前記辞書から削除すると決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除する、辞書更新方法。 In the control step, when the electronic information is stored, the number a of the first electronic information stored in the storage unit between the time when the electronic information is stored and the time before the time is a. And among the first electronic information, a number b1 of fifth electronic information to which a related genre that is a genre related to a past phrase that is a word in the dictionary and is not indicated in the electronic information is given, Based on the number c1 of the sixth electronic information including the past phrase in the first electronic information and the number d1 of the seventh electronic information to which the related genre is assigned among the sixth electronic information, (b1 / A) <(d1 / c1) does not hold, or determination value F1 = (2 × (d1 / c1) × (d1 / b1)) / ((d1 / c1) + (d1 / b1))> If the predetermined threshold does not hold, the past phrase is A dictionary update method for deleting a past phrase from the dictionary when it is determined to delete from the dictionary and the past phrase is determined to be deleted from the dictionary.
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、 A storage step of storing in the storage means a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、 A storage step of storing in the storage means electronic information that is registered on the network and given any one of the genres for each predetermined time,
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含み、 Each time the electronic information is stored, a control step of registering the word / phrase indicated in the electronic information in the dictionary in association with a given genre given to the electronic information,
前記辞書には、前記ジャンルとして、予め定められた複数のジャンルと、当該複数のジャンルのいずれでもないその他ジャンルとが、記憶されており、 In the dictionary, a plurality of predetermined genres and other genres that are not any of the plurality of genres are stored as the genres,
前記制御ステップでは、前記電子情報が格納されると、さらに、当該電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された第1電子情報の数aと、前記第1電子情報のうち、前記辞書内の語句であって当該電子情報に示されていない過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて、 (b1/a)<(d1/c1)が成り立たない場合、または、判定値F1=(2×(d1/c1)×(d1/b1))/((d1/c1)+(d1/b1))>所定閾値、が成り立たない場合、または、前記判定値F1>その他のジャンルに関する判断値Ff1(但し、Ff1=(2×(df1/c1)×(df1/bf1))/((df1/c1)+(df1/bf1))であり、bf1は前記第1電子情報のうち前記その他ジャンルが付与された電子情報の数であり、df1は前記第3電子情報のうち前記その他ジャンルが付与された電子情報の数である。)が成り立たない場合、前記過去語句を前記辞書から削除すると決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除する、辞書更新方法。 In the control step, when the electronic information is stored, the number a of the first electronic information stored in the storage unit between the time when the electronic information is stored and the time before the time is a. And among the first electronic information, a number b1 of fifth electronic information to which a related genre that is a genre related to a past phrase that is a word in the dictionary and is not indicated in the electronic information is given, Based on the number c1 of sixth electronic information including the past phrase in the first electronic information and the number d1 of seventh electronic information to which the related genre is assigned among the sixth electronic information, (b1 / A) <(d1 / c1) does not hold, or determination value F1 = (2 × (d1 / c1) × (d1 / b1)) / ((d1 / c1) + (d1 / b1))> If the predetermined threshold does not hold, or Constant value F1> judgment value Ff1 regarding other genres (where Ff1 = (2 × (df1 / c1) × (df1 / bf1)) / ((df1 / c1) + (df1 / bf1))), and bf1 is the above-mentioned value The first electronic information is the number of electronic information to which the other genre is assigned, and df1 is the number of electronic information to which the other genre is assigned among the third electronic information). A dictionary update method, wherein a past word / phrase is determined to be deleted from the dictionary, and the past word / phrase is deleted from the dictionary when it is determined to delete the past word / phrase from the dictionary.
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、 A storage step of storing in the storage means a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、 A storage step of storing in the storage means electronic information that is registered on the network and given any one of the genres for each predetermined time,
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録するかを、前記電子情報が格納された時点から当該時点よりも前の時点までの間に前記格納手段に格納された電子情報である第1電子情報の数aと、前記第1電子情報のうち前記付与ジャンルが付与された第2電子情報の数bと、前記第1電子情報のうち前記語句を含む第3電子情報の数cと、前記第3電子情報のうち前記付与ジャンルが付与された第4電子情報の数dと、に基づいて決定し、当該語句を登録すると決定した場合に、当該語句を前記付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含み、 Every time the electronic information is stored, whether or not the words shown in the electronic information are registered in the dictionary in association with the assigned genre given to the electronic information from the time when the electronic information is stored. The number a of first electronic information that is electronic information stored in the storage means before the time point before the time point, and the number of second electronic information to which the assigned genre is assigned among the first electronic information. b, the number c of the third electronic information including the phrase in the first electronic information, and the number d of the fourth electronic information to which the assigned genre is assigned among the third electronic information. And, when it is determined to register the word / phrase, a control step of registering the word / phrase in the dictionary in association with the given genre,
前記制御ステップでは、 In the control step,
前記電子情報が格納されるごとに、当該電子情報の数aAと、当該電子情報のうち前記付与ジャンルが付与された第8電子情報の数bAと、当該電子情報のうち前記語句を含む第9電子情報の数cAと、当該電子情報のうち前記付与ジャンルが付与され前記語句を含む第10電子情報の数dAと、を算出し、 Each time the electronic information is stored, the number aA of the electronic information, the number bA of the eighth electronic information to which the assigned genre is assigned among the electronic information, and the ninth of the electronic information including the phrase Calculating the number cA of electronic information and the number dA of the tenth electronic information to which the assigned genre is given and including the word / phrase among the electronic information,
前記電子情報が、最初に格納された際には、前記aAを前記第1電子情報の数aとして算出し、前記bAを前記第2電子情報の数bとして算出し、前記cAを前記第3電子情報の数cとして算出し、前記dAを前記第4電子情報の数dとして算出し、 When the electronic information is stored for the first time, the aA is calculated as the number a of the first electronic information, the bA is calculated as the number b of the second electronic information, and the cA is calculated as the third electronic information. Calculating as the number c of electronic information, and calculating the dA as the number d of the fourth electronic information,
その後、前記電子情報が格納されるごとに、前回算出された前記第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した前記複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の前記第1電子情報の数aとして算出し、前回算出された前記第2電子情報の数bに前記第1重み係数を乗算した値である第3乗算値と、今回算出した前記複数の電子情報の数bAに前記第2重み係数を乗算した値である第4乗算値と、の和を、今回の前記第2電子情報の数bとして算出し、前回算出された前記第3電子情報の数cに前記第1重み係数を乗算した値である第5乗算値と、今回算出した前記複数の電子情報の数cAに前記第2重み係数を乗算した値である第6乗算値と、の和を、今回の前記第3電子情報の数cとして算出し、前回算出された前記第4電子情報の数dに前記第1重み係数を乗算した値である第7乗算値と、今回算出した前記複数の電子情報の数dAに前記第2重み係数を乗算した値である第8乗算値と、の和を、今回の前記第4電子情報の数dとして算出する、辞書更新方法。 Thereafter, each time the electronic information is stored, a first multiplication value, which is a value obtained by multiplying the number a of the first electronic information calculated previously by a first weighting factor, and the plurality of electronic information calculated this time. The sum of the second multiplication value, which is a value obtained by multiplying the number aA by the second weighting factor, is calculated as the current number a of the first electronic information, and the previously calculated number b of the second electronic information is calculated. A sum of a third multiplication value that is a value obtained by multiplying the first weighting factor and a fourth multiplication value that is a value obtained by multiplying the number bA of the plurality of pieces of electronic information calculated this time by the second weighting factor, A fifth multiplication value that is a value obtained by multiplying the number c of the third electronic information calculated last time by the number c of the third electronic information calculated this time and the first weighting factor, The sum of the number of electronic information cA and the sixth multiplication value, which is a value obtained by multiplying the second weighting coefficient, is calculated this time. A seventh multiplication value that is a value obtained by multiplying the number d of the fourth electronic information calculated previously by the number d of the third electronic information multiplied by the first weighting factor, and the plurality of electronic information calculated this time A dictionary updating method for calculating a sum of an eighth multiplication value that is a value obtained by multiplying the number dA of the second weighting coefficient by the number dA of the fourth electronic information.
ジャンルごとに当該ジャンルと当該ジャンルに関する語句とが互いに関連づけられた辞書を記憶手段に記憶する記憶ステップと、 A storage step of storing in the storage means a dictionary in which the genre and a phrase related to the genre are associated with each other for each genre;
所定時間が経過するごとに、当該所定時間の間にネットワーク上に登録され前記ジャンルのいずれかが付与された電子情報を格納手段に格納する格納ステップと、 A storage step of storing in the storage means electronic information that is registered on the network and given any one of the genres for each predetermined time,
前記電子情報が格納されるごとに、前記電子情報に示された語句を、前記電子情報に付与された付与ジャンルに関連づけて前記辞書に登録する制御ステップと、を含み、 Each time the electronic information is stored, a control step of registering the word / phrase indicated in the electronic information in the dictionary in association with a given genre given to the electronic information,
前記制御ステップでは、前記電子情報が格納されると、さらに、前記辞書内の語句のうち、当該電子情報も示されていない過去語句を、前記辞書から削除するかを、前記第1電子情報の数aと、前記第1電子情報のうち前記過去語句に関連づけられたジャンルである関連ジャンルが付与された第5電子情報の数b1と、前記第1電子情報のうち前記過去語句を含む第6電子情報の数c1と、前記第6電子情報のうち前記関連ジャンルが付与された第7電子情報の数d1と、に基づいて決定し、前記過去語句を前記辞書から削除すると決定した場合に、前記過去語句を前記辞書から削除し、 In the control step, when the electronic information is stored, it is further determined whether the past words / phrases that are not indicated by the electronic information are deleted from the dictionary among the words / phrases in the dictionary. A number a1, a number b1 of fifth electronic information to which a related genre that is a genre associated with the past phrase is included in the first electronic information, and a sixth including the past phrase in the first electronic information. When it is determined based on the number c1 of electronic information and the number d1 of seventh electronic information to which the related genre is assigned among the sixth electronic information, and when it is determined to delete the past phrase from the dictionary, Deleting the past phrase from the dictionary;
前記制御ステップでは、 In the control step,
前記電子情報が格納されるごとに、当該電子情報の数aAと、当該電子情報のうち前記関連ジャンルが付与された第11電子情報の数b1Aと、当該電子情報のうち前記過去語句を含む第12電子情報の数c1Aと、当該電子情報のうち前記関連ジャンルが付与され前記過去語句を含む第13電子情報の数d1Aと、を算出し、 Each time the electronic information is stored, the number aA of the electronic information, the number b1A of the eleventh electronic information to which the related genre is assigned out of the electronic information, and the past phrase of the electronic information are included. Calculating the number c1A of 12 electronic information and the number d1A of 13th electronic information to which the related genre is given and including the past phrase in the electronic information;
前記電子情報が、最初に格納された際には、前記aAを前記第1電子情報の数aとして算出し、前記b1Aを前記第5電子情報の数b1として算出し、前記c1Aを前記第6電子情報の数c1として算出し、前記d1Aを前記第7電子情報の数d1として算出し、 When the electronic information is stored for the first time, the aA is calculated as the number a of the first electronic information, the b1A is calculated as the number b1 of the fifth electronic information, and the c1A is calculated as the sixth electronic information. Calculated as the number c1 of electronic information, and calculated d1A as the number d1 of the seventh electronic information,
その後、前記電子情報が格納されるごとに、前回算出された前記第1電子情報の数aに第1重み係数を乗算した値である第1乗算値と、今回算出した前記複数の電子情報の数aAに第2重み係数を乗算した値である第2乗算値と、の和を、今回の前記第1電子情報の数aとして算出し、前回算出された前記第5電子情報の数b1に前記第1重み係数を乗算した値である第9乗算値と、今回算出した前記複数の電子情報の数b1Aに前記第2重み係数を乗算した値である第10乗算値と、の和を、今回の前記第5電子情報の数b1として算出し、前回算出された前記第6電子情報の数c1に前記第1重み係数を乗算した値である第11乗算値と、今回算出した前記複数の電子情報の数c1Aに前記第2重み係数を乗算した値である第12乗算値と、の和を、今回の前記第6電子情報の数c1として算出し、前回算出された前記第7電子情報の数d1に前記第1重み係数を乗算した値である第13乗算値と、今回算出した前記複数の電子情報の数d1Aに前記第2重み係数を乗算した値である第14乗算値と、の和を、今回の前記第7電子情報の数d1として算出する、辞書更新方法。 Thereafter, each time the electronic information is stored, a first multiplication value, which is a value obtained by multiplying the number a of the first electronic information calculated previously by a first weighting factor, and the plurality of electronic information calculated this time. The sum of the second multiplication value, which is a value obtained by multiplying the number aA by the second weighting factor, is calculated as the current number a of the first electronic information, and the previously calculated number b1 of the fifth electronic information is calculated. A sum of a ninth multiplication value that is a value obtained by multiplying the first weighting factor and a tenth multiplication value that is a value obtained by multiplying the number b1A of the plurality of pieces of electronic information calculated this time by the second weighting factor, An eleventh multiplication value that is a value obtained by multiplying the number c1 of the sixth electronic information calculated previously by the number c1 of the sixth electronic information calculated this time and the first weighting factor, and the plurality of the plurality of the electronic information calculated this time. A twelfth multiplied value that is a value obtained by multiplying the number c1A of electronic information by the second weighting factor. , The 13th multiplication value that is a value obtained by multiplying the previously calculated number d1 of the seventh electronic information by the first weighting factor, and the current number of the sixth electronic information c1 A dictionary updating method for calculating a sum of the calculated number d1A of the plurality of pieces of electronic information and a fourteenth multiplied value, which is a value obtained by multiplying the second weighting factor, as the number d1 of the seventh electronic information.
請求項1から15のいずれか1項に記載の情報処理装置が有する各手段として機能させるためのプログラム。 Computer
The program for functioning as each means which the information processing apparatus of any one of Claim 1 to 15 has.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010227495A JP5483442B2 (en) | 2010-10-07 | 2010-10-07 | Information processing apparatus, dictionary updating method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010227495A JP5483442B2 (en) | 2010-10-07 | 2010-10-07 | Information processing apparatus, dictionary updating method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012083839A JP2012083839A (en) | 2012-04-26 |
| JP5483442B2 true JP5483442B2 (en) | 2014-05-07 |
Family
ID=46242662
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010227495A Active JP5483442B2 (en) | 2010-10-07 | 2010-10-07 | Information processing apparatus, dictionary updating method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5483442B2 (en) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1922605A (en) * | 2003-12-26 | 2007-02-28 | 松下电器产业株式会社 | Dictionary creation device and dictionary creation method |
-
2010
- 2010-10-07 JP JP2010227495A patent/JP5483442B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2012083839A (en) | 2012-04-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111597449B (en) | Candidate word construction method and device for search, electronic equipment and readable medium | |
| US20090210381A1 (en) | Search result abstract quality using community metadata | |
| WO2013121181A1 (en) | Method of machine learning classes of search queries | |
| CN108491540B (en) | Text information push method, device and intelligent terminal | |
| CN110334356A (en) | Article matter method for determination of amount, article screening technique and corresponding device | |
| CN111881358B (en) | Object recommendation system, method and device, electronic equipment and storage medium | |
| US20110219299A1 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
| JP2010020490A (en) | Device for providing information on unfamiliar place, and method for providing information on unfamiliar place | |
| US20140236967A1 (en) | Information Processing System, Information Processing Method, Information Processing Device and Communication Terminal, and Method and Program for Controlling Same | |
| CN106302829A (en) | A kind of information access method, device and server | |
| US9020863B2 (en) | Information processing device, information processing method, and program | |
| WO2018186235A1 (en) | Place popularity estimation system | |
| JP5849952B2 (en) | Communication support device, communication support method, and program | |
| CN110175264A (en) | Construction method, server and the computer readable storage medium of video user portrait | |
| KR20200049193A (en) | Method for providing contents and service device supporting the same | |
| JP2009116469A (en) | Information extraction program and information extraction apparatus | |
| JP2015106347A (en) | Recommendation device and recommendation method | |
| JP5264813B2 (en) | Evaluation apparatus, evaluation method, and evaluation program | |
| JP5322019B2 (en) | Predictive caching method for caching related information in advance, system thereof and program thereof | |
| US9244970B2 (en) | Communication assistance device, communication assistance method, and computer readable recording medium | |
| JP2014222474A (en) | Information processor, method and program | |
| JP5483442B2 (en) | Information processing apparatus, dictionary updating method, and program | |
| US20150170035A1 (en) | Real time personalization and categorization of entities | |
| JP2010181975A (en) | Information provision device, information provision method, information provision program and recording medium | |
| US7571446B2 (en) | Server, computer system, object management method, server control method, computer program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130716 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130829 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140213 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5483442 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |