JP5348786B2 - Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary - Google Patents
Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary Download PDFInfo
- Publication number
- JP5348786B2 JP5348786B2 JP2010000541A JP2010000541A JP5348786B2 JP 5348786 B2 JP5348786 B2 JP 5348786B2 JP 2010000541 A JP2010000541 A JP 2010000541A JP 2010000541 A JP2010000541 A JP 2010000541A JP 5348786 B2 JP5348786 B2 JP 5348786B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- search
- sentence
- dependency
- search keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法に関する。 The present invention relates to a text search program, server, and method using a search keyword dictionary.
インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するWebサイトに、様々なテキストが記述されている。「ブログ」(Weblog)とは、一般的に個人によって運営され、時事ニュースや専門的トピックスに関する自らの意見を表明するために、日記的に更新することができるサイトをいう。また、「掲示板」とは、様々なテーマについて、他人と議論を逐次に交換するためのサイトをいう。更に、「クチコミコメント」とは、人の噂のような、物事の評判などに関するコメントを記述することができるサイトをいう。これらのサイトの普及により、一般のユーザが、インターネットで自由に情報発信できるようになった。 With the spread of the Internet, various texts are described on blogs, bulletin boards, or Web sites that publish reviews. A “blog” is a site that is generally run by an individual and can be updated in a diary to express their opinions on current news and specialized topics. A “bulletin board” is a site for sequentially exchanging discussions with other people on various themes. Furthermore, “review comments” refers to a site where comments about things such as people's rumors can be described. With the spread of these sites, general users can freely send information on the Internet.
これに伴って、これらWebサイトに、個人や組織を誹謗及び中傷する文章や、犯罪予告、犯罪助長、又はアダルトサイトのような違法・有害な文章情報が記述されることが社会的な問題となってきた。そのために、表現の自由を配慮しつつ、これら違法・有害な文章を記述した文章や個人を検出する必要がある。 Along with this, it is a social problem that these websites contain text that slanders and slanders individuals and organizations, or illegal and harmful text information such as crime notices, crime assistants, or adult sites. It has become. Therefore, it is necessary to detect sentences and individuals that describe these illegal and harmful sentences while giving consideration to freedom of expression.
従来、違法・有害な文章を記述したサイトに対して、端末からのアクセスを拒否するフィルタリングの技術がある(例えば特許文献1参照)。この技術によれば、予めキーワードやURL(Uniform Resource Locator)を登録しておき、そのキーワードやURLが含まれているWebサイトに対する端末からのアクセスが拒否される。しかし、予め登録しておくキーワードやURLを常に更新する必要があり、時間とコストを要する。 Conventionally, there is a filtering technique for denying access from a terminal to a site describing illegal / harmful text (see, for example, Patent Document 1). According to this technique, a keyword or URL (Uniform Resource Locator) is registered in advance, and access from a terminal to a Web site including the keyword or URL is denied. However, it is necessary to constantly update keywords and URLs registered in advance, which requires time and cost.
これに対して、キーワードやURLを自動的に抽出し、フィルタリングする技術がある(例えば特許文献2参照)。この技術によれば、アダルトサイトや犯罪予告サイトなどの違法・有害な文章情報から、キーワードを自動的に抽出することができる。これらキーワードを予め登録しておくことによって、解析対象となる文章情報に、それらキーワードが含まれているか否かによって、違法・有害性を判定する。 On the other hand, there is a technique for automatically extracting and filtering keywords and URLs (see, for example, Patent Document 2). According to this technology, keywords can be automatically extracted from illegal / harmful text information such as adult sites and crime notice sites. By registering these keywords in advance, illegality / harmfulness is determined depending on whether or not the text information to be analyzed contains those keywords.
しかしながら、一般的なキーワードが、違法・有害なカテゴリに属するものとして登録された場合、本来なら違法・有害でない文章も、違法・有害な文章として拾ってしまうという課題がある。例えば、キーワード検索技術を単に用いた場合、「殺す」のような一般的な単語が違法・有害なキーワードとして登録された場合、「息を殺す」や「殺すのは駄目」といった表現であっても、違法・有害な文章情報として検出してしまう。これによって、違法・有害カテゴリへの分類精度が低下することとなり、結局、目視によって違法・有害性が判断されている。 However, when a general keyword is registered as belonging to an illegal / harmful category, there is a problem that a sentence that is not illegal / harmful is picked up as illegal / harmful text. For example, if you simply use keyword search technology, if a general word such as “kill” is registered as an illegal / harmful keyword, the expression “kill your breath” or “no kill” Will be detected as illegal and harmful text information. As a result, the classification accuracy into the illegal / harmful category is lowered, and the illegal / hazardous is determined by visual inspection.
そこで、本発明は、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすことができる文章分類プログラム、サーバ及び方法を提供することを目的とする。 Therefore, the present invention, for example, when determining whether or not a pre-registered keyword belongs to an illegal / harmful category, as long as it is possible to classify text information that is not illegal / harmful into an illegal / harmful category. It is an object to provide a sentence classification program, a server, and a method that can be reduced.
本発明によれば、検索キーワードを蓄積した検索キーワード辞書手段を有し、当該検索キーワードを含む文章情報を検索するようにコンピュータを機能させる文章検索プログラムであって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
係り受けキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
正当割合が所定閾値以上となる係り受けキーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
してコンピュータを機能させ、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする。
According to the present invention, there is provided a text search program having search keyword dictionary means for storing search keywords, and causing a computer to function to search text information including the search keywords,
A learning sentence storage means for storing a plurality of legitimate learning sentence information not belonging to a specific category and a plurality of illegal learning sentence information belonging to a specific category;
Learning sentence keyword search means for searching learning sentence information including a search keyword using learning sentence storage means;
A learning dependency analysis means for extracting dependency keywords for the search keyword for learning sentence information including the search keyword;
Validity ratio calculating means for counting the number of legitimate learning sentence information and the number of illegal learning sentence information for each dependency keyword, and calculating a legitimate ratio of the number of legitimate learning sentence information with respect to the number of all learning sentence information; ,
The computer functions as a non-search keyword dictionary means for registering a dependency keyword having a valid ratio equal to or greater than a predetermined threshold as a non-search keyword so that sentence information including the non-search keyword as a dependency keyword for the search keyword is not searched. It is characterized by.
本発明の文章検索プログラムにおける他の実施形態によれば、
解析対象となる対象文章情報を入力する対象文章入力手段と、
対象文章情報が、検索キーワード辞書手段に蓄積された検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
抽出された係り受けキーワードが、非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
対象文章キーワード検索手段によって偽と判定された対象文章情報と、対象文章キーワード検索手段によって真と判定されると共に非検索キーワード判定手段によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する文章情報分類手段と
してコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
A target sentence input means for inputting target sentence information to be analyzed;
Target text keyword search means for determining whether the target text information includes a search keyword stored in the search keyword dictionary means;
A target dependency analysis means for extracting a dependency keyword for the search keyword for the target sentence information including the search keyword;
Non-search keyword determining means for determining whether or not the extracted dependency keyword matches the non-search dependency keyword registered in the non-search keyword dictionary means;
The target sentence information determined to be false by the target sentence keyword search means and the target sentence information determined to be true by the target sentence keyword search means and determined to be true by the non-search keyword determination means do not belong to a specific category. It is also preferable to cause the computer to function as text information classification means for classifying text information.
本発明の文章検索プログラムにおける他の実施形態によれば、
非検索キーワード辞書手段は、登録された係り受けキーワード毎に、正当割合算出手段によって算出された正当割合を対応付けて登録しており、
非検索キーワード判定手段は、抽出された係り受けキーワードが、非検索キーワード辞書手段に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定する
ことも好ましい。
According to another embodiment of the text search program of the present invention,
The non-search keyword dictionary means registers the dependency ratio calculated by the validity ratio calculation means in association with each registered dependency keyword,
The non-search keyword determining means determines that the extracted dependency keyword matches the dependency keyword registered in the non-search keyword dictionary means, and the valid ratio in the dependency keyword is equal to or greater than a predetermined threshold. It is also preferable to determine that the dependency keyword is true.
本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、違法・有害なキーワードであり、
学習文章蓄積手段における特定カテゴリは、違法・有害な文章情報の群であるようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
Search keywords are illegal and harmful keywords,
It is also preferable to make the computer function so that the specific category in the learning sentence storage means is a group of illegal and harmful sentence information.
本発明の文章検索プログラムにおける他の実施形態によれば、
検索キーワードは、ユーザによって指定されたキーワードであり、
学習文章蓄積手段における特定カテゴリは、ユーザによって指定された文章情報の群であるようにコンピュータを機能させることも好ましい。
According to another embodiment of the text search program of the present invention,
Search keywords are keywords specified by the user,
It is also preferable to make the computer function so that the specific category in the learning sentence storage means is a group of sentence information designated by the user.
本発明の文章検索プログラムにおける他の実施形態によれば、対象文章情報は、ネットワークを介して公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報であることも好ましい。 According to another embodiment of the text search program of the present invention, the target text information is text described by an unspecified number of users in a blog (Weblog), bulletin board, and / or word-of-mouth comment published via a network. Information is also preferred.
本発明によれば、検索キーワードを蓄積した検索キーワード辞書手段を有し、他の公開サーバからネットワークを介して取得した文章情報から、当該検索キーワードを含む文章情報を検索する文章解析サーバであって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
学習文章蓄積手段を用いて、検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
係り受けキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
正当割合が所定閾値以上となる係り受けキーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
してコンピュータを機能させ、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする。
According to the present invention, there is provided a text analysis server having search keyword dictionary means for storing search keywords and searching text information including the search keyword from text information acquired from another public server via a network. ,
A learning sentence storage means for storing a plurality of legitimate learning sentence information not belonging to a specific category and a plurality of illegal learning sentence information belonging to a specific category;
Learning sentence keyword search means for searching learning sentence information including a search keyword using learning sentence storage means;
A learning dependency analysis means for extracting dependency keywords for the search keyword for learning sentence information including the search keyword;
Validity ratio calculating means for counting the number of legitimate learning sentence information and the number of illegal learning sentence information for each dependency keyword, and calculating a legitimate ratio of the number of legitimate learning sentence information with respect to the number of all learning sentence information; ,
The computer functions as a non-search keyword dictionary means for registering a dependency keyword having a valid ratio equal to or greater than a predetermined threshold as a non-search keyword so that sentence information including the non-search keyword as a dependency keyword for the search keyword is not searched. It is characterized by.
本発明の文章情報解析サーバにおける他の実施形態によれば、
他の公開サーバからネットワークを介して、解析対象となる対象文章情報を入力する対象文章入力手段と、
対象文章情報が、検索キーワード辞書手段に蓄積された検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
抽出された係り受けキーワードが、非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
対象文章キーワード検索手段によって偽と判定された対象文章情報と、対象文章キーワード検索手段によって真と判定されると共に非検索キーワード判定手段によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する文章情報分類手段と
を更に有することも好ましい。
According to another embodiment of the text information analysis server of the present invention,
A target sentence input means for inputting target sentence information to be analyzed from another public server via a network;
Target text keyword search means for determining whether the target text information includes a search keyword stored in the search keyword dictionary means;
A target dependency analysis means for extracting a dependency keyword for the search keyword for the target sentence information including the search keyword;
Non-search keyword determining means for determining whether or not the extracted dependency keyword matches the non-search dependency keyword registered in the non-search keyword dictionary means;
The target sentence information determined to be false by the target sentence keyword search means and the target sentence information determined to be true by the target sentence keyword search means and determined to be true by the non-search keyword determination means do not belong to a specific category. It is also preferable to further include text information classification means for classifying the text information.
本発明によれば、検索キーワードを蓄積した検索キーワード辞書を有し、当該検索キーワードを含む文章情報を、コンピュータを用いて検索する文章検索方法であって、
特定カテゴリに属さない複数の正当学習文章情報と、特定カテゴリに属する複数の不当学習文章情報とを、学習文章蓄積部に蓄積しており、
学習文章蓄積部を用いて、検索キーワードを含む学習文章情報を検索する第1のステップと、
検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する第2のステップと、
係り受けキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する第3のステップと、
正当割合が所定閾値以上となる係り受けキーワードを非検索キーワードとして登録する第4のステップと
を有し、検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする。
According to the present invention, there is provided a search keyword dictionary that stores search keywords, and a text search method for searching text information including the search keywords using a computer,
A plurality of legitimate learning sentence information that does not belong to a specific category and a plurality of illegal learning sentence information that belongs to a specific category are accumulated in the learning sentence accumulation unit,
A first step of searching for learning sentence information including a search keyword using the learning sentence storage unit;
A second step of extracting dependency keywords for the search keyword for learning sentence information including the search keyword;
A third step of counting the number of legitimate learning sentence information and the number of illegal learning sentence information for each dependency keyword, and calculating a legitimate ratio of the number of legitimate learning sentence information to the number of all learning sentence information; ,
And a fourth step of registering a dependency keyword having a valid ratio equal to or greater than a predetermined threshold as a non-search keyword, and text information including the non-search keyword as a dependency keyword for the search keyword is not searched. It is characterized by that.
本発明の文章分類プログラム、サーバ及び方法によれば、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることをできる限り減らすことができる。 According to the sentence classification program, server, and method of the present invention, for example, when determining whether or not a sentence that is illegal or harmful belongs to a keyword registered in advance, the sentence information that is not illegal or harmful is classified as illegal or harmful. Can be reduced as much as possible.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明における文章分類プログラムの機能構成図である。 FIG. 1 is a functional block diagram of a sentence classification program according to the present invention.
図1によれば、文章分類プログラムは、検索キーワード辞書部10と、非検索辞書生成機能部11と、対象文章分類機能部12とに区別される。非検索辞書生成機能部11は、学習文章蓄積部110と、学習文章キーワード検索部111と、学習係り受け解析部112と、正当割合算出部113と、非検索キーワード辞書部114とを有する。対象文章分類機能部12は、対象文章入力部120と、対象文章キーワード検索部121と、対象係り受け解析部122と、非検索キーワード判定部123と、文章情報分類部124とを有する。これら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置における文章分類方法としても理解される。
According to FIG. 1, the sentence classification program is divided into a search
文章分類プログラムは、対象文章情報を、特定カテゴリに属するか否かによって分類するようにコンピュータを機能させる。具体的には、対象文章情報に、検索キーワード辞書部10に登録された検索キーワードが含まれているか否かを検索する。例えば違法・有害な文章情報か否かによって分類する場合、検索キーワード辞書部10に蓄積される検索キーワードは、違法・有害なキーワードである。例えば、犯罪予告の場合、「殺す」のようなキーワードが、検索キーワード辞書部10に記憶される。勿論、検索キーワード辞書部10に蓄積される検索キーワードは、ユーザによって指定されたキーワードであってもよい。本発明によれば、検索キーワード辞書部10に登録された検索キーワードを含む文章情報であっても、目標とする特定カテゴリに属さない文章情報は、検索されないようにすることができる。
The sentence classification program causes the computer to function so as to classify the target sentence information according to whether or not it belongs to a specific category. Specifically, it is searched whether or not the search text registered in the search
[非検索辞書生成機能部]
図2は、本発明における非検索キーワードの生成を表す説明図である。以下では、図1の説明と共に、図2の内容が説明される。
[Non-search dictionary generation function]
FIG. 2 is an explanatory diagram showing generation of a non-search keyword in the present invention. In the following, the content of FIG. 2 will be described together with the description of FIG.
学習文章蓄積部110は、特定カテゴリに属さない多数の正当学習文章情報と、特定カテゴリに属する多数の不当学習文章情報とを蓄積する。正当/不当は、その学習文章情報に付加されたフラグによって区別される。
例えば、特定カテゴリが違法・有害な文章情報の群である場合、学習文章蓄積部110は、以下のような文章情報の群を混在して蓄積する。
(1)違法・有害カテゴリに属さない文章情報の群
=各文章情報に「正当」フラグが付加されている
=正当学習文章情報の群
(2)違法・有害カテゴリに属する文章情報の群
=各文章情報に「不当」フラグが付加されている
=不当学習文章情報の群
勿論、特定カテゴリがユーザによって指定された文章情報の群である場合、学習文章蓄積部110は、以下のような文章情報の群を混在して蓄積する。
(1)ユーザ指定の特定カテゴリに属さない文章情報の群
=各文章情報に「正当」フラグが付加されている
=正当学習文章情報の群
(2)ユーザ指定の特定カテゴリに属する文章情報の群
=各文章情報に「不当」フラグが付加されている
=不当学習文章情報の群
The learning
For example, when the specific category is a group of illegal / harmful text information, the learning
(1) Group of text information that does not belong to illegal or harmful categories
= "Valid" flag is added to each text information
= Group of legitimate learning text information (2) Group of text information belonging to illegal / harmful categories
= "Unfair" flag is added to each text information
= Illegal Learning Text Information Group Of course, when the specific category is a text information group designated by the user, the learning
(1) A group of text information that does not belong to a specific category specified by the user
= "Valid" flag is added to each text information
= Group of legitimate learning sentence information (2) Group of sentence information belonging to a specific category designated by the user
= "Unfair" flag is added to each text information
= Group of inappropriate learning text information
学習文章キーワード検索部111は、学習文章蓄積部110に蓄積された多数の学習文章情報について、検索キーワード辞書部10に蓄積された検索キーワードを含む学習文章情報を検索する。図2によれば、フラグの「正当」/「不当」に関係無く、検索キーワード「殺す」が含まれる全ての学習文章情報が検索されている。検索された多数の学習文章情報は、学習係り受け解析部112へ出力される。ここで、学習文章情報dは、検索キーワード「殺す」を含んでいないので、以後の処理の対象とならない。
The learning text
学習係り受け解析部112は、検索キーワードを含む多数の学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する。学習係り受け解析部112は、係り受け解析の前段階として必要な形態素解析も含む。「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。形態素解析には、「単語」毎に「品詞」「読み」が登録された辞書を有する。本発明によれば、検索キーワードを含む1文のみ(1文よりも短くてもよい)について、形態素に分割し、辞書を用いて「品詞」「読み」の文法規則を形成し、その上で、係り受けを解析する。
The learning
係り受け解析器として、例えば従来技術のCaboCha(例えば非特許文献1参照)又はKNP(例えば非特許文献2参照)を用いてもよい。「CaboCha」は、代表的な日本語係り受け解析器であって、サポートベクタマシンに基づいて、バックトラックを実行しない決定的な解析アルゴリズム(Cascaded Chunking Model)を採用した技術である。また、「KNP」は、日本語文の日本語文の構文・格解析システムであって、形態素解析システムJUMANの解析結果の形態素列を入力とし、文節及び基本句間の係り受け関係及び格関係を出力する技術である。 As the dependency analyzer, for example, a conventional CaboCha (for example, see Non-Patent Document 1) or KNP (for example, see Non-Patent Document 2) may be used. “CaboCha” is a typical Japanese dependency analyzer, which uses a definitive analysis algorithm (Cascaded Chunking Model) that does not perform backtracking based on a support vector machine. “KNP” is a Japanese sentence syntactic / case analysis system for Japanese sentences. The morpheme sequence of the morpheme analysis system JUMAN is input, and the dependency relation and case relation between clauses and basic phrases are output. Technology.
図2によれば、検索キーワード「殺す」に対して、以下のような係り受けキーワードが抽出される。
学習文章情報a:「不当」フラグが付加(違法・有害カテゴリに属する)
「殺す」<-「人」
学習文章情報b:「正当」フラグが付加(違法・有害カテゴリに属さない)
「殺す」<-「息」
学習文章情報c:「正当」フラグが付加(違法・有害カテゴリに属さない)
「殺す」<-「駄目」
これによって、以下のようなキーワード組が、正当割合算出部113へ出力される。
「殺す<-人 :不当」
「殺す<-息 :正当」
「殺す<-駄目:正当」
According to FIG. 2, the following dependency keywords are extracted for the search keyword “kill”.
Learning text information a: “Unfair” flag added (belongs to illegal / harmful category)
"Kill"<-"People"
Learning text information b: "Legacy" flag added (does not belong to illegal or harmful category)
"Kill"<-"breath"
Learning text information c: "Legacy" flag added (does not belong to illegal or harmful category)
"Kill"<-"No"
As a result, the following keyword set is output to the valid
"Kill <-People: Unfair"
"Kill <-Breath: Justified"
“Kill <-No: Justice”
正当割合算出部113は、係り受けキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合を算出する。多数の学習文章情報に基づいて、1つの検索キーワードに対する多数の正当/不当の係り受けキーワードが抽出される。そして、検索キーワードに対する係り受けキーワード毎に、正当割合が算出される。
The correct
図2によれば、以下のように、係り受けキーワード毎に正当割合が算出される。
「殺す」<-「人」 :正当学習文章情報の数=40個
不当学習文章情報の数=1960個
正当割合=40/2000=2%
「殺す」<-「息」 :正当学習文章情報の数=90個
不当学習文章情報の数=10個
正当割合=90/100=90%
「殺す」<-「駄目」:正当学習文章情報の数=120個
不当学習文章情報の数=80個
正当割合=120/200=60%
そして、正当割合算出部113は、係り受けキーワード毎の正当割合を、非検索キーワード辞書部114へ出力する。
「殺す」<-「人」 :2%
<-「息」 :90%
<-「駄目」:60%
According to FIG. 2, the correct ratio is calculated for each dependency keyword as follows.
"Kill"<-"People": Number of legitimate learning text information = 40
Number of inappropriate learning text information = 1960
Legitimate ratio = 40/2000 = 2%
"Kill"<-"breath": Number of legitimate learning text information = 90
Number of illegal learning text information = 10
Legitimate ratio = 90/100 = 90%
"Kill"<-"Nouse": Number of legitimate learning text information = 120
Number of illegal learning text information = 80
Legitimate ratio = 120/200 = 60%
Then, the correct
"Kill"<-"People": 2%
<-"Breath": 90%
<-"No use": 60%
非検索キーワード辞書部114は、正当割合が所定閾値以上となる係り受けキーワードを登録する。図2によれば、所定閾値70%以上に設定したとする。この場合、検索キーワード「殺す」に対して、正当割合が70%以上となる係り受けキーワード「息」のみが、検索キーワード「殺す」に対する係り受けとなる非検索キーワードとして非検索キーワード辞書部114に登録される。
The non-search
尚、非検索キーワード辞書部114は、正当割合が所定閾値以上となった係り受けキーワードを記憶するだけでなく、全ての係り受けキーワード毎に正当割合を対応付けて登録するものであってもよい。これによって、非検索キーワードとして導出するレベルとしての所定閾値は、ユーザ指定によって可変とすることもできる。
検索キーワード「殺す」<-非検索キーワード「人」 :2%
<-非検索キーワード「息」 :90%
<-非検索キーワード「駄目」:60%
The non-search
Search keyword "kill"<-Non-search keyword "people": 2%
<-Non-search keyword "breath": 90%
<-Non-search keyword "No": 60%
[対象文章分類機能部]
図3は、本発明における対象文章情報の分類を表す説明図である。以下では、図1の説明と共に、図3の内容が説明される。
[Target sentence classification function section]
FIG. 3 is an explanatory diagram showing classification of target sentence information in the present invention. In the following, the content of FIG. 3 will be described together with the description of FIG.
対象文章入力部120は、解析対象となる対象文章情報を入力する。対象文章情報は、ユーザの操作に応じて入力されるものであってもよいし、ネットワークを介して受信されるものであってもよい。ネットワークを介して受信される対象文章情報としては、例えば、公開されているブログ(Weblog)、掲示板及び/又はクチコミコメントにおける不特定多数のユーザによって記述された文章情報である。
The target
対象文章キーワード検索部121は、対象文章情報が、検索キーワード辞書部10に蓄積された検索キーワードを含むか否かを判定する。図3によれば、対象文章情報内の文章「・・・息を静かに殺す・・・」に、検索キーワード「殺す」が含まれる。そのために、検索キーワード有りとして、その対象文章情報は、対象係り受け解析部122へ出力される。
The target text
対象係り受け解析部122は、検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する。図3によれば、検索キーワード「殺す」に対して、係り受けキーワード「息」が抽出される。
対象文章情報:「殺す」<-「息」
抽出された係り受けキーワード「息」は、対象文章情報と共に、非検索キーワード判定部123へ出力される。
The target
Target text information: "Kill"<-"Breath"
The extracted dependency keyword “breath” is output to the non-search
非検索キーワード判定部123は、抽出された係り受けキーワードが、非検索キーワード辞書部114に登録された非検索係り受けキーワードと一致するか否かを判定する。図3によれば、非検索キーワード辞書部114には、「殺す」<-「息」が登録されている。そのために、非検索キーワード判定部123は、抽出された係り受けキーワード「息」が、非検索係り受けキーワード「息」と一致すると判定する。この判定結果は、文章情報分類部124へ出力される。
The non-search
尚、非検索キーワード判定部123は、抽出された係り受けキーワードが、非検索キーワード辞書部114に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定するものであってもよい。例えば、一致した係り受けキーワード「息」について、非検索キーワード辞書部114に登録された正当割合90%は、所定閾値70%以上であるために、非検索キーワード「息」と一致すると判定してもよい。この場合、逆に、所定閾値70%未満の非検索キーワードは採用されない。
Note that the non-search
文章情報分類部124は、対象文章キーワード検索部121によって偽と判定された対象文章情報と、対象文章キーワード検索部121によって真と判定されると共に非検索キーワード判定部123によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する。
The text
図4は、本発明における文章解析サーバのシステム構成図である。 FIG. 4 is a system configuration diagram of the sentence analysis server in the present invention.
図4によれば、文章解析サーバ1は、前述した検索キーワード辞書部10、非検索辞書生成機能部11及び対象文章分類機能部12と、通信インタフェース部13とを有する。文章解析サーバ1は、インターネットを介して、Webサーバ2と通信する。また、そのWebサーバ2は、端末3から送信された対象文章情報としてのWeb文章情報を蓄積し且つ公開している。文章解析サーバ1の対象文章分類機能部12は、通信インタフェース部13を介して、多数のWebサーバ2から対象文章情報を受信する。対象文章分類機能部12は、検索キーワード辞書と、非検索辞書生成機能部11によって生成された非検索キーワード辞書とを用いて、その対象文章情報を特定カテゴリに分類する。Webサーバ2から受信した対象文章情報について、例えば違法・有害な特定カテゴリに分類することができる。
According to FIG. 4, the
図5は、本発明におけるシステムのシーケンス図である。 FIG. 5 is a sequence diagram of the system according to the present invention.
(S501)非検索辞書生成機能部11は、学習文章情報として、特定カテゴリに属さない多数の正当学習文章情報と、特定カテゴリに属する多数の不当学習文章情報とを蓄積している。最初に、多数の学習文章情報の中から、検索キーワード辞書に登録された検索キーワードを含む学習文章情報が検索される。
(S502)検索キーワードを含む学習文章情報について、検索キーワードに対する係り受けキーワードを抽出する。
(S503)係り受けキーワード毎に、正当学習文章情報の数と、不当学習文章情報の数とが計数され、全ての学習文章情報の数に対する正当学習文章情報の数の正当割合が算出される。
(S504)そして、正当割合が所定閾値以上となる係り受けキーワードが、非検索キーワードとして登録される。
(S505)端末3は、利用者の操作に応じて、対象文章情報を、Webサーバ2へ送信する。
(S506)文章解析サーバ1は、Webサーバ2から、解析対象となる対象文章情報を受信する。その対象文章情報は、対象文章分類機能部12へ出力される。
(S507)対象文章情報が、検索キーワード辞書に蓄積された検索キーワードを含むか否かを判定する。
(S508)検索キーワードを含む対象文章情報について、検索キーワードに対する係り受けキーワードを抽出する。
(S509)抽出された係り受けキーワードが、非検索キーワード辞書に登録された非検索係り受けキーワードと一致するか否かを判定する。
(S510)そして、S507によって偽と判定された対象文章情報と、S507によって真と判定されると共にS509によって真と判定された対象文章情報とを、特定カテゴリに属さない文章情報として分類する。これによって、検索キーワードに対する係り受けキーワードが、非検索キーワード辞書に登録された非検索キーワードである場合、その文章情報は、特定カテゴリに属さないとして検索されないようになされる。
(S501) The non-search dictionary
(S502) About the learning sentence information containing a search keyword, the dependency keyword with respect to a search keyword is extracted.
(S503) For each dependency keyword, the number of legitimate learning sentence information and the number of illegal learning sentence information are counted, and the legitimate ratio of the number of legitimate learning sentence information to the number of all learning sentence information is calculated.
(S504) Then, a dependency keyword whose legitimate ratio is equal to or greater than a predetermined threshold is registered as a non-search keyword.
(S505) The
(S506) The
(S507) It is determined whether the target sentence information includes the search keyword stored in the search keyword dictionary.
(S508) For the target sentence information including the search keyword, a dependency keyword for the search keyword is extracted.
(S509) It is determined whether or not the extracted dependency keyword matches the non-search dependency keyword registered in the non-search keyword dictionary.
(S510) Then, the target sentence information determined to be false by S507 and the target sentence information determined to be true by S507 and determined to be true by S509 are classified as sentence information not belonging to the specific category. Thus, when the dependency keyword for the search keyword is a non-search keyword registered in the non-search keyword dictionary, the sentence information is not searched as not belonging to the specific category.
以上、詳細に説明したように、本発明の文章分類プログラム、サーバ及び方法によれば、例えば予め登録されたキーワードによって違法・有害なカテゴリに属するか否かを判定する際に、違法・有害でない文章情報が、違法・有害なカテゴリに分類されることを、できる限り減らすことができる。本発明によれば、検索キーワード辞書に加えて、その検索キーワードと係り受け関係となる非検索キーワードを登録した非検索キーワード辞書を備える。これによって、一般的な検索キーワードを含む文章情報であっても、その係り受け関係となるキーワードが非検索検索キーワードと一致する場合、違法・有害な文章情報でないと判断される。本発明によれば、検索キーワードの係り受け関係も解析するために、過剰な判定が抑制され、分類精度が向上する。 As described above in detail, according to the sentence classification program, server, and method of the present invention, it is not illegal / harmful when, for example, it is determined whether or not it belongs to an illegal / harmful category by a keyword registered in advance. It is possible to reduce as much as possible the sentence information being classified into illegal and harmful categories. According to the present invention, in addition to the search keyword dictionary, a non-search keyword dictionary in which non-search keywords having a dependency relationship with the search keyword are registered. As a result, even text information including a general search keyword is determined not to be illegal / harmful text information if the dependency relation keyword matches the non-search search keyword. According to the present invention, since the dependency relationship of search keywords is also analyzed, excessive determination is suppressed and classification accuracy is improved.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 文章解析サーバ
10 検索キーワード辞書部
11 非検索辞書生成機能部
110 学習文章蓄積部
111 学習文章キーワード検索部
112 学習係り受け解析部
113 正当割合算出部
114 非検索キーワード辞書部
12 対象文章分類機能部
120 対象文章入力部
121 対象文章キーワード検索部
122 対象係り受け解析部
123 非検索キーワード判定部
124 文章情報分類部
13 通信インタフェース部
2 Webサーバ
3 端末
DESCRIPTION OF
Claims (9)
特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
前記係り受けキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
前記正当割合が所定閾値以上となる前記係り受けキーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
してコンピュータを機能させ、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章検索プログラム。 A text search program having search keyword dictionary means for storing search keywords, and causing a computer to function to search text information including the search keywords,
A learning sentence accumulating means for accumulating a plurality of legitimate learning sentence information not belonging to a specific category and a plurality of illegal learning sentence information belonging to the specific category,
Learning sentence keyword search means for searching learning sentence information including the search keyword using the learning sentence storage means;
A learning dependency analysis unit that extracts a dependency keyword for the search keyword for learning sentence information including the search keyword;
For each dependency keyword, the number of legitimate learning sentence information and the number of illegal learning sentence information are counted, and a legitimate ratio of the number of legitimate learning sentence information to the number of all learning sentence information is calculated. A ratio calculation means;
The sentence information including a non-search keyword as a dependency keyword for the search keyword is made to function as a non-search keyword dictionary means for registering the dependency keyword having a valid ratio equal to or greater than a predetermined threshold as a non-search keyword. A text search program that prevents searching.
前記対象文章情報が、前記検索キーワード辞書手段に蓄積された前記検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
前記検索キーワードを含む対象文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
抽出された前記係り受けキーワードが、前記非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
前記対象文章キーワード検索手段によって偽と判定された前記対象文章情報と、前記対象文章キーワード検索手段によって真と判定されると共に前記非検索キーワード判定手段によって真と判定された前記対象文章情報とを、前記特定カテゴリに属さない文章情報として分類する文章情報分類手段と
してコンピュータを機能させることを特徴とする請求項1に記載の文章検索プログラム。 A target sentence input means for inputting target sentence information to be analyzed;
Target text keyword search means for determining whether or not the target text information includes the search keyword stored in the search keyword dictionary means;
For the target sentence information including the search keyword, target dependency analysis means for extracting a dependency keyword for the search keyword;
Non-search keyword determination means for determining whether or not the extracted dependency keyword matches the non-search dependency keyword registered in the non-search keyword dictionary means;
The target sentence information determined to be false by the target sentence keyword search means, and the target sentence information determined to be true by the target sentence keyword search means and determined to be true by the non-search keyword determination means, The text search program according to claim 1, wherein a computer is caused to function as text information classification means for classifying text information that does not belong to the specific category.
前記非検索キーワード判定手段は、抽出された前記係り受けキーワードが、前記非検索キーワード辞書手段に登録された係り受けキーワードと一致し、且つ、当該係り受けキーワードにおける前記正当割合が所定閾値以上である場合に、当該係り受けキーワードに対して真と判定する
ことを特徴とする請求項2に記載の文章検索プログラム。 The non-search keyword dictionary means associates and registers the legitimate ratio calculated by the legitimate ratio calculator for each registered dependency keyword,
The non-search keyword determination unit matches the extracted dependency keyword with the dependency keyword registered in the non-search keyword dictionary unit, and the valid ratio of the dependency keyword is equal to or greater than a predetermined threshold. The sentence search program according to claim 2, wherein the determination is true for the dependency keyword.
前記学習文章蓄積手段における前記特定カテゴリは、違法・有害な文章情報の群であるようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の文章検索プログラム。 The search keyword is an illegal or harmful keyword,
The sentence search program according to any one of claims 1 to 3, wherein the computer is caused to function so that the specific category in the learning sentence storage unit is a group of illegal and harmful sentence information.
前記学習文章蓄積手段における前記特定カテゴリは、ユーザによって指定された文章情報の群であるようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の文章検索プログラム。 The search keyword is a keyword specified by the user,
The sentence search program according to any one of claims 1 to 3, wherein the computer is caused to function so that the specific category in the learning sentence accumulating unit is a group of sentence information designated by a user.
特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを蓄積した学習文章蓄積手段と、
前記学習文章蓄積手段を用いて、前記検索キーワードを含む学習文章情報を検索する学習文章キーワード検索手段と、
前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する学習係り受け解析手段と、
前記係り受けキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する正当割合算出手段と、
前記正当割合が所定閾値以上となる前記係り受けキーワードを非検索キーワードとして登録する非検索キーワード辞書手段と
してコンピュータを機能させ、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章解析サーバ。 A sentence analysis server that has a search keyword dictionary unit that stores search keywords, and that searches sentence information including the search keyword from sentence information acquired from another public server via a network,
A learning sentence accumulating means for accumulating a plurality of legitimate learning sentence information not belonging to a specific category and a plurality of illegal learning sentence information belonging to the specific category,
Learning sentence keyword search means for searching learning sentence information including the search keyword using the learning sentence storage means;
A learning dependency analysis unit that extracts a dependency keyword for the search keyword for learning sentence information including the search keyword;
For each dependency keyword, the number of legitimate learning sentence information and the number of illegal learning sentence information are counted, and a legitimate ratio of the number of legitimate learning sentence information to the number of all learning sentence information is calculated. A ratio calculation means;
The sentence information including a non-search keyword as a dependency keyword for the search keyword is made to function as a non-search keyword dictionary means for registering the dependency keyword having a valid ratio equal to or greater than a predetermined threshold as a non-search keyword. A sentence analysis server characterized by not being searched.
前記対象文章情報が、前記検索キーワード辞書手段に蓄積された前記検索キーワードを含むか否かを判定する対象文章キーワード検索手段と、
前記検索キーワードを含む対象文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する対象係り受け解析手段と、
抽出された前記係り受けキーワードが、前記非検索キーワード辞書手段に登録された非検索係り受けキーワードと一致するか否かを判定する非検索キーワード判定手段と、
前記対象文章キーワード検索手段によって偽と判定された前記対象文章情報と、前記対象文章キーワード検索手段によって真と判定されると共に前記非検索キーワード判定手段によって真と判定された前記対象文章情報とを、前記特定カテゴリに属さない文章情報として分類する文章情報分類手段と
を更に有することを特徴とする請求項7に記載の文章解析サーバ。 A target sentence input means for inputting target sentence information to be analyzed from another public server via a network;
Target text keyword search means for determining whether or not the target text information includes the search keyword stored in the search keyword dictionary means;
For the target sentence information including the search keyword, target dependency analysis means for extracting a dependency keyword for the search keyword;
Non-search keyword determination means for determining whether or not the extracted dependency keyword matches the non-search dependency keyword registered in the non-search keyword dictionary means;
The target sentence information determined to be false by the target sentence keyword search means, and the target sentence information determined to be true by the target sentence keyword search means and determined to be true by the non-search keyword determination means, The sentence analysis server according to claim 7, further comprising sentence information classification means for classifying the sentence information as not belonging to the specific category.
特定カテゴリに属さない複数の正当学習文章情報と、前記特定カテゴリに属する複数の不当学習文章情報とを、学習文章蓄積部に蓄積しており、
前記学習文章蓄積部を用いて、前記検索キーワードを含む学習文章情報を検索する第1のステップと、
前記検索キーワードを含む学習文章情報について、前記検索キーワードに対する係り受けキーワードを抽出する第2のステップと、
前記係り受けキーワード毎に、前記正当学習文章情報の数と、前記不当学習文章情報の数とを計数し、全ての学習文章情報の数に対する前記正当学習文章情報の数の正当割合を算出する第3のステップと、
前記正当割合が所定閾値以上となる前記係り受けキーワードを非検索キーワードとして登録する第4のステップと
を有し、前記検索キーワードに対する係り受けキーワードとして非検索キーワードが含まれている文章情報は検索されないようにすることを特徴とする文章検索方法。 A text search method having a search keyword dictionary storing search keywords and searching text information including the search keyword using a computer,
A plurality of legitimate learning sentence information that does not belong to a specific category and a plurality of illegal learning sentence information that belongs to the specific category are accumulated in the learning sentence accumulation unit,
A first step of searching for learning sentence information including the search keyword using the learning sentence storage unit;
A second step of extracting a dependency keyword for the search keyword for learning sentence information including the search keyword;
For each dependency keyword, the number of the legitimate learning sentence information and the number of the illegal learning sentence information are counted, and a legitimate ratio of the number of the legitimate learning sentence information to the number of all the learning sentence information is calculated. 3 steps,
And a fourth step of registering the dependency keyword with the legitimate ratio equal to or higher than a predetermined threshold as a non-search keyword, and text information including the non-search keyword as a dependency keyword for the search keyword is not searched. A text search method characterized by:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010000541A JP5348786B2 (en) | 2010-01-05 | 2010-01-05 | Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010000541A JP5348786B2 (en) | 2010-01-05 | 2010-01-05 | Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011141604A JP2011141604A (en) | 2011-07-21 |
| JP5348786B2 true JP5348786B2 (en) | 2013-11-20 |
Family
ID=44457426
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010000541A Expired - Fee Related JP5348786B2 (en) | 2010-01-05 | 2010-01-05 | Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5348786B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102170799B1 (en) * | 2020-04-23 | 2020-10-27 | 이동건 | System for managing real-time referendum status and method thereof |
| CN113869400A (en) * | 2021-09-26 | 2021-12-31 | 灵犀量子(北京)医疗科技有限公司 | A method and system for automatic determination of biomedical document types |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002117135A (en) * | 2000-08-02 | 2002-04-19 | Masunaga Sogo Keikaku:Kk | Web site security system |
| JP2005190284A (en) * | 2003-12-26 | 2005-07-14 | Nec Corp | Information classification apparatus and information classification method |
| JP4757016B2 (en) * | 2005-12-21 | 2011-08-24 | 富士通株式会社 | Document classification program, document classification apparatus, and document classification method |
| JP2009193219A (en) * | 2008-02-13 | 2009-08-27 | Nippon Telegr & Teleph Corp <Ntt> | Index creation apparatus, method, program, and recording medium |
-
2010
- 2010-01-05 JP JP2010000541A patent/JP5348786B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011141604A (en) | 2011-07-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5711674B2 (en) | Question answering program, server and method using a large amount of comment text | |
| Sharma et al. | Nlp and machine learning techniques for detecting insulting comments on social networking platforms | |
| CN106202382B (en) | Link instance method and system | |
| JP6007088B2 (en) | Question answering program, server and method using a large amount of comment text | |
| CN102054015A (en) | System and method for organizing community intelligence information using an organic object data model | |
| RU2491622C1 (en) | Method of classifying documents by categories | |
| KR20120108095A (en) | System for analyzing social data collected by communication network | |
| JP5527845B2 (en) | Document classification program, server and method based on textual and external features of document information | |
| CN113076735A (en) | Target information acquisition method and device and server | |
| CN104915443B (en) | A kind of abstracting method of Chinese microblogging evaluation object | |
| JP5435249B2 (en) | Event analysis apparatus, event analysis method, and program | |
| Mangal et al. | Analysis of users’ interest based on tweets | |
| JP5477910B2 (en) | Text search program, device, server and method using search keyword dictionary and dependency keyword dictionary | |
| JP5364010B2 (en) | Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary | |
| Prasad et al. | Rule-based sentiment analysis for Twitter (X) data | |
| JP5348786B2 (en) | Sentence search program, server and method using non-search keyword dictionary for search keyword dictionary | |
| CN116483998A (en) | False news detection method, device, computer equipment and storage medium | |
| Lee et al. | Detecting and visualizing online dispute dynamics in replying comments | |
| JP5339628B2 (en) | Sentence classification program, method, and sentence analysis server for classifying sentences containing unknown words | |
| JP5495425B2 (en) | Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words | |
| Munot et al. | Conceptual framework for abstractive text summarization | |
| Kotenko et al. | Protection against information in eSociety: using Data Mining methods to counteract unwanted and malicious data | |
| Janchevski et al. | Andrejjan at semeval-2019 task 7: A fusion approach for exploring the key factors pertaining to rumour analysis | |
| JP2011113097A6 (en) | Sentence correction program, method, and sentence analysis server for correcting sentences containing unknown words | |
| TWI534640B (en) | Chinese network information monitoring and analysis system and its method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120904 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130729 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130819 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130819 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5348786 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |