JP7226783B2 - Information processing system, information processing method and program - Google Patents
Information processing system, information processing method and program Download PDFInfo
- Publication number
- JP7226783B2 JP7226783B2 JP2019052292A JP2019052292A JP7226783B2 JP 7226783 B2 JP7226783 B2 JP 7226783B2 JP 2019052292 A JP2019052292 A JP 2019052292A JP 2019052292 A JP2019052292 A JP 2019052292A JP 7226783 B2 JP7226783 B2 JP 7226783B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- keywords
- keyword
- space distribution
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理システム、情報処理方法及びプログラムに関する。 The present invention relates to an information processing system, an information processing method, and a program.
従来、特許文献や論文ないし裁判例などの文献の調査においては、キーワードを選定してデータベースを検索し、ヒットした文献を一つ一つ開いて内容を確認して、キーワードとの関連性を確認していた。
このため、例えば、ヒットした件数が1,000件程度の場合、一つの文献のページ数が数十ページ程度のボリュームがあるので、合計で数万頁もの膨大な分量の文章を確認する必要があった(図1の(1)参照)。
また、調査を行うオペレータ(以下。「サーチャー」という)が文献を一つ一つ開いて文章を読んで確認するため、長時間の確認作業により集中力が途切れて関連性のある文献を見逃したり、目の疲労が蓄積するなどの弊害もあった。
Conventionally, in researching documents such as patent documents, papers, and court cases, a keyword is selected, a database is searched, and each hit document is opened to check the contents and confirm the relevance to the keyword. Was.
For this reason, for example, if the number of hits is about 1,000, the number of pages in one document is about tens of pages, so it is necessary to check a huge amount of sentences of tens of thousands of pages in total. (see (1) in FIG. 1).
In addition, since the operator who conducts the research (hereinafter referred to as "searcher") opens the documents one by one and reads and confirms the sentences, it is possible to lose concentration due to long hours of confirmation work and miss relevant documents. However, there were also adverse effects such as accumulation of eye fatigue.
そこで、例えば、特許文献1のように、関連性が高いと考えられる確率であるサーチ確率と、関連性が低くノイズであると考えられる確率であるノイズ確率の2軸の評価軸を用いて特許文献を分類して、特許等の文献調査を効率化するシステムが開発されている。
Therefore, for example, as in
また、例えば、特許文献2では、まず、予め、サーチャーの人手による事前の数百件~数千件の文献数に及ぶ相当量の文献の調査(以下「プレ調査」と呼ぶ)によって、調査対象技術と関連性のある特許文献と関連性が低い特許文献をある程度の数だけ用意している。そのうえで、関連性のある特許文献について関連特許特徴ベクトルを定義すると共に、関連性が低い特許文献について非関連特許特徴ベクトルを定義している。
そして、それぞれの特徴ベクトルの平均ベクトルを算出しておき(ある種のクラスタリング)、別途網羅的に特許文献を格納してある中から、関連性が高い特許文献を検索するために、格納された検索対象の特許文献について検索特許特徴ベクトルを算出し、関連特許特徴ベクトル(又は非関連特許特徴ベクトル)と検索特許特徴ベクトルとの間のCOS尺度(コサイン類似度)等によって、別途保存してある膨大な特許文献の中から、関連性の高い特許を抽出する技術が開発されている。
Further, for example, in
Then, the average vector of each feature vector is calculated (a kind of clustering), and the stored A search patent feature vector is calculated for the patent document to be searched, and it is stored separately according to the COS scale (cosine similarity) between the related patent feature vector (or unrelated patent feature vector) and the search patent feature vector. Techniques for extracting highly relevant patents from a huge amount of patent documents have been developed.
しかし、特許文献1のシステムによっても、あくまで設定したテーマについて、関連性が高いと考えられる確率であるサーチ確率と、関連性が低くノイズであると考えられる確率であるノイズ確率の2軸の評価軸で、対象案件を選択しやすくする処理であって、テーマごとの大まかな分類で関連する特許を抽出できるに留まる。このため、未調査ないし未知のテーマに対して、新たにキーワードを策定して、キーワードを元に検索して、ヒットした文献について、関連性のありそうな文献を抽出するような用途には適していなかった。
However, even with the system of
特許文献2の技術では、予めピックアップしておいた関連特許文献に基づいて、検索式を自動生成して検索したり、関連特許特徴ベクトルを生成して類似度を判定するという手法を用いていた。
このため、予めプレ調査を必要とするものの、データベースに登録してある数万件~百万件という膨大な特許文献の中から、漏れなく関連性のありそうな特許文献を抽出するような用途に適していた。
しかし、予めピックアップしておくべき関連特許文献の数は、20~30件程度は必要になると考えられ、それだけの件数の関連特許文献をピックアップするためには、サーチャーの人手によるプレ調査等によって、所定の検索条件でヒットした数百件~数千件の特許文献の中から、人手によって、調査対象技術と関連性のある特許文献を一つ一つ確認する必要があった。
In the technique of
For this reason, although preliminary research is required in advance, it is used to extract patent documents that are likely to be related without omission from the huge number of patent documents registered in the database, ranging from tens of thousands to millions. was suitable for
However, it is thought that about 20 to 30 related patent documents should be picked up in advance. It was necessary to manually check the patent documents related to the research target technology one by one from among the hundreds to thousands of patent documents hit by the predetermined search conditions.
なお、数百件~数千件の特許文献の確認が必要となると想定したのは、一般的に、検索条件でヒットした特許文献の内、関連性があると認められるのは全体の数%であることから、予め数十件の関連する特許文献をピックアップするためには、サーチャーが数百件~数千件もの特許文献の確認が必要であると推定されることによるものである。 In addition, we assumed that hundreds to thousands of patent documents would need to be confirmed because, in general, only a few percent of the patent documents hit by the search conditions are recognized as relevant. Therefore, in order to pick up dozens of related patent documents in advance, it is presumed that a searcher needs to check hundreds to thousands of patent documents.
このように、従来、所定の特許文献が、あるテーマの範疇に含まれるかどうかの判定処理(特許文献1のタイプ)、あるいは、サーチャーが所定のキーワードを元にプレ調査を行い、ある程度の特許等の調査を人手で行った上で、相当数の特許文献等をピックアップしたうえで、ピックアップした複数の特許文献に似ている特許文献を大量のデータベースから漏れなく探すシステム(特許文献2のタイプ)などが知られていた。
しかし、いずれの先行特許文献でも、プレ調査の無い状態で、一から文献調査を行うような場面で、調査対象技術と関連性が高いかどうかを判定する用途には適用できないという課題があった。
In this way, conventionally, a process for determining whether a given patent document is included in a category of a certain theme (the type of Patent Document 1), or a searcher conducting a pre-search based on a predetermined keyword and obtaining a patent to some extent After manually conducting such searches, a considerable number of patent documents, etc. are picked up, and a system that searches a large database for patent documents that are similar to the multiple picked-up patent documents without omission (
However, there is a problem that any of the prior patent documents cannot be applied to determine whether or not there is a high relevance to the technology to be searched in a situation where a document search is performed from scratch without a preliminary search. .
また、いずれの先行特許文献においても、サーチャーが人手で関連性の高い特許文献等を抽出する際の思考を分析して、情報処理としてどのようなアルゴリズムに置き換えるかについては記載もなく、示唆もされていなかった。
具体的には、いずれの先行技術においても、設定したキーワードと特許文献とがどのような関係にあれば関連性が高いと判定できるかについて分析し、どのような特徴ベクトルを生成して機械学習すれば効率的な文献調査ができるかについては記載も示唆もされていなかった。
In addition, none of the prior patent documents describes or suggests what kind of algorithm should be used as information processing by analyzing the thoughts of searchers when manually extracting highly relevant patent documents. It wasn't.
Specifically, in any of the prior arts, we analyze what kind of relationship there is between a set keyword and a patent document so that it can be determined that they are highly related, and what kind of feature vector is generated for machine learning. There was no description or suggestion as to whether an efficient literature search would be possible if
そこで本願発明では、サーチャーが人手で関連性がありそうな特許文献等を抽出する作業、すなわち、特許等の文献調査における人の思考を分析して、人が気が付いている特徴に加え、人も気が付いていない特徴も含めてベクトル化して、大量のデータで機械学習させることで、文献調査の作業の手法を精緻化するシステムを構築して、文献調査の精度を向上させ、引いては文献調査の工数を飛躍的に削減することを目的とする。
また、付随して、サーチャーが1件の文献等を読み込むのに掛ける時間を増やし、関連性のある文献の中でも特に関連性が高いと判断される文献の選択の精度を向上させることを目的とする。
Therefore, in the present invention, the searcher manually extracts patent documents that are likely to be related, that is, analyzes the thoughts of people in document research such as patents, and in addition to the features that people are aware of, By vectorizing including features that you are not aware of and machine learning with a large amount of data, you can build a system that refines the method of document research work, improve the accuracy of document research, and eventually document research. The purpose is to dramatically reduce the man-hours of
In addition, the purpose is to increase the time it takes for a searcher to read one document, etc., and to improve the accuracy of selecting documents that are judged to be particularly relevant among related documents. do.
また、本願発明の技術によれば、特許文献だけではなく、論文や裁判例の検索にもそのまま適用でき、これらの検索の精度向上、工数削減も目的とする。
また、日本語の文献のみならず、諸外国の言語で記述された文献であっても同様に適用することを目的とする。
Further, according to the technology of the present invention, it can be applied as it is to search not only for patent documents but also for papers and judicial precedents.
In addition, it is intended to be applicable not only to Japanese documents but also to documents written in foreign languages.
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、
検索キーワードのセットと文献との関連性を判定するシステムであって、
文献のテキストデータを取得する手段と、
検索キーワードのセットとして、第1段~第n段のキーワード群のセットで取得する手段と、
文献のテキストデータ中に含まれるキーワードの存在箇所を解析するKW存在箇所解析手段と、
前記KW存在箇所解析手段によって解析したキーワードの存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成するKW空間分布ベクトル生成手段と、を備え、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、文献ごとに、第1段~第n段のKW空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段を備えたこと、
を特徴とする情報処理システムである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価することができる。
The present invention solves the above problems by means of the following solutions.
The first invention is
A system for determining the relevance between a set of search keywords and a document,
a means for obtaining text data of a document;
means for obtaining a set of keywords from the first stage to the n-th stage as a set of search keywords;
KW existence location analysis means for analyzing the location of keywords included in the text data of the document;
a KW space distribution vector generation means for generating a KW space distribution vector indicating how the locations of the keywords analyzed by the KW existence location analysis means are distributed in text data of the document;
The KW space distribution vector generating means generates, for each document, based on the location of each keyword in the group of keywords in the first to nth stages included in the text data of the document, the first to nth stages and generate KW spatial distribution vectors of
Based on the KW space distribution vectors of the 1st to nth stages generated for each document, the positional relationship between the keywords of the 1st to nth stage keywords and the characteristics of the distribution are evaluated, and the search keywords provided with classification means for determining the relevance between the set of
An information processing system characterized by
With this configuration, the mutual positional relationship and distribution features of the keywords of the keyword group of the first stage and the keywords of the keyword group of the nth stage are local mutual positional relationships and distribution features, and local It is possible to comprehensively evaluate the features of high-order positional relationships that combine various features in a complex manner.
第2の発明は、
第1の発明に記載の情報処理システムにおいて、さらに、
文献のテキストデータ中に含まれるキーワードの存在箇所の近傍に存在するキーワードの係り受け語の存在箇所を解析するKW係受語存在箇所解析手段と、
前記KW係受語存在箇所解析手段によって解析したキーワードの近傍の係り受け語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW係受語空間分布ベクトルを生成するKW係受語空間分布ベクトル生成手段と、を備え、
前記KW係受語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、文献ごとに、第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群の各キーワードとそれに対応する係受語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段を備えたこと、
を特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができる。
The second invention is
In the information processing system according to the first invention, further,
KW dependent word existence location analysis means for analyzing the existence location of the dependent word of the keyword existing in the vicinity of the existence location of the keyword included in the text data of the document;
KW for generating a KW related word space distribution vector indicating how the locations of dependent words near the keyword analyzed by the KW related word presence location analyzing means are distributed in the text data of the document; Dependent word space distribution vector generation means,
The KW dependent word space distribution vector generation means generates for each document based on the presence location of the dependent word corresponding to each keyword of the first to n-th keyword groups included in the text data of the document. , respectively generate the KW-related word space distribution vectors of the 1st to nth stages corresponding to the keyword groups of the 1st to nth stages,
Based on the KW space distribution vectors of the first to nth stages and the KW related word space distribution vectors of the first to nth stages generated for each document,
Features of positional relationships and distributions among keywords in the first to n-th keyword group, and mutual relationships between each keyword in the first to n-th keyword group and their corresponding dependent words Equipped with classification means for evaluating positional relationships and distribution characteristics to determine relevance between a set of search keywords and documents;
An information processing system characterized by
With this configuration, in addition to the characteristics of the distribution of keywords, when there is a dependent word that denies the keyword, the location of the keyword and the characteristics of the distribution of the keyword act in the direction of lowering the evaluation as a characteristic, and the keyword is affirmed or not. When there is a subject word to be emphasized, the feature of the location and distribution of the keyword can act in the direction of strongly evaluating the feature.
第3の発明は、
第1の発明に記載の情報処理システムにおいて、さらに、
文献のテキストデータ中に含まれる技術用語を頻度順に分析する技術用語分析手段と、
前記技術用語分析手段によって分析した技術用語の上位1番目~上位m番目までの技術用語の存在箇所を解析する技術用語存在箇所解析手段と、
前記技術用語存在箇所解析手段によって解析した技術用語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示す技術用語空間分布ベクトルを生成する技術用語空間分布ベクトル生成手段と、を備え、
前記技術用語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて、文献ごとに、上位1番目~上位m番目の技術用語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群のキーワードと前記上位1番目~上位m番目の技術用語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できるようになる。
The third invention is
In the information processing system according to the first invention, further,
technical terminology analysis means for analyzing technical terms included in text data of documents in order of frequency;
a technical term existence location analysis means for analyzing the location of the technical terms from the
a technical term space distribution vector generation means for generating a technical term space distribution vector indicating how the locations of the technical terms analyzed by the technical term presence location analysis means are distributed in the text data of the document; prepared,
The technical term space distribution vector generating means, based on the locations of the top 1 to top m technical terms included in the text data of the document, the top 1 to top m th technology for each document Generate a term space distribution vector, respectively,
Based on the 1st to n-th KW space distribution vectors and the 1st to m-th technical term space distribution vectors generated for each document,
Features of mutual positional relationships and distributions of keywords in the first to n-th keyword groups, and keywords in the first to n-th keyword groups and the top first to top m-th technical terms A classifying means for evaluating the mutual positional relationship and distribution characteristics of and determining the relevance between the set of search keywords and the document;
An information processing system characterized by comprising
With this configuration, in addition to the characteristics of the distribution of keywords, the relationship between the set of keywords and the literature is further evaluated by further evaluating the technical terms that are often present in the literature and the positional relationship with the keywords and the characteristics of the distribution. be able to judge accurately.
第4の発明は、第1の発明の分類手段の構成の詳細の一例であって、
第1の発明に記載の情報処理システムにおいて、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワードの相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワードの相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴マップや、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を評価するための特徴マップを生成し、多面的、総合的な評価ができるようになる。
なお、中間層が2層以上で、全体として3層以上のニューラルネットワークを、一般にディープニューラルネットワークと呼ぶが、本願発明では、ニューラルネットワークにディープニューラルネットワークを含むものとし、特に区別しないで扱うものとする。
A fourth invention is an example of a detailed configuration of the classification means of the first invention,
In the information processing system according to the first invention,
The classification means for determining the relevance between a set of search keywords and documents based on the first to n-th KW space distribution vectors generated for each document is composed of a neural network of at least three layers. if
In the first layer of the neural network,
convolution means for performing convolution processing on the KW space distribution vectors of the first stage to the nth stage using the corresponding convolution filters;
synthesizing means for synthesizing the results of the convolution processing to generate a feature map that extracts the mutual positional relationship and distribution features of the keywords in the first to n-th keyword groups,
In the second and subsequent layers of the neural network,
Convolution means for performing convolution processing using a plurality of convolution filters on a plurality of feature maps generated in the previous layer;
synthesizing means for synthesizing the results of the convolution processing to generate a feature map that extracts high-order features of mutual positional relationships and distributions of keywords in the first to n-th keyword groups;
An information processing system characterized by comprising
With this configuration, the mutual positional relationship and distribution features of the keywords of the keyword group of the first stage and the keywords of the keyword group of the nth stage are local mutual positional relationships and distribution feature maps, local By generating a feature map for evaluating the features of high-order positional relationships, which are composite features combined, it becomes possible to perform multifaceted and comprehensive evaluation.
A neural network with two or more intermediate layers and three or more layers as a whole is generally called a deep neural network. .
第5の発明は、第2の発明の分類手段の構成の詳細の一例であって、
第2の発明に記載の情報処理システムにおいて、
文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトル及び、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及びそれらの係り受け語の相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及びそれらの係り受け語の相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴マップに加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができるような特徴マップを生成し、より多面的、総合的な評価ができるようになる。
A fifth invention is an example of a detailed configuration of the classification means of the second invention,
In the information processing system according to the second invention,
1st to nth KW space distribution vectors generated for each document, and 1st to nth KW-related word space distribution vectors corresponding to the 1st to nth keywords And, when the classification means for determining the relevance between the set of search keywords and the document based on is composed of a neural network of at least three layers,
In the first layer of the neural network,
Corresponding to the KW space distribution vectors of the first to nth stages and the KW-related word space distribution vectors of the first to nth stages corresponding to the keyword groups of the first to nth stages, respectively Convolution means for performing convolution processing using a convolution filter that
synthesizing means for synthesizing the results of the convolution process to generate a feature map that extracts the mutual positional relationships and distribution features of the keywords of the first to nth stage keywords and their dependent words; with
In the second and subsequent layers of the neural network,
Convolution means for performing convolution processing using a plurality of convolution filters on a plurality of feature maps generated in the previous layer;
Combining the results of the convolution process to generate a feature map that extracts the mutual positional relationships and high-order features of the distribution of the keywords in the group of keywords from the first stage to the n-th stage and their dependent words. means and
An information processing system characterized by comprising
With this configuration, in addition to the feature map of the distribution of keywords, when there is a dependent word that denies the keyword, the feature of the location and distribution of the keyword acts in the direction of low evaluation as a feature, and the keyword is affirmed. Or, if there is a catchword to be emphasized, the feature of the location and distribution of the keyword generates a feature map that can act in the direction of strongly evaluating it as a feature, so that more multifaceted and comprehensive evaluation can be performed. become.
第6の発明は、第3の発明の分類手段の構成の詳細の一例であって、
第3の発明に記載の情報処理システムにおいて、
文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトル及び、前記上位1番目~上位m番目の技術用語空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及び上位1番目~上位m番目の技術用語の相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及び上位1番目~上位m番目の技術用語の相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴マップに加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価するできる特徴マップを生成し、より多面的、総合的な評価ができるようになる。
A sixth invention is an example of a detailed configuration of the classification means of the third invention,
In the information processing system according to the third invention,
Based on the 1st to n-th KW space distribution vectors and the 1st to m-th technical term space distribution vectors generated for each document, the set of search keywords and the relationship between the documents When the classification means for determining gender is composed of a neural network of at least three layers,
In the first layer of the neural network,
Convolution means for performing convolution processing on the first to n-th KW space distribution vectors and the first to top m-th technical term space distribution vectors using convolution filters corresponding to them, respectively ,
By synthesizing the results of the convolution process, generate a feature map that extracts the mutual positional relationships and distribution features of the keywords in the 1st to n-th keyword groups and the top 1 to top m-th technical terms. and a synthesizing means for
In the second and subsequent layers of the neural network,
Convolution means for performing convolution processing using a plurality of convolution filters on a plurality of feature maps generated in the previous layer;
By synthesizing the results of the convolution process, the mutual positional relationship and high-order features of the distribution of the keywords in the 1st to nth stage keywords and the top 1st to top mth technical terms are extracted. a compositing means for generating a map;
An information processing system characterized by comprising
With this configuration, in addition to the feature map of the distribution of keywords, a feature map that can further evaluate the positional relationship with keywords and the characteristics of the distribution of technical terms that are often found in the literature is generated. evaluation becomes possible.
第7の発明は、KW空間分布ベクトルによる分類手段の学習処理の一例であって、
第1の発明又は第4の発明のいずれか1つに記載の情報処理システムにおいて、
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した前記ラベル値との誤差に基づいて、前記分類手段のパラメータを更新する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習すること、
を特徴とする情報処理システムである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を評価できる学習済み機械学習モデルを生成することができる。
A seventh invention is an example of a learning process of a classification means using a KW space distribution vector,
In the information processing system according to any one of the first invention or the fourth invention,
means for acquiring a learning data set in which a set of search keywords, text data of a document, and a label value indicating the relationship between the set of search keywords and the document are associated;
Learning processing means for updating the parameters of the classification means based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the obtained label value,
inputting the KW spatial distribution vectors of the first stage to the nth stage generated for each document based on the learning data set into the classification means;
The learning processing means learns by updating the parameters of the classification means based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value. matter,
An information processing system characterized by
With this configuration, the mutual positional relationship and distribution features of the keywords of the keyword group of the first stage and the keywords of the keyword group of the nth stage, the local mutual positional relationship and distribution characteristics, and the local It is possible to generate a trained machine learning model that can evaluate features of high-order positional relationships that combine various features in a complex manner.
第8の発明は、KW空間分布ベクトルとKW係受語空間分布ベクトルによる分類手段の学習処理の一例であって、
請求項2又は請求項5のいずれか1つに記載の情報処理システムにおいて、
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとに基づいて、検索キーワードのセットと文献との関連性を判定する分類手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて、文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習処理を行うこと、
を特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができる学習済み機械学習モデルを生成することができる。
An eighth invention is an example of learning processing of a classifying means using a KW space distribution vector and a KW dependent word space distribution vector,
In the information processing system according to any one of
means for acquiring a learning data set in which a set of search keywords, text data of a document, and a label value indicating the relationship between the set of search keywords and the document are associated;
The 1st to n-th KW space distribution vectors generated for each document, and the 1st to n-th KW related word space distribution vectors corresponding to the 1st to n-th keywords A classification means for determining the relevance between a set of search keywords and documents based on
Learning processing means for learning parameters of the classification means based on the error between the score value of the relevance between the set of search keywords and the document output by the classification means and the label value,
Based on the learning data set, the 1st to nth KW spatial distribution vectors generated for each document, and the 1st to nth stages corresponding to the keyword groups of the 1st to nth stages inputting the KW related word space distribution vector into the classification means;
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means updates the parameters of the classification means to perform learning processing. to do
An information processing system characterized by
With this configuration, in addition to the characteristics of the distribution of keywords, when there is a dependent word that denies the keyword, the location of the keyword and the characteristics of the distribution of the keyword act in the direction of lowering the evaluation as a characteristic, and the keyword is affirmed or not. When there is a subject word to be emphasized, it is possible to generate a trained machine learning model that can act in the direction of strongly evaluating the location and distribution of the keyword as a feature.
第9の発明は、KW空間分布ベクトルと技術用語空間分布ベクトルによる分類手段の学習処理の一例であって、
第3の発明は第6の発明のいずれか1つに記載の情報処理システムにおいて、
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて、文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習処理を行うこと、
を特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できる学習済み機械学習モデルを生成することができる。
A ninth invention is an example of a learning process of a classification means using a KW space distribution vector and a technical term space distribution vector,
A third invention is the information processing system according to any one of the sixth inventions,
means for acquiring a learning data set in which a set of search keywords, text data of a document, and a label value indicating the relationship between the set of search keywords and the document are associated;
Learning processing means for learning parameters of the classification means based on the error between the score value of the relevance between the set of search keywords and the document output by the classification means and the label value,
Based on the learning data set, the 1st to n-th KW space distribution vectors generated for each document and the top 1 to top m-th technical term space distribution vectors are input to the classification means. death,
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means updates the parameters of the classification means to perform learning processing. to do
An information processing system characterized by
With this configuration, in addition to the characteristics of the distribution of keywords, the relationship between the set of keywords and the literature can be further evaluated by further evaluating the technical terms that are often present in the literature and the positional relationship with the keywords and the characteristics of the distribution. A trained machine learning model that can be accurately determined can be generated.
第10の発明は、
KW空間分布ベクトルを含む学習データであって、いわゆるデータ構造の発明であり、具体的には、
第7の発明に記載の分類手段の学習処理に用いられる学習用ベクトルデータであって、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、文献ごとに生成した第1段~第n段のKW空間分布ベクトル、
を含む学習用ベクトルデータである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価するための機械学習モデルを生成することができる。
A tenth invention is
Learning data containing KW spatial distribution vectors, which is a so-called data structure invention, specifically,
Learning vector data used for learning processing of the classification means according to the seventh invention,
The KW space distribution vector generating means generates the 1st to n-th columns for each document based on the location of each keyword in the group of keywords in the 1st to n-th columns included in the text data of the document. the KW spatial distribution vector of the stages,
It is vector data for learning including
With this configuration, the mutual positional relationship and distribution features of the keywords of the keyword group of the first stage and the keywords of the keyword group of the nth stage, the local mutual positional relationship and distribution characteristics, and the local It is possible to generate a machine learning model for comprehensively evaluating features of high-order positional relationships that combine various features.
第11の発明は、
KW空間分布ベクトルとKW係受語空間分布ベクトルを含む学習データであって、いわゆるデータ構造の発明であり、具体的には、
第8の発明に記載の分類手段の学習処理に用いられる学習用ベクトルデータであって、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段の各キーワードの存在箇所に基づいて、前記第1段~第n段のキーワード群ごとに分けて文献ごとに生成した第1段~第n段のKW空間分布ベクトルと、
前記KW係受語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、文献ごとに生成した第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、
を含む学習用ベクトルデータである。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させる機械学習モデルを生成することができる。
The eleventh invention is
Learning data containing a KW space distribution vector and a KW related word space distribution vector, which is a so-called data structure invention, specifically,
Learning vector data used for learning processing of the classification means according to the eighth invention,
The KW space distribution vector generating means divides into the first to n-th keyword groups based on the location of each of the first to n-th keywords contained in the document text data. and the KW spatial distribution vector of the first stage to the nth stage generated for each document by
The KW dependent word space distribution vector generating means generates for each document based on the location of the dependent word corresponding to each keyword of the first to n-th keyword groups included in the text data of the document. 1st stage to nth stage KW-related word space distribution vector corresponding to the 1st stage to nth stage keyword group generated in
It is vector data for learning including
With this configuration, in addition to the characteristics of the distribution of keywords, when there is a dependent word that denies the keyword, the location of the keyword and the characteristics of the distribution of the keyword act in the direction of lowering the evaluation as a characteristic, and the keyword is affirmed or not. When there is a subject word to be emphasized, it is possible to generate a machine learning model that acts in the direction of strongly evaluating the presence location and distribution of the keyword as a feature.
第12の発明は、
KW空間分布ベクトルと技術用語空間分布ベクトルを含む学習データであって、いわゆるデータ構造の発明であり、具体的には、
第9の発明に記載の分類手段の学習処理に用いられる学習用ベクトルデータであって、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、前記第1段~第n段のキーワード群ごとに分けて、文献ごとに生成した第1段~第n段のKW空間分布ベクトルと、
前記技術用語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて文献ごとに生成した上位1番目~上位m番目の技術用語空間分布ベクトルと、
を含む学習用ベクトルデータである。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できる機械学習モデルを生成することができる。
A twelfth invention is
Learning data containing the KW spatial distribution vector and the technical term spatial distribution vector, which is a so-called data structure invention, specifically:
Learning vector data used for learning processing of the classification means according to the ninth invention,
The KW space distribution vector generating means generates the first to n-th keyword groups based on the location of each keyword in the first to n-th keyword groups included in the text data of the document. Separated into each, the KW spatial distribution vector of the 1st stage to the nth stage generated for each document,
The top 1 to top m-th technologies generated by the technical term space distribution vector generation means for each document based on the locations of the top 1 to top m-th technical terms included in the text data of the document. a term spatial distribution vector;
It is vector data for learning including
With this configuration, in addition to the characteristics of the distribution of keywords, the relationship between the set of keywords and the literature is further evaluated by further evaluating the technical terms that are often present in the literature and the positional relationship with the keywords and the characteristics of the distribution. It can generate machine learning models that can make accurate decisions.
第13の発明は、
第4の発明又は第7の発明において学習処理が進んだ後の学習済みモデルの発明であり、具体的には、
第4の発明又は第7の発明に記載の情報処理システムにおいて、前記学習処理手段によって学習した、検索キーワードのセットと文献との関連性を判定するための学習済みモデルであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した前記ラベル値との誤差に基づいて、前記分類手段のパラメータを更新する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデルである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価する学習モデルを提供することができる。
A thirteenth invention is
The invention of the trained model after the learning process has progressed in the fourth invention or the seventh invention, specifically:
In the information processing system according to the fourth invention or the seventh invention, a learned model learned by the learning processing means for determining the relevance between a set of search keywords and a document,
Learning processing means for updating the parameters of the classification means based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the obtained label value,
inputting the KW spatial distribution vectors of the first stage to the nth stage generated for each document based on the learning data set into the classification means;
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means obtains by learning processing for updating the parameters of the classification means. It is a trained model that has been
With this configuration, the mutual positional relationship and distribution features of the keywords of the keyword group of the first stage and the keywords of the keyword group of the nth stage are local mutual positional relationships and distribution features, and local It is possible to provide a learning model that comprehensively evaluates features of high-order positional relationships in which various features are combined.
第14の発明は、
第5の発明又は第8の発明において学習処理が進んだ後の学習済みモデルの発明であり、具体的には、
第5の発明又は第8の発明に記載の情報処理システムにおいて、前記学習処理手段によって学習した、検索キーワードのセットと文献との関連性を判定するための学習済みモデルであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデルである。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させる学習モデルを提供することができる。
A fourteenth invention is
The invention of the trained model after the learning process has progressed in the fifth invention or the eighth invention, specifically,
In the information processing system according to the fifth invention or the eighth invention, a learned model learned by the learning processing means for determining the relevance between a set of search keywords and a document,
Learning processing means for learning parameters of the classification means based on the error between the score value of the relevance between the set of search keywords and the document output by the classification means and the label value,
KW spatial distribution vectors of the 1st to nth stages generated for each document based on the learning data set, and KWs of the 1st to nth stages corresponding to the keyword groups of the 1st to nth stages inputting the dependent word space distribution vector into the classification means;
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means obtains by learning processing for updating the parameters of the classification means. It is a trained model that has been
With this configuration, in addition to the characteristics of the distribution of keywords, when there is a dependent word that denies the keyword, the location of the keyword and the characteristics of the distribution of the keyword act in the direction of lowering the evaluation as a characteristic, and the keyword is affirmed or not. When there is a subject word to be emphasized, it is possible to provide a learning model that works in the direction of strongly evaluating the presence location and distribution of the keyword as a feature.
第15の発明は、
第6の発明又は第9の発明において学習処理が進んだ後の学習済みモデルの発明であり、具体的には、
第6の発明又は第9の発明に記載の情報処理システムにおいて、前記学習処理手段によって学習した、検索キーワードのセットと文献との関連性を判定するための学習済みモデルであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデルである。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できる学習モデルを提供することができる。
A fifteenth invention is
The invention of the trained model after the learning process has progressed in the sixth invention or the ninth invention, specifically,
In the information processing system according to the sixth or ninth invention, a learned model learned by the learning processing means for determining the relevance between a set of search keywords and a document,
Learning processing means for learning parameters of the classification means based on the error between the score value of the relevance between the set of search keywords and the document output by the classification means and the label value,
The first to n-th KW space distribution vectors generated for each document based on the learning data set and the top 1 to top m-th technical term space distribution vectors are input to the classification means. ,
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means obtains by learning processing for updating the parameters of the classification means. It is a trained model that has been trained.
With this configuration, in addition to the characteristics of the distribution of keywords, the relationship between the set of keywords and the literature is further evaluated by further evaluating the technical terms that are often present in the literature and the positional relationship with the keywords and the characteristics of the distribution. It is possible to provide a learning model capable of making an accurate determination.
第16の発明は、
第7~第9の発明のいずれか1つに記載の情報処理システムにおける学習処理によって得られた学習済みモデルにおけるパラメータであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新して得られた学習後のパラメータである。
この構成により、パラメータだけの提供を受けて、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価する学習モデルを生成できる。
A sixteenth invention is
A parameter in a trained model obtained by learning processing in the information processing system according to any one of the seventh to ninth inventions,
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means updates the parameters of the classification means. It is a parameter after learning.
With this configuration, only the parameters are provided, and the mutual positional relationship and distribution characteristics of the keywords of the keyword group of the first stage and the keywords of the keyword group of the nth stage are local mutual positional relationships It is possible to generate a learning model that comprehensively evaluates features of high-order positional relationships that are combined with features of distribution and local features.
第17の発明は、
学習済みモデルを利用した判定処理システムの発明であって、
第7~第9の発明のいずれか1つに記載の情報処理システムにおける学習処理によって得られた学習済みモデルを利用して、検索キーワードのセットと文献との関連性を判定する情報処理システムである。
A seventeenth invention is
An invention of a judgment processing system using a trained model,
An information processing system that determines the relevance between a set of search keywords and documents by using a trained model obtained by learning processing in the information processing system according to any one of the seventh to ninth inventions be.
第18の発明は、
第7~第9の発明のいずれか1つに記載の情報処理システムにおける学習処理によって得られた学習済みモデルを利用して、検索キーワードのセットと文献との関連性を判定する情報処理システムにおいて、
検索キーワードのセットと文献との関連性が高いと判定される順番で判定結果を出力する手段と、
実際にサーチャーが関連性が高いと判断する文献の上位p%の文献が含まれている可能性が高い範囲を区別表示する手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、内部がブラックボックスの機械学習モデルを採用しても、出力結果の信頼性の見通しを立てることができる。
The eighteenth invention is
In an information processing system that determines the relevance between a set of search keywords and a document by using a trained model obtained by learning processing in the information processing system according to any one of the seventh to ninth inventions ,
means for outputting determination results in the order in which the set of search keywords and the document are determined to be highly relevant;
A means for distinguishingly displaying a range that is likely to include the top p% of documents that the searcher actually judges to be highly relevant;
An information processing system characterized by comprising
With this configuration, even if a machine learning model with a black box inside is adopted, it is possible to predict the reliability of the output result.
第19の発明は、第1の発明に対応する方法の発明であり、
検索キーワードのセットと文献との関連性を判定する方法であって、
文献のテキストデータを取得するステップと、
検索キーワードのセットとして、第1段~第n段のキーワード群のセットで取得するステップと、
文献のテキストデータ中に含まれるキーワードの存在箇所を解析するKW存在箇所解析ステップと、
前記KW存在箇所解析手段によって解析したキーワードの存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成するKW空間分布ベクトル生成ステップと、を備え、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、第1段~第n段のKW空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法である。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価することができる。
A nineteenth invention is an invention of a method corresponding to the first invention,
A method for determining the relevance between a set of search keywords and a document,
obtaining text data of the literature;
a step of obtaining a set of keywords from the 1st stage to the nth stage as a set of search keywords;
a KW presence location analysis step of analyzing the location of keywords included in the text data of the document;
a KW space distribution vector generation step of generating a KW space distribution vector indicating how the presence locations of the keywords analyzed by the KW presence location analysis means are distributed in the text data of the document;
The KW space distribution vector generating means generates the KW space distribution of the first to n-th stages based on the location of each keyword in the first to n-th stage keywords included in the text data of the document. generate vectors respectively,
Based on the KW space distribution vectors of the 1st to nth stages generated for each document, the positional relationship between the keywords of the 1st to nth stage keywords and the characteristics of the distribution are evaluated, and the search keywords determining the relevance of the set of
An information processing method characterized by
With this configuration, the mutual positional relationship and distribution features of the keywords of the keyword group of the first stage and the keywords of the keyword group of the nth stage are local mutual positional relationships and distribution features, and local It is possible to comprehensively evaluate the features of high-order positional relationships that combine various features in a complex manner.
第20の発明は、第2の発明に対応する方法の発明であり、
第19の発明に記載の情報処理方法において、さらに、
文献のテキストデータ中に含まれるキーワードの存在箇所の近傍に存在するキーワードの係り受け語の存在箇所を解析するKW係受語存在箇所解析ステップと、
前記KW係受語存在箇所解析ステップによって解析したキーワードの近傍の係り受け語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW係受語空間分布ベクトルを生成するKW係受語空間分布ベクトル生成ステップと、を備え、
前記KW係受語空間分布ベクトル生成ステップにより、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係又は分布の特徴、および、前記第1段~第n段のキーワード群の各キーワードとそれに対応する係受語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法である。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができる。
A twentieth invention is an invention of a method corresponding to the second invention,
The information processing method according to the nineteenth invention, further comprising:
a KW dependent word existence location analysis step of analyzing the existence location of a dependent word of a keyword existing in the vicinity of the location of the keyword included in the text data of the document;
KW for generating a KW-related word space distribution vector showing how the locations of dependent words near the keyword analyzed by the KW-dependent word presence location analyzing step are distributed in the text data of the document; a dependent word space distribution vector generation step;
According to the KW dependent word space distribution vector generation step, the first Generating KW related word space distribution vectors of the 1st to n-th stages corresponding to the keyword groups of the 1st to n-th stages,
The 1st to n-th KW space distribution vectors generated for each document, and the 1st to n-th KW related word space distribution vectors corresponding to the 1st to n-th keywords ,On the basis of the,
Features of positional relationships or distributions among keywords in the first to n-th keyword group, and mutual relationships between each keyword in the first to n-th keyword group and their corresponding dependent words Evaluating the positional relationship and distribution characteristics to determine the relevance between the set of search keywords and the document,
An information processing method characterized by
With this configuration, in addition to the characteristics of the distribution of keywords, when there is a dependent word that denies the keyword, the location of the keyword and the characteristics of the distribution of the keyword act in the direction of lowering the evaluation as a characteristic, and the keyword is affirmed or not. When there is a subject word to be emphasized, the feature of the location and distribution of the keyword can act in the direction of strongly evaluating the feature.
第21の発明は、第3の発明に対応する方法の発明であり、
第19の発明に記載の情報処理方法において、さらに、
文献のテキストデータ中に含まれる技術用語を頻度順に分析する技術用語分析ステップと、
前記技術用語分析ステップによって分析した技術用語の上位1番目~上位m番目までの技術用語の存在箇所を解析する技術用語存在箇所解析ステップと、
前記技術用語存在箇所解析ステップによって解析した技術用語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示す技術用語空間分布ベクトルを生成する技術用語空間分布ベクトル生成ステップと、を備え、
前記技術用語空間分布ベクトル生成ステップにより、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて、上位1番目~上位m番目の技術用語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群のキーワードと前記上位1番目~上位m番目の技術用語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法である。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できるようになる。
A twenty-first invention is an invention of a method corresponding to the third invention,
The information processing method according to the nineteenth invention, further comprising:
A technical term analysis step of analyzing technical terms included in text data of documents in order of frequency;
A technical term presence location analysis step of analyzing the locations of the technical terms from the top 1 to the top m of the technical terms analyzed by the technical term analysis step;
a technical term space distribution vector generation step of generating a technical term space distribution vector indicating how the locations of the technical terms analyzed by the technical term presence location analysis step are distributed in the text data of the document; prepared,
By the technical term space distribution vector generation step, the top 1 to top m th technical term space distribution vectors based on the locations of the top 1 to top m th technical terms included in the text data of the document respectively, and
Based on the first to n-th KW spatial distribution vectors generated for each document and the top 1 to top m-th technical term space distribution vectors,
Features of mutual positional relationships and distributions of keywords in the first to n-th keyword groups, and keywords in the first to n-th keyword groups and the top first to top m-th technical terms Evaluating the mutual positional relationship and distribution characteristics with, to determine the relevance between the set of search keywords and the document,
An information processing method characterized by
With this configuration, in addition to the characteristics of the distribution of keywords, the relationship between the set of keywords and the literature is further evaluated by further evaluating the technical terms that are often present in the literature and the positional relationship with the keywords and the characteristics of the distribution. be able to judge accurately.
第22の発明は、コンピュータシステムにおいて、第19の発明~第21の発明のいずれか1つに記載の情報処理方法を実行するプログラムである。 A twenty-second invention is a program for executing the information processing method according to any one of the nineteenth invention to the twenty-first invention in a computer system.
本発明によれば、検索キーワードのセットと文献との関連性を判定する情報処理システム、情報処理方法及びプログラムを提供することができる。 According to the present invention, it is possible to provide an information processing system, an information processing method, and a program for determining the relevance between a set of search keywords and a document.
以下、本発明の実施の形態を図に基づいて説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings.
本願発明の実施の形態において、文献調査における情報処理装置について説明する。 In the embodiment of the present invention, an information processing apparatus for document research will be described.
1.本願発明の全体概要について
図2は、本願発明の実施の形態における情報処理装置1000を含むシステム構成の一例である。図2において、情報処理装置1000と、1または2以上のユーザー端末3000、3100とが、通信ネットワーク2000を介して接続されている。
1. Overall Overview of the Present Invention FIG. 2 is an example of a system configuration including an
この形態では、情報処理端末1000で、検索キーワードのセットと文献との関連性の判定処理を行い、ユーザー端末3000、3100において、キーワードの入力や判定結果の画面表示等の出力を行う。
通信ネットワーク2000は、有線、または無線の通信回線であり、例えば、WAN(Wide Area Network)などのインターネット、LAN(Local Area Network)、衛星回線、公衆電話回線等である。
In this embodiment, the
The
情報処理装置1000は、サーバーやクラウドのほか、一定の処理能力のあるコンピュータであればよく、デスクトップパソコン、ノートパソコンなどであっても構わない。
また、図示しないが、情報処理装置1000は、データを処理して各種の処理を行うための中央処理装置(CPU)からなる制御手段、プログラムや各種データを記憶したり処理の途中経過を一時を記憶する記憶手段、文献データや検索キーワード、各種の設定値を取得するための入力手段、判定結果を印刷したり表示するための出力手段、通信ネットワークと通信するための通信手段を備えている。
The
Also, although not shown, the
そして、記憶手段に記憶したプログラムは、一時記憶手段などにロードされて、中央処理装置がプログラムの各ステップを実行することにより、後述の解析手段300や分類手段500などの各手段を構成する。
なお、図2では、モニタ装置を備えているが、モニタ装置はあってもなくても構わない。
Then, the program stored in the storage means is loaded into the temporary storage means or the like, and the central processing unit executes each step of the program to configure each means such as the analysis means 300 and the classification means 500 which will be described later.
In addition, although the monitor device is provided in FIG. 2, the monitor device may or may not be provided.
また、ユーザー端末3000、3100は、通信ネットワーク2000に接続可能な端末であれば良い。例えば、ユーザー端末3000、3100は、デスクトップパソコン、ノートパソコン、スマートフォン、またはスマートウォッチ、VRヘッドセットなどの頭部に装着するゴーグルタイプのヘッドアップディスプレイや眼鏡タイプの端末など、各種の携帯情報端末やPDA (Personal Digital Assistant)であっても良い。
Also, the
また、ユーザー端末3000、3100は、制御手段、記憶手段、入力手段、判定結果を表示したり印刷したりするための出力手段などを、必要に応じて選択的に備えている。
なお、上記の説明では、ネットワークで構成されるシステムを例に説明したが、これに限定されるものではなく、例えば、判定処理を行う情報処理装置1000と、入力操作や判定結果の出力を行う端末3000、3100とが一つの情報処理装置1000に集約された、いわゆるスタンドアローン装置の形態であっても構わない。
In addition, the
In the above description, a system configured by a network has been described as an example, but the present invention is not limited to this.
図3を元に、本願発明の検索キーワードのセットと文献との関連性を判定する判定処理および学習処理の概要を説明する。
図3は、本願発明の実施の形態における情報処理装置1000の全体構成の一例を示す図であって、各処理の機能ブロックを示したものである。
本ブロック図の構成のうち、記号100~500までの機能ブロックは、判定処理および学習処理でも共通であり、判定処理では、文献のテキストデータおよび検索キーワードを取得してスコア出力までであるのに対し、学習処理では、スコア出力とラベル(教師データ)との誤差に基づいて分類手段(機械学習モデル)500のパラメータを更新する処理が追加される点で相違する。
With reference to FIG. 3, an overview of determination processing and learning processing for determining the relevance between a set of search keywords and documents according to the present invention will be described.
FIG. 3 is a diagram showing an example of the overall configuration of the
Of the configuration of this block diagram, the functional blocks from
なお、機械学習モデルの開発に際しては、(1)素材であるデータの、どのような特徴をどのように抽出して、素材の素性をよく表現できるように、素性ベクトル化するかという「素性エンジニアリング(特徴表現エンジニアリングともいう)」の場面と、(2)畳み込み層やプーリング層の配置や、畳み込みフィルタの構成やチャネル数(種類数)および配置、ニューラルネットワークの段数、フィードフォワード・ネットワークか再帰型ニューラルネットワークのいずれを採用するかといった、どのような構造の分類器(機械学習モデル)を構築するかという「機械学習モデルの構造設計」の場面と、(3)どのような学習データと教師データのセットを用意して、どのような単位(ミニバッチサイズ、エポック数、学習率など)で、どのようなアルゴリズム(勾配降下法、誤差逆伝搬法、ドロップアウト等)を利用して学習するかという「学習処理」の場面とがある。 In addition, when developing a machine learning model, (1) what kind of features of the data, which is the material, are extracted and how, and how to convert them into feature vectors so that the features of the material can be expressed well. (also called feature expression engineering)”, (2) arrangement of convolution layers and pooling layers, configuration of convolution filters, number of channels (number of types) and arrangement, number of neural network stages, feedforward network or recursive type (3) What kind of training data and teacher data Prepare a set of, what unit (mini-batch size, number of epochs, learning rate, etc.) and what algorithm (gradient descent, error backpropagation, dropout, etc.) to use for learning There is a scene of "learning processing".
<判定処理>
情報処理装置1000は、特許文献や論文、裁判例などの文献のテキストデータ100と、文献データを検索した検索キーワード200を取得する手段を備えている。文献データは、ネットワーク上の各種サーバーやクラウド、あるいは情報処理システム1000やユーザー端末3000、3100の記憶手段に記憶されているものを利用可能である。
検索キーワードは、例えば、第1段目のキーワード群(例えば、メールor通信文)and第2段目のキーワード群(例えば、迷惑orスパム)and第3段目のキーワード群(例えば、フィルタor分離or検出)and第4段の・・・、のように、同義語や類似する概念をひとまとめにした第1段~第n段のキーワード群を掛け合わせる形で、複数段のキーワード群の組み合わせとして取得することができる。
<Determination process>
The
The search keywords are, for example, the first-level keyword group (e.g., mail or correspondence), the second-level keyword group (e.g., nuisance or spam), and the third-level keyword group (e.g., filter or separation Or detection) and 4th stage ..., etc., as a combination of multiple stages of keyword groups in the form of multiplying the keyword groups of the 1st to nth stages that group together synonyms and similar concepts can be obtained.
次に、解析手段300が、文献のテキストデータ100を単語等の形態素に分解する形態素解析を行うと共に、解析手段300のKW存在箇所解析手段(図示せず)が、取得した第1段~第n段のキーワード群の各キーワードが文献中に存在している箇所をそれぞれ調べ、第1段~第n段のキーワード群ごとに分けて、キーワードの分布状況解析結果を一時保存する。
そして、素性ベクトル生成手段(空間分布ベクトル生成手段)400は、第1段~第n段のキーワード群ごとにそれぞれ分けて記録したキーワードの分布状況解析結果に基づいて、第1段~第n段のキーワード群ごとに分けて、キーワードの存在箇所や分布の特徴をベクトル化した、各段のキーワードの空間分布ベクトルを、各段ごとに分けてそれぞれ生成する。
なお、素性ベクトル(空間分布ベクトル)とは、文献中の(検索)キーワードやキーワードの係り受け語又は技術用語などの単語の存在箇所や分布の特徴を示すベクトル化された指標をいう。
このため、文献中の(検索)キーワードの存在箇所や分布の特徴を示す場合に「KW空間分布ベクトル」と呼び、キーワードの係り受け語の場合に「KW係受語空間分布ベクトル」、技術用語の場合に「技術用語空間分布ベクトル」と呼ぶこととする。
同様に、素性ベクトル生成手段(空間分布ベクトル生成手段)400は、キーワードの場合に「KW空間分布ベクトル生成手段」、キーワードの係り受け語の場合に「KW係受語空間分布ベクトル生成手段」、技術用語の場合を「技術用語空間分布ベクトル生成手段」と呼ぶこととする。
Next, the analysis means 300 performs a morphological analysis that decomposes the
Then, the feature vector generating means (spatial distribution vector generating means) 400, based on the keyword distribution analysis results recorded separately for each keyword group of the 1st to nth stages, is divided into each keyword group, and a spatial distribution vector of the keyword in each stage is generated by vectorizing the location and distribution characteristics of the keyword, separately for each stage.
Note that the feature vector (spatial distribution vector) is a vectorized index that indicates the location and distribution of words such as (search) keywords in documents, dependent words of keywords, and technical terms.
For this reason, it is called a "KW spatial distribution vector" when indicating the location and distribution characteristics of a (search) keyword in a document, is called a "technical term spatial distribution vector".
Similarly, the feature vector generation means (spatial distribution vector generation means) 400 includes "KW space distribution vector generation means" for keywords, "KW dependent word space distribution vector generation means" for dependent words of keywords, The case of technical terms is called "technical term space distribution vector generating means".
具体的には、素性ベクトル生成手段(KW空間分布ベクトル生成手段)400は、まず、第1段のキーワード群(例えば、メールor通信文)の各キーワードの分布状況解析結果に基づいて、文献中の第1段のキーワード群の各キーワードの存在箇所が、文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成する。 Specifically, the feature vector generation means (KW space distribution vector generation means) 400 first uses A KW space distribution vector is generated that indicates how the location of each keyword of the keyword group in the first row of is distributed in the text data of the document.
次いで、第2段のキーワード群の各キーワードの分布状況解析結果に基づいて、文献中の第2段のキーワード群(例えば、「迷惑orスパム」)の各キーワードの存在箇所が、文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成する。
以下、同様に、第n段のキーワード群ごとに分けて、各段のKW空間分布ベクトルをそれぞれ生成する。
Then, based on the distribution analysis result of each keyword of the second-stage keyword group, the presence location of each keyword of the second-stage keyword group (for example, "nuisance or spam") in the document is the text data of the document Generate a KW spatial distribution vector that indicates how it is distributed in
Thereafter, similarly, the keyword group is divided for each n-th stage keyword group, and a KW space distribution vector for each stage is generated.
ここで、第1段~第n段のキーワード群ごとに分けて、各段のキーワード空間分布ベクトルをそれぞれ生成するのは、従来技術のように全ての段のキーワードのヒット箇所を含んだ文献ベクトルを作成してしまうと、各段のキーワード同士の近傍の位置関係や分布の特徴をうまく拾い上げることができないので、あえて、各段のキーワード群ごとに、キーワードの存在箇所をベクトル化する趣旨である。なお、キーワード同士が近傍の位置関係にある場合とは、例えば、キーワード同士が同じ段落の中で数単語程度離れている場合や、キーワード同士が前後の段落など段落同士が近接している場合などをいう。 Here, the keyword space distribution vector for each stage is generated separately for each keyword group from the 1st stage to the n-th stage because the literature vector containing the hit points of the keywords for all stages is generated as in the prior art. is created, it is not possible to pick up the positional relationship and distribution characteristics of the neighboring keywords in each row. . Note that when keywords are in a positional relationship close to each other, for example, when the keywords are separated by several words in the same paragraph, or when the paragraphs are close to each other, such as the paragraphs before and after the keywords. Say.
より具体的には、第1段のキーワード群(例えば「メールor通信文」)の各キーワードの分布状況を示す第1段のKW空間分布ベクトル、第2段のキーワード群(例えば「迷惑orスパム」)の各キーワードの分布状況を示す第2段のKW空間分布ベクトル、・・・第n段のキーワード群(例えば「フィルタor分離or検出」)の各キーワードの分布状況を示す第n段のKW空間分布ベクトル、のように、各段のキーワード群ごとに分けて、各段のキーワード空間分布ベクトルをそれぞれ生成する。 More specifically, the KW spatial distribution vector in the first stage indicating the distribution of each keyword in the keyword group in the first stage (e.g., "mail or correspondence"), the keyword group in the second stage (e.g., "nuisance or spam ”), the second KW space distribution vector showing the distribution of each keyword, . A keyword space distribution vector for each stage is generated by dividing the keyword groups for each stage, such as KW space distribution vector.
そのうえで、各段のキーワード空間分布ベクトルを所定の畳み込みフィルタで畳み込み処理したり、畳み込み結果を合成することにより、第1段~第n段のキーワード群のキーワード相互の位置関係や分布の特徴、および、それらの特徴を多面的に組み合わせた高次の特徴を順次評価できるニューラルネットワークで構成される分類手段500を構築することができる。
分類手段500は、文献のテキストデータと検索キーワードに基づいて文献ごとに生成したKW空間分布ベクトル、に基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する。
After that, by convolving the keyword space distribution vector of each stage with a predetermined convolution filter and synthesizing the convolution results, the positional relationship and distribution characteristics of the keywords of the first to n-th stage keywords, and , a classification means 500 composed of a neural network that can sequentially evaluate higher-order features that are multifaceted combinations of these features can be constructed.
Based on the KW space distribution vector generated for each document based on the text data of the document and the search keyword, the classification means 500 identifies the positional relationships and distribution features of the keywords in the first to n-th level keywords. to determine the relevance of the set of search keywords to the document.
<学習処理>
学習が進む前の分類手段500は、十分な精度で判定することができないため、学習処理手段600によって、学習処理(機械学習)を行う。
なお、機械学習とは、データの変化に応じて、分類するためのラインを数学的な処理で求めることをいう。分類するためのラインは、データとの誤差が最小になるように決定(学習)するが、このときに使う関数として、二乗平均などがあり、機械学習では、誤差関数とか損失関数と呼ぶ。機械学習モデルとして(ディープ)ニューラルネットワークを選択した場合、畳み込みフィルタの重みなどのパラメータを、誤差関数が最小になるように更新していく処理を機械学習(トレーニング)という。
<Learning processing>
Since the classification means 500 before learning progresses cannot determine with sufficient accuracy, learning processing (machine learning) is performed by the learning processing means 600 .
Note that machine learning means obtaining lines for classification by mathematical processing according to changes in data. The line for classification is determined (learned) so that the error with the data is minimized, and the function used at this time is the mean square, etc. In machine learning, it is called the error function or loss function. When a (deep) neural network is selected as a machine learning model, machine learning (training) is the process of updating parameters such as the weights of convolution filters so that the error function is minimized.
学習処理手段600は、分類手段500が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した教師データであるラベル値との誤差に基づいて、勾配降下法、誤差逆伝搬法などの手法に基づいて、分類手段500のパラメータを更新することで学習処理を行う。
より具体的には、学習処理は、図11に示すような学習用データのセット(DATA1のキーワードのセット、文献1~j、DATA2のキーワードのセットおよび文献1~k)を、情報処理システム1000に入力して、分類手段500の出力したスコア値と、ラベル値(教師データ)との誤差に基づいて、分類手段500のパラメータを更新することで行う。
学習処理は、図12~図14のように、一定のまとまった単位で(ミニバッチサイズなど)、パラメータを更新する度合いを定めて(学習率)、所定の回数(エポック数)だけ行う。
なお、学習処理においては、分類手段500の汎化性能やロバスト性能を向上させたり、偏りのある過学習を防ぐためにドロップアウト法を適宜用いて行う。
学習が十分に進んだ分類手段500は、文献のテキストデータと検索キーワードに基づいて文献ごとに生成したKW空間分布ベクトル、に基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を精度よく評価して、検索キーワードのセットと文献との関連性を、一定の精度で判定することができるようになる。
なお、十分な学習(トレーニング)を経た後の分類手段(機械学習モデル)500を「学習済み機械学習モデル」と呼ぶ。
The learning processing means 600 performs gradient descent and error backpropagation based on the error between the score value of the association between the search keyword set and the document output by the classification means 500 and the label value that is the acquired teacher data. The learning process is performed by updating the parameters of the classification means 500 based on a technique such as a method.
More specifically, in the learning process, a set of data for learning as shown in FIG. , and updates the parameters of the classification means 500 based on the error between the score value output by the classification means 500 and the label value (teacher data).
As shown in FIGS. 12 to 14, the learning process is performed a predetermined number of times (the number of epochs) by determining the degree of parameter update (learning rate) in a fixed group of units (mini-batch size, etc.).
In the learning process, the dropout method is appropriately used in order to improve the generalization performance and robust performance of the classifying means 500 and to prevent biased over-learning.
Classification means 500 that has sufficiently advanced learning, based on the text data of the document and the KW spatial distribution vector generated for each document based on the search keyword, By evaluating the positional relationships and distribution features with high accuracy, it becomes possible to determine the relevance between the search keyword set and the document with a certain degree of accuracy.
Note that the classification means (machine learning model) 500 that has undergone sufficient learning (training) is called a "learned machine learning model".
なお、検索キーワードのセットと文献との関連性の判定処理は、機械学習をベースとした分類手段500や学習処理手段600で実行するほか、例えば、図4に示すように、評価用辞書800および、アルゴリズムをベースにした評価処理手段800によっても実現することができる。
この場合、文献のテキストデータ100と検索キーワード200に基づいて、解析手段300が、形態素解析とキーワード分布状況の解析をおこない、素性ベクトル生成手段400がKW空間分布ベクトルを生成するところまでは同じ処理をおこなう。
その後、評価処理手段700が、第1段~第n段のKW空間分布ベクトルどうしの類似度を、数学的距離(ユークリッド距離や内積)、コサイン類似度などに基づいて、検索キーワードのセットと文献との関連性を評価することができる。
Note that the process of determining the relevance between the set of search keywords and the document is executed by the machine learning-based classification means 500 and the learning processing means 600. For example, as shown in FIG. , can also be implemented by an algorithm-based evaluation processing means 800 .
In this case, based on the
After that, the evaluation processing means 700 evaluates the similarity between the KW space distribution vectors of the 1st to nth stages based on the mathematical distance (Euclidean distance and inner product), cosine similarity, etc. Based on the search keyword set and the document It is possible to evaluate the relevance to
この態様においても、複数のキーワードの分布状況を含む文献全体の特徴ベクトルを生成して、他の文献の特徴ベクトルと類似度を比較する従来の方式に対し、第1キーワードと第3キーワードの結びつきの評価とか、第2キーワードと第3キーワードの結びつきの評価など、局所的なキーワードの分布の状況も含めて、文献の特徴ベクトルの類似度を評価することができるので、評価の精度を向上させることが可能となる。 In this aspect as well, unlike the conventional method of generating a feature vector of the entire document including the distribution of a plurality of keywords and comparing the similarity with the feature vectors of other documents, the relationship between the first keyword and the third keyword is It is possible to evaluate the similarity of the feature vectors of the document, including the distribution of local keywords, such as the evaluation of the second keyword and the third keyword, such as the evaluation of the connection between the second keyword and the third keyword. becomes possible.
また、評価用辞書800には、第1キーワードと第2キーワードの数学的距離や第2キーワードと第3キーワードの数学的距離、・・・等がどのような場合に調査対象技術と関連性が高いと判定できるかの指標や、キーワードの分布がどのようになっている場合に類似度が高いかを判定するための指標や、キーワードの分布する範囲が特許文献等のどの項目(課題、解決手段、実施例、効果など)に該当するか、などが記録されている。
Also, in the
もっとも、評価用辞書に登録するこれらの指標は、人手で調査結果を多面的に大量に分析したうえで、試行錯誤を経て、ようやくたどり着いた指標として辞書に登録することになるので、多くの工数が掛かるほか、多くのノウハウを必要とする。
これに対し、分類手段500として、機械学習モデルを利用すれば、文献を調査した結果と、その中で関連性に関する正解値(ラベル)を、大量に学習しさえすればよいので、開発工数を低減できるというメリットがある。
However, these indicators registered in the evaluation dictionary are manually analyzed in large quantities from various aspects of the survey results, and are finally registered in the dictionary as indicators that have been arrived at through trial and error. Besides, it requires a lot of know-how.
On the other hand, if a machine learning model is used as the classification means 500, it is only necessary to learn a large amount of correct values (labels) related to relevance among the results of researching documents. There is an advantage that it can be reduced.
2.文献調査システムの構築の前提としてのキーワード分布の特徴の分析
図5は、キーワードを設定して、ヒットした文献を調査する際の、キーワードの文献中の分布の特徴を示すものであり、文献調査におけるサーチャーの脳内の思考過程を分析した図である。
このうち(1)は、キーワードとの関連性が低い特許文献におけるキーワードの分布の特徴を示したものであり、(2)は、キーワードとの関連性が高い特許文献におけるキーワードの分布の特徴を示したものである。
なお、できれば、3段以上のキーワードで分析した結果で説明するほうが正確ではあるが、説明の簡便のため、2段のキーワードで分析した結果を用いて説明する。
2. Characteristic Analysis of Keyword Distribution as a Prerequisite for Building a Literature Search System FIG. It is a diagram analyzing the thought process in the brain of a searcher in .
Of these, (1) shows the characteristics of the distribution of keywords in patent documents with low relevance to keywords, and (2) shows the characteristics of the distribution of keywords in patent documents with high relevance to keywords. is shown.
If possible, it would be more accurate to explain using the results of analysis with three or more keywords, but for the sake of simplicity, the results of analysis with two keywords will be used.
まず、図5(1)についてみてみると、サーチャーが確認して、キーワードとの関連性が低いと判断した特許文献のキーワード分布の特徴として、同じ項目(例えば「特許請求の範囲」)において、第1段のキーワード(例えば「〇△計算」)と第2段のキーワード(例えば「従業員」)とがセットでヒットしていないという特徴がある。
また、キーワードが文献全体の一部に、しかも、少数ずつしかヒットしていないという特徴がある。
また、比較的重要な課題や解決手段などの項目においてキーワードがヒットしていないという特徴がある。
さらに、〇△計算という技術用語とは異なる、別の技術用語(経費精算)が全体に頻出するという特徴があることがわかる。
First, looking at FIG. 5(1), as a feature of the keyword distribution of the patent documents that the searcher confirmed and judged to have low relevance to the keyword, in the same item (for example, "claims"), There is a feature that the keyword in the first stage (for example, "○△ calculation") and the keyword in the second stage (for example, "employee") do not hit as a set.
In addition, there is a feature that the keywords hit only a part of the entire literature, and only a few hits at a time.
In addition, there is a characteristic that keywords are not hit in items such as relatively important problems and solutions.
Furthermore, it can be seen that there is a feature that another technical term (expense settlement), which is different from the technical term 〇△ calculation, appears frequently throughout.
他方、図5(2)についてみると、サーチャーが確認して、キーワードとの関連性が高いと判断した特許文献のキーワード分布の特徴として、同じ項目(例えば「課題の解決手段」)において、第1段のキーワード(例えば「〇△計算」)と第2段のキーワード(例えば「従業員」)とがセットでヒットしているという特徴がある。 On the other hand, looking at FIG. 5(2), as a feature of the keyword distribution of the patent documents that the searcher confirmed and judged to be highly relevant to the keyword, in the same item (for example, "means for solving the problem"), There is a feature that a keyword in the first row (for example, “○△ calculation”) and a keyword in the second row (for example, “employee”) are hit as a set.
また、他の項目でも、第1段のキーワードと第2段のキーワードとがセットで複数ヒットしているという特徴があることがわかる。
また、第1段のキーワードと第2段のキーワードとがセットでヒットしている箇所がどれも距離が近いという特徴もある。
また、各キーワードがセットで、文献全体に幅広く存在しているという特徴があることがわかる。
なお、図示しないが、あるキーワードが多数ヒットしていても、もう一方のキーワードがほとんどヒットしていない場合には、関連性を低く評価できる特徴になる。
In addition, it can be seen that there is also a feature that multiple hits are made for the other items as a set of the first-level keyword and the second-level keyword.
In addition, there is also a characteristic that the distances between the hits of the first-stage keyword and the second-stage keyword as a set are close to each other.
In addition, it can be seen that each keyword is a set and has a feature that it exists widely in the entire document.
It should be noted that, although not shown, if a certain keyword has many hits, but the other keyword has few hits, it is a feature that the relevance can be evaluated as low.
さらに、図示はしないが、第3キーワード、第4キーワード、・・・とキーワードの段数が多い場合には、それぞれの段のキーワード同士の組み合わせが多数考えられ、それらの各段と各段のキーワード同士の相互の位置関係や分布の特徴を多数把握できることになる。
より具体的には、例えば、ある段とある段のキーワードのペアがセットで、文献の所定の範囲で局所的に存在したり、文献全体に渡って、ある段とある段のキーワードのペアがセットで存在しているなどの特徴を把握して、キーワードのセットと文献との関連性、すなわち調査対象技術と文献との関連性を評価できることになる。
なお、人手による場合は、かなり離れた場所にあるキーワード同士の位置関係や分布の特徴を認識して分析することは通常行えないが、本願発明の空間分布ベクトルと機械学習を利用した情報処理システムによれば、キーワード同士の局所的ないし広範な範囲の分布の特徴など、多面的な位置関係や分布の特徴を分析して、関連性を評価できる。
Furthermore, although not shown, when there are many keywords such as the third keyword, the fourth keyword, etc., there are many possible combinations of keywords in each row, and each row and the keyword in each row can be combined. A lot of mutual positional relationships and distribution characteristics can be grasped.
More specifically, for example, a set of keyword pairs of a certain column and a certain column exists locally in a predetermined range of the document, or a pair of keywords of a certain column and a certain column exists throughout the document. By grasping characteristics such as existence in a set, it is possible to evaluate the relevance between the set of keywords and the document, that is, the relevance between the technology to be researched and the document.
In addition, when it is done manually, it is usually not possible to recognize and analyze the positional relationship and distribution characteristics of keywords that are located far away from each other. According to this method, relevance can be evaluated by analyzing multifaceted positional relationships and distribution features such as local or wide range distribution features between keywords.
以上のように、キーワードのセットと文献との関連性(すなわち調査対象技術と文献との関連性)を評価するためには、各段のキーワードの存在箇所や分布の特徴を、各段のキーワードごとに分けてベクトル化することが有効であることがわかる。分けてベクトル化することで、各段の素性ベクトルどうしの局所的な位置関係や分布の特徴および、全体的な分布の特徴を、多面的に分析して評価することが可能となるからである。
このような文献調査におけるサーチャーの脳の思考過程に関する分析結果をベースに、以下、どのような素性ベクトルを策定すればよいか検討する。
As described above, in order to evaluate the relationship between the set of keywords and the literature (that is, the relationship between the research target technology and the literature), the locations and distribution characteristics of the keywords at each level must be evaluated. It can be seen that it is effective to divide and vectorize each. This is because vectorizing them separately makes it possible to multilaterally analyze and evaluate the local positional relationships and distribution characteristics of the feature vectors in each row, as well as the overall distribution characteristics. .
Based on the results of analysis of the searcher's brain's thinking process in such a literature survey, we will consider what kind of feature vector should be established.
3.本願発明の素性ベクトルの生成と引き続く機械学習モデルの関係について
素性ベクトルの策定にあたっては、素性ベクトルを入力して分類を行う分類手段(機械学習モデル)の構造と併せて考えるのが合理的である。
そこで、機械学習モデルとして、例えば、一例として、ニューラルネットワーク(ディープニューラルネットワークを含む)の構造を念頭に置いて検討してみる。
ニューラルネットワークでは、複数枚の素性ベクトルの入力に対し、畳み込みフィルタによる畳み込み処理により、当該素性ベクトルの内部的な特徴や、複数の素性ベクトル同士の特徴を抽出して特徴マップ化していくことに着目できる。
3. Regarding the relationship between the feature vector generation of the present invention and the subsequent machine learning model In formulating the feature vector, it is rational to consider the structure of the classification means (machine learning model) that performs classification by inputting the feature vector. .
Therefore, as a machine learning model, for example, as an example, the structure of a neural network (including a deep neural network) will be considered.
Neural networks focus on extracting the internal features of the feature vector and the features of multiple feature vectors and creating a feature map by convolution processing with a convolution filter for multiple feature vector inputs. can.
具体的には、入力層に近い層では、素性ベクトル単独もしくは素性ベクトル同士の局所的な特徴マップが生成され、層が進むにつれ、やや範囲を広げた特徴の抽出や、特徴同士を組み合わせた高次マップが次第に形成され、最終的に、局所的な特徴や、やや広い範囲の特徴の組み合わせ、それらを総合した全体的な特徴に基づいて判定結果を出力するという処理を行う点に着目できる。 Specifically, in a layer close to the input layer, a local feature map is generated for single feature vectors or between feature vectors. It can be noted that the next map is gradually formed, and finally, the process of outputting the determination result based on the combination of local features, the features of a slightly wider range, and the overall feature that integrates them is performed.
また、ニューラルネットワークでは、物体認識などで成果を上げているように、入力ベクトルとして画像データとの相性が良いことが知られていることに着目できる。
そしてこの点は、文献調査においても、左脳の論理把握機能を活かして文章を読み込むという側面もあるが、むしろ、ベテランになると、意識的ないし無意識に右脳を使って、ある種の画像処理的にキーワード相互の位置関係や分布の特徴を把握して(ある種のイメージ把握)、キーワードと文献との関連性を評価するので、キーワード相互の位置関係や分布の特徴を画像処理的に評価することが有効であると推察される。
In addition, it can be noted that neural networks are known to have good compatibility with image data as input vectors, as evidenced by achievements in object recognition and the like.
And in this point, even in literature research, there is an aspect of reading sentences by making use of the logical grasping function of the left brain, but rather, if you become a veteran, you will consciously or unconsciously use the right brain and use a kind of image processing. Since the relationship between keywords and documents is evaluated by grasping the positional relationships and distribution characteristics of keywords (a kind of image recognition), the positional relations and distribution characteristics of keywords can be evaluated using image processing. is assumed to be effective.
なお、機械学習モデルの構造の検討では、主にニューラルネットワークないしディープニューラルネットワークを例に挙げて説明したが、これに限られるわけではなく、ベクトルデータを取り扱う機械学習モデルであれば何でもよく、例えば、教師データあり学習の機械学習モデルとしては、SVM(サポートベクターマシン)、ロジスティック回帰モデル、ベイズ、教師データ無しの機械学習モデルとしては、クラスタリング、K平均法などを選択することもできる。 In the discussion of the structure of the machine learning model, a neural network or deep neural network was mainly used as an example, but it is not limited to this, and any machine learning model that handles vector data can be used. , SVM (support vector machine), logistic regression model, and Bayes as machine learning models for learning with supervised data, and clustering, K-means, etc. as machine learning models without supervised data.
ここで、前述の図5のキーワード分布の特徴の分析において検討した、文献調査におけるサーチャーの脳の思考過程に関する分析と、各種の機械学習モデルでベクトルデータを入力して取り扱う態様について検討した結果によれば、本願発明の検索キーワードのセットと文献との関連性を判定する際に、文献中に存在する各段のキーワードの存在箇所や分布の特徴をよく表現しつつ、後の機械学習モデルで、所定の段のキーワードと別の段のキーワード同士の位置関係や分布の特徴を評価できるようにするには、各段のキーワードごとに分けて、個別にベクトル化するのが合理的であると考えるに至った。 Here, the analysis of the thinking process of the searcher's brain in the literature survey, which was examined in the analysis of the characteristics of the keyword distribution in FIG. According to this, when determining the relevance between the set of search keywords of the present invention and the document, while well expressing the location and distribution characteristics of the keywords in each stage in the document, the later machine learning model In order to be able to evaluate the positional relationship and distribution characteristics between keywords in a given row and keywords in another row, it is reasonable to separate the keywords in each row and vectorize them individually. I came to think.
より詳細には、第1段のキーワード群(例えば、〇△処理、〇〇処理)の各キーワードが文献中に存在する箇所をベクトル化し、第2段のキーワード群(例えば、従業員、従業者、社員)の各キーワードが文献中に存在する箇所をベクトル化し、第3段のキーワード群(例えば、査定評価、成績評価)の各キーワードが文献中に存在する箇所をベクトル化し、第4段のキーワード群の・・・のように、各段のキーワードごとに分けて、個別にベクトル化するのが合理的である。 More specifically, vectorize the locations where each keyword of the first stage keyword group (eg, 〇△ process, 〇〇 process) exists in the document, and vectorize the second stage keyword group (eg, employee, employee , employees) are vectorized in the document, the keyword group in the third stage (e.g., assessment evaluation, performance evaluation) is vectorized in the document, and the fourth stage It is rational to separate the keywords in each row like . . . of the keyword group and vectorize them individually.
また、必須ではないが、例えば、機械学習モデルとしてニューラルネットワークを用いる場合には、ベクトル化する際に、キーワードの存在箇所や分布の特徴を、前述のサーチャーの右脳によるイメージ把握のように、あたかも画像データであるかのようにして取り扱うことが有効であり、縦と横方向の画像データのようなベクトルデータを生成してもよい。 Also, although it is not essential, for example, when using a neural network as a machine learning model, when vectorizing, the location and distribution characteristics of keywords can be used as if they were grasped by the right brain of a searcher as described above. It is useful to treat it as if it were image data, and vector data such as vertical and horizontal image data may be generated.
4.素性ベクトルの生成処理について
4-1.KW空間分布ベクトルの生成について
次に、図6に基づいて、素性ベクトル(KW空間分布ベクトル)の生成処理について説明する。
まず、前提として、キーワードは、第1段のキーワード群(例えば「〇△処理、・・・」)と、第2段のキーワード群(例えば「従業員、従業者、社員、・・・」)、第3段のキーワード群(例えば「査定評価、成績評価、・・・」)、第4段・・・、のように、少なくとも2段以上の複数段で構成されていることが望ましいが、これに限定されない。
なお、何段目であるかは、任意に選択でき、どのキーワード群が何段目であるかは、判定性能に影響を与えない。
4. About feature vector generation processing 4-1. Generation of KW Space Distribution Vector Next, processing for generating a feature vector (KW space distribution vector) will be described with reference to FIG.
First, as a premise, the keywords are a group of keywords in the first stage (eg, "○△ processing, ...") and a group of keywords in the second stage (eg, "employee, employee, employee, ...") , 3rd row keyword group (e.g., “assessment evaluation, performance evaluation, …”), 4th row . . . It is not limited to this.
It should be noted that the tier can be arbitrarily selected, and the determination performance is not affected by which keyword group is in which tier.
そして、検索条件が、(第1段のキーワード群)AND(第2段のキーワード群)AND(第3のキーワード群)AND・・・のように策定して、この検索条件で、所定の数の文献がヒットしたものを、記憶部に保存している場合を想定する。
また、例えば、第2段のキーワード群(例えば、従業員、従業者、社員)は、似たような概念の類義語で構成されていることが望ましいがこれに限定されない。
ここで、(従業員、従業者、社員)は、(従業員or従業者or社員or)のように、OR条件のセットであることを示している。
なお、別途、類義語の辞書を作成しておき、サーチャーが設定したキーワードに対し、類義語を提示して選択させたり、自動で類義語を、所定の段のキーワード群に加えるようにしてもよい。
Then, the search conditions are formulated as follows: (keyword group in the first stage) AND (keyword group in the second stage) AND (keyword group in the third stage) AND . . . is stored in the storage unit.
Also, for example, it is desirable that the group of keywords in the second row (e.g., employee, employee, employee) is composed of synonyms of similar concepts, but is not limited to this.
Here, (employee, employee, employee) indicates a set of OR conditions such as (employee or employee or employee or).
Incidentally, a dictionary of synonyms may be prepared separately, and synonyms may be presented to the keywords set by the searcher for selection, or the synonyms may be automatically added to the keyword group in a predetermined row.
なお、ある検索条件(キーワードのセット)でヒットした文献について、本願の情報処理システムを用いて、同じ検索条件(キーワードのセット)で関連性を判定する用途が多いことを想定しているので、文献を収集するための検索条件のキーワードのセットと、検索キーワードのセットと文献との関連性を判定するための検索キーワードのセットとが、同じであることが望ましいが、これに限定されず、異なっていても構わない。
本願発明によれば、複数段のキーワードが文献中にどのように分布しているかに基づいて、文献との関連性を判断しているので、所定の文献の集合に対し、所定の検索キーワードのセットを設定し、設定したキーワードのセットと文献との関連性を判断することができるからである。
It is assumed that the information processing system of the present application is often used to determine the relevance of documents hit by a certain search condition (keyword set) under the same search condition (keyword set). It is desirable that the set of keywords for the search condition for collecting documents and the set of search keywords for determining the relevance between the set of search keywords and the documents are the same, but are not limited to this. It doesn't matter if it's different.
According to the present invention, the relevance to a document is determined based on how the keywords in multiple columns are distributed in the document. This is because it is possible to set a set and determine the relevance between the set of keywords and the document.
まず、情報処理システムの入力手段が、文献のテキストデータ100と検索キーワード200を取得して、解析手段300が形態素解析を行い、設定したキーワードが文献中に存在している箇所を解析し、文献の項目名や段落情報に基づいて、項目ごとないし段落ごとに、キーワード分布状況解析結果を一時記録する(→図6の吹き出しの処理1)。
First, the input means of the information processing system acquires the
次に、素性ベクトル生成手段400が、項目ごとないし段落ごとに纏められたキーワード分布状況解析結果に基づいて、段落ごとに、何単語目であるかを考慮しながら、キーワードの分布状況をベクトル化していく(→図6の吹き出しの処理2)。
より具体的には、図6中央から右側に示すように、例えば、「3段落目」に、第2段のキーワード群の「従業員」のキーワードが、段落の先頭から「6単語目」に存在しているので、図6の右側のCH2(第2KW空間分布ベクトル)の上から「3行目(3段落目に対応)」の「6列目(6単語目に対応)」の箇所のビットを1にする、という工程でベクトル化していく。
Next, the feature vector generating means 400 vectorizes the distribution of keywords for each paragraph while considering the number of the word on the basis of the keyword distribution analysis results summarized for each item or paragraph. (→
More specifically, as shown from the center to the right side of FIG. Since it exists, from the top of CH2 (second KW space distribution vector) on the right side of FIG. Vectorization is done by setting the bit to 1.
同様に、例えば、「4段落目」に、第2段のキーワード群の「従業者」のキーワードが、段落の先頭から「9単語目」に存在しているので、図6の右側のCH2(第2KW空間分布ベクトル)の上から「4行目(4段落目に対応)」の「9列目(9単語目に対応)」の箇所のビットを1にする、という工程でベクトル化していく。 Similarly, for example, in the "fourth paragraph", the keyword "employee" of the keyword group in the second row exists in the "ninth word" from the beginning of the paragraph, so CH2 ( 2nd KW spatial distribution vector) Vectorization is performed by setting the bit in the ``4th row (corresponding to the 4th paragraph)'' to the ``9th column (corresponding to the 9th word)'' to 1. .
なお、第2段のキーワード群では、「従業員」と「従業者」の異なる2つのキーワードがヒットしているが、いずれも第2段目のキーワードであるので、同じ2段目のKW空間分布ベクトルの要素として取り扱っている。
こうして、CH2(第2段目)のキーワードの、第2KW空間分布ベクトルを生成することができる。
同様に、第1段~第n段のKW空間分布ベクトルをそれぞれ生成する(→図6の吹き出しの処理3)。
In addition, in the second level keyword group, two different keywords "employee" and "employee" are hit, but both are keywords in the second level, so they are the same KW space in the second level. It is treated as an element of the distribution vector.
Thus, a second KW spatial distribution vector for the CH2 (second row) keyword can be generated.
Similarly, the KW space distribution vectors of the 1st stage to the nth stage are generated respectively (→process 3 of balloon in FIG. 6).
なお、特許や論文、裁判例等の文献は、文章の長さや単語の数もバラバラであるので、同じ次元数のベクトルにするために、適宜、正規化することが望ましい。
図6では、図の作成の便宜のために、横20(20単語分に相当)×縦100(100段落分に相当)の2000次元のベクトルとしたが、あくまで、一例であって、様々な次元に設定することができる。
特許文献の場合、1~3万文字程度の文章であることが多いので、例えば、各段落の単語数60単語(1単語平均で3文字程度×60単語=約200文字)、段落数で100段落程度に正規化することができるが、他の次元数であっても構わない。
Documents such as patents, papers, and judicial precedents have different lengths of sentences and different numbers of words. Therefore, it is preferable to normalize the vectors appropriately so that the vectors have the same number of dimensions.
In FIG. 6, a 2000-dimensional vector of horizontal 20 (corresponding to 20 words)×vertical 100 (corresponding to 100 paragraphs) is used for convenience of drawing, but this is only an example and various Dimension can be set.
In the case of patent documents, there are many sentences of about 10,000 to 30,000 characters, so for example, the number of words in each paragraph is 60 words (about 3 characters per word on average x 60 words = about 200 characters), and the number of paragraphs is 100. It can be normalized to the extent of paragraphs, but other dimensions may be used.
なお、KW空間分布ベクトルと呼んだのは、例えば、図6の右側のように、画像データのように縦横のマス目のベクトルデータとした場合、キーワードの存在箇所や分布の特徴が空間に分布しているように見えることによるものである。
この場合、機械学習モデルとして、畳み込みニューラルネットワークを選択した場合に、畳み込みフィルタの畳み込み処理(行列演算)との親和性が高いというメリットがある。
また、学習処理を、畳み込みフィルタのパラメータを学習することに置き換えることができ、全結合のニューラルネットワークの対概念である、いわゆる疎結合となり、学習データ数の削減や、ロバスト性能、汎化性能を向上させることができるというメリットがある。
そして、複数種類の畳み込みフィルタを用意することで多様なキーワード相互間の位置関係や分布の特徴を抽出して評価できるというメリットもある。
The KW space distribution vector is used because, for example, as shown on the right side of FIG. This is due to the fact that it appears to be
In this case, when a convolutional neural network is selected as a machine learning model, there is an advantage that it is highly compatible with the convolution processing (matrix operation) of the convolution filter.
In addition, the learning process can be replaced by learning the parameters of the convolution filter, and it becomes a so-called loose connection, which is the opposite concept of a fully connected neural network, reducing the number of training data, robust performance, and generalization performance. It has the advantage that it can be improved.
In addition, by preparing multiple types of convolution filters, there is also the advantage that it is possible to extract and evaluate the positional relationships and distribution features of various keywords.
すなわち、各段のキーワード同士が、ある段落内に存在する場合と、ある段落とその前後の段落に存在する場合には、キーワード同士がある文脈で関連性をもっていることが多いので(つまりキーワードと文献の関連性が高いことを示す指標となるので)、縦方向と横方向の格子状にベクトル化することで、格子状の畳み込みフィルタを用いて畳み込み処理を行ったときに、キーワード同士の位置関係や分布の特徴を効率よく抽出することが期待できる。 In other words, if the keywords in each column exist within a paragraph, or if they exist in a paragraph and the paragraphs before and after it, they often have a relationship in a certain context (that is, keywords and (Because it is an index that indicates the high relevance of the document), by vectorizing the vertical and horizontal grids, when convolution processing is performed using a grid-shaped convolution filter, the positions of the keywords It can be expected to efficiently extract features of relationships and distributions.
また、第1段と第3段のKW空間分布ベクトルの関係を評価したり、第1段と第3段、あるいは第2段と第3段のKW空間分布ベクトルの関係を個別に評価したり、それらの評価の組み合わせを評価したり、あるいは第1段~第n段のKW空間分布ベクトルの関係を総合的に評価するなど、個別的、総合的な判断ができるようになるメリットがある。
そして、畳み込みニューラルネットワークのような機械学習モデルと組み合わせた場合、入力層に近い層では、各段のKW空間分布ベクトル同士の近傍の分布の特徴などの局所的な特徴を抽出し、層が進むにつれ次第にそれらを組み合わせた総合的な特徴を抽出できるようになる。
なお、素性ベクトルは行と列(縦と横)のマス目で構成される画像データ様のベクトルでなくてもよく、キーワードの存在箇所を、単に(0、0、1、0、0、・・・)と0と1のビットで表現する態様であっても構わない。
なお、キーワードが、文献のどの項目の箇所に存在しているかは、先述のように項目によって重要度が異なることから(例えば、特許文献では解決手段や効果の項目は重要項目である等)、このような情報も含めて、ベクトル化することで、評価の精度向上に貢献することになる。
この点、例えば特許文献の場合、項目名とその順序が定められていることに着目できる。すなわち、本願発明の素性ベクトル(空間分布ベクトル)では、段落順にベクトル化されているので、特許文献の項目の位置関係や順番などの情報も含めてベクトル化されていることになり、評価の精度向上に貢献できることになる。
In addition, the relationship between the KW space distribution vectors in the first and third stages can be evaluated, and the relationship between the KW space distribution vectors in the first and third stages, or between the second and third stages can be evaluated individually. , or a combination of these evaluations, or a comprehensive evaluation of the relationship between the KW space distribution vectors in the 1st to n-th stages.
Then, when combined with a machine learning model such as a convolutional neural network, in a layer close to the input layer, local features such as the distribution features in the vicinity of the KW spatial distribution vectors at each stage are extracted, and the layer proceeds Gradually, it becomes possible to extract comprehensive features that combine them.
Note that the feature vector does not have to be an image data-like vector composed of rows and columns (vertical and horizontal) squares. . . ) and bits of 0 and 1 may be used.
As mentioned above, the degree of importance of the item in which the keyword exists in the document varies depending on the item (for example, in patent documents, the items of solutions and effects are important items, etc.). Vectorization including such information contributes to the improvement of evaluation accuracy.
In this respect, for example, in the case of patent documents, it can be noted that item names and their order are defined. That is, since the feature vector (spatial distribution vector) of the present invention is vectorized in the order of paragraphs, it is vectorized including information such as the positional relationship and order of the items in the patent document, and the evaluation accuracy You can contribute to the improvement.
4-2.KW係受語空間分布ベクトルの生成について
次に、素性ベクトル(KW係受語空間分布ベクトル)の生成処理について説明する。
解析手段300は、形態素解析を行って文を単語に分かち書きするとともに、名詞や格助詞、助詞、助動詞、動詞、形容詞、形容名詞などの解析を行い、自立語(名詞、動詞、形容詞など)と付属語(助詞、助動詞)からなる文節という単位に分解する。そして、文節が組み合わさって修飾と修飾節の関係(係り受け)の解析を行う。
このような形態素解析、構文解析、係り受け解析を行った結果をもとに、文献のテキストデータからは、前述のKW空間分布ベクトルだけでなく、キーワードの係り受け語の位置や分布を示すKW係受語空間分布ベクトルを生成することもできる。
例えば、予め、否定的な係り受け語として「~ではない」、「とはいえない」、「必ずしも~」などの係り受け語や、積極的に肯定したり強調する係り受け語として「~が効果的である」、「一層~」、「特に」、「大いに」などの形容詞や形容名詞などを係り受け語を辞書に記録しておき、解析手段300が、これらの係り受け語を検出したときに、その分布状況を、キーワードと対になる形で、第n段のKW空間分布ベクトルと対にしてKW係受語空間分布ベクトルを生成して利用してもよい。
キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを積極的に肯定したり強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができる。
そこで、肯定的な係り受け語と、否定的な係り受け語などについて、係り受け語の分布状況を空間分布ベクトルとして生成し、KW空間分布ベクトルと併せて、分類手段500に入力することで、係り受け語の存在箇所や分布の状況と、キーワードの存在箇所や分布の状況を、相互に連関させて評価して、キーワードのセットと文献との関連性の判定の精度を向上させることとした。なお、肯定的な係り受け語と、否定的な係り受け語の両方をベクトル化しなくてもよく、たとえば、肯定的な係り受け語だけを空間分布ベクトル化してもよい。
4-2. Generation of KW Related Word Spatial Distribution Vector Next, a process of generating a feature vector (KW related word space distribution vector) will be described.
The analysis means 300 performs morphological analysis to divide sentences into words, and analyzes nouns, case particles, particles, auxiliary verbs, verbs, adjectives, adjectives, etc., and separates them into independent words (nouns, verbs, adjectives, etc.). It is broken down into units called clauses consisting of adjuncts (particles, auxiliary verbs). Then, the clauses are combined and the relationship (dependency) between the modification and the modification clause is analyzed.
Based on the results of such morphological analysis, syntactic analysis, and dependency analysis, from the text data of the document, not only the KW space distribution vector described above, but also the KW A dependent word space distribution vector can also be generated.
For example, negative dependencies such as ``not'', ``cannot be said'', and ``necessarily'', and positively affirming or emphasizing dependencies such as `` Dependent words such as adjectives and adjective nouns such as "effective", "higher level", "particularly", and "extremely" are recorded in a dictionary, and the analysis means 300 detects these dependent words. Sometimes, the distribution situation may be paired with the keyword and the KW space distribution vector of the n-th stage to generate a KW-related word space distribution vector and use it.
If there is a dependent word that negates the keyword, the location and distribution characteristics of the keyword act in the direction of low evaluation as a feature, and if there is a dependent word that positively affirms or emphasizes the keyword, the keyword can be made to act in the direction of strongly evaluating the location and distribution of .
Therefore, for positive dependent words and negative dependent words, the distribution of the dependent words is generated as a spatial distribution vector, and input to the classification means 500 together with the KW spatial distribution vector. The location and distribution of dependent words and the location and distribution of keywords are evaluated in relation to each other to improve the accuracy of determining the relationship between the set of keywords and the document. . Note that it is not necessary to vectorize both positive and negative dependent words, and for example, only positive dependent words may be spatially distributed vectorized.
4-3.技術用語空間分布ベクトルの生成について
次に、素性ベクトル(技術用語空間分布ベクトル)の生成処理について説明する。
解析手段300が、形態素解析を行って文を単語に分かち書きするとともに、名詞や格助詞、助詞、助動詞、動詞、形容詞、形容名詞などの解析を行い、文献中の技術用語などの単語(名詞)を検出して、発生頻度順にソートすることで、発生頻度の高い順に、それぞれの単語の存在箇所や分布状況に基づいて、上位1番目~上位m番目の技術用語空間分布ベクトルを生成して利用してもよい。
例えば、図5(1)に示すように、文献中には「経費精算」や「振り込み」という単語が多く含まれているが、このような単語を検出して、頻度順に並べ替える。
なお、特許文献や論文は、一般的に、技術に関する記載が多く、便宜上、このような単語を「技術用語」と呼ぶことにするが、裁判例や契約書などの法律文書の場合、「法律用語」や「人の行為に関する用語」などの単語を含むので、「技術用語」には、「法律用語」などを含んでいても構わない。
4-3. Generation of Technical Term Spatial Distribution Vector Next, the process of generating a feature vector (technical term spatial distribution vector) will be described.
The analysis means 300 performs morphological analysis to separate sentences into words, analyzes nouns, case particles, particles, auxiliary verbs, verbs, adjectives, adjectives, etc., and identifies words (nouns) such as technical terms in the literature. are detected and sorted in order of frequency of occurrence, based on the location and distribution of each word in order of frequency of occurrence, the top 1 to top m-th technical term space distribution vectors are generated and used. You may
For example, as shown in FIG. 5(1), many words such as "expense settlement" and "transfer" are included in the document, and such words are detected and sorted in order of frequency.
Patent documents and papers generally contain many descriptions of technology. Since it includes words such as "terms" and "terms relating to human behavior", "technical terms" may include "legal terms".
図5(1)では、例えば、文献中の技術用語である「経費精算」という単語の出現度数が第1番目に高く、その回数が9回であり、「振り込み」という単語の出現度数が第2番目に高く、その回数が5回となっている。
他方、検索用のキーワードの「〇△計算」の単語の出現度数が1、「従業員」の単語の出現度数が1と、大きく相違しており、このような場合には、キーワードのセットと文献との関連性が低いことを推認させる情報として利用することができる。
また、図5(2)では、文献中の技術用語である「〇△計算」の単語の出現度数が第1番目に高く、その回数が13回であり、「従業員」の単語の出現度数が第2番目に高く、その回数が10回と、上位を占めている。他方、検索用のキーワードには「〇△計算」と「従業員」が含まれており、技術用語の出現頻度とキーワードのセットの出現頻度の相関が高く、キーワードのセットと文献との関連性が高いことを推認させる情報として利用することができる。
そこで、技術用語の分布状況を空間分布ベクトルとして生成し、KW空間分布ベクトルと併せて、分類手段500に入力することで、技術用語の存在箇所や分布の状況と、キーワードの存在箇所や分布の状況を、相互に連関させて評価して、キーワードのセットと文献との関連性の判定の精度を向上させることとした。
In FIG. 5(1), for example, the word "expense settlement", which is a technical term in the literature, has the highest frequency of occurrence, and its number of occurrences is 9 times. It is the second highest, and the number of times is 5 times.
On the other hand, the frequency of appearance of the word “○△ calculation” in the search keywords is 1, and the frequency of appearance of the word “employee” is 1, which is very different. It can be used as information that makes it possible to infer that the relevance to the document is low.
In addition, in FIG. 5 (2), the word “○△ calculation”, which is a technical term in the literature, has the highest appearance frequency, and the number of occurrences is 13 times. is the second highest, and the number of times is 10 times, occupying the top position. On the other hand, the keywords for search include "○△ calculation" and "employee", and the correlation between the frequency of occurrence of technical terms and the frequency of occurrence of the set of keywords is high, and the relevance between the set of keywords and the literature It can be used as information to infer that the
Therefore, by generating the distribution status of technical terms as a spatial distribution vector and inputting it to the classification means 500 together with the KW spatial distribution vector, the location and distribution status of technical terms and the location and distribution of keywords can be obtained. The situation was evaluated in relation to each other to improve the accuracy of determining the relevance of the set of keywords to the document.
5.分類手段(機械学習モデル)の構成について
次に、分類手段(機械学習モデル)500の構成の一例について説明する。
図7は、機械学習モデルとして、中間層が2層以上のディープニューラルネットワーク(DNN)を採用した場合の一構成例である。
分類手段(機械学習モデル)500は、特徴抽出を行うための第1層~第J層と、中間層で抽出した特徴に基づいて総合的に分類(判定)を行うための第X層で構成されている。
5. Configuration of Classification Means (Machine Learning Model) Next, an example of the configuration of the classification means (machine learning model) 500 will be described.
FIG. 7 shows a configuration example when a deep neural network (DNN) with two or more intermediate layers is adopted as a machine learning model.
Classification means (machine learning model) 500 consists of 1st to Jth layers for feature extraction, and an Xth layer for comprehensively classifying (determining) based on the features extracted in the intermediate layer. It is
第1層と第2層、第2層と第3層、・・・と第X層の各層間は、畳み込みフィルタによる畳み込み処理および伝達関数を介して接続されている。
伝達関数は活性化関数とも呼ばれるが、非線形のシグモイド関数のほか、線形のReLU(ランプ関数)を用いることで逆方向伝搬の学習処理における勾配消失問題を回避するようにしてもよい。
なお、図示はしないが、畳み込み層において、畳み込み結果をさらに抽象化するためのプーリング処理を行うプーリング層を設けてもよい。
プーリング処理により、キーワード相互間の位置関係のズレの影響を少なくすることができるからである。
The first layer and the second layer, the second layer and the third layer, .
The transfer function is also called an activation function, and a nonlinear sigmoid function or a linear ReLU (ramp function) may be used to avoid the vanishing gradient problem in backward propagation learning processing.
Although not shown, a pooling layer may be provided in the convolution layer to perform pooling processing for further abstracting the convolution result.
This is because the pooling process can reduce the influence of deviations in the positional relationship between keywords.
畳み込みフィルタは、第1層と第2層の間、第2層と第3層の間、第3層と第4層の間、第(n-1)層と第n層との間で、それぞれ異なるサイズのものを採用することができる。
第1層と第2層の間の畳み込みフィルタ(α×α)は、例えば、5×5のサイズでやや広めの範囲のキーワード間の位置関係や分布の特徴を抽出し、第2層と第3層の間の畳み込みフィルタ(β×β)は、1層目で抽出した特徴のうち所定の範囲内の特徴どうしを複数組み合わせた特徴を抽出するので、少しサイズを小さくして4×4ないし3×3とすることができる。もちろん、これ以外のサイズでも構わない。
また、表記の都合により、順次、各層間でβ×βを表記しているが、各層間で異なるサイズを取っても構わない。
畳み込みフィルタの種類数も目標性能に応じて決定することができ、図では一例として20種類としているが、例えば16~32種類程度の種類数にすることで十分な性能が得られるが、これに限定されない。
The convolution filter is between the first and second layers, between the second and third layers, between the third and fourth layers, between the (n−1)th layer and the nth layer, Different sizes can be used.
A convolution filter (α×α) between the first layer and the second layer extracts the positional relationship and distribution features between keywords in a slightly wider range with a size of 5×5, for example. The convolution filter (β × β) between the three layers extracts features that are a combination of multiple features within a predetermined range among the features extracted in the first layer. It can be 3×3. Of course, other sizes may be used.
Also, for the convenience of notation, each layer is shown as β×β in order, but each layer may have a different size.
The number of types of convolution filters can also be determined according to the target performance. In the figure, 20 types are used as an example. Not limited.
最後の第X層は、例えば、1×1サイズの畳み込みフィルタによる畳み込み層として、これまでの層で生成した特徴マップから総合的な判定を行う層であり、最終的には、ソフトマックス関数などにより確率分布に変換して、文献がキーワードのセットと関連する確率、すなわち文献が調査対象技術と関連する確率を出力する。
説明の簡便のため、例えば、キーワードが3段で構成された場合を例にすると、入力が第1段~第3段のKW空間分布ベクトルの3CHで構成されることになる。
そして、仮に20種類の畳み込みフィルタ数とした場合は、第1層の畳み込み処理で3CH分の畳み込み処理の結果が1枚に合成され、それが20種類分生成されるので、第2層では20枚の畳み込み結果を元に畳み込み処理が行われ、第1段から第3段のキーワードの近傍のヒット箇所の位置関係や分布の特徴を抽出して、近傍の分布の特徴マップを生成する(図7の吹き出しのステップ1~ステップ2)。
The final X-th layer is, for example, a convolution layer with a 1×1 size convolution filter, and is a layer that performs comprehensive judgment from the feature maps generated in the previous layers. to output the probability that the document is associated with the set of keywords, ie, the document is associated with the researched technology.
For convenience of explanation, for example, if a keyword consists of three stages, the input consists of 3CHs of KW spatial distribution vectors in the first to third stages.
Assuming that there are 20 types of convolution filters, the results of the convolution processing for 3 channels are combined into one image in the convolution processing of the first layer, and 20 types of it are generated. A convolution process is performed based on the convolution results of the first to third stages, extracting the positional relationships and distribution features of the hit locations near the keywords in the first to third stages, and generating a feature map of the distribution of the neighborhood (Fig.
第2層では、例えば20種類の畳み込みフィルタを設けた場合、前段の畳み込み結果20枚に対し、20枚で1セットの畳み込みフィルタにより、それぞれ畳み込み処理を行い、その結果を1枚に合成し、それが20種類分生成されるので、次段には20枚の畳み込み結果が生成され、やや離れたキーワードのヒット箇所や分布の特徴の組み合わせなど、前段で生成した特徴同士を複合的に組み合わせた特徴マップを生成する(図7の吹き出しのステップ3)。
以下順次、同様の処理を各層で行い、層が進むにつれ、局所的な特徴やそれらを複合的に組み合わせた特徴などを含む、より総合的な高次の特徴マップを生成されていき(図7の吹き出しのステップ4)、最終的な判定結果を出力する。
In the second layer, for example, when 20 types of convolution filters are provided, the 20 convolution results of the previous stage are each subjected to convolution processing by a set of 20 convolution filters, and the results are combined into one, Since 20 types of it are generated, 20 convolution results are generated in the next stage, and the features generated in the previous stage are combined in a complex manner, such as the combination of the hit points of the keywords that are slightly separated and the distribution features. Generate a feature map (step 3 in callout in FIG. 7).
The same processing is sequentially performed for each layer, and as the layers progress, a more comprehensive high-level feature map is generated that includes local features and features that combine them in a complex manner (Fig. 7). step 4) of the balloon, and output the final judgment result.
6.特徴マップ形成に関する畳み込み処理について
図8は、第1層で行われる畳み込み処理の詳細を図示したものである。
まず、判定処理を行う際の順方向の伝搬を主に説明し、学習する際の逆方向の伝搬も併せて以下説明する。
6-1.順方向伝搬の処理である判定結果(スコア)の出力処理
第1~第3の3CH分のKW空間分布ベクトルに対し、3CH分の畳み込みフィルタが定義され、各CHに対し、それぞれ畳み込み処理が行われる(図8の吹き出しの処理1)。
なお、畳み込み処理は、文献データから生成したKW空間分布ベクトルの各要素に対し、畳み込みフィルタを適宜ストライドさせながら、畳み込みフィルタの数値(パラメータ)を行列演算することで行う。畳み込み処理に際しては、適宜、外側を0で埋めて次段の次元数が前段と変化しないようにするパディング処理を行ってもよい。
また、畳み込みフィルタの適用間隔(ストライド)は、1~2程度を採用することができるが、これに限定されない。
6. Convolution Processing Related to Feature Map Formation FIG. 8 shows details of the convolution processing performed in the first layer.
First, forward propagation during determination processing will be mainly described, and reverse propagation during learning will also be described below.
6-1. Judgment result (score) output processing, which is forward propagation processing Convolution filters for 3 CHs are defined for the KW spatial distribution vectors for the first to third 3 CHs, and convolution processing is performed for each CH. (
Note that the convolution process is performed by performing a matrix operation on the numerical values (parameters) of the convolution filter while appropriately striding the convolution filter for each element of the KW space distribution vector generated from the literature data. During convolution processing, padding processing may be performed as appropriate to fill the outside with 0 so that the number of dimensions in the next stage does not change from that in the previous stage.
Also, the application interval (stride) of the convolution filter can be about 1 to 2, but is not limited to this.
そして、3CH分の畳み込み処理の結果は1枚に合成される。合成処理は、それぞれの畳み込み結果の単純加算又は単純平均あるいは加重平均、などを選択可能であり、適宜、バイアスを付加して所定の伝達関数を介して出力した結果を利用することができる。
これにより、例えば、CH1のKW空間分布ベクトルに対してCH1用の畳み込みフィルタで畳み込み処理を行っている段階では、形式上、CH1の第1段のキーワード同士の位置関係や分布の特徴を抽出するに留まることになるが、CH1~CH3の第1段~第3段のKW空間分布ベクトルの畳み込み結果を合成することにより、各CH用の畳み込みフィルタを連動して移動させながら畳み込み処理を行ったことと等価になる(図8の吹き出しの処理2)。
Then, the results of the convolution processing for 3CH are combined into one image. For synthesis processing, simple addition, simple averaging, weighted averaging, or the like of each convolution result can be selected, and the results output via a predetermined transfer function with appropriate bias can be used.
As a result, for example, at the stage where the KW spatial distribution vector of CH1 is subjected to convolution processing with the convolution filter for CH1, the positional relationship between the keywords in the first stage of CH1 and the distribution features are extracted formally. However, by synthesizing the convolution results of the KW spatial distribution vectors of the first to third stages of CH1 to CH3, convolution processing was performed while moving the convolution filters for each CH in conjunction. (
換言すると、以上の処理により、第1~第3キーワードの相互の位置関係や分布の特徴を畳み込みフィルタで抽出することと等価になり(図8の吹き出しの説明1)、以上の処理をベースに後述するような学習処理を行なえば、CH1~CH3のフィルタのパラメータをセットで学習することになり、第1~第3のキーワードの相互の(やや近傍の)位置関係の特徴を拾い上げる畳み込みフィルタとして機能させることが可能になる(図8の説明2)。
そして、合成結果は、第1段~第3段のキーワード同士の相互の(やや近傍の)位置関係や分布の特徴を抽出した特徴マップとみることができる(図8の吹き出しの説明3)。
In other words, the above processing is equivalent to extracting the mutual positional relationships and distribution features of the first to third keywords with a convolution filter (
The synthesized result can be regarded as a feature map that extracts the mutual (slightly adjacent) positional relationships and distribution features of the keywords in the first to third stages (description 3 of balloon in FIG. 8).
以降、畳み込みフィルタの種類を変えて、3CH分で1セット×20種類分の畳み込み処理の合成結果が20枚生成、キーワード同士の様々なパターンの位置関係や分布の特徴を抽出できる特徴マップが複数生成される。
また、図示しないが、第2層以降の畳み込み処理も同様に行われ、局所的ないしそれらを複数組み合わせた多面的な高次の特徴マップが大量に生成されていき、最終層の出力段で、判定結果を生成し、キーワードのセットと文献との関連性の指標であるスコア値を出力する。
以上が、スコア値を出力するまでの順方向伝搬の判定処理である。
After that, by changing the type of convolution filter, 20 pieces of synthesis results of 1 set x 20 types of convolution processing for 3 channels are generated, and there are multiple feature maps that can extract various patterns of positional relationships and distribution features between keywords. generated.
In addition, although not shown, the convolution processing of the second and subsequent layers is similarly performed, and a large number of multifaceted high-order feature maps are generated by combining a plurality of local or multifaceted feature maps, and at the output stage of the final layer, A determination result is generated and a score value, which is an index of relevance between the set of keywords and the document, is output.
The above is the judgment processing of the forward propagation until the score value is output.
6-2.逆方向伝搬の学習処理
学習処理の場合もスコア値を出力するところまでは同様であるが、パラメータの更新処理が追加される。パラメータの更新処理は、分類手段の機械学習モデルがニューラルネットワークの場合には、畳み込みフィルタの重み等のパラメータの更新になる。
学習処理手段600は、バッチサイズと呼ばれる一定の数の学習データ(文献データ)毎に、所定の学習率を掛けて、出力結果のスコア値と正解値であるラベル値(教師データ)との誤差に基づいて、分類手段500のパラメータ更新していく。この1回の学習処理をミニバッチと呼び、全ての学習データの学習処理が終えるまでの回数分繰り返す。ここまでの学習処理の単位を1エポックと呼び、学習率を適宜調整しながら、数十から数百回のエポック数だけ繰り返して学習処理を行う(図12~図14参照)。
このような学習処理の結果、各段のキーワード同士がどのような位置関係や分布をしている場合に、各段のキーワードのセットと文献との関連性が高いかの判定を正確に行えるような分類手段(学習済みの機械学習モデル)を生成することができる。
6-2. In the case of backward propagation learning processing, the learning processing is the same up to the output of the score value, but parameter update processing is added. When the machine learning model of the classifier is a neural network, the parameter update process is the update of parameters such as the weight of the convolution filter.
The learning processing means 600 multiplies a certain number of learning data (literature data) called a batch size by a predetermined learning rate, and calculates the error between the score value of the output result and the label value (teaching data) which is the correct value. Based on, the parameters of the classification means 500 are updated. This single learning process is called a mini-batch, and is repeated until the learning process for all the learning data is completed. The unit of the learning process up to this point is called one epoch, and while the learning rate is appropriately adjusted, the learning process is repeated for several tens to several hundred epochs (see FIGS. 12 to 14).
As a result of such learning processing, it is possible to accurately judge whether the set of keywords in each column and the document are highly related when the keywords in each column are in the positional relationship and distribution. classifier (trained machine learning model) can be generated.
以上のように、本願発明によれば、文献のカテゴリや検索条件に関わらず、キーワードのセットと文献との関連性が高い場合ないし低い場合には、第1段~第n段のキーワードの相互の位置関係や分布の特徴は一定の傾向を示すという性質を利用して生成した素性ベクトル(空間分布ベクトル)をので、特許文献、論文、裁判例などの文献のカテゴリや、それぞれの技術分類を問わず、キーワードのセットと文献との関連性が高いかの判定を正確に行うことが可能となる。 As described above, according to the present invention, regardless of the document category and search conditions, if the set of keywords and the document have high or low relevance, mutual The feature vector (spatial distribution vector) generated by using the property that the positional relationship and distribution features show a certain tendency. Regardless, it is possible to accurately determine whether the set of keywords and the document are highly related.
7.全体の処理フローについて
図9は、本願発明の処理の全体フローである。
まず、情報処理システム1000の入力手段は、第1段~第n段のキーワード群の各キーワードをそれぞれ設定した内容を取得する(ステップS1)。
また、入力手段は、所定の検索キーワードによる検索条件でヒットした文献のテキストデータを1件分読み込む(ステップS2)。文献のテキストデータは文献をスキャナでスキャンしたり、写真で撮影した画像データを文字認識した結果であってもよい。
解析手段300は、文献のテキストデータを形態素解析して(ステップS3)、取得した第1段~第n段のキーワード群の各キーワードの存在箇所や分布状況を解析する(ステップS4)。
7. Overall Processing Flow FIG. 9 is an overall processing flow of the present invention.
First, the input means of the
Further, the input means reads the text data of one document hit by the retrieval condition of the predetermined retrieval keyword (step S2). The text data of the document may be the result of scanning the document with a scanner or character recognition of image data taken with a photograph.
The analysis means 300 morphologically analyzes the document text data (step S3), and analyzes the location and distribution of each keyword in the acquired first to n-th keywords (step S4).
そして、素性ベクトル生成手段400は、解析した結果に基づいて、第1段~第n段のキーワード群ごとに、素性ベクトル(KW空間分布ベクトル)をそれぞれ生成する(ステップS5)。
生成した素性ベクトル(KW空間分布ベクトル)は分類手段(機械学習モデル)500に入力され(ステップS6)、分類手段(機械学習モデル)500は、キーワードのセットと文献との関連性、すなわち調査対象技術との関連性についての評価結果を出力する(ステップS7)。
以上を、全ての文献について繰り返し(ステップS8のNO)、全ての文献について終了すると(ステップS8のYES)、評価結果をスコア順にソートして出力する(ステップS9、S10)。
なお、学習処理は図示しないが、分類手段(機械学習モデル)500が順方向伝搬で出力した評価結果のスコア値と、ラベル(教師データ)との差分を逆方向に伝搬させ、例えば、ニューラルネットワークの場合には誤差逆伝搬法や勾配効果法などによって、ニューラルネットワークの重みやバイアスなどのパラメータを更新することで行う。
Based on the analysis result, the feature vector generating means 400 generates feature vectors (KW space distribution vectors) for each of the first to n-th keyword groups (step S5).
The generated feature vector (KW space distribution vector) is input to the classification means (machine learning model) 500 (step S6), and the classification means (machine learning model) 500 determines the relationship between the keyword set and the document, that is, the research object An evaluation result regarding the relevance to technology is output (step S7).
The above is repeated for all documents (NO in step S8), and when all documents are completed (YES in step S8), the evaluation results are sorted in order of score and output (steps S9 and S10).
Although the learning process is not shown, the difference between the score value of the evaluation result output by the classification means (machine learning model) 500 in forward propagation and the label (teacher data) is propagated in the backward direction, and for example, a neural network In the case of , it is performed by updating the parameters such as the weights and biases of the neural network by the error backpropagation method, the gradient effect method, or the like.
図10は、分類手段(機械学習モデル)500における第1層~第2層の畳み込み処理の詳細を示すフローチャートである。
まず、処理対象のチャンネル(CH)と、当該CH用の特徴抽出用の畳み込みフィルタをセットする(ステップP1)。
入力データである当該CHのKW空間分布ベクトルに対し、畳み込みフィルタをずらしながら畳み込み処理を行う(ステップP2)(図8の吹き出しの処理1を参照)。
ここで、畳み込みフィルタをずらす間隔(ストライド)については、通常1をセットするが、学習データ量との関係で多少変えることができ、学習データが十分にないときは大きめに(例えば2)設定しても構わない。
畳み込み結果を保存し(ステップP3)、全てのCHについて同様の畳み込み処理を行う(ステップP4)。
FIG. 10 is a flow chart showing the details of convolution processing of the first to second layers in the classifier (machine learning model) 500. FIG.
First, a channel (CH) to be processed and a convolution filter for feature extraction for the CH are set (step P1).
The KW space distribution vector of the CH, which is the input data, is subjected to convolution processing while shifting the convolution filter (step P2) (see the
Here, the interval (stride) for shifting the convolution filter is normally set to 1, but it can be changed somewhat depending on the amount of learning data. I don't mind.
The convolution result is saved (step P3), and the same convolution processing is performed for all CHs (step P4).
次に、CH1~CHnの畳み込み処理の結果を合成して、1枚の畳み込み結果を作成する(ステップP5)。
なお、この畳み込み結果の合成値は、第1段~第n段のキーワード同士の位置関係や分布の特徴マップとなっている。
そして、畳み込みフィルタの種類を更新して、同様の畳み込み処理と合成処理を行う(ステップP6~P7)。
例えば、20種類の畳み込みフィルタを用意した場合、20枚の畳み込み結果の合成結果を得る(ステップP8)。
この20枚の畳み込み結果の合成結果は、学習処理を経た後に、第1段~第n段のキーワード同士の位置関係や分布の特徴マップを20種類用意したことになり、2層目以降で、位置関係と分布の特徴を多面的に評価する基礎となる。
Next, the convolution processing results of CH1 to CHn are combined to create one convolution result (step P5).
The combined value of this convolution result is a feature map of the positional relationship and distribution of the keywords in the 1st to n-th stages.
Then, the type of convolution filter is updated, and similar convolution processing and synthesis processing are performed (steps P6 and P7).
For example, when 20 kinds of convolution filters are prepared, a synthesized result of 20 convolution results is obtained (step P8).
After going through the learning process, the result of synthesizing these 20 convolution results is to prepare 20 types of feature maps of the positional relationships and distributions of the keywords in the 1st to nth stages. It is the basis for multifaceted evaluation of positional relationships and distribution characteristics.
なお、以上の説明では、各CHに対し畳み込みフィルタをそれぞれ適用してから畳み込み結果を作成し、その後、各CHの畳み込み結果を合成するようにしたが、処理の順番を変えて、例えば、畳み込みフィルタを1回適用するごとに、CH1~CHnの畳み込み結果を合成し、畳み込みフィルタをずらしながら、1枚の合成結果を得るようにしても構わない。
そして、2層目以降も同様に、畳み込みフィルタをセット(ステップP9)→畳み込み処理(ステップP10~P12)→畳み込み結果の合成(ステップP13)→畳み込みフィルタ種類を更新して(ステップP14~15)、同様の処理を繰り返し、例えば20種類の畳み込みフィルタを用意した場合、20枚の畳み込み結果の合成値を得る(ステップP16)。
3層目以降も同様の処理を繰り返し、第1層で生成した、やや局所的なキーワード同士の位置関係や分布の特徴の特徴マップに対し、層が進むにつれ、前段の特徴を複合的に組み合わせた、より高次の特徴マップを生成していく。
In the above description, the convolution result is created after applying the convolution filter to each CH, and then the convolution results of each CH are synthesized. Each time the filter is applied, the convolution results of CH1 to CHn may be synthesized, and one synthesis result may be obtained while shifting the convolution filter.
Similarly, for the second and subsequent layers, set convolution filters (step P9) → convolution processing (steps P10 to P12) → synthesis of convolution results (step P13) → update convolution filter types (steps P14 to 15). , the same processing is repeated, and when, for example, 20 types of convolution filters are prepared, a synthesized value of 20 convolution results is obtained (step P16).
The same process is repeated for the third and subsequent layers, and for the feature map generated in the first layer, which shows the relatively localized positional relationships and distribution features of keywords, as the layers progress, the features in the previous stage are combined in a complex manner. It also generates higher-order feature maps.
8.学習データ
図11は、学習用データの態様を示す図である。
学習データには、トレーニング用の学習データと、学習した後に性能をテストするためのテスト用の学習データがあるが、データ構造はどちらも同様である。例えば、10万件の学習データがあった場合、7万件をトレーニング用、3万件をテスト用に振り分けてもよい。
学習データの構造は、第1段のキーワード(第1KW)~第n段のキーワード(第nKW)、および文献データの文献番号と格納先、サーチャーが判断した文献と各段のキーワード群のキーワードとの関連性の高さを示す正解値であるラベル(教師データ)とを対応付けて記録する構造を有している。
ラベル(教師データ)は、サーチャーが一定の基準に基づいて、キーワードのセットと文献との関連性の程度を数値化した指標である。例えば、キーワードのセットと文献との関連性が非常に高い場合を100、反対に殆ど関係がない場合を0とするなど、0~100点までの範囲の指標としてもよい。
8. Learning Data FIG. 11 is a diagram showing an aspect of learning data.
Learning data includes learning data for training and learning data for testing for testing performance after learning, but both have the same data structure. For example, if there are 100,000 learning data, 70,000 may be allocated for training and 30,000 for testing.
The structure of the learning data consists of the first stage keyword (1st KW) to the nth stage keyword (nth KW), the document number and storage location of the document data, the document determined by the searcher, and the keyword of each stage keyword group. It has a structure for recording in association with a label (teaching data) that is a correct value indicating the degree of relevance of the data.
A label (teaching data) is an indicator that a searcher quantifies the degree of relevance between a set of keywords and a document based on a certain standard. For example, the index may range from 0 to 100 points, such as 100 when the keyword set and the document are highly related, and 0 when there is almost no relationship.
なお、サーチャーが複数存在する場合、どうしても個人差が生じ、統一したラベル値に統一できない場合も想定されるが、同じ文献のセットで調査した数値を元に、統計的に数値を調整するようにしてもよいし、ベテランのサーチャーの調査結果の学習データの学習率を高く(あるいはエポック数を多く)、そうでないサーチャーの学習率を低く設定することにより(あるいはエポック数を小さく)、ベテランのサーチャーの調査結果を重視して学習することで補償してもよい。
DATA1、DATA2、・・・は、ある調査対象技術毎に複数存在し、それぞれ前述のデータ構造を有している。各DATAは、通常、数百から数千の文献の集合であり、DATAが100個程度で5~10万件分の文献数になる。
なお、学習データは、データベースの構造のほか、ファイル構造など各種の構成であっても構わない。
また、新たに調査する場合の文献データの場合も、同様のデータ構造を有しており、文献の内容を確認する前であるので、ラベル(教師データ)がNULLとなっているほかは、同様の構成である。
When there are multiple searchers, it is assumed that there will be individual differences and it may not be possible to unify the label values, but we will try to statistically adjust the values based on the values investigated with the same set of documents. Alternatively, by setting a high learning rate (or a large number of epochs) for the learning data of the survey results of veteran searchers and a low learning rate (or a small number of epochs) for other searchers, the veteran searchers It may be compensated by learning with emphasis on the results of the survey.
A plurality of DATA1, DATA2, . Each DATA is usually a collection of several hundred to several thousand documents, and about 100 DATA is equivalent to 50,000 to 100,000 documents.
Note that the learning data may have various configurations such as a file structure in addition to the database structure.
Also, in the case of document data for a new survey, it has the same data structure, and since the content of the document has not yet been confirmed, the same is true except that the label (teaching data) is NULL. is the configuration.
9.学習処理の設定値、分類手段の構成の設定値
図12~図14は、本願発明における学習処理の進行に伴って、分類手段(機械学習モデル)500が出力したキーワードのセットと文献との関連性に関する指標と、予め与えられた正解値であるラベル(教師データ)との誤差がどのように推移するかをテストするための学習処理の設定値および分類手段500の構成の設定値の一例である。
機械学習モデルとしては、一例として、層数が10層のディープニューラルネットワークを選択した場合を想定している。
図12のように、素性ベクトルとして、第1段~第n段(第1~第3ないし第5段程度)のキーワードの空間分布ベクトルのみを用いた場合において、トレーニング用の文献データ数が9,000件にとどまる場合には、エポック数を多めにとっても、誤差はかなり残ってしまうことが想定される。
また、トレーニング時とテスト時で、誤差の数値が離れており、テスト時の誤差も収束せず、分類手段が出力する判定結果の数値の信頼性もあまり期待できないことが想定される。
9. Set values for learning processing and set values for the configuration of the classification means. An example of setting values for the learning process and setting values for the configuration of the classification means 500 for testing how the error between the sex index and the label (teacher data), which is the correct value given in advance, changes. be.
As an example of the machine learning model, it is assumed that a deep neural network with 10 layers is selected.
As shown in FIG. 12, when only the spatial distribution vectors of the keywords in the 1st to n-th stages (approximately 1st to 3rd to 5th stages) are used as feature vectors, the number of document data for training is 9. ,000 cases, it is assumed that even if the number of epochs is increased, a considerable amount of error will remain.
In addition, it is assumed that the numerical values of errors during training and during testing are different, the errors during testing do not converge, and the reliability of the numerical values of the judgment results output by the classifier cannot be expected.
他方、図13に示すように、素性ベクトルとして、第1段~第n段(第1~第3段ないし第5段程度)のKW空間分布ベクトルのみを用いた場合でも、トレーニング用の文献データ数が90,000件程度ある場合には、エポック数を十分とれば誤差は10%以下まで減少し、トレーニング時とテスト時で、誤差の数値もかなり近くなり、分類手段が出力する判定結果の信頼性もかなり高くなることが期待される。
さらに、図14に示すように、素性ベクトルとして、第1段~第n段(第1~第3段ないし第5段程度)のKW空間分布ベクトル(第1~第5段程度)に加え、文献中の技術用語の上位1位~第n位(第5位程度)の空間分布ベクトル、または第1段~第n段のキーワードに対する係り受け語の空間分布ベクトルを追加して入力する分類手段を構成した場合には、畳み込みフィルタの種類数を増やす必要があり、学習すべきパラメータ数が増えるため、学習データ数は多めに必要となるが、さらに誤差が小さくなり、分類手段が出力する判定結果の信頼性が高くなることが期待される。
On the other hand, as shown in FIG. 13, even when only the KW spatial distribution vectors of the 1st to nth stages (about the 1st to 3rd to 5th stages) are used as feature vectors, the document data for training When the number of cases is about 90,000, the error is reduced to 10% or less if a sufficient number of epochs is taken, and the error values are quite close between training and testing, and the judgment results output by the classifier are similar. Reliability is also expected to be considerably higher.
Furthermore, as shown in FIG. 14, as a feature vector, in addition to the KW spatial distribution vectors (about the first to fifth stages) of the first to nth stages (about the first to third to fifth stages), Classification means for additionally inputting the spatial distribution vectors of the top 1st to nth (about 5th) technical terms in the literature, or the spatial distribution vectors of dependent words for the 1st to nth keywords , it is necessary to increase the number of types of convolution filters and the number of parameters to be learned. It is expected that the results will be more reliable.
10.性能評価の例
図15は、本願発明における検索キーワードのセットと文献との関連性を判定する処理の性能評価の一例であって、分類手段のパラメータ数やラベルと文献データのセットの数や素性ベクトルの種類数によって、関連性の高い上位3%の文献が含まれているスコアの範囲、および工数削減率の一例を示す図である。
図15に示すように、畳み込みフィルタの種類数(パラメータ数に対応)およびトレーニング用の文献データ数に応じて、あるいは素性ベクトルの種類数に応じて、分類手段500の出力するスコア値の精度向上が期待できる。
10. Example of Performance Evaluation FIG. 15 shows an example of performance evaluation of processing for determining the relevance between a set of search keywords and documents in the present invention. FIG. 10 is a diagram showing an example of a range of scores in which the top 3% of highly relevant documents are included and an example of a man-hour reduction rate, depending on the number of vector types;
As shown in FIG. 15, according to the number of types of convolution filters (corresponding to the number of parameters) and the number of document data for training, or according to the number of types of feature vectors, the accuracy of the score value output by the classification means 500 is improved. can be expected.
例えば、図15の1行目のように、文献データ数が9,000件の場合には(図12参照)、サーチャーが確認して実際にキーワードのセットと文献との関連性が高いと判断できる上位3%の文献が含まれているといえる範囲は、分類手段500が出力したスコア値の上位80%の範囲となっている。
この場合、キーワードでヒットした文献全部の8割を確認しなければ、上位3%の文献をピックアップできない信頼度であることが分かる。すなわち、文献が1000件ヒットしている場合に、200件分の文献を確認しないで済むに留まるから、工数削減効果は20%にすぎない性能といえる。
他方、図15の3行目に記載するように、トレーニング用の文献データ数が90,000件の場合には(図13参照)、素性ベクトルがKW空間分布ベクトルだけの場合でも、関連性が高いと判断できる上位3%の文献が含まれているといえる範囲は、出力したスコア値の上位30%で足り、かなり性能が向上している。この場合の、工数削減率は70%となる。
For example, as shown in the first line of FIG. 15, when the number of document data is 9,000 (see FIG. 12), the searcher confirms and determines that the set of keywords and the document are actually highly related. The range that can be said to include the top 3% of documents that can be classified is the range of the top 80% of the score values output by the classification means 500 .
In this case, it can be seen that the reliability is such that the top 3% of documents cannot be picked up unless 80% of all the documents hit by the keyword are confirmed. In other words, when 1000 documents are hits, 200 documents need not be checked, so the man-hour reduction effect is only 20%.
On the other hand, as described in the third row of FIG. 15, when the number of document data for training is 90,000 (see FIG. 13), even if the feature vector is only the KW spatial distribution vector, the relevance is The top 30% of output score values are sufficient for the range in which the top 3% of documents that can be judged to be high are included, and the performance is considerably improved. In this case, the man-hour reduction rate is 70%.
以上のサーチャーによる「上位3%の文献が含まれていた範囲」の確認結果は、例えば、技術分野の情報(特許文献の場合はIPC分類等)と関連付けてデータベースに記録しておき、平均値や分散などの統計的手法を介した数値に変換等したうえで、学習済み機械学習モデルの信頼度を示す数値として利用することができる(後述の図16参照)。 For example, the confirmation result of "the range in which the top 3% of documents are included" by the searcher is recorded in the database in association with the information of the technical field (IPC classification etc. in the case of patent documents), and the average value It can be used as a numerical value indicating the reliability of the trained machine learning model after being converted into a numerical value through a statistical method such as , dispersion, etc. (see FIG. 16 described later).
11.出力結果の例
図16は、分類手段(機械学習モデル)500が出力したキーワードのセットと文献との関連性の評価結果の表示画面ないし印刷出力等の出力結果の態様の一例を示す図である。
評価結果は、出力したスコア値の高い順にソートされ、第1段~第n段のキーワード群のキーワードのヒット箇所および個数などのほか、文献番号および文献の格納先へのリンク、その他の書誌事項などが出力されている。
右端の項目では、関連性の高い上位3%または5%の文献が含まれている可能性が高い範囲を区別表示している。区別表示は図では網掛けで表示しているが、色、文字列、矢印などで範囲を示していてもよい。
一般に、機械学習モデル、特に深層学習モデルの場合には、判断過程がブラックボックスであるため、出力結果の信頼性が不明であるといわれている。
そこで、本願発明の情報処理システムでは、このようなモデルの出力結果の信頼度を表示するようにした。
11. Example of output result FIG. 16 is a diagram showing an example of an output result such as a display screen or a printed output of the evaluation result of the association between the set of keywords output by the classification means (machine learning model) 500 and the document. .
The evaluation results are sorted in descending order of the output score value, and in addition to the hit location and number of keywords in the 1st to nth keyword group, the document number and link to the storage location of the document, and other bibliographic items. etc. is output.
The rightmost item distinguishes the range that is likely to include the top 3% or 5% of the most relevant documents. The distinguishing display is indicated by shading in the figure, but the range may be indicated by colors, character strings, arrows, or the like.
In general, machine learning models, especially deep learning models, are said to have unknown reliability of output results because the decision process is a black box.
Therefore, in the information processing system of the present invention, the reliability of the output result of such a model is displayed.
このように、従来技術の場合は、単語の頻度情報をベースにベクトル化したり、文献全体を特徴ベクトル化するので、第1段のキーワード群のキーワードと第n段のキーワード群のキーワードとの局所的な位置関係や分布の特徴、および、それらを複合的に組み合わせた高次の特徴を評価することができないのに対し、本願発明によれば、それらが可能となる。
そして、様々なキーワードを設定した場合でも、文献の種類やキーワードのカテゴリに関わらず、キーワードのセットと文献との関連性が高い場合や低い場合に、第1段~第n段のキーワードの相互の位置関係や分布の特徴は一定の傾向を示すので、学習データによって一定の学習を経た機械学習モデルによれば、それらに基づいて、キーワードのセットと文献との関連性を精度よく評価できる情報処理システムを提供することができる。
このため、キーワードを選択して文献を調査する際に、初めて、所定のキーワードを選択して調査する場面でも、プレ調査して関連性のある文献を苦労して探すことなく、キーワードを設定して調査開始する最初の段階から、文献調査の工数を大幅に削減することができる。
In this way, in the case of the conventional technology, vectorization is performed based on word frequency information, or feature vectorization is performed on the entire document. While it is not possible to evaluate physical positional relationships, distribution features, and high-order features that combine them in a composite manner, the present invention enables them.
Then, even when various keywords are set, regardless of the type of document or category of keywords, if the set of keywords and the document have high or low relevance, the mutual relationship between the keywords in the first to nth stages Since the positional relationships and distribution features of keywords show a certain tendency, a machine learning model that has undergone a certain amount of learning using training data can accurately evaluate the relationship between a set of keywords and documents based on them. A processing system can be provided.
For this reason, when selecting keywords and researching literature, even if it is the first time to select predetermined keywords and research, keywords can be set without pre-searching and struggling to find relevant literature. It is possible to greatly reduce the man-hours of literature research from the initial stage of starting the research.
本願発明は、何らかの言語で書かれている文献全般について適用でき、国内外の各種文献の検索処理に利用できる。例えば、日本国内の特許文献、論文、裁判例などのほか、米国や中国など、諸外国の各種文献についても利用できる。 The present invention can be applied to documents in general written in any language, and can be used for search processing of various domestic and foreign documents. For example, in addition to Japanese domestic patent documents, papers, and judicial precedents, various documents from other countries such as the United States and China can also be used.
100 特許文献、論文、裁判例などの文献データ
200 検索キーワード
300 解析手段
400 素性ベクトル生成手段
500 分類手段
600 学習処理手段
700 評価処理手段
800 評価用辞書
1000 情報処理装置
2000 通信ネットワーク
3000 ユーザー端末
3100 ユーザー端末
100 Document data such as patent documents, papers,
Claims (18)
文献のテキストデータを取得する手段と、
検索キーワードのセットとして、第1段~第n段のキーワード群のセットで取得する手段と、
文献のテキストデータ中に含まれるキーワードの存在箇所を解析するKW存在箇所解析手段と、
前記KW存在箇所解析手段によって解析したキーワードの存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成するKW空間分布ベクトル生成手段と、を備え、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、文献ごとに、第1段~第n段のKW空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段を備えたこと、
を特徴とする情報処理システム。 A system for determining the relevance between a set of search keywords and a document,
a means for obtaining text data of a document;
means for obtaining a set of keywords from the first stage to the n-th stage as a set of search keywords;
KW existence location analysis means for analyzing the location of keywords included in the text data of the document;
a KW space distribution vector generation means for generating a KW space distribution vector indicating how the locations of the keywords analyzed by the KW existence location analysis means are distributed in text data of the document;
The KW space distribution vector generating means generates, for each document, based on the location of each keyword in the group of keywords in the first to nth stages included in the text data of the document, the first to nth stages and generate KW spatial distribution vectors of
Based on the KW space distribution vectors of the 1st to nth stages generated for each document, the positional relationship between the keywords of the 1st to nth stage keywords and the characteristics of the distribution are evaluated, and the search keywords provided with classification means for determining the relevance between the set of
An information processing system characterized by
文献のテキストデータ中に含まれるキーワードの存在箇所の近傍に存在するキーワードの係り受け語の存在箇所を解析するKW係受語存在箇所解析手段と、
前記KW係受語存在箇所解析手段によって解析したキーワードの近傍の係り受け語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW係受語空間分布ベクトルを生成するKW係受語空間分布ベクトル生成手段と、を備え、
前記KW係受語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、文献ごとに、第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群の各キーワードとそれに対応する係受語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段を備えたこと、
を特徴とする情報処理システム。 The information processing system according to claim 1, further comprising:
KW dependent word existence location analysis means for analyzing the existence location of the dependent word of the keyword existing in the vicinity of the location of the keyword included in the text data of the document;
KW for generating a KW related word space distribution vector indicating how the locations of dependent words near the keyword analyzed by the KW related word presence location analyzing means are distributed in the text data of the document; Dependent word space distribution vector generation means,
The KW dependent word space distribution vector generating means generates for each document based on the location of the dependent word corresponding to each keyword of the first to n-th keyword groups included in the text data of the document. , respectively generate the KW-related word space distribution vectors of the 1st to nth stages corresponding to the keyword groups of the 1st to nth stages,
Based on the first to n-th KW space distribution vectors generated for each document and the first to n-th KW related word space distribution vectors,
Characteristics of positional relationships and distributions among keywords in the first to n-th keyword groups, and mutual relationships between each keyword in the first to n-th keyword groups and their corresponding dependent words Equipped with classification means for evaluating positional relationships and distribution characteristics to determine relevance between a set of search keywords and documents;
An information processing system characterized by
文献のテキストデータ中に含まれる技術用語を頻度順に分析する技術用語分析手段と、
前記技術用語分析手段によって分析した技術用語の上位1番目~上位m番目までの技術用語の存在箇所を解析する技術用語存在箇所解析手段と、
前記技術用語存在箇所解析手段によって解析した技術用語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示す技術用語空間分布ベクトルを生成する技術用語空間分布ベクトル生成手段と、を備え、
前記技術用語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて、文献ごとに、上位1番目~上位m番目の技術用語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群のキーワードと前記上位1番目~上位m番目の技術用語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段と、
を備えたことを特徴とする情報処理システム。 The information processing system according to claim 1, further comprising:
technical terminology analysis means for analyzing technical terms included in text data of documents in order of frequency;
a technical term existence location analysis means for analyzing the location of the technical terms from the top 1 to the top m of the technical terms analyzed by the technical term analysis means;
a technical term space distribution vector generation means for generating a technical term space distribution vector indicating how the locations of the technical terms analyzed by the technical term presence location analysis means are distributed in the text data of the document; prepared,
The technical term space distribution vector generating means, based on the locations of the top 1 to top m technical terms included in the text data of the document, the top 1 to top m th technology for each document Generate a term space distribution vector, respectively,
Based on the first to n-th KW spatial distribution vectors generated for each document and the top 1 to top m-th technical term space distribution vectors,
Features of mutual positional relationships and distributions of keywords in the first to n-th keyword groups, and keywords in the first to n-th keyword groups and the top first to top m-th technical terms A classifying means for evaluating the mutual positional relationship and distribution characteristics of and determining the relevance between the set of search keywords and the document;
An information processing system comprising:
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワードの相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワードの相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システム。 In the information processing system according to claim 1,
The classification means for determining the relevance between a set of search keywords and documents based on the first to n-th KW space distribution vectors generated for each document is composed of a neural network of at least three layers. if
In the first layer of the neural network,
convolution means for performing convolution processing on the KW space distribution vectors of the first stage to the nth stage using the corresponding convolution filters;
synthesizing means for synthesizing the results of the convolution processing to generate a feature map that extracts the mutual positional relationship and distribution features of the keywords in the first to n-th keyword groups,
In the second and subsequent layers of the neural network,
Convolution means for performing convolution processing using a plurality of convolution filters on a plurality of feature maps generated in the previous layer;
synthesizing means for synthesizing the results of the convolution processing to generate a feature map that extracts high-order features of mutual positional relationships and distributions of keywords in the first to n-th keyword groups;
An information processing system comprising:
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトル及び、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及びそれらの係り受け語の相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及びそれらの係り受け語の相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システム。 In the information processing system according to claim 2,
The 1st to n-th KW space distribution vectors generated for each document, and the 1st to n-th KW related word space distribution vectors corresponding to the 1st to n-th keywords , Based on, when the classification means for determining the relevance between the set of search keywords and the document is composed of a neural network of at least three layers,
In the first layer of the neural network,
Corresponding to the KW space distribution vectors of the first to nth stages and the KW-related word space distribution vectors of the first to nth stages corresponding to the keyword groups of the first to nth stages, respectively Convolution means for performing convolution processing using a convolution filter that
synthesizing means for synthesizing the results of the convolution process to generate a feature map that extracts the mutual positional relationships and distribution features of the keywords of the first to nth stage keywords and their dependent words; with
In the second and subsequent layers of the neural network,
Convolution means for performing convolution processing using a plurality of convolution filters on a plurality of feature maps generated in the previous layer;
Combining the results of the convolution process to generate a feature map that extracts the mutual positional relationships and high-order features of the distribution of the keywords in the group of keywords from the first stage to the n-th stage and their dependent words. means and
An information processing system comprising:
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトル及び、前記上位1番目~上位m番目の技術用語空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及び上位1番目~上位m番目の技術用語の相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及び上位1番目~上位m番目の技術用語の相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システム。 In the information processing system according to claim 3,
Based on the 1st to n-th KW space distribution vectors generated for each document and the 1st to top m-th technical term space distribution vectors, the set of search keywords and the relevance of the document When the classification means for determining is composed of a neural network of at least three layers,
In the first layer of the neural network,
Convolution means for performing convolution processing on the first to n-th KW space distribution vectors and the first to top m-th technical term space distribution vectors using convolution filters corresponding to them, respectively ,
By synthesizing the results of the convolution process, generate a feature map that extracts the mutual positional relationships and distribution features of the keywords in the 1st to n-th keyword groups and the top 1 to top m-th technical terms. and a synthesizing means for
In the second and subsequent layers of the neural network,
Convolution means for performing convolution processing using a plurality of convolution filters on a plurality of feature maps generated in the previous layer;
By synthesizing the results of the convolution process, the mutual positional relationship and high-order features of the distribution of the keywords in the 1st to nth stage keywords and the top 1st to top mth technical terms are extracted. a compositing means for generating a map;
An information processing system comprising:
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した前記ラベル値との誤差に基づいて、前記分類手段のパラメータを更新する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習すること、
を特徴とする情報処理システム。 In the information processing system according to any one of claims 1 and 4,
means for acquiring a learning data set in which a set of search keywords, text data of a document, and a label value indicating the relationship between the set of search keywords and the document are associated;
Learning processing means for updating the parameters of the classification means based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the obtained label value,
inputting the KW spatial distribution vectors of the first stage to the nth stage generated for each document based on the learning data set into the classification means;
The learning processing means learns by updating the parameters of the classification means based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value. matter,
An information processing system characterized by
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとに基づいて、検索キーワードのセットと文献との関連性を判定する分類手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習処理を行うこと、
を特徴とする情報処理システム。 In the information processing system according to any one of claims 2 and 5,
means for acquiring a learning data set in which a set of search keywords, text data of a document, and a label value indicating the relationship between the set of search keywords and the document are associated;
The 1st to n-th KW space distribution vectors generated for each document, and the 1st to n-th KW related word space distribution vectors corresponding to the 1st to n-th keywords A classification means for determining the relevance between a set of search keywords and documents based on
Learning processing means for learning parameters of the classification means based on the error between the score value of the relevance between the set of search keywords and the document output by the classification means and the label value,
The KW spatial distribution vectors of the 1st to nth stages generated for each document based on the learning data set, and the 1st to nth stages corresponding to the keyword groups of the 1st to nth stages inputting the KW related word space distribution vector into the classification means;
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means updates the parameters of the classification means to perform learning processing. to do
An information processing system characterized by
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習処理を行うこと、
を特徴とする情報処理システム。 In the information processing system according to claim 3 or claim 6,
means for acquiring a learning data set in which a set of search keywords, text data of a document, and a label value indicating the relationship between the set of search keywords and the document are associated;
Learning processing means for learning parameters of the classification means based on the error between the score value of the relevance between the set of search keywords and the document output by the classification means and the label value,
Inputting the first to n-th KW space distribution vectors generated for each document based on the learning data set and the top first to top m-th technical term space distribution vectors to the classification means ,
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means updates the parameters of the classification means to perform learning processing. to do
An information processing system characterized by
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した前記ラベル値との誤差に基づいて、前記分類手段のパラメータを更新する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデル。 8. The information processing system according to claim 7, wherein a learned model for causing a computer to determine the relevance between a set of search keywords and documents learned by said learning processing means,
Learning processing means for updating the parameters of the classification means based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the obtained label value,
inputting the KW spatial distribution vectors of the first stage to the nth stage generated for each document based on the learning data set into the classification means;
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means obtains by learning processing for updating the parameters of the classification means. trained model.
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデル。 9. The information processing system according to claim 8, wherein a learned model for causing a computer to determine the relevance between a set of search keywords and documents learned by the learning processing means,
Learning processing means for learning parameters of the classification means based on the error between the score value of the relevance between the set of search keywords and the document output by the classification means and the label value,
KW space distribution vectors of the 1st to nth stages generated for each document based on the learning data set, and KWs of the 1st to nth stages corresponding to the keyword groups of the 1st to nth stages inputting the dependent word space distribution vector into the classification means;
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means obtains by learning processing for updating the parameters of the classification means. trained model.
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデル。 10. The information processing system according to claim 9, wherein a learned model for causing a computer to determine the relevance between a set of search keywords and documents learned by said learning processing means,
Learning processing means for learning parameters of the classification means based on the error between the score value of the relevance between the set of search keywords and the document output by the classification means and the label value,
The first to n-th KW space distribution vectors generated for each document based on the learning data set and the top 1 to top m-th technical term space distribution vectors are input to the classification means. ,
Based on the error between the score value of the relevance between the search keyword set and the document output by the classification means and the label value, the learning processing means obtains by learning processing for updating the parameters of the classification means. trained model.
を特徴とする情報処理システム。 Using the learned model obtained by the learning process in the information processing system according to any one of claims 7 to 9, determining the relevance between the set of search keywords and the document,
An information processing system characterized by
検索キーワードのセットと文献との関連性が高いと判定される順番で判定結果を出力する手段と、
実際にサーチャーが関連性が高いと判断する文献の上位p%の文献が含まれている可能性が高い範囲を区別表示する手段と、
を備えたことを特徴とする情報処理システム。 An information processing system that determines the relevance between a set of search keywords and a document using a learned model obtained by learning processing in the information processing system according to any one of claims 7 to 9,
means for outputting determination results in the order in which the set of search keywords and the document are determined to be highly relevant;
a means for distinguishingly displaying a range that is highly likely to include the top p% of documents that the searcher actually judges to be highly relevant;
An information processing system comprising:
文献のテキストデータを取得するステップと、
検索キーワードのセットとして、第1段~第n段のキーワード群のセットで取得するステップと、
文献のテキストデータ中に含まれるキーワードの存在箇所を解析するKW存在箇所解析ステップと、
前記KW存在箇所解析ステップによって解析したキーワードの存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成するKW空間分布ベクトル生成ステップと、を備え、
前記KW空間分布ベクトル生成ステップにより、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、第1段~第n段のKW空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法。 A method for determining the relevance between a set of search keywords and a document,
obtaining text data of the literature;
a step of obtaining a set of keywords from the 1st stage to the nth stage as a set of search keywords;
a KW presence location analysis step of analyzing the location of keywords included in the text data of the document;
a KW space distribution vector generation step for generating a KW space distribution vector indicating how the presence locations of the keywords analyzed by the KW presence location analysis step are distributed in the text data of the document;
By the KW space distribution vector generation step , the KW space distribution of the 1st to nth stages based on the location of each keyword of the 1st to nth stage keywords included in the text data of the document generate vectors respectively,
Based on the KW space distribution vectors of the 1st to nth stages generated for each document, the positional relationship between the keywords of the 1st to nth stage keywords and the characteristics of the distribution are evaluated, and the search keywords determining the relevance of the set of
An information processing method characterized by:
文献のテキストデータ中に含まれるキーワードの存在箇所の近傍に存在するキーワードの係り受け語の存在箇所を解析するKW係受語存在箇所解析ステップと、
前記KW係受語存在箇所解析ステップによって解析したキーワードの近傍の係り受け語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW係受語空間分布ベクトルを生成するKW係受語空間分布ベクトル生成ステップと、を備え、
前記KW係受語空間分布ベクトル生成ステップにより、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係又は分布の特徴、および、前記第1段~第n段のキーワード群の各キーワードとそれに対応する係受語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法。 The information processing method according to claim 15 , further comprising:
a KW dependent word existence location analysis step of analyzing the existence location of the dependent word of the keyword existing in the vicinity of the location of the keyword included in the text data of the document;
KW for generating a KW-dependent word space distribution vector indicating how the locations of dependent words near the keyword analyzed by the KW-dependent word presence location analyzing step are distributed in the text data of the document; a dependent word space distribution vector generation step;
According to the KW dependent word space distribution vector generation step, the first Generating KW related word space distribution vectors of the 1st to n-th stages corresponding to the keyword groups of the 1st to n-th stages,
The 1st to n-th KW space distribution vectors generated for each document, and the 1st to n-th KW related word space distribution vectors corresponding to the 1st to n-th keywords ,On the basis of the,
features of positional relationships or distributions among keywords in the first to n-th keyword group, and mutual relationships between each keyword in the first to n-th keyword group and their corresponding dependent words; Evaluating the positional relationship and distribution characteristics to determine the relevance between the set of search keywords and the document,
An information processing method characterized by:
文献のテキストデータ中に含まれる技術用語を頻度順に分析する技術用語分析ステップと、
前記技術用語分析ステップによって分析した技術用語の上位1番目~上位m番目までの技術用語の存在箇所を解析する技術用語存在箇所解析ステップと、
前記技術用語存在箇所解析ステップによって解析した技術用語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示す技術用語空間分布ベクトルを生成する技術用語空間分布ベクトル生成ステップと、を備え、
前記技術用語空間分布ベクトル生成ステップにより、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて、上位1番目~上位m番目の技術用語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群のキーワードと前記上位1番目~上位m番目の技術用語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法。 The information processing method according to claim 15 , further comprising:
A technical term analysis step of analyzing technical terms included in text data of documents in order of frequency;
A technical term existence location analysis step of analyzing the locations of the technical terms from the top 1 to the top m of the technical terms analyzed by the technical term analysis step;
a technical term space distribution vector generation step of generating a technical term space distribution vector indicating how the locations of the technical terms analyzed by the technical term presence location analysis step are distributed in the text data of the document; prepared,
By the technical term space distribution vector generation step, the top 1 to top m-th technical term space distribution vectors based on the locations of the top 1 to top m-th technical terms contained in the text data of the document respectively, and
Based on the 1st to n-th KW spatial distribution vectors generated for each document and the 1st to top m-th technical term spatial distribution vectors,
Features of mutual positional relationships and distributions of keywords in the first to n-th keyword groups, and keywords of the first to n-th keyword groups and the top first to top m-th technical terms Evaluating the mutual positional relationship and distribution characteristics with, to determine the relevance between the set of search keywords and the document,
An information processing method characterized by:
A program for causing a computer to execute the information processing method according to any one of claims 15 to 17 .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019052292A JP7226783B2 (en) | 2019-03-20 | 2019-03-20 | Information processing system, information processing method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019052292A JP7226783B2 (en) | 2019-03-20 | 2019-03-20 | Information processing system, information processing method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020154684A JP2020154684A (en) | 2020-09-24 |
| JP7226783B2 true JP7226783B2 (en) | 2023-02-21 |
Family
ID=72559161
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019052292A Active JP7226783B2 (en) | 2019-03-20 | 2019-03-20 | Information processing system, information processing method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7226783B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7568592B2 (en) * | 2021-07-29 | 2024-10-16 | 株式会社日立ソリューションズ | Method and computer system for evaluating models |
| JP7688601B2 (en) * | 2022-04-12 | 2025-06-04 | Kddi株式会社 | Prediction device, program, and method for predicting user behavior sequences using sequence prediction model |
| CN120724973B (en) * | 2025-06-23 | 2026-02-27 | 首都医科大学附属北京世纪坛医院 | Associated data analysis method, terminal and storage medium for ear-nose-throat symptoms |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001084255A (en) | 1999-09-10 | 2001-03-30 | Fuji Xerox Co Ltd | Device and method for retrieving document |
| JP2010186370A (en) | 2009-02-13 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus, method and program for ranking text search result, and recording medium recording the program |
| WO2013021696A1 (en) | 2011-08-05 | 2013-02-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Information search system, method and program |
| JP2018200621A (en) | 2017-05-29 | 2018-12-20 | 和之 白井 | Patent requirement conformity prediction device and patent requirement conformity prediction program |
-
2019
- 2019-03-20 JP JP2019052292A patent/JP7226783B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001084255A (en) | 1999-09-10 | 2001-03-30 | Fuji Xerox Co Ltd | Device and method for retrieving document |
| JP2010186370A (en) | 2009-02-13 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus, method and program for ranking text search result, and recording medium recording the program |
| WO2013021696A1 (en) | 2011-08-05 | 2013-02-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Information search system, method and program |
| JP2018200621A (en) | 2017-05-29 | 2018-12-20 | 和之 白井 | Patent requirement conformity prediction device and patent requirement conformity prediction program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020154684A (en) | 2020-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102020756B1 (en) | Method for Analyzing Reviews Using Machine Leaning | |
| CN109241530B (en) | A Chinese Text Multi-Classification Method Based on N-gram Vectors and Convolutional Neural Networks | |
| CN110750640B (en) | Text data classification method and device based on neural network model and storage medium | |
| CN108132927B (en) | Keyword extraction method for combining graph structure and node association | |
| CN110109835A (en) | A kind of software defect positioning method based on deep neural network | |
| KR100756921B1 (en) | A computer-readable recording medium containing a document classification method and a program for executing the document classification method on a computer. | |
| CN111274494B (en) | Composite label recommendation method combining deep learning and collaborative filtering technology | |
| CN111651594B (en) | Case classification method and medium based on key-value memory network | |
| CN114048305A (en) | A similar case recommendation method for administrative punishment documents based on graph convolutional neural network | |
| CN111966825A (en) | Power grid equipment defect text classification method based on machine learning | |
| CN114049165B (en) | Commodity price comparison method, device, equipment and medium for purchasing system | |
| JP7226783B2 (en) | Information processing system, information processing method and program | |
| CN115130601A (en) | Two-stage academic data webpage classification method and system based on multi-dimensional feature fusion | |
| CN111144453A (en) | Method and device for constructing multi-model fusion computing model, and method and device for identifying website data | |
| CN112199508A (en) | A parameter-adaptive agricultural knowledge graph recommendation method based on remote supervision | |
| CN118227790A (en) | Text classification method, system, device and medium based on multi-label association | |
| CN113987168A (en) | Merchant comment analysis system and method based on machine learning | |
| Chakraborty et al. | Bangla document categorisation using multilayer dense neural network with tf-idf | |
| CN116305284A (en) | Text privacy detection system based on double attention mechanism of graph convolutional neural network | |
| Al-Hagree et al. | Arabic sentiment analysis on mobile applications using Levenshtein distance algorithm and naive Bayes | |
| CN111708865B (en) | Technology forecasting and patent early warning analysis method based on improved XGboost algorithm | |
| CN115952292B (en) | Multi-label classification method, apparatus and computer readable medium | |
| CN113821571A (en) | Food safety relation extraction method based on BERT and improved PCNN | |
| CN110968693A (en) | A computational method for multi-label text classification based on ensemble learning | |
| CN119128076B (en) | A judicial case retrieval method and system based on course learning |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211012 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220727 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221101 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221125 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221204 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230131 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230202 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7226783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |