JP7620866B2 - Algorithm determination device, learning device production device, patent classification device, classification information determination device, algorithm determination method, learning device production method, classification information determination method, and program - Google Patents
Algorithm determination device, learning device production device, patent classification device, classification information determination device, algorithm determination method, learning device production method, classification information determination method, and program Download PDFInfo
- Publication number
- JP7620866B2 JP7620866B2 JP2020139102A JP2020139102A JP7620866B2 JP 7620866 B2 JP7620866 B2 JP 7620866B2 JP 2020139102 A JP2020139102 A JP 2020139102A JP 2020139102 A JP2020139102 A JP 2020139102A JP 7620866 B2 JP7620866 B2 JP 7620866B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- learning
- classification
- unit
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
本発明は、特許情報を分類する特許分類装置等に関するものである。 The present invention relates to a patent classification device that classifies patent information.
従来、ユーザが特許等の文書を分類する負荷を軽減する特許分類装置があった(特許文献1参照)。かかる特許分類装置は、文書の分類と前記文書とを対応付けた教師データを記憶部に記憶する分類登録部と、前記記憶部に記憶された前記教師データと前記分類の付与対象となる付与対象文書との類似度に基づいて得られた類似文書の分類に基づいて、前記付与対象文書に付与する分類を決定する分類付与部と、を備えることを特徴とする特許分類装置である。 There has been a patent classification device that reduces the burden on users when classifying documents such as patents (see Patent Document 1). This patent classification device is characterized by having a classification registration unit that stores training data in a storage unit that associates a document classification with the document, and a classification assignment unit that determines a classification to be assigned to a target document based on a classification of similar documents obtained based on the similarity between the training data stored in the storage unit and the target document to be assigned the classification.
しかしながら、従来技術においては、同じアルゴリズムを用いて、特許の分類を行っていたため、精度高く特許を分類できなかった。 However, in conventional technology, the same algorithm was used to classify patents, so patents could not be classified with high accuracy.
また、従来技術においては、どの付与対象文書についても、教師データと付与対象文書との類似度に基づいて得られた類似文書の分類に基づいて分類を決定しているため、特許を精度高く分類できなかった。 In addition, in the conventional technology, the classification of each document to be annotated was determined based on the classification of similar documents obtained based on the similarity between the training data and the document to be annotated, so patents could not be classified with high accuracy.
また、従来技術においては、周知な技術構成や従来技術等の発明のポイント以外の情報も多く含まれる特許明細書の文書全体を用いて、特許の分類を行っていたため、精度高く特許を分類できなかった。 In addition, in the prior art, patents were classified using the entire document of the patent specification, which contains a lot of information other than the key points of the invention, such as well-known technical configurations and prior art, so patents could not be classified with a high degree of accuracy.
本第一の発明のアルゴリズム決定装置は、特許に関する特許情報と特許情報に対する分類を示す分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、特許に関する特許情報を分類するための学習器を生成する1以上の学習器生成プログラムと、学習器を用いて特許分類情報の分類を予測し、予測分類情報を取得する予測プログラムとが格納されるプログラム格納部と、学習元情報を受け付ける学習元情報受付部と、学習元情報受付部が受け付けた学習元情報のうちの少なくとも一部の特許分類情報を用いて、1以上の各学習器生成プログラムを実行し、1以上の学習器を取得する学習部と、学習元情報受付部が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、学習部が生成した1以上の各学習器を用いて、予測プログラムを適用し、1以上の各特許分類情報に対する2以上の予測分類情報を取得する予測部と、予測部が取得した2以上の各予測分類情報と、学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、精度情報が特定する精度が最も高い予測分類情報を決定する評価部と、評価部が決定した予測分類情報に対応するアルゴリズムに関するアルゴリズム情報を取得するアルゴリズム情報取得部と、アルゴリズム情報を出力する出力部とを具備するアルゴリズム決定装置である。 The algorithm determination device of the first invention includes a program storage unit that stores one or more learning device generation programs for generating a learning device for classifying patent information relating to a patent using learning source information having two or more patent classification information having patent information relating to a patent and classification information indicating a classification of the patent information, and a prediction program that predicts the classification of the patent classification information using the learning device and obtains the predicted classification information, a learning source information receiving unit that receives the learning source information, a learning unit that executes each of the one or more learning device generation programs using at least a portion of the patent classification information of the learning source information received by the learning source information receiving unit, and obtains one or more learning devices, and a prediction program that predicts the classification of the patent classification information using the learning device and obtains the predicted classification information. The algorithm determination device includes a prediction unit that applies a prediction program to each of at least a portion of the patent classification information in the learning source information using one or more learning devices generated by the learning unit to obtain two or more predicted classification information for each of the one or more patent classification information; an evaluation unit that uses each of the two or more predicted classification information obtained by the prediction unit and classification information contained in the learning source information to obtain accuracy information regarding the accuracy of each of the two or more predicted classification information, and determines the predicted classification information with the highest accuracy specified by the accuracy information; an algorithm information acquisition unit that acquires algorithm information regarding an algorithm corresponding to the predicted classification information determined by the evaluation unit; and an output unit that outputs the algorithm information.
かかる構成により、予測処理を行うための適切な処理を決定できる。 This configuration makes it possible to determine the appropriate processing for performing prediction processing.
また、本第二の発明のアルゴリズム決定装置は、第一の発明に対して、学習元情報受付部が受け付けた学習元情報が有する2以上の各特許分類情報が有する特許情報のうち、異なる情報を有する2以上の特許分類情報を各々有する2以上の学習元情報を取得する学習元情報取得部をさらに具備し、学習部は、学習元情報取得部が取得した2以上の各学習元情報に対して、1以上の各学習器生成プログラムを実行し、2以上の学習器を取得し、予測部は、学習元情報受付部が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、学習部が生成した2以上の各学習器を用いて、予測プログラムを適用し、1以上の各特許分類情報に対する2以上の予測分類情報を取得し、アルゴリズム情報取得部は、評価部が決定した予測分類情報に対応する学習元情報が有する情報を特定する情報特定情報を含むアルゴリズム情報を取得するアルゴリズム決定装置である。 The algorithm determination device of the second invention further includes a learning source information acquisition unit that acquires two or more pieces of learning source information each having two or more pieces of patent classification information having different information from the patent information contained in the two or more pieces of patent classification information contained in the learning source information accepted by the learning source information acceptance unit, the learning unit executes one or more learning device generation programs for each of the two or more pieces of learning source information acquired by the learning source information acquisition unit to acquire two or more learning devices, the prediction unit applies a prediction program to at least some of the patent classification information of the learning source information accepted by the learning source information acceptance unit using each of the two or more learning devices generated by the learning unit to acquire two or more pieces of predicted classification information for each of the one or more pieces of patent classification information, and the algorithm information acquisition unit acquires algorithm information including information identifying information identifying information contained in the learning source information corresponding to the predicted classification information determined by the evaluation unit.
かかる構成により、予測処理を行う際に使用するデータを変更することにより、予測処理を行うための適切な処理を決定できる。 With this configuration, the data used when performing the prediction process can be changed to determine the appropriate process for performing the prediction process.
また、本第三の発明のアルゴリズム決定装置は、第一または第二の発明に対して、プログラム格納部には、2以上の学習器生成プログラムと2以上の予測プログラムとが格納され、学習部は、学習元情報受付部が受け付けた学習元情報のうちの少なくとも一部の特許分類情報を用いて、2以上の各学習器生成プログラムを実行し、2以上の学習器を取得し、予測部は、学習元情報受付部が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、学習部が生成した2以上の各学習器を用いて、予測プログラムを適用し、1以上の各特許分類情報に対する2以上の予測分類情報を取得し、アルゴリズム情報取得部は、評価部が決定した予測分類情報に対応する学習器生成プログラムを特定するプログラム特定情報を含むアルゴリズム情報を取得するアルゴリズム決定装置である。 The algorithm determination device of the third invention is an algorithm determination device according to the first or second invention, in which the program storage unit stores two or more learning device generation programs and two or more prediction programs, the learning unit executes each of the two or more learning device generation programs using at least a portion of the patent classification information of the learning source information accepted by the learning source information acceptance unit to obtain two or more learning devices, the prediction unit applies the prediction program to each of at least a portion of the patent classification information of the learning source information accepted by the learning source information acceptance unit using each of the two or more learning devices generated by the learning unit to obtain two or more predicted classification information for each of the one or more patent classification information, and the algorithm information acquisition unit acquires algorithm information including program identification information that identifies the learning device generation program corresponding to the predicted classification information determined by the evaluation unit.
かかる構成により、複数の学習器生成プログラムを使用することにより、予測処理を行うための適切な処理を決定できる。 With this configuration, multiple learning device generation programs can be used to determine the appropriate process for performing prediction processing.
また、本第四の発明のアルゴリズム決定装置は、第一から第三いずれか1つの発明に対して、予測部が取得した2以上の予測分類情報を用いて、1種類以上の統計処理を行い、統計処理結果である1以上の予測分類情報を取得する統計処理部をさらに具備し、評価部は、予測部が取得した2以上の予測分類情報に代えて、または予測部が取得した2以上の各予測分類情報に加えて、統計処理部が取得した1以上の予測分類情報を含む2以上の各予測分類情報と、学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、精度情報が特定する精度が最も高い予測分類情報を決定し、アルゴリズム情報取得部は、評価部が決定した予測分類情報に対応する統計処理の方法を特定する統計処理特定情報を含むアルゴリズム情報を取得するアルゴリズム決定装置である。 The algorithm determination device of the fourth invention further includes a statistical processing unit that performs one or more types of statistical processing using two or more pieces of prediction classification information acquired by the prediction unit and acquires one or more pieces of prediction classification information that are the results of the statistical processing, and the evaluation unit acquires accuracy information regarding the accuracy of each of the two or more pieces of prediction classification information using two or more pieces of prediction classification information including one or more pieces of prediction classification information acquired by the statistical processing unit and classification information contained in the learning source information, instead of or in addition to the two or more pieces of prediction classification information acquired by the prediction unit, and determines the prediction classification information with the highest accuracy specified by the accuracy information, and the algorithm information acquisition unit acquires algorithm information including statistical processing specification information that specifies the method of statistical processing corresponding to the prediction classification information determined by the evaluation unit.
かかる構成により、2以上の学習器を用いて取得した予測結果に対して統計処理を行った予測結果を用いることにより、予測処理を行うための適切な処理を決定できる。 With this configuration, it is possible to determine an appropriate process for performing prediction processing by using prediction results obtained by performing statistical processing on prediction results obtained using two or more learning devices.
また、本第五の発明のアルゴリズム決定装置は、第四の発明に対して、統計処理部は、2種類以上の統計処理を行い、統計処理結果である2以上の予測分類情報を取得し、2種類以上の統計処理は、予測分類情報の論理和または論理積または多数決のいずれかのうちの2種類以上の統計処理であるアルゴリズム決定装置である。 The algorithm determination device of the fifth invention is an algorithm determination device according to the fourth invention, in which the statistical processing unit performs two or more types of statistical processing, obtains two or more pieces of predicted classification information that are the results of the statistical processing, and the two or more types of statistical processing are two or more types of statistical processing that are either a logical sum, a logical product, or a majority vote of the predicted classification information.
かかる構成により、2以上の学習器を用いて取得した予測結果に対して2以上の統計処理を行った2以上の予測結果を用いることにより、予測処理を行うための適切な統計処理を含む処理を決定できる。 With this configuration, by using two or more prediction results obtained by performing two or more statistical processes on prediction results obtained using two or more learning devices, it is possible to determine processing including appropriate statistical processing for performing prediction processing.
また、本第六の発明のアルゴリズム決定装置は、第一から第五いずれか1つの発明に対して、再現率または適合率またはF値または正解率の4つの精度のうちの2以上の精度のうちのいずれの精度に関する精度情報を取得するかを特定する精度特定情報が格納される精度特定情報格納部をさらに具備し、評価部は、予測部が取得した2以上の各予測分類情報と、学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の、精度特定情報により特定される精度情報を取得し、精度情報が特定する精度が最も高い予測分類情報を決定するアルゴリズム決定装置である。 The algorithm determination device of the sixth invention further includes, for any one of the first to fifth inventions, an accuracy specification information storage unit that stores accuracy specification information that specifies which of two or more of the four accuracies, i.e., recall rate, precision rate, F-value, or accuracy rate, the accuracy information to be obtained, and the evaluation unit uses each of the two or more prediction classification information acquired by the prediction unit and the classification information contained in the learning source information to obtain accuracy information specified by the accuracy specification information for each of the two or more prediction classification information, and determines the prediction classification information with the highest accuracy specified by the accuracy information.
かかる構成により、再現率または適合率またはF値または正解率のうち、ユーザが所望するスコアが高い処理を決定できる。 This configuration allows the user to determine the process that has the highest score desired, among recall, precision, F-measure, or accuracy rate.
また、本第七の発明の学習器の生産装置は、学習元情報を受け付ける学習元情報受付部と、第一から第六いずれかの発明のアルゴリズム決定装置が出力するアルゴリズム情報に従ったアルゴリズムで、学習元情報受付部が受け付けた学習元情報に対して、学習処理を行い学習器を取得する学習部と、学習器をアルゴリズム情報に対応付けて蓄積する蓄積部とを具備する学習器の生産装置である。 The learning device production device of the seventh invention is a learning device production device that includes a learning source information receiving unit that receives learning source information, a learning unit that performs a learning process on the learning source information received by the learning source information receiving unit using an algorithm according to the algorithm information output by the algorithm determination device of any one of the first to sixth inventions to obtain a learning device, and a storage unit that stores the learning device in association with the algorithm information.
かかる構成により、適切な学習器が生産できる。 This configuration allows for the production of appropriate learning machines.
また、本第八の発明の特許分類装置は、第七の発明の生産装置が蓄積した学習器が格納される学習器格納部と、分類対象の特許を識別する特許識別子を含む分類対象情報を受け付ける受付部と、分類対象情報に対して、学習器に対応付いているアルゴリズム情報に従ったアルゴリズムにより、学習器を用いて予測処理を行い、分類結果情報を取得する予測部と、予測部が取得した分類結果情報を、受付部が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する出力部とを具備する特許分類装置である。 The patent classification device of the eighth invention is a patent classification device that includes a learning device storage unit in which the learning devices accumulated by the production device of the seventh invention are stored, a reception unit that receives classification target information including a patent identifier that identifies the patent to be classified, a prediction unit that uses the learning device to perform a prediction process on the classification target information using an algorithm according to the algorithm information associated with the learning device and obtains classification result information, and an output unit that outputs the classification result information obtained by the prediction unit in association with the patent identifier included in the classification target information received by the reception unit.
かかる構成により、適切な学習器を用いて、精度の高い予測処理ができる。 This configuration allows for highly accurate prediction processing using an appropriate learning device.
また、本第九の発明の特許分類装置は、第八の発明に対して、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する重要情報取得部と、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する情報であり、重要情報取得部が取得した重要情報を含む情報である分類対象加工情報を取得する分類対象加工情報取得部とをさらに具備し、予測部は、分類対象加工情報取得部が取得した分類対象加工情報に学習器に適用し、機械学習のアルゴリズムにより分類対象加工情報の分類を予測し、分類結果情報を取得する特許分類装置である。 The patent classification device of the ninth invention is the patent classification device of the eighth invention, further comprising an important information acquisition unit that acquires important information that satisfies a predetermined condition using a patent specification that corresponds to a patent identifier included in the classification target information accepted by the acceptance unit, and a classification target processed information acquisition unit that acquires classification target processed information that corresponds to the patent identifier included in the classification target information accepted by the acceptance unit and includes the important information acquired by the important information acquisition unit, and the prediction unit applies a learning device to the classification target processed information acquired by the classification target processed information acquisition unit, predicts the classification of the classification target processed information using a machine learning algorithm, and acquires classification result information.
かかる構成により、特許明細書に関する重要な情報を用いることにより、特許を精度高く分類できる。 This configuration allows for accurate classification of patents by using important information about patent specifications.
また、本第十の発明の特許分類装置は、第九の発明に対して、特許情報は、特許識別子に対応する特許請求の範囲または要約書のうちの1種類以上の情報をも含み、分類対象加工情報は、重要情報取得部が取得した重要情報と、特許識別子に対応する特許請求の範囲または要約書のうちの1種類以上の情報とを含む、特許分類装置である。 The patent classification device of the tenth invention is a patent classification device in which, compared to the ninth invention, the patent information also includes one or more types of information from the scope of claims or abstract corresponding to the patent identifier, and the processed information to be classified includes the important information acquired by the important information acquisition unit and one or more types of information from the scope of claims or abstract corresponding to the patent identifier.
かかる構成により、特許請求の範囲または/および要約書をも用いることにより、特許を精度高く分類できる。 This configuration allows patents to be classified with high accuracy by using the claims and/or abstracts.
また、本第十一の発明の特許分類装置は、第九または第十の発明に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、効果の表現と解決手段の表現の両方を含む効果解決手段文であるか否かを判断し、効果解決手段文であると判断した1以上の効果解決手段文を取得する効果解決手段文取得手段を具備し、重要情報は、効果解決手段文取得手段が取得した1以上の効果解決手段文、または1以上の効果解決手段文から取得された用語である効果用語および解決手段用語を含む、特許分類装置である。 The patent classification device of the eleventh invention is a patent classification device according to the ninth or tenth invention, in which the important information acquisition unit determines whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit is an effect-solution-means sentence including both an effect expression and a solution expression, and the important information includes one or more effect-solution-means sentences acquired by the effect-solution-means sentence acquisition means, or effect terms and solution terms that are terms acquired from one or more effect-solution-means sentences.
かかる構成により、効果解決手段文または効果用語または解決手段用語を用いることにより、特許を精度高く分類できる。 With this configuration, patents can be classified with high accuracy by using effect/solution sentences or effect terms or solution terms.
また、本第十二の発明の特許分類装置は、第九から第十一いずれか1つの発明に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、効果の表現を含む効果文であるか否かを判断し、効果文であると判断した1以上の効果文を取得する効果文取得手段を具備し、重要情報は、効果文取得手段が取得した1以上の効果文、または1以上の効果文から取得された用語である効果用語を含む、特許分類装置である。 The patent classification device of the twelfth invention is a patent classification device according to any one of the ninth to eleventh inventions, in which the important information acquisition unit is provided with an effect sentence acquisition means for determining whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit is an effect sentence including an expression of an effect, and acquiring one or more effect sentences determined to be effect sentences, and the important information includes one or more effect sentences acquired by the effect sentence acquisition means, or effect terms that are terms acquired from one or more effect sentences.
かかる構成により、効果文または効果用語を用いることにより、特許を精度高く分類できる。 With this configuration, patents can be classified with high accuracy by using effect sentences or effect terms.
また、本第十三の発明の特許分類装置は、第九から第十二いずれか1つの発明に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、解決手段の表現の両方を含む解決手段文であるか否かを判断し、解決手段文であると判断した1以上の解決手段文を取得する解決手段文取得手段を具備し、重要情報は、解決手段文取得手段が取得した1以上の解決手段文、または1以上の解決手段文から取得された用語である解決手段用語を含む、特許分類装置である。 The patent classification device of the thirteenth invention is a patent classification device according to any one of the ninth to twelfth inventions, in which the important information acquisition unit determines whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit is a solution sentence including both a solution expression and a solution term, and acquires one or more solution sentences determined to be solution sentences, and the important information includes one or more solution sentences acquired by the solution sentence acquisition means, or solution terms that are terms acquired from one or more solution sentences.
かかる構成により、解決手段文または解決手段用語を用いることにより、特許を精度高く分類できる。 This configuration allows patents to be classified with high accuracy by using solution sentences or solution terms.
また、本第十四の発明の特許分類装置は、第九から第十三いずれか1つの発明に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、目的の表現を含む目的文であるか否かを判断し、目的文であると判断した1以上の目的文を取得する目的文取得手段を具備し、重要情報は、目的文取得手段が取得した1以上の目的文、または1以上の目的文から取得された用語である目的用語を含む、特許分類装置である。 The patent classification device of the fourteenth invention is a patent classification device according to any one of the ninth to thirteenth inventions, in which the important information acquisition unit is provided with an object sentence acquisition means for determining whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit is an object sentence including an objective expression, and acquiring one or more object sentences determined to be object sentences, and the important information includes one or more object sentences acquired by the object sentence acquisition means, or object terms that are terms acquired from one or more object sentences.
かかる構成により、目的文または目的用語を用いることにより、特許を精度高く分類できる。 With this configuration, patents can be classified with high accuracy by using the object sentence or object term.
また、本第十五の発明の特許分類装置は、第九から第十四いずれか1つの発明に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語の出現頻度を取得し、出現頻度を用いて、1以上の各用語に対するスコアを算出し、スコアが予め決められた条件を満たすほど大きい1以上の特徴語を取得する特徴語取得手段を具備し、重要情報は、特徴語取得手段が取得した1以上の特徴語を含む、特許分類装置である。 The patent classification device of the fifteenth invention is a patent classification device according to any one of the ninth to fourteenth inventions, in which the important information acquisition unit acquires the frequency of occurrence of one or more terms included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit, calculates a score for each of the one or more terms using the frequency of occurrence, and acquires one or more characteristic words whose scores are large enough to satisfy a predetermined condition, and the important information includes one or more characteristic words acquired by the characteristic word acquisition means.
かかる構成により、特徴語を用いることにより、特許を精度高く分類できる。 With this configuration, patents can be classified with high accuracy by using characteristic words.
また、本第十六の発明の特許分類装置は、第九から第十四いずれか1つの発明に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語の出現頻度を取得し、出現頻度を用いて、1以上の各用語に対するスコアを算出し、スコアが予め決められた条件を満たすほど大きい1以上の特徴語を取得する特徴語取得手段と、1以上の各用語に対する上位語、下位語、または同義語のうちの1以上の関連語が格納される関連語辞書から、特徴語取得手段が取得した1以上の各特徴語に対応する上位語、下位語、または同義語である1以上の関連語を取得する関連語取得手段とを具備し、重要情報は、関連語取得手段が取得した1以上の関連語を含む、特許分類装置である。 The patent classification device of the sixteenth invention is a patent classification device according to any one of the ninth to fourteenth inventions, the important information acquisition unit being equipped with a characteristic word acquisition means for acquiring the frequency of occurrence of one or more terms included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit, calculating a score for each of the one or more terms using the frequency of occurrence, and acquiring one or more characteristic words whose score is large enough to satisfy a predetermined condition, and a related word acquisition means for acquiring one or more related words that are hypernyms, hyponyms, or synonyms corresponding to each of the one or more characteristic words acquired by the characteristic word acquisition means from a related word dictionary in which one or more related words among hypernyms, hyponyms, or synonyms for each of the one or more terms are stored, and the important information includes one or more related words acquired by the related word acquisition means.
かかる構成により、特徴語の関連語を用いることにより、特許を精度高く分類できる。 With this configuration, patents can be classified with high accuracy by using related words of characteristic words.
また、本第十七の発明の特許分類装置は、第九から第十六いずれか1つの発明に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文であり、予め決められたタグに対応する文である1以上の重要タグ対応文を取得する重要タグ対応文取得手段を具備し、重要情報は、重要タグ対応文取得手段が取得した1以上の重要タグ対応文を含む、または1以上の重要タグ対応文から取得された用語である重要タグ対応用語を含む、特許分類装置である。 The patent classification device of the seventeenth invention is a patent classification device according to any one of the ninth to sixteenth inventions, wherein the important information acquisition unit is equipped with an important tag corresponding sentence acquisition means for acquiring one or more important tag corresponding sentences which are sentences included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the acceptance unit and correspond to a predetermined tag, and the important information includes one or more important tag corresponding sentences acquired by the important tag corresponding sentence acquisition means, or includes important tag corresponding terms which are terms acquired from the one or more important tag corresponding sentences.
かかる構成により、重要タグ対応文または重要タグ対応用語を用いることにより、特許を精度高く分類できる。 With this configuration, patents can be classified with high accuracy by using important tag-corresponding sentences or important tag-corresponding terms.
また、本第十八の発明の特許分類装置は、第九から第十七いずれか1つの発明に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文字列であり、数値範囲を示す文字列である1以上の数値範囲文字列を取得する数値範囲文字列取得手段を具備し、重要情報は、数値範囲文字列取得手段が取得した1以上の数値範囲文字列を含む、特許分類装置である。 The patent classification device of the eighteenth invention is a patent classification device according to any one of the ninth to seventeenth inventions, wherein the important information acquisition unit includes a numeric range string acquisition means for acquiring one or more numeric range strings, which are strings included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the acceptance unit and indicate a numeric range, and the important information includes the one or more numeric range strings acquired by the numeric range string acquisition means.
かかる構成により、数値範囲文字列を用いることにより、特許を精度高く分類できる。 With this configuration, patents can be classified with high accuracy by using numeric range strings.
また、本第十九の発明の特許分類装置は、第九から第十八いずれか1つの発明に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文字列であり、数値範囲を示す文字列である1以上の数値範囲文字列を取得する数値範囲文字列取得手段と、数値範囲文字列取得手段が取得した数値範囲文字列が示す数値範囲に含まれる3以上の数字を取得する数字取得手段とを具備し、重要情報は、数字取得手段が取得した3以上の数字を含む、特許分類装置である。 The patent classification device of the 19th invention is a patent classification device according to any one of the 9th to 18th inventions, wherein the important information acquisition unit includes a numeric range string acquisition means for acquiring one or more numeric range strings, which are strings included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit and indicate a numeric range, and a number acquisition means for acquiring three or more numbers included in the numeric range indicated by the numeric range string acquired by the numeric range string acquisition means, and the important information includes the three or more numbers acquired by the number acquisition means.
かかる構成により、数値範囲文字列が示す数値範囲に含まれる3以上の数字を用いることにより、特許を精度高く分類できる。 With this configuration, patents can be classified with high accuracy by using three or more numbers included in the numerical range indicated by the numerical range string.
また、本第二十の発明の特許分類装置は、第九から第十九いずれか1つの発明に対して、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を外部のサーバ装置から取得する特許明細書取得部をさらに具備し、重要情報取得部は、特許明細書取得部が取得した特許明細書を用いて、予め決められた条件を満たす重要情報を取得する特許分類装置である。 The patent classification device of the twentieth invention, for any one of the ninth to nineteenth inventions, further includes a patent specification acquisition unit that acquires from an external server device a patent specification corresponding to a patent identifier included in the classification target information accepted by the acceptance unit, and the important information acquisition unit is a patent classification device that acquires important information that satisfies a predetermined condition using the patent specification acquired by the patent specification acquisition unit.
かかる構成により、外部のサーバ装置から取得した特許明細書を用いて取得された重要情報を用いることにより、特許を精度高く分類できる。 With this configuration, patents can be classified with high accuracy by using important information obtained from patent specifications obtained from an external server device.
本第二十一の発明の分類情報決定装置は、特許情報と特許情報の分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、機械学習の学習処理を行い、取得された学習器が格納される学習器格納部と、特許に関する一の条件と特許情報の分類情報との組である1以上の条件情報が格納される条件情報格納部と、1以上の特許情報を受け付ける特許情報受付部と、1以上の条件情報を用いて、1以上の各特許情報の分類情報を特定する予測分類情報を取得する予測部と、予測分類情報を出力する出力部とを具備し、予測部は、1以上の各特許情報が、1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断する判断手段と、判断手段が合致すると判断した条件と対になる分類情報を決定する第一決定手段と、学習器を用いて、判断手段がいずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得する第二決定手段とを具備する分類情報決定装置である。 The classification information determination device of the twenty-first invention is a classification information determination device that performs machine learning learning processing using learning source information having two or more patent classification information including patent information and classification information of the patent information, and is equipped with a learning device storage unit in which the acquired learning device is stored, a condition information storage unit in which one or more condition information, which is a pair of a condition related to a patent and classification information of the patent information, a patent information reception unit that receives one or more patent information, a prediction unit that acquires predicted classification information that identifies classification information of one or more pieces of patent information using one or more condition information, and an output unit that outputs the predicted classification information, and the prediction unit is equipped with a judgment means that judges whether each of the one or more pieces of patent information matches any of the conditions held by the one or more pieces of condition information, a first decision means that decides classification information that pairs with the condition that the judgment means judges to match, and a second decision means that uses the learning device to acquire classification information of patent information that the judgment means judges not to match any of the conditions through machine learning prediction processing.
かかる構成により、特許を精度高く分類できる。 This configuration allows patents to be classified with high accuracy.
また、本第二十二の発明の分類情報決定装置は、第二十一の発明に対して、一の条件は、学習元情報が有する2以上のいずれかの特許分類情報を構成する特許情報であることである分類情報決定装置である。 The classification information determination device of the twenty-second invention is a classification information determination device according to the twenty-first invention, in which one condition is that the patent information constitutes any one of two or more patent classification information contained in the learning source information.
かかる構成により、機械学習の学習器を取得した際に使用した教師データの特許を精度高く分類でき、それ以外の特許をも、学習器を用いた予測処理により精度高く分類できる。 With this configuration, patents from the training data used to obtain the machine learning learning device can be classified with high accuracy, and other patents can also be classified with high accuracy through prediction processing using the learning device.
また、本第二十三の発明の分類情報決定装置は、第二十一の発明に対して、一の条件は、検索式である分類情報決定装置である。 The classification information determination device of the twenty-third invention is different from the twenty-first invention in that one condition is a search formula.
かかる構成により、検索式に合致する特許を精度高く分類でき、検索式に合致しない特許をも、機械学習の学習器を用いた予測処理により精度高く分類できる。 With this configuration, patents that match the search query can be classified with high accuracy, and even patents that do not match the search query can be classified with high accuracy through prediction processing using a machine learning learner.
本発明の特許分類装置は、特許明細書の全文は有さない特許レコードであり、特許を識別する特許識別子に対応する特許明細書を用いて取得された重要情報と、人手による特許の分類結果を特定する分類結果情報とを有する2以上の特許レコードを有する学習元情報を機械学習のアルゴリズムにより学習し、取得された学習器が格納される学習器格納部と、分類対象の特許を識別する特許識別子を含む分類対象情報を受け付ける受付部と、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する重要情報取得部と、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する情報であり、重要情報取得部が取得した重要情報を含む情報である分類対象加工情報を取得する分類対象加工情報取得部と、分類対象加工情報取得部が取得した分類対象加工情報に学習器に適用し、機械学習のアルゴリズムにより分類対象加工情報の分類を予測し、分類結果情報を取得する予測部と、予測部が取得した分類結果情報を、受付部が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する出力部とを具備する特許分類装置である。 The patent classification device of the present invention is a patent classification device that includes: a learning device storage unit that uses a machine learning algorithm to learn learning source information having two or more patent records that are patent records that do not have the full text of the patent specification, and that have important information acquired using a patent specification corresponding to a patent identifier that identifies a patent, and classification result information that identifies a manual classification result of the patent; a reception unit that receives classification target information including a patent identifier that identifies the patent to be classified; an important information acquisition unit that acquires important information that satisfies a predetermined condition using a patent specification that corresponds to the patent identifier included in the classification target information accepted by the reception unit; a classification target processing information acquisition unit that acquires classification target processing information that is information corresponding to the patent identifier included in the classification target information accepted by the reception unit and that includes the important information acquired by the important information acquisition unit; a prediction unit that applies a learning device to the classification target processing information acquired by the classification target processing information acquisition unit, predicts the classification of the classification target processing information using a machine learning algorithm, and acquires classification result information; and an output unit that outputs the classification result information acquired by the prediction unit in association with the patent identifier included in the classification target information accepted by the reception unit.
かかる構成(第一の構成)により、特許明細書に関する重要な情報を用いることにより、特許を精度高く分類できる。 This configuration (first configuration) allows patents to be classified with high accuracy by using important information about patent specifications.
また、本発明の特許分類装置は、第一の構成に対して、特許レコードは、特許識別子に対応する特許請求の範囲または要約書のうちの1種類以上の情報をも含み、分類対象加工情報は、重要情報取得部が取得した重要情報と、特許識別子に対応する特許請求の範囲または要約書のうちの1種類以上の情報とを含む、特許分類装置である。 The patent classification device of the present invention is a patent classification device in which, compared to the first configuration, the patent record also includes one or more types of information of the claims or abstract corresponding to the patent identifier, and the processed information to be classified includes the important information acquired by the important information acquisition unit and one or more types of information of the claims or abstract corresponding to the patent identifier.
かかる構成(第二の構成)により、特許請求の範囲または/および要約書をも用いることにより、特許を精度高く分類できる。 This configuration (second configuration) allows patents to be classified with high accuracy by using the claims and/or abstracts.
また、本発明の特許分類装置は、第一または第二の構成に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、効果の表現と解決手段の表現の両方を含む効果解決手段文であるか否かを判断し、効果解決手段文であると判断した1以上の効果解決手段文を取得する効果解決手段文取得手段を具備し、重要情報は、効果解決手段文取得手段が取得した1以上の効果解決手段文、または1以上の効果解決手段文から取得された用語である効果用語および解決手段用語を含む、特許分類装置である。 In addition, in the patent classification device of the present invention, in the first or second configuration, the important information acquisition unit is equipped with an effect-solution-means sentence acquisition means for determining whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit is an effect-solution-means sentence including both an expression of an effect and an expression of a solution, and acquiring one or more effect-solution-means sentences determined to be effect-solution-means sentences, and the important information includes one or more effect-solution-means sentences acquired by the effect-solution-means sentence acquisition means, or effect terms and solution terms that are terms acquired from one or more effect-solution-means sentences.
かかる構成(第三の構成)により、効果解決手段文または効果用語または解決手段用語を用いることにより、特許を精度高く分類できる。 With this configuration (third configuration), patents can be classified with high accuracy by using effect/solution sentences or effect terms or solution terms.
また、本発明の特許分類装置は、第一から第三いずれか1つの構成に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、効果の表現を含む効果文であるか否かを判断し、効果文であると判断した1以上の効果文を取得する効果文取得手段を具備し、重要情報は、効果文取得手段が取得した1以上の効果文、または1以上の効果文から取得された用語である効果用語を含む、特許分類装置である。 In addition, the patent classification device of the present invention, in any one of the first to third configurations, is a patent classification device in which the important information acquisition unit is equipped with an effect sentence acquisition means that determines whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit is an effect sentence including an expression of an effect, and acquires one or more effect sentences that are determined to be effect sentences, and the important information includes one or more effect sentences acquired by the effect sentence acquisition means, or effect terms that are terms acquired from one or more effect sentences.
かかる構成(第四の構成)により、効果文または効果用語を用いることにより、特許を精度高く分類できる。 This configuration (fourth configuration) allows patents to be classified with high accuracy by using effect statements or effect terms.
また、本発明の特許分類装置は、第一から第四いずれか1つの構成に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、解決手段の表現の両方を含む解決手段文であるか否かを判断し、解決手段文であると判断した1以上の解決手段文を取得する解決手段文取得手段を具備し、重要情報は、解決手段文取得手段が取得した1以上の解決手段文、または1以上の解決手段文から取得された用語である解決手段用語を含む、特許分類装置である。 In addition, the patent classification device of the present invention, in any one of the first to fourth configurations, is a patent classification device in which the important information acquisition unit is equipped with a solution sentence acquisition means for determining whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit is a solution sentence including both a solution expression and a solution term, and acquiring one or more solution sentences determined to be solution sentences, and the important information includes one or more solution sentences acquired by the solution sentence acquisition means, or solution terms that are terms acquired from one or more solution sentences.
かかる構成(第五の構成)により、解決手段文または解決手段用語を用いることにより、特許を精度高く分類できる。 With this configuration (fifth configuration), patents can be classified with high accuracy by using solution sentences or solution terms.
また、本発明の特許分類装置は、第一から第五いずれか1つの構成に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、目的の表現を含む目的文であるか否かを判断し、目的文であると判断した1以上の目的文を取得する目的文取得手段を具備し、重要情報は、目的文取得手段が取得した1以上の目的文、または1以上の目的文から取得された用語である目的用語を含む、特許分類装置である。 In addition, the patent classification device of the present invention, in any one of the first to fifth configurations, is a patent classification device in which the important information acquisition unit is equipped with an object sentence acquisition means for determining whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit is an object sentence including a target expression, and acquiring one or more object sentences determined to be object sentences, and the important information includes one or more object sentences acquired by the object sentence acquisition means, or object terms that are terms acquired from one or more object sentences.
かかる構成(第六の構成)により、目的文または目的用語を用いることにより、特許を精度高く分類できる。 This configuration (sixth configuration) allows patents to be classified with high accuracy by using object sentences or object terms.
また、本発明の特許分類装置は、第一から第六いずれか1つの構成に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語の出現頻度を取得し、出現頻度を用いて、1以上の各用語に対するスコアを算出し、スコアが予め決められた条件を満たすほど大きい1以上の特徴語を取得する特徴語取得手段を具備し、重要情報は、特徴語取得手段が取得した1以上の特徴語を含む、特許分類装置である。 The patent classification device of the present invention, in any one of the first to sixth configurations, is a patent classification device, in which the important information acquisition unit acquires the frequency of occurrence of one or more terms included in a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit, calculates a score for each of the one or more terms using the frequency of occurrence, and includes a characteristic word acquisition means for acquiring one or more characteristic words whose scores are large enough to satisfy a predetermined condition, and the important information includes one or more characteristic words acquired by the characteristic word acquisition means.
かかる構成(第七の構成)により、特徴語を用いることにより、特許を精度高く分類できる。 With this configuration (seventh configuration), patents can be classified with high accuracy by using characteristic words.
また、本発明の特許分類装置は、第一から第六いずれか1つの構成に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語の出現頻度を取得し、出現頻度を用いて、1以上の各用語に対するスコアを算出し、スコアが予め決められた条件を満たすほど大きい1以上の特徴語を取得する特徴語取得手段と、1以上の各用語に対する上位語、下位語、または同義語のうちの1以上の関連語が格納される関連語辞書から、特徴語取得手段が取得した1以上の各特徴語に対応する上位語、下位語、または同義語である1以上の関連語を取得する関連語取得手段とを具備し、重要情報は、関連語取得手段が取得した1以上の関連語を含む、特許分類装置である。 In addition, the patent classification device of the present invention, in any one of the first to sixth configurations, is a patent classification device, in which the important information acquisition unit acquires the frequency of occurrence of one or more terms included in the patent specification corresponding to the patent identifier included in the classification target information accepted by the acceptance unit, calculates a score for each of the one or more terms using the frequency of occurrence, and acquires one or more characteristic words whose score is large enough to satisfy a predetermined condition, and related word acquisition means acquires one or more related words that are hypernyms, hyponyms, or synonyms corresponding to each of the one or more characteristic words acquired by the characteristic word acquisition means from a related word dictionary in which one or more related words among hypernyms, hyponyms, or synonyms for each of the one or more terms are stored, and the important information includes one or more related words acquired by the related word acquisition means.
かかる構成(第八の構成)により、特徴語の関連語を用いることにより、特許を精度高く分類できる。 With this configuration (the eighth configuration), patents can be classified with high accuracy by using related words of characteristic words.
また、本発明の特許分類装置は、第一から第八いずれか1つの構成に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文であり、予め決められたタグに対応する文である1以上の重要タグ対応文を取得する重要タグ対応文取得手段を具備し、重要情報は、重要タグ対応文取得手段が取得した1以上の重要タグ対応文を含む、または1以上の重要タグ対応文から取得された用語である重要タグ対応用語を含む、特許分類装置である。 The patent classification device of the present invention is a patent classification device in which, for any one of the first to eighth configurations, the important information acquisition unit is equipped with an important tag corresponding sentence acquisition means for acquiring one or more important tag corresponding sentences which are sentences included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the acceptance unit and correspond to a predetermined tag, and the important information includes one or more important tag corresponding sentences acquired by the important tag corresponding sentence acquisition means, or includes important tag corresponding terms which are terms acquired from one or more important tag corresponding sentences.
かかる構成(第九の構成)により、重要タグ対応文または重要タグ対応用語を用いることにより、特許を精度高く分類できる。 With this configuration (ninth configuration), patents can be classified with high accuracy by using important tag-corresponding sentences or important tag-corresponding terms.
また、本発明の特許分類装置は、第一から第九いずれか1つの構成に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文字列であり、数値範囲を示す文字列である1以上の数値範囲文字列を取得する数値範囲文字列取得手段を具備し、重要情報は、数値範囲文字列取得手段が取得した1以上の数値範囲文字列を含む、特許分類装置である。 The patent classification device of the present invention is a patent classification device in which, for any one of the first to ninth configurations, the important information acquisition unit includes a numeric range string acquisition means for acquiring one or more numeric range strings, which are strings included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the acceptance unit and indicate a numeric range, and the important information includes one or more numeric range strings acquired by the numeric range string acquisition means.
かかる構成(第十の構成)により、数値範囲文字列を用いることにより、特許を精度高く分類できる。 With this configuration (tenth configuration), patents can be classified with high accuracy by using numeric range strings.
また、本発明の特許分類装置は、第一から第九いずれか1つの構成に対して、重要情報取得部は、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文字列であり、数値範囲を示す文字列である1以上の数値範囲文字列を取得する数値範囲文字列取得手段と、数値範囲文字列取得手段が取得した数値範囲文字列が示す数値範囲に含まれる3以上の数字を取得する数字取得手段とを具備し、重要情報は、数字取得手段が取得した3以上の数字を含む、特許分類装置である。 The patent classification device of the present invention is a patent classification device in which, for any one of the first to ninth configurations, the important information acquisition unit is equipped with a numeric range string acquisition means for acquiring one or more numeric range strings, which are strings included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the acceptance unit and indicate a numeric range, and a number acquisition means for acquiring three or more numbers included in the numeric range indicated by the numeric range string acquired by the numeric range string acquisition means, and the important information includes the three or more numbers acquired by the number acquisition means.
かかる構成(第十一の構成)により、数値範囲文字列が示す数値範囲に含まれる3以上の数字を用いることにより、特許を精度高く分類できる。 With this configuration (eleventh configuration), patents can be classified with high accuracy by using three or more numbers included in the numerical range indicated by the numerical range string.
また、本発明の特許分類装置は、第一から第十一いずれか1つの構成に対して、受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を外部のサーバ装置から取得する特許明細書取得部をさらに具備し、重要情報取得部は、特許明細書取得部が取得した特許明細書を用いて、予め決められた条件を満たす重要情報を取得する特許分類装置である。 The patent classification device of the present invention, in any one of the first to eleventh configurations, further includes a patent specification acquisition unit that acquires from an external server device a patent specification corresponding to a patent identifier included in the classification target information accepted by the acceptance unit, and the important information acquisition unit is a patent classification device that acquires important information that satisfies a predetermined condition using the patent specification acquired by the patent specification acquisition unit.
かかる構成(第十二の構成)により、外部のサーバ装置から取得した特許明細書を用いて取得された重要情報を用いることにより、特許を精度高く分類できる。 With this configuration (twelfth configuration), patents can be classified with high accuracy by using important information obtained from patent specifications obtained from an external server device.
また、本発明の学習器生産装置は、特許を識別する特許識別子と、特許識別子に対応する特許の人手による分類結果を特定する分類結果情報とを有する2以上の人手評価レコードを有する人手評価情報が格納される人手評価情報格納部と、人手評価情報格納部に格納されている人手評価情報が有する2以上の各人手評価レコードが有する特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する重要情報取得部と、2以上の各人手評価レコードごとに、重要情報取得部が取得した重要情報と、重要情報の元になった特許明細書に対応する特許識別子と対になる分類結果情報とを有する特許レコードを取得し、2以上の特許レコードを有する学習元情報を取得する学習元情報取得部と、学習元情報取得部が取得した学習元情報を機械学習のアルゴリズムにより学習し、学習器を取得する学習部と、学習部が取得した学習器を蓄積する蓄積部とを具備する学習器生産装置である。 The learning device production device of the present invention is a learning device production device that includes a manual evaluation information storage unit that stores manual evaluation information having two or more manual evaluation records each having a patent identifier that identifies a patent and classification result information that identifies a manual classification result of the patent corresponding to the patent identifier; an important information acquisition unit that acquires important information that satisfies a predetermined condition using a patent specification corresponding to the patent identifier of each of the two or more manual evaluation records in the manual evaluation information stored in the manual evaluation information storage unit; a learning source information acquisition unit that acquires a patent record having important information acquired by the important information acquisition unit and classification result information that is paired with a patent identifier corresponding to the patent specification that is the source of the important information for each of the two or more manual evaluation records, and acquires learning source information having two or more patent records; a learning unit that learns the learning source information acquired by the learning source information acquisition unit using a machine learning algorithm to acquire a learning device; and a storage unit that accumulates the learning devices acquired by the learning unit.
かかる構成(第十三の構成)により、特許を精度高く分類するための学習器を生産できる。 This configuration (the thirteenth configuration) makes it possible to produce a learning machine for classifying patents with high accuracy.
本発明によれば、適切なアルゴリズムを用いて予測処理を行うことにより、特許を精度高く分類できる。 According to the present invention, by performing predictive processing using an appropriate algorithm, patents can be classified with high accuracy.
また、本発明によれば、予め決められた条件に合致する特許情報と合致しない特許情報とで、異なる決定方法を用いて予測分類情報を取得することにより、特許を精度高く分類できる。 In addition, according to the present invention, patents can be classified with high accuracy by obtaining predicted classification information using different decision methods for patent information that meets predetermined conditions and patent information that does not.
また、本発明によれば、特許明細書に関する重要な情報を用いることにより、特許を精度高く分類できる。 In addition, the present invention allows for accurate classification of patents by using important information about patent specifications.
以下、アルゴリズム決定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。 Below, an embodiment of an algorithm determination device and the like will be described with reference to the drawings. Note that components with the same reference numerals in the embodiments perform similar operations, and therefore repeated explanations may be omitted.
(実施の形態1)
本実施の形態において、特許明細書から重要情報を取得し、特許明細書の全文は含まず、重要情報と人手分類とを有する1以上の特許レコードを有する学習元情報を機械学習のアルゴリズムにより取得された学習器を用いて、特許情報を分類する特許分類装置を含む特許分類システムについて説明する。
(Embodiment 1)
In this embodiment, we will describe a patent classification system that includes a patent classification device that acquires important information from patent specifications, does not include the full text of the patent specifications, and classifies patent information using a learning machine obtained by a machine learning algorithm to acquire learning source information having one or more patent records that have important information and manual classification.
また、本実施の形態において、特許請求の範囲または/および要約書をも含む特許レコードを有する学習元情報を機械学習のアルゴリズムにより取得された学習器を用いて、特許情報を分類する特許分類装置を含む特許分類システムについて説明する。 In addition, in this embodiment, a patent classification system including a patent classification device that classifies patent information using a learning device obtained by a machine learning algorithm from learning source information having patent records including claims and/or abstracts is described.
なお、本実施の形態において、重要情報は、効果解決手段文、効果文、解決手段文、目的文、効果用語、解決手段用語、目的用語、特徴語、特徴語の関連語(上位語、下位語、同義語、予め決められたタグに対応する文、当該文に含まれる用語、数値範囲を示す文字列、当該範囲に含まれる数字等である。 In this embodiment, the important information is effect/solution means sentences, effect sentences, solution means sentences, objective sentences, effect terms, solution means terms, objective terms, characteristic words, related words of characteristic words (superordinate words, subordinate words, synonyms, sentences corresponding to predetermined tags, terms contained in the sentences, character strings indicating a numerical range, numbers contained in the range, etc.).
また、本実施の形態において、外部のサーバ装置から特許明細書を取得し、当該特許明細書から重要情報を取得する特許分類装置を含む特許分類システムについて説明する。 In addition, in this embodiment, a patent classification system including a patent classification device that acquires patent specifications from an external server device and acquires important information from the patent specifications is described.
さらに、本実施の形態において、学習器の生産装置を含む特許分類システムについて説明する。 Furthermore, in this embodiment, we will explain a patent classification system that includes a learning device production device.
図1は、本実施の形態における特許分類システムAの概念図である。特許分類システムAは、学習器生産装置1、特許分類装置2、サーバ装置3、および1以上のユーザ端末4を備える。学習器生産装置1は、学習器を生産する装置である。特許分類装置2は、特許の分類を予測する装置である。サーバ装置3は、特許明細書等を含む特許書類が格納された装置であり、公知の装置である。サーバ装置3は、例えば、商用特許データベースのサーバ(例えば、HYPAT-i2(URL:https://portal.hypatweb.jp/)参照)である。ユーザ端末4は、ユーザが使用する端末である。ユーザ端末4は、例えば、パソコン、スマートフォン、タブレット端末等、問わない。
Figure 1 is a conceptual diagram of a patent classification system A in this embodiment. The patent classification system A includes a learning
図2は、本実施の形態における特許分類システムAのブロック図である。図3は、特許分類システムAを構成する学習器生産装置1のブロック図である。
Figure 2 is a block diagram of the patent classification system A in this embodiment. Figure 3 is a block diagram of the learning
特許分類システムAを構成する学習器生産装置1は、学習格納部11、学習受付部12、学習処理部13、および学習出力部14を備える。学習格納部11は、人手評価情報格納部111を備える。学習処理部13は、特許明細書取得部131、重要情報取得部132、学習元情報取得部133、および学習部134を備える。重要情報取得部132は、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、および数字取得手段1329を備える。学習出力部14は、蓄積部141を備える。
The learning
特許分類装置2は、格納部21、受付部22、処理部23、出力部24を備える。格納部21は、学習器格納部211を備える。処理部23は、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、および予測部234を備える。
The
学習器生産装置1を構成する学習格納部11には、各種の情報が格納される。各種の情報は、例えば、後述する人手評価情報、特許識別子に対応付いた特許明細書、関連語辞書、後述する効果解決手段文パターン等の各種のパターン、各種の重要情報学習器である。
Various types of information are stored in the
関連語辞書とは、関連語の辞書である。関連語辞書は、例えば、一の用語と関連語の組を多数有する。関連語とは、上位語、下位語、同義語、または類義語である。上位語とは、上位概念の用語である。下位語とは、下位概念の用語である。関連語辞書の構造は問わない、例えば、関連語辞書は、2以上の関連語情報を有する。関連語情報は、例えば、一の用語と、当該一の用語の関連語とを有する。関連語情報は、例えば、一の用語と、当該一の用語の関連語と、フラグである。フラグは、一の用語と、当該一の用語の関連語との関係(例えば、上位語、下位語、同義語、または類義語のうちのいずれか)を特定する情報である。 A related word dictionary is a dictionary of related words. For example, a related word dictionary has many pairs of a term and related words. A related word is a superordinate word, a hyponym, a synonym, or a similar word. A superordinate word is a term of a higher concept. A hyponym is a term of a lower concept. The structure of a related word dictionary does not matter. For example, a related word dictionary has two or more related word information. Related word information has, for example, a term and a related word of the term. Related word information is, for example, a term, a related word of the term, and a flag. The flag is information that specifies the relationship between a term and a related word of the term (for example, one of a superordinate word, a hyponym, a synonym, or a similar word).
また、重要情報学習器とは、重要情報であるか否かを判断する学習器である。重要情報学習器には、例えば、後述する効果解決手段文学習器、後述する効果用語学習器、後述する解決手段用語学習器、後述する効果文学習器、後述する解決手段文学習器、後述する目的文学習器、後述する目的用語学習器である。 An important information learner is a learner that judges whether information is important or not. Examples of important information learners include an effect/solution means sentence learner (described later), an effect term learner (described later), a solution means term learner (described later), an effect sentence learner (described later), a solution means sentence learner (described later), an objective sentence learner (described later), and an objective term learner (described later).
人手評価情報格納部111は、2以上の人手評価レコードを有する人手評価情報が格納される。人手評価レコードは、一の特許に対する人手による分類結果を特定する分類結果情報を有する情報である。人手評価レコードは、特許識別子と分類結果情報とを有する。なお、人手評価レコードが有する分類結果情報は、人手評価レコードが有する特許識別子で識別される特許の分類の結果を特定する情報である。特許識別子は、特許を識別する情報である。特許識別子、例えば、ID、出願番号、公開番号、登録番号、整理番号等である。分類結果情報は、通常、特許に対する人手による分類結果を特定する情報である。分類結果情報は、例えば、特許の技術分野を特定する情報、特許の関連度合いを特定する情報、特許の重要度を特定する情報等である。分類結果情報は、例えば、「○」「×」、「A」「B」「C」「D」、「1」「2」「3」・・・「9」、社内で用いている社内特有の分類等であり、その情報の種類は問わない。人手評価情報は、例えば、CSVファイル、エクセルファイル等であり、そのデータ構造等は問わない。
The manual evaluation
人手評価レコードは、特許識別子と分類結果情報以外に、例えば、特許請求の範囲、要約書、特許分類コード(例えば、IPC、FI、Fターム、CPC等)を有することは好適である。また、人手評価レコードは、特許明細書を有しても良い。 In addition to the patent identifier and classification result information, it is preferable that the manual review record includes, for example, claims, an abstract, and a patent classification code (e.g., IPC, FI, F-term, CPC, etc.). The manual review record may also include a patent specification.
学習受付部12は、指示や情報等を受け付ける。指示や情報等は、例えば、学習動作開始指示である。学習動作開始指示は、ここでは、学習器の生産の開始の指示である。学習動作開始指示は、通常、ユーザからの指示である。学習動作開始指示は、例えば、重要情報取得部132が取得する重要情報の種類を特定する種類特定情報を有しても良い。種類特定情報は、学習器の作成のために使用する重要情報の種類を特定する情報である。種類特定情報は、例えば、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、数字取得手段1329のうち、動作させる手段を特定する情報でも良い。また、種類特定情報は、例えば、効果解決手段文、効果文、解決手段文、目的文、効果用語、解決手段用語、目的用語、特徴語、特徴語の関連語(上位語、下位語、同義語)、タグ対応文、タグ対応用語、数値範囲文字列、数値範囲文字列が示す範囲の数字の重要情報のうち、取得する重要情報を特定する情報でも良い。
The
種類特定情報は、例えば、ベクトルであり、例えば、(効果解決手段文を取得するか否か,効果文を取得するか否か,解決手段文を取得するか否かを取得するか否か,目的文を取得するか否か,効果用語を取得するか否か,解決手段用語を取得するか否か,目的用語を取得するか否か,特徴語を取得するか否か,特徴語の関連語を取得するか否か,タグ対応文を取得するか否か,タグ対応用語を取得するか否か,数値範囲文字列を取得するか否か,数値範囲文字列が示す範囲の数字を取得するか否か)の構造を有する。また、かかる場合、種類特定情報が(1,0,・・・0,1)である場合、当該種類特定情報は、効果解決手段文と、数値範囲文字列が示す範囲の数字のみを取得することを示す。なお、上記ベクトル(1,0,・・・0,1)において、「・・・」に対応する要素は、すべて0である、とする。また、要素が「1」に対応する重要情報は取得され、要素が「0」に対応する重要情報は取得されないことを示す。 The type specification information is, for example, a vector, and has a structure such as (whether to acquire an effect solution sentence, whether to acquire an effect sentence, whether to acquire a solution sentence, whether to acquire an object sentence, whether to acquire an effect term, whether to acquire a solution term, whether to acquire an object term, whether to acquire a feature word, whether to acquire a related word of the feature word, whether to acquire a tag corresponding sentence, whether to acquire a tag corresponding term, whether to acquire a numeric range string, whether to acquire a number in the range indicated by the numeric range string). In addition, in such a case, when the type specification information is (1, 0, ... 0, 1), the type specification information indicates that only the effect solution sentence and the number in the range indicated by the numeric range string are acquired. Note that in the above vector (1, 0, ... 0, 1), all elements corresponding to "..." are 0. Also, it indicates that important information corresponding to an element "1" is acquired, and important information corresponding to an element "0" is not acquired.
なお、効果解決手段文とは、効果の表現と解決手段の表現の両方を含む文である。効果解決手段文は、例えば、「<解決手段>により、<効果>できる。」「<解決手段>を設けることにより、<効果>が可能となる。」「<解決手段>に基づいて、<効果>できる。」「<解決手段>を使用することにより、<効果>する。」といったパターン(効果解決手段文パターンと言っても良い)に合致する文である。なお、「<」と「>」とにより示される情報(例えば、<解決手段>、<効果>)は、任意の文字列がマッチする変数である。効果解決手段文は、例えば、「突起を設けることにより、風量調整が可能となる。」「重要用語を使用することにより、特許分類の精度が向上する。」である。 Note that an effect-solution means sentence is a sentence that includes both an expression of the effect and an expression of the solution means. An effect-solution means sentence is a sentence that matches a pattern (which can be called an effect-solution means sentence pattern) such as "<Effect> can be achieved by <Solution means>," "<Effect> becomes possible by providing <Solution means>," "<Effect> can be achieved based on <Solution means>," or "<Effect> is achieved by using <Solution means>." Note that the information indicated by "<" and ">" (for example, <Solution means>, <Effect>) is a variable that can be matched with any character string. Examples of effect-solution means sentences are "By providing a protrusion, it becomes possible to adjust the airflow," and "By using key terms, the accuracy of patent classification is improved."
また、効果文とは、効果の表現を含む文である。効果文は、例えば、「<効果>できる。」「<効果>が可能になる。」「<効果>になる。」といったパターン(効果文パターンと言っても良い)に合致する文である。効果文は、例えば、「本実施の形態によれば、風量調整が可能となる。」「本実施例によれば、特許分類の精度が向上する。」である。効果文は、課題を特定する文である課題文と同一である、と考えても良い。 Moreover, an effect sentence is a sentence that includes an expression of an effect. An effect sentence is a sentence that matches a pattern (which may be called an effect sentence pattern) such as "It is possible to achieve <effect>," "It becomes possible to achieve <effect>," or "It becomes <effect>." An effect sentence is, for example, "According to this embodiment, it becomes possible to adjust the air volume," or "According to this embodiment, the accuracy of patent classification is improved." An effect sentence may be considered to be the same as a problem sentence, which is a sentence that identifies the problem.
解決手段文は、解決手段の表現を含む文である。解決手段文は、例えば、「ポイントは、<解決手段>である。」「<解決手段>に基づく。」「<解決手段>により、課題を解決できる。」といったパターン(解決手段文パターンと言っても良い)に合致する文である。解決手段文は、例えば、「突起により、課題を解決できる。」「重要用語取得部により、上記課題を解決できる。」である。 A solution sentence is a sentence that includes an expression of a solution. For example, a solution sentence is a sentence that matches a pattern (which can also be called a solution sentence pattern) such as "The key is <solution>," "It is based on <solution>," or "The problem can be solved by <solution>." For example, a solution sentence is "The problem can be solved by the protrusion," or "The above problem can be solved by the key term acquisition unit."
目的文は、目的の表現を含む文である。目的文は、例えば、「本発明において、<目的>することを目的とする。」「本願発明の目的は、<目的>である。」といったパターン(目的文パターンと言っても良い)の文である。目的文は、例えば、「本発明において、風量調整を行うことを目的とする。」「本願発明の目的は、特許分類の精度の向上である。」である。なお、目的文は、効果文または課題文と同一である、と考えても良い。目的、効果、課題は、通常、対応する情報であるからである。 An objective sentence is a sentence that includes an expression of purpose. For example, an objective sentence is a sentence of a pattern (which may be called an objective sentence pattern) such as "In this invention, the objective is to achieve <objective>." or "The objective of the present invention is <objective>." For example, an objective sentence is "In this invention, the objective is to adjust the air volume." or "The objective of the present invention is to improve the accuracy of patent classification." Note that an objective sentence may be considered to be the same as an effect sentence or problem sentence. This is because objectives, effects, and problems are usually corresponding information.
効果用語は、効果を示す用語であり、例えば、「精度向上」「省エネルギー化」「風量調整が可能」「省資源」「安全性の向上」「処理速度の向上」である。なお、効果用語は、課題を特定する文である課題用語と同一である、と考えても良い。 Effect terms are terms that indicate an effect, such as "improved accuracy," "energy saving," "ability to adjust airflow," "resource saving," "improved safety," and "improved processing speed." Note that effect terms can be considered to be the same as problem terms, which are sentences that identify the problem.
解決手段用語は、解決手段を示す用語であり、例えば、「突起」「重要用語」「重要情報取得部」「処理部」等である。 Solution terms are terms that indicate the solution, such as "protrusion," "key term," "important information acquisition unit," "processing unit," etc.
目的用語は、目的を示す用語であり、例えば、「精度向上」「省エネルギー化」「風量調整が可能」「省資源」「安全性の向上」「処理速度の向上」である。なお、目的用語は、効果用語または課題用語と同一である、と考えても良い。 Target terms are terms that indicate a purpose, such as "improved accuracy," "energy saving," "ability to adjust airflow," "resource saving," "improved safety," and "improved processing speed." Note that target terms may be considered to be the same as effect terms or task terms.
特徴語は、特許明細書の特徴を示す用語である。特徴語は、着目する特許明細書に多数出現する用語である。また、特徴語は、着目する特許明細書に多数出現し、かつ他の特許明細書での出現頻度が少ない用語であることは好適である。特徴語は、特許明細書の中の用語であり、例えば、TF/IDFの値が、予め決められた条件を満たすほど大きい用語である。なお、TF/IDFの値の算出方法は公知技術であるので、詳細な説明は省略する。 A characteristic word is a term that indicates the characteristics of a patent specification. A characteristic word is a term that appears frequently in the patent specification of interest. It is preferable that a characteristic word is a term that appears frequently in the patent specification of interest and that appears infrequently in other patent specifications. A characteristic word is a term in a patent specification, for example, a term whose TF/IDF value is large enough to satisfy a predetermined condition. Note that the method of calculating the TF/IDF value is a publicly known technology, so a detailed explanation is omitted.
特徴語の関連語は、特徴語の上位語、特徴語の下位語、または特徴語の同義語である。特徴語の関連語は、例えば、特徴語をキーとして、関連語辞書を検索し、取得された用語である。 A related word of a characteristic word is a superordinate word of the characteristic word, a subordinate word of the characteristic word, or a synonym of the characteristic word. A related word of a characteristic word is, for example, a term obtained by searching a related word dictionary using the characteristic word as a key.
重要タグ対応文は、予め決められたタグに対応する文である。予め決められたタグとは、特許明細書中の予め決められたタグである。予め決められたタグは、例えば、[発明の効果]または[発明が解決しようとする課題]または[産業上の利用可能性]のタグである。 A sentence corresponding to an important tag is a sentence that corresponds to a predetermined tag. A predetermined tag is a tag that is predetermined in a patent specification. For example, a predetermined tag is a tag such as "Effects of the invention" or "Problems that the invention aims to solve" or "Industrial applicability".
タグ対応用語は、重要タグ対応文に含まれる用語である。 Tag-enabled terms are terms that are included in important tag-enabled sentences.
数値範囲文字列は、特許明細書に含まれる文字列であり、数値範囲を示す文字列である。数値範囲文字列は、例えば、単位を有する。数値範囲文字列は、例えば、「<数字><単位>~<数字><単位>」「<数字>~<数字><単位>」「<数字>~<数字>」「<数字><単位>から<数字><単位>」「<数字>から<数字><単位>」「<数字>から<数字>」「<数字><単位>-<数字><単位>」「<数字>-<数字><単位>」「<数字>-<数字>」のパターン(数値範囲文字列パターンと言っても良い)にマッチする文字列である。また、数字の正負、有効桁数等は問わない。また、単位は、例えば、長さの単位、重さの単位、割合の単位等であり、種類は問わない。数値範囲文字列は、例えば、「1~10mm」「2.5mg-5.2mg」「0.8%から1.9%」等である。 A numeric range string is a string included in a patent specification, and indicates a numeric range. A numeric range string has, for example, a unit. A numeric range string is a string that matches the following patterns (which may be called a numeric range string pattern): "<number> <unit> to <number> <unit>", "<number> to <number> <unit>", "<number> to <number>", "<number> <unit> to <number>", "<number> <unit> - <number> <unit>", "<number> - <number> <unit>", "<number> - <number>"). In addition, the positive or negative sign of the numbers, the number of significant digits, etc., do not matter. In addition, the unit may be, for example, a unit of length, a unit of weight, a unit of ratio, etc., and the type does not matter. A numeric range string is, for example, "1 to 10 mm", "2.5 mg - 5.2 mg", "0.8% to 1.9%", etc.
数値範囲文字列が「2.5mg-5.2mg」の場合、数値範囲文字列が示す数値範囲に含まれる数字は、例えば、「2.5mg」「2.6mg」「2.7mg」・・・「5.1mg」「5.2mg」である。 If the numeric range string is "2.5mg-5.2mg", the numbers included in the numeric range indicated by the numeric range string are, for example, "2.5mg", "2.6mg", "2.7mg", ... "5.1mg", "5.2mg".
ここで、受け付けとは、通常、ユーザ端末4からの受信であるが、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
Here, acceptance usually means receiving information from the
学習処理部13は、各種の処理を行う。各種の処理とは、例えば、特許明細書取得部131、重要情報取得部132、学習元情報取得部133、学習部134、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、数字取得手段1329が行う処理である。
The
学習処理部13は、例えば、重要情報を機械学習のアルゴリズムにより学習し、重要情報であるか否かを判断する学習器を取得し、学習格納部11に蓄積する。機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。また、機械学習において、学習器を構成するためには、例えば、機械学習の関数(例えば、fastText、TinySVM、各種のRandomForest関数、TensorFlowのライブラリ等)に、入力となる情報群(例えば、文から構成されるベクトル、用語の分散表現等)と出力させたい情報(例えば、重要情報であるか、重要情報でないかの判断情報)とを引数として与えると学習器が得られる。また、機械学習にいて、予測する場合、機械学習の関数に学習器と入力となる情報群(例えば、文から構成されるベクトル、用語の分散表現等)とを引数として与えると、予測された情報(例えば、重要情報であるか、重要情報でないかの判断情報)が得られる。
The
学習処理部13は、例えば、1または2以上の効果解決手段文と、1または2以上の非効果解決手段文とを用いて、機械学習のアルゴリズムにより、判断対象の文が効果解決手段文であるか否かを予測するための学習器である効果解決手段文学習器を取得し、学習格納部11に蓄積する。なお、非効果解決手段文とは、効果解決手段文ではない文である。
The
さらに具体的には、学習処理部13は、例えば、1または2以上の効果解決手段文を学習格納部11から取得し、取得した1以上の各効果解決手段文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを正例とし、かつ1または2以上の非効果解決手段文を学習格納部11から取得し、取得した1以上の各非効果解決手段文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、効果解決手段文学習器を取得し、学習格納部11に蓄積する。なお、文からベクトルを構成する方法は問わない。つまり、文からベクトルを構成する場合に、どのような情報を素性として用いるかは問わない。取得した1以上の形態素だけではなく、n-gramも素性として用いても良いことは言うまでもない。
More specifically, the
学習処理部13は、例えば、1または2以上の効果用語と、1または2以上の非効果用語とを用いて、機械学習のアルゴリズムにより、判断対象の用語が効果用語であるか否かを予測するための学習器である効果用語学習器を取得し、学習格納部11に蓄積する。なお、非効果用語とは、効果用語ではない用語である。
The
さらに具体的には、学習処理部13は、例えば、1または2以上の効果用語を学習格納部11から取得し、取得した1以上の各効果用語の分散表現(ベクトル)を取得し(例えば、word2vecを使用)、当該分散表現を正例とし、かつ1または2以上の非効果用語を学習格納部11から取得し、取得した1以上の各非効果用語の分散表現(ベクトル)を取得し、当該分散表現を負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、効果用語学習器を取得し、学習格納部11に蓄積する。
More specifically, the
学習処理部13は、例えば、1または2以上の解決手段用語と、1または2以上の非解決手段用語とを用いて、機械学習のアルゴリズムにより、判断対象の用語が解決手段用語であるか否かを予測するための学習器である解決手段用語学習器を取得し、学習格納部11に蓄積する。なお、非解決手段用語とは、解決手段用語ではない用語である。
The
さらに具体的には、学習処理部13は、例えば、1または2以上の解決手段用語を学習格納部11から取得し、取得した1以上の各解決手段用語の分散表現(ベクトル)を取得し、当該分散表現を正例とし、かつ1または2以上の非解決手段用語を学習格納部11から取得し、取得した1以上の各非解決手段用語の分散表現(ベクトル)を取得し、当該分散表現を負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、解決手段用語学習器を取得し、学習格納部11に蓄積する。
More specifically, the
学習処理部13は、例えば、1または2以上の解決手段文と、1または2以上の非解決手段文とを用いて、機械学習のアルゴリズムにより、判断対象の文が解決手段文であるか否かを予測するための学習器である解決手段文学習器を取得し、学習格納部11に蓄積する。なお、非解決手段文とは、解決手段文ではない文である。
The
さらに具体的には、学習処理部13は、例えば、1または2以上の解決手段文を学習格納部11から取得し、取得した1以上の各解決手段文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを正例とし、かつ1または2以上の非解決手段文を学習格納部11から取得し、取得した1以上の各非解決手段文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、解決手段文学習器を取得し、学習格納部11に蓄積する。
More specifically, the
学習処理部13は、例えば、1または2以上の効果文と、1または2以上の非効果文とを用いて、機械学習のアルゴリズムにより、判断対象の文が効果文であるか否かを予測するための学習器である効果文学習器を取得し、学習格納部11に蓄積する。なお、非効果文とは、効果文ではない文である。
The
さらに具体的には、学習処理部13は、例えば、1または2以上の効果文を学習格納部11から取得し、取得した1以上の各効果文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを正例とし、かつ1または2以上の非効果文を学習格納部11から取得し、取得した1以上の各非効果文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、効果文学習器を取得し、学習格納部11に蓄積する。
More specifically, the
学習処理部13は、例えば、1または2以上の目的文と、1または2以上の非目的文とを用いて、機械学習のアルゴリズムにより、判断対象の文が目的文であるか否かを予測するための学習器である目的文学習器を取得し、学習格納部11に蓄積する。なお、非目的文とは、目的文ではない文である。
The
さらに具体的には、学習処理部13は、例えば、1または2以上の目的文を学習格納部11から取得し、取得した1以上の各目的文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを正例とし、かつ1または2以上の非目的文を学習格納部11から取得し、取得した1以上の各非目的文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、目的文学習器を取得し、学習格納部11に蓄積する。
More specifically, the
学習処理部13は、例えば、1または2以上の目的用語と、1または2以上の非目的用語とを用いて、機械学習のアルゴリズムにより、判断対象の用語が目的用語であるか否かを予測するための学習器である目的用語学習器を取得し、学習格納部11に蓄積する。なお、非目的用語とは、目的用語ではない用語である。
The
さらに具体的には、学習処理部13は、例えば、1または2以上の目的用語を学習格納部11から取得し、取得した1以上の各目的用語の分散表現(ベクトル)を取得し、当該分散表現を正例とし、かつ1または2以上の非目的用語を学習格納部11から取得し、取得した1以上の各非目的用語の分散表現(ベクトル)を取得し、当該分散表現を負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、目的用語学習器を取得し、学習格納部11に蓄積する。
More specifically, the
なお、学習処理部13が文からベクトルを取得する方法、用語からベクトルを取得する方法は問わないことは言うまでもない。学習処理部13は、文からベクトルを取得する種々の方法、用語からベクトルを取得する種々の方法を使用できる。
It goes without saying that the method used by the
特許明細書取得部131は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を取得する。特許明細書取得部131は、例えば、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を外部のサーバ装置3から取得する。特許明細書取得部131は、例えば、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を学習格納部11から取得する。特許明細書取得部131は、例えば、人手評価レコードに含まれる特許明細書を取得しても良い。
The patent
重要情報取得部132は、後述する受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する。
The important
重要情報取得部132は、特許明細書取得部131が取得した特許明細書を用いて、予め決められた条件を満たす重要情報を取得する。
The important
重要情報取得部132は、人手評価情報格納部111に格納されている人手評価情報が有する2以上の各人手評価レコードが有する特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する。重要情報は、予め決められた条件を満たす文、または予め決められた条件を満たす用語である。
The important
予め決められた条件とは、例えば、効果解決手段文に該当すること、効果用語に該当すること、解決手段用語に該当すること、効果文に該当すること、解決手段文に該当すること、目的文に該当すること、目的用語に該当すること、特徴語に該当すること、関連語に該当すること、重要タグ対応文に該当すること、重要タグ対応用語に該当すること、数値範囲文字列に該当すること、数値範囲文字列から取得できる数値に該当すること等である。 The predetermined conditions are, for example, matching an effect solution sentence, matching an effect term, matching a solution term, matching an effect sentence, matching a solution sentence, matching an objective sentence, matching an objective term, matching a feature word, matching a related word, matching an important tag corresponding sentence, matching an important tag corresponding term, matching a numeric range string, matching a numeric value that can be obtained from a numeric range string, etc.
重要情報は、例えば、効果解決手段文取得手段1321が取得した1以上の効果解決手段文、または1以上の効果解決手段文から取得された用語である効果用語および解決手段用語を含む。 The important information includes, for example, one or more effect solution means sentences acquired by the effect solution means sentence acquisition means 1321, or effect terms and solution means terms that are terms acquired from one or more effect solution means sentences.
重要情報は、例えば、効果文取得手段1322が取得した1以上の効果文、または1以上の効果文から取得された用語である効果用語を含む。 The important information includes, for example, one or more effect sentences acquired by the effect sentence acquisition means 1322, or effect terms that are terms acquired from one or more effect sentences.
重要情報は、例えば、解決手段文取得手段1323が取得した1以上の解決手段文、または1以上の解決手段文から取得された用語である解決手段用語を含む。 The important information includes, for example, one or more solution sentences acquired by the solution sentence acquisition means 1323, or solution terms, which are terms acquired from one or more solution sentences.
重要情報は、例えば、目的文取得手段1324が取得した1以上の目的文、または1以上の目的文から取得された用語である目的用語を含む。 The important information includes, for example, one or more object sentences acquired by the object sentence acquisition means 1324, or object terms that are terms acquired from one or more object sentences.
重要情報は、例えば、特徴語取得手段1325が取得した1以上の特徴語を含む。 The important information includes, for example, one or more characteristic words acquired by the characteristic word acquisition means 1325.
重要情報は、例えば、関連語取得手段1326が取得した1以上の関連語を含む。 The important information includes, for example, one or more related words acquired by the related word acquisition means 1326.
重要情報は、例えば、重要タグ対応文取得手段1327が取得した1以上の重要タグ対応文を含む、または1以上の重要タグ対応文から取得された用語である重要タグ対応用語を含む。 The important information includes, for example, one or more important tag corresponding sentences acquired by the important tag corresponding sentence acquisition means 1327, or includes important tag corresponding terms, which are terms acquired from one or more important tag corresponding sentences.
重要情報は、例えば、数値範囲文字列取得手段1328が取得した1以上の数値範囲文字列を含む。 The important information includes, for example, one or more numeric range strings acquired by the numeric range string acquisition means 1328.
重要情報は、例えば、数字取得手段1329が取得した3以上の数字を含む。数値範囲文字列が「2.5mg-5.2mg」の場合、数値範囲文字列が示す数値範囲に含まれる3以上の数字は、例えば、「2.5mg」「2.6mg」「2.7mg」・・・「5.1mg」「5.2mg」である。 The important information includes, for example, three or more numbers acquired by the number acquisition means 1329. If the numeric range string is "2.5mg-5.2mg", the numbers three or more included in the numeric range indicated by the numeric range string are, for example, "2.5mg", "2.6mg", "2.7mg", ... "5.1mg", and "5.2mg".
重要情報取得部132を構成する、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324は、以下に説明するように、例えば、(1)のパターンマッチングの方法、または(2)機械学習の方法等を用いて、重要情報を取得する。なお、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、数字取得手段1329は、上記の(1)(2)以外の方法を採ることにより、重要情報を取得することは好適である。なお、下記の重要情報の取得方法は一例であり、他の方法により、重要情報が取得されても良いことは言うまでもない。
The effect/solution sentence acquisition means 1321, effect sentence acquisition means 1322, solution sentence acquisition means 1323, and objective sentence acquisition means 1324 constituting the important
重要情報取得部132は、特許明細書を用いて、特定の表現を含む文を取得する。特定の表現を含む文は、例えば、効果解決手段文、効果文、解決手段文、または目的文である。
The important
重要情報取得部132は、特許明細書を用いて、特定の表現を含む文に含まれる用語を取得する。特定の表現を含む文に含まれる用語は、例えば、効果用語、解決手段用語、または目的用語である。
The important
重要情報取得部132は、特許明細書を用いて、特徴語を取得する。重要情報取得部132は、特徴語を用いて、関連語を取得する。
The important
重要情報取得部132は、特許明細書を用いて、特定のタグに対応する重要タグ対応文、または重要タグ対応用語を取得する。
The important
以下、重要情報の取得例について、各手段ごとに説明する。
(A)効果解決手段文取得手段1321
Below, examples of how important information can be obtained will be explained for each means.
(A) Effect solution means statement acquisition means 1321
効果解決手段文取得手段1321は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、効果解決手段文であるか否かを判断し、効果解決手段文であると判断した1以上の効果解決手段文を取得する。
(1)パターンマッチングによる方法
The effect solution means sentence acquisition means 1321 determines whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information received by the receiving
(1) Pattern matching method
効果解決手段文取得手段1321は、検査対象の特許明細書から1以上の各文を取得し、各文が、予め決められた効果解決手段文パターンに合致するか否かを判断する。効果解決手段文取得手段1321は、1または2以上のうちのいずれかの効果解決手段文パターンに合致する文を、効果解決手段文として取得する。 The effect solution means sentence acquisition means 1321 acquires one or more sentences from the patent specification to be inspected, and determines whether each sentence matches a predetermined effect solution means sentence pattern. The effect solution means sentence acquisition means 1321 acquires a sentence that matches one or more effect solution means sentence patterns as an effect solution means sentence.
なお、効果解決手段文パターンは、効果解決手段文のパターンを特定する情報である。1または2以上の効果解決手段文パターンは、例えば、学習格納部11に格納されている。また、効果解決手段文パターンは、例えば、「<解決手段>により、<効果>できる。」「<解決手段>を設けることにより、<効果>できる。」「<解決手段>に基づいて、<効果>できる。」である。なお、パターンマッチングの技術は公知技術であるので、詳細な説明を省略する。
The effect-solution-means sentence pattern is information that specifies the pattern of the effect-solution-means sentence. One or more effect-solution-means sentence patterns are stored, for example, in the
また、効果解決手段文パターン等のパターンは、ブートストラップのアルゴリズムを用いて、増やすことは好適である。
(2)機械学習による方法
In addition, it is preferable to increase patterns such as effect solution sentence patterns by using a bootstrap algorithm.
(2) Machine learning method
効果解決手段文取得手段1321は、検査対象の特許明細書から1以上の各文を取得し、各文に対して、効果解決手段文であるか否かを判定する効果解決手段文学習器に適用し、機械学習のアルゴリズムにより予測し、予測の結果である判断情報を取得する。判断情報は、ここでは、文が効果解決手段文であるか否かを示す情報である。 The effect-solving means sentence acquisition means 1321 acquires one or more sentences from the patent specification to be inspected, applies each sentence to an effect-solving means sentence learner that determines whether or not it is an effect-solving means sentence, makes a prediction using a machine learning algorithm, and acquires judgment information that is the result of the prediction. Here, the judgment information is information that indicates whether or not a sentence is an effect-solving means sentence.
なお、学習処理と同様、予測処理を行う場合も、機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。そして、機械学習において、予測する場合、機械学習の関数(例えば、fastText、TinySVM、各種のRandomForest関数、TensorFlowのライブラリ等)に学習器と入力となる情報群(例えば、文から構成されるベクトル、用語の分散表現等)とを引数として与えると、予測された情報(例えば、重要情報であるか、重要情報でないかの判断情報)が得られる。 As with the learning process, machine learning can be used for prediction processing, such as deep learning, SVM, random forest, and decision trees. When making predictions in machine learning, a learning device and a set of input information (e.g., vectors made up of sentences, distributed representations of terms, etc.) are given as arguments to a machine learning function (e.g., fastText, TinySVM, various RandomForest functions, TensorFlow libraries, etc.), and predicted information (e.g., information on whether the information is important or not) is obtained.
そして、効果解決手段文取得手段1321は、機械学習の関数が取得した判断情報が「効果解決手段文である」との判断情報である場合、当該文を効果解決手段文として取得する。
(3)効果用語、解決手段用語の取得
Then, if the judgment information acquired by the machine learning function is "an effect solution means sentence," the effect solution means sentence acquisition means 1321 acquires the sentence as an effect solution means sentence.
(3) Acquisition of effect terms and solution terms
効果解決手段文取得手段1321は、例えば、取得した効果解決手段文に対応する効果解決手段文パターン(例えば、「<解決手段>により、<効果>できる。」)を用いて、効果用語(<効果>に対応する用語)、解決手段用語(<解決手段>に対応する用語)を、取得した効果解決手段文から取得する。 The effect solution means sentence acquisition means 1321 acquires effect terms (terms corresponding to <effect>) and solution means terms (terms corresponding to <solution>) from the acquired effect solution means sentence, for example, by using an effect solution means sentence pattern corresponding to the acquired effect solution means sentence (for example, "<effect> can be achieved by <solution means>.").
また、効果解決手段文取得手段1321は、例えば、機械学習のアルゴリズムにより、効果用語、解決手段用語を取得する。 The effect/solution sentence acquisition means 1321 also acquires effect terms and solution terms, for example, using a machine learning algorithm.
例えば、効果解決手段文取得手段1321は、取得した効果解決手段文を形態素解析し、取得した1以上の各用語に対して、効果用語学習器を適用し、機械学習のアルゴリズムにより、効果用語であるか否かを判断する。また、例えば、効果解決手段文取得手段1321は、取得した効果解決手段文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断する。 For example, the effect solution means sentence acquisition means 1321 performs morphological analysis on the acquired effect solution means sentence, applies an effect term learner to each of the one or more acquired terms, and determines whether or not it is an effect term using a machine learning algorithm. Also, for example, the effect solution means sentence acquisition means 1321 performs morphological analysis on the acquired effect solution means sentence, applies a solution term learner to each of the one or more acquired terms, and determines whether or not it is a solution term using a machine learning algorithm.
なお、効果解決手段文取得手段1321は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、効果用語学習器を適用し、機械学習のアルゴリズムにより、効果用語であるか否かを判断しても良い。また、効果解決手段文取得手段1321は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断しても良い。
(B)効果文取得手段1322
The effect/solution sentence acquisition means 1321 may perform morphological analysis on each sentence of the patent specification, apply an effect term learner to each of the one or more acquired terms, and determine whether or not the term is an effect term using a machine learning algorithm. The effect/solution sentence acquisition means 1321 may perform morphological analysis on each sentence of the patent specification, apply a solution term learner to each of the one or more acquired terms, and determine whether or not the term is an effect term using a machine learning algorithm.
(B) Effect statement acquisition means 1322
効果文取得手段1322は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、効果文であるか否かを判断し、効果文であると判断した1以上の効果文を取得する。
(1)パターンマッチングによる方法
The effect sentence acquisition means 1322 determines whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the accepting
(1) Pattern matching method
効果文取得手段1322は、検査対象の特許明細書から1以上の各文を取得し、各文が、予め決められた効果文パターンに合致するか否かを判断する。効果文取得手段1322は、1または2以上のうちのいずれかの効果文パターンに合致する文を、効果文として取得する。 The effect sentence acquisition means 1322 acquires one or more sentences from the patent specification to be inspected, and determines whether each sentence matches a predetermined effect sentence pattern. The effect sentence acquisition means 1322 acquires a sentence that matches one or more effect sentence patterns as an effect sentence.
なお、効果文パターンは、効果文のパターンを特定する情報である。1または2以上の効果文パターンは、例えば、学習格納部11に格納されている。また、効果文パターンは、例えば、「<効果>できる。」「<効果>になる。」である。
An effect sentence pattern is information that specifies a pattern of an effect sentence. One or more effect sentence patterns are stored, for example, in the
また、効果文パターン等のパターンは、ブートストラップのアルゴリズムを用いて、増やすことは好適である。
(2)機械学習による方法
In addition, it is preferable to increase the number of patterns such as effect sentence patterns by using a bootstrap algorithm.
(2) Machine learning method
効果文取得手段1322は、検査対象の特許明細書から1以上の各文を取得し、各文に対して、効果文であるか否かを判定する効果文学習器に適用し、機械学習のアルゴリズムにより予測し、予測の結果である判断情報を取得する。判断情報は、ここでは、文が効果文であるか否かを示す情報である。 The effect sentence acquisition means 1322 acquires one or more sentences from the patent specification to be inspected, applies to each sentence an effect sentence learning device that determines whether or not it is an effect sentence, makes a prediction using a machine learning algorithm, and acquires judgment information that is the result of the prediction. Here, the judgment information is information that indicates whether or not a sentence is an effect sentence.
そして、効果文取得手段1322は、機械学習の関数が取得した判断情報が「効果文である」との判断情報である場合、当該文を効果文として取得する。
(3)効果用語の取得
Then, if the judgment information acquired by the machine learning function is that the sentence is an "effect sentence," the effect sentence acquisition means 1322 acquires the sentence as an effect sentence.
(3) Acquisition of effect terms
効果文取得手段1322は、例えば、取得した効果文に対応する効果文パターン(例えば、「<効果>できる。」)を用いて、効果用語(<効果>に対応する用語)を、取得した効果文から取得する。 The effect sentence acquisition means 1322 acquires an effect term (a term corresponding to <effect>) from the acquired effect sentence, for example, by using an effect sentence pattern corresponding to the acquired effect sentence (for example, "<effect> can be done.").
例えば、効果文取得手段1322は、取得した効果文を形態素解析し、取得した1以上の各用語に対して、効果用語学習器を適用し、機械学習のアルゴリズムにより、効果用語であるか否かを判断する。 For example, the effect sentence acquisition means 1322 performs morphological analysis on the acquired effect sentence, applies an effect term learning device to each of one or more acquired terms, and determines whether or not the term is an effect term using a machine learning algorithm.
なお、効果文取得手段1322は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、効果用語学習器を適用し、機械学習のアルゴリズムにより、効果用語であるか否かを判断しても良い。
(C)解決手段文取得手段1323
In addition, the effect sentence acquisition means 1322 may perform morphological analysis of each sentence in the patent specification, apply an effect term learning device to each of one or more acquired terms, and determine whether or not the term is an effect term using a machine learning algorithm.
(C) Solution sentence acquisition means 1323
解決手段文取得手段1323は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、解決手段文であるか否かを判断し、解決手段文であると判断した1以上の解決手段文を取得する。
(1)パターンマッチングによる方法
The solution sentence acquisition means 1323 determines whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the accepting
(1) Pattern matching method
解決手段文取得手段1323は、検査対象の特許明細書から1以上の各文を取得し、各文が、予め決められた解決手段文パターンに合致するか否かを判断する。解決手段文取得手段1323は、1または2以上のうちのいずれかの解決手段文パターンに合致する文を、解決手段文として取得する。 The solution sentence acquisition means 1323 acquires one or more sentences from the patent specification to be inspected, and determines whether each sentence matches a predetermined solution sentence pattern. The solution sentence acquisition means 1323 acquires a sentence that matches one or more solution sentence patterns as a solution sentence.
なお、解決手段文パターンは、解決手段文のパターンを特定する情報である。1または2以上の解決手段文パターンは、例えば、学習格納部11に格納されている。また、解決手段文パターンは、例えば、「ポイントは、<解決手段>である。」「<解決手段>に基づく。」である。
The solution sentence pattern is information that identifies a pattern of a solution sentence. One or more solution sentence patterns are stored, for example, in the
また、解決手段文パターン等のパターンは、ブートストラップのアルゴリズムを用いて、増やすことは好適である。
(2)機械学習による方法
It is also preferable to increase the number of patterns such as solution sentence patterns using a bootstrap algorithm.
(2) Machine learning method
解決手段文取得手段1323は、検査対象の特許明細書から1以上の各文を取得し、各文に対して、解決手段文であるか否かを判定する解決手段文学習器に適用し、機械学習のアルゴリズムにより予測し、予測の結果である判断情報を取得する。判断情報は、ここでは、文が解決手段文であるか否かを示す情報である。 The solution sentence acquisition means 1323 acquires one or more sentences from the patent specification to be inspected, applies each sentence to a solution sentence learner that determines whether it is a solution sentence or not, makes a prediction using a machine learning algorithm, and acquires judgment information that is the result of the prediction. Here, the judgment information is information that indicates whether a sentence is a solution sentence or not.
そして、解決手段文取得手段1323は、機械学習の関数が取得した判断情報が「解決手段文である」との判断情報である場合、当該文を解決手段文として取得する。
(3)解決手段用語の取得
Then, if the judgment information acquired by the machine learning function is "a solution sentence", the solution
(3) Acquisition of solution terms
解決手段文取得手段1323は、例えば、取得した解決手段文に対応する解決手段文パターン(例えば、「ポイントは、<解決手段>である。」)を用いて、解決手段用語(<解決手段>に対応する用語)を、取得した解決手段文から取得する。 The solution sentence acquisition means 1323 acquires a solution term (a term corresponding to <solution>) from the acquired solution sentence, for example, by using a solution sentence pattern corresponding to the acquired solution sentence (for example, "The point is <solution>.").
また、解決手段文取得手段1323は、例えば、機械学習のアルゴリズムにより、解決手段用語を取得する。
The solution
例えば、解決手段文取得手段1323は、取得した解決手段文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断する。また、例えば、効果解決手段文取得手段1321は、取得した効果解決手段文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断する。 For example, the solution sentence acquisition means 1323 performs morphological analysis on the acquired solution sentence, applies a solution terminology learner to each of the one or more acquired terms, and determines whether or not it is a solution term using a machine learning algorithm. Also, for example, the effect solution sentence acquisition means 1321 performs morphological analysis on the acquired effect solution sentence, applies a solution terminology learner to each of the one or more acquired terms, and determines whether or not it is a solution term using a machine learning algorithm.
なお、解決手段文取得手段1323は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断しても良い。
(D)目的文取得手段1324
In addition, the solution means sentence acquisition means 1323 may perform morphological analysis of each sentence in the patent specification, apply a solution means term learning device to each of one or more acquired terms, and determine whether or not the term is a solution means term using a machine learning algorithm.
(D) Objective sentence acquisition means 1324
目的文取得手段1324は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、目的文であるか否かを判断し、目的文であると判断した1以上の目的文を取得する。
(1)パターンマッチングによる方法
The object sentence acquisition means 1324 determines whether or not each of one or more sentences included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the
(1) Pattern matching method
目的文取得手段1324は、検査対象の特許明細書から1以上の各文を取得し、各文が、予め決められた目的文パターンに合致するか否かを判断する。目的文取得手段1324は、1または2以上のうちのいずれかの目的文パターンに合致する文を、目的文として取得する。 The object sentence acquisition means 1324 acquires one or more sentences from the patent specification to be inspected, and determines whether each sentence matches a predetermined object sentence pattern. The object sentence acquisition means 1324 acquires a sentence that matches one or more object sentence patterns as an object sentence.
なお、目的文パターンは、目的文のパターンを特定する情報である。1または2以上の目的文パターンは、例えば、学習格納部11に格納されている。また、目的文パターンは、例えば、「本発明において、<目的>することを目的とする。」「本願発明の目的は、<目的>である。」である。
The objective sentence pattern is information that specifies the pattern of the objective sentence. One or more objective sentence patterns are stored, for example, in the
また、目的文パターン等のパターンは、ブートストラップのアルゴリズムを用いて、増やすことは好適である。
(2)機械学習による方法
In addition, it is preferable to increase the number of patterns such as objective sentence patterns by using a bootstrap algorithm.
(2) Machine learning method
目的文取得手段1324は、検査対象の特許明細書から1以上の各文を取得し、各文に対して、目的文であるか否かを判定する目的文学習器に適用し、機械学習のアルゴリズムにより予測し、予測の結果である判断情報を取得する。判断情報は、ここでは、文が目的文であるか否かを示す情報である。 The objective sentence acquisition means 1324 acquires one or more sentences from the patent specification to be inspected, applies an objective sentence learner to each sentence to determine whether it is an objective sentence or not, makes a prediction using a machine learning algorithm, and acquires judgment information that is the result of the prediction. Here, the judgment information is information indicating whether a sentence is an objective sentence or not.
そして、目的文取得手段1324は、機械学習の関数が取得した判断情報が「目的文である」との判断情報である場合、当該文を目的文として取得する。
(3)目的用語の取得
Then, if the judgment information acquired by the machine learning function is that the sentence is a “object sentence”, the object sentence acquisition means 1324 acquires the sentence as an object sentence.
(3) Acquisition of target terms
目的文取得手段1324は、例えば、取得した目的文に対応する目的文パターン(例えば、「本発明において、<目的>することを目的とする。」)を用いて、目的用語(<目的>に対応する用語)を、取得した目的文から取得する。 The objective sentence acquisition means 1324 acquires an objective term (a term corresponding to <objective>) from the acquired objective sentence, for example, by using an objective sentence pattern corresponding to the acquired objective sentence (for example, "The objective of the present invention is to achieve <objective>.").
また、目的文取得手段1324は、例えば、機械学習のアルゴリズムにより、目的用語を取得する。 The objective sentence acquisition means 1324 also acquires objective terms, for example, using a machine learning algorithm.
例えば、目的文取得手段1324は、取得した目的文を形態素解析し、取得した1以上の各用語に対して、目的用語学習器を適用し、機械学習のアルゴリズムにより、目的用語であるか否かを判断する。また、例えば、目的文取得手段1324は、取得した目的文を形態素解析し、取得した1以上の各用語に対して、目的用語学習器を適用し、機械学習のアルゴリズムにより、目的用語であるか否かを判断する。 For example, the objective sentence acquisition means 1324 performs morphological analysis on the acquired objective sentence, applies an objective term learner to each of the one or more acquired terms, and determines whether or not each is an objective term using a machine learning algorithm. Also, for example, the objective sentence acquisition means 1324 performs morphological analysis on the acquired objective sentence, applies an objective term learner to each of the one or more acquired terms, and determines whether or not each is an objective term using a machine learning algorithm.
なお、目的文取得手段1324は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、目的用語学習器を適用し、機械学習のアルゴリズムにより、目的用語であるか否かを判断しても良い。
(E)特徴語取得手段1325
In addition, the target sentence acquisition means 1324 may perform morphological analysis of each sentence in the patent specification, apply a target term learner to each of one or more acquired terms, and determine whether or not the term is a target term using a machine learning algorithm.
(E) characteristic word acquisition means 1325
特徴語取得手段1325は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語の出現頻度を取得し、出現頻度を用いて、1以上の各用語に対するスコアを算出し、スコアが予め決められた条件を満たすほど大きい1以上の特徴語を取得する。
The characteristic word acquisition means 1325 acquires the frequency of occurrence of one or more terms included in the patent specification corresponding to the patent identifier included in the classification target information accepted by the
特徴語取得手段1325は、例えば、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語の出現回数を取得する。また、特徴語取得手段1325は、例えば、対象となる特許明細書の集合において、1以上の各用語の出現回数を取得する。そして、特徴語取得手段1325は、分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語のTF/IDFの値(スコア)を算出する。次に、特徴語取得手段1325は、スコアが予め決められた条件を満たすほど高い1以上の用語を、当該特許明細書の特徴語として取得する。なお、文書から特徴語を抽出する技術は、問わない。特徴語取得手段1325は、種々の技術を使用可能である。
(F)関連語取得手段1326
The characteristic word acquisition means 1325 acquires, for example, the number of occurrences of one or more terms included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the accepting
(F) Related
関連語取得手段1326は、関連語辞書から、特徴語取得手段1325が取得した1以上の各特徴語に対応する1以上の関連語を取得する。なお、かかる関連語は、重要情報の一例である。また、関連語取得手段1326が使用する関連語辞書は、学習器生産装置1または特許分類装置2の内部の辞書でも良いし、図示しないサーバの辞書でも良い。
(F)重要タグ対応文取得手段1327
The related word acquisition means 1326 acquires, from the related word dictionary, one or more related words corresponding to each of the one or more characteristic words acquired by the characteristic word acquisition means 1325. Such related words are an example of important information. The related word dictionary used by the related word acquisition means 1326 may be an internal dictionary of the learning
(F) Important tag corresponding
重要タグ対応文取得手段1327は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文であり、1以上の重要タグ対応文を取得する。
The important tag corresponding sentence acquisition means 1327 acquires one or more important tag corresponding sentences, which are sentences included in the patent specification corresponding to the patent identifier included in the classification target information accepted by the
重要タグ対応文取得手段1327は、例えば、予め決められたタグを特定する重要タグ特定情報を学習格納部11から読み出し、当該重要タグ特定情報により特定されるタグの中の1以上の文を、処理対象の特許明細書から取得する。なお、重要タグ特定情報は、例えば、[発明の効果]または[発明が解決しようとする課題]または[産業上の利用可能性]である。例えば、特許明細書から[発明の効果]に対応する1以上の文を取得する技術は公知技術である。
The important tag corresponding sentence acquisition means 1327, for example, reads important tag identification information that identifies a predetermined tag from the learning
また、重要タグ対応文取得手段1327は、重要タグ特定情報に対応する1以上の各文から、重要タグ用語を取得しても良い。重要タグ対応文取得手段1327は、例えば、1以上の各文を形態素解析し、1以上の自立語を重要タグ用語として取得する。
(G)数値範囲文字列取得手段1328
In addition, the important tag corresponding
(G) Numeric range character
数値範囲文字列取得手段1328は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文字列であり、数値範囲を示す文字列である1以上の数値範囲文字列を取得する。
The numeric range string acquisition means 1328 acquires one or more numeric range strings, which are strings included in a patent specification corresponding to a patent identifier included in the classification target information accepted by the
数値範囲文字列取得手段1328は、例えば、数値範囲文字列パターンにマッチする文字列を特許明細書から取得する。なお、数値範囲文字列パターンは、学習格納部11に格納されている。数値範囲文字列パターンは、例えば、「<数字><単位>~<数字><単位>」「<数字>~<数字><単位>」「<数字>~<数字>」「<数字><単位>から<数字><単位>」「<数字>から<数字><単位>」「<数字>から<数字>」「<数字><単位>-<数字><単位>」「<数字>-<数字><単位>」「<数字>-<数字>」である。
The numeric range string acquisition means 1328 acquires, for example, a string that matches a numeric range string pattern from a patent specification. The numeric range string pattern is stored in the
なお、数値範囲文字列取得手段1328は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書の中の特定のタグに対応する領域の1以上の文から1以上の数値範囲文字列を取得することは好適である。なお、特定のタグに対応する領域は、例えば、[発明を実施するための形態][実施例][実験]等である。
(H)数字取得手段1329
It is preferable that the numerical value range character string acquisition means 1328 acquires one or more numerical value range character strings from one or more sentences in an area corresponding to a specific tag in a patent specification corresponding to a patent identifier included in the classification target information accepted by the
(H) Number acquisition means 1329
数字取得手段1329は、数値範囲文字列取得手段1328が取得した数値範囲文字列が示す数値範囲に含まれる3以上の数字を取得する。数字取得手段1329は、数値範囲文字列取得手段1328が取得した数値範囲文字列が示す数値範囲の両端と1以上の中の数値を少なくとも取得する。数字取得手段1329は、通常、数値範囲の上限と下限の値を取得するが、上限と下限の値を取得しなくても良い。数字取得手段1329は、数値範囲文字列が示す数値範囲の中の数値であり、数値範囲文字列の中に現れていない文字列の数値を取得することは好適である。 The number acquisition means 1329 acquires 3 or more numbers included in the numerical range indicated by the numerical range string acquired by the numerical range string acquisition means 1328. The number acquisition means 1329 acquires at least both ends of the numerical range indicated by the numerical range string acquired by the numerical range string acquisition means 1328 and one or more numerical values within the range. The number acquisition means 1329 usually acquires the upper and lower limit values of the numerical range, but it is not necessary to acquire the upper and lower limit values. The number acquisition means 1329 is a numerical value within the numerical range indicated by the numerical range string, and it is preferable to acquire the numerical value of a string that does not appear in the numerical range string.
取得された数値範囲文字列が「2.5mg-5.2mg」の場合、数字取得手段1329は、数値範囲文字列が示す数値範囲に含まれる数字であり、例えば、「2.5mg」「2.6mg」「2.7mg」・・・「5.1mg」「5.2mg」を取得することは好適である。つまり、数字取得手段1329は、数値範囲文字列の有効桁数(ここでは、例えば、小数点1桁)で示される桁数の数値であり、取得された数値範囲文字列が示す範囲「2.5-5.2」の数値を生成し、3以上の数値を取得する。なお、数字取得手段1329が取得する数値は、単位を有しても有さなくても良い。 When the acquired numeric range string is "2.5mg-5.2mg", it is preferable for the number acquisition means 1329 to acquire a number included in the numeric range indicated by the numeric range string, for example, "2.5mg", "2.6mg", "2.7mg", ... "5.1mg", "5.2mg". In other words, the number acquisition means 1329 generates a numeric value in the range "2.5-5.2" indicated by the acquired numeric range string, which is a numeric value with the number of digits indicated by the number of significant digits of the numeric range string (here, for example, one decimal place), and acquires a numeric value of 3 or more. Note that the numeric value acquired by the number acquisition means 1329 may or may not have a unit.
学習元情報取得部133は、2以上の各人手評価レコードごとに、重要情報取得部132が取得した重要情報と、分類結果情報とを有する特許レコードを取得し、2以上の特許レコードを有する学習元情報を取得する。分類結果情報は、重要情報の元になった特許明細書に対応する特許識別子と対になる情報であり、通常、人手による当該特許の分類の結果を示す情報である。
The learning source
特許レコードは、特許識別子に対応する特許請求の範囲または要約書のうちの1種類以上の情報をも含むことは好適である。また、特許レコードは、1または2以上の特許分類コードを含むことは好適である。 The patent record preferably also includes one or more of the following types of information: claims or abstract corresponding to the patent identifier. The patent record preferably also includes one or more patent classification codes.
学習部134は、学習元情報取得部133が取得した学習元情報を機械学習のアルゴリズムにより学習し、学習器を取得する。
The
学習部134は、学習元情報取得部133が取得した学習元情報のうち、分類結果情報以外の情報を入力とし、分類結果情報を出力とする学習器を、機械学習のアルゴリズムにより構成する。なお、機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。また、機械学習において、学習器を構成するためには、例えば、機械学習の関数(例えば、fastText、TinySVM、各種のRandomForest関数、TensorFlowのライブラリ等)に、入力となる情報群(例えば、学習元情報のうち、分類結果情報以外の情報)と出力させたい情報(例えば、分類結果情報)とを引数として与えると学習器が得られる。なお、入力となる情報群と出力させたい情報とは、特許レコードを構成する。
The
学習出力部14は、各種の情報を出力する。各種の情報とは、例えば、学習器、学習処理が完了した旨の情報である。
The learning
ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。 Here, output is a concept that includes displaying on a display, projecting using a projector, printing on a printer, outputting sound, sending to an external device, storing on a recording medium, and passing on the processing results to other processing devices or other programs, etc.
蓄積部141は、学習部134が取得した学習器を蓄積する。蓄積部141は、例えば、学習格納部11に、学習器を蓄積する。蓄積部141は、学習動作開始指示が有する種類特定情報と学習器とを対応付けて、学習部134が取得した学習器を蓄積することは好適である。
The
特許分類装置2を構成する格納部21には、各種の情報が格納される。各種の情報とは、例えば、学習器である。
The
学習器格納部211には、1または2以上の学習器が格納される。学習器格納部211の学習器は、例えば、学習器生産装置1が取得した学習器である。学習器格納部211の学習器は、例えば、種類特定情報に対応付いている。
The learning device storage unit 211 stores one or more learning devices. The learning devices in the learning device storage unit 211 are, for example, learning devices acquired by the learning
学習器は、2以上の特許レコードを有する学習元情報を機械学習のアルゴリズムにより学習し、取得された学習器である。特許レコードは、特許明細書の全文は有さない。特許レコードは、特許を識別する特許識別子に対応する特許明細書を用いて取得された重要情報と、人手による特許の分類結果を特定する分類結果情報とを有する。 The learning device is a learning device obtained by learning source information having two or more patent records using a machine learning algorithm. The patent records do not contain the full text of the patent specifications. The patent records contain important information obtained using the patent specifications corresponding to the patent identifiers that identify the patents, and classification result information that identifies the manual classification results of the patents.
受付部22は、例えば、予測開始指示を受け付ける。予測開始指示は、予測の開始の指示である。予測開始指示は、例えば、予測対象の分類対象情報、使用する学習器を特定する情報等を有する。
The
受付部22は、例えば、1または2以上の分類対象情報を受け付ける。分類対象情報は、分類対象の特許を識別する特許識別子を含む。分類対象情報は、例えば、特許請求の範囲、要約書のうちの1以上の情報を含む。分類対象情報は、例えば、1以上の特許分類コードを含む。分類対象情報は、例えば、特許明細書を含む。
The
ここで、受け付けとは、通常、ユーザ端末4からの受信であるが、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
Here, acceptance usually means receiving information from the
処理部23は、各種の処理を行う。各種の処理とは、例えば、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、予測部234等が行う処理である。
The
分類対象加工情報取得部233は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する情報であり、重要情報取得部132が取得した重要情報を含む情報である分類対象加工情報を取得する。
The classification target processing
分類対象加工情報は、例えば、重要情報取得部132が取得した重要情報と、特許識別子に対応する特許請求の範囲または要約書のうちの1種類以上の情報とを含む。
The processed information to be classified includes, for example, important information acquired by the important
受付部22が受け付けた分類対象情報が特許明細書を有さない場合、分類対象加工情報取得部233は、例えば、受付部22が受け付けた分類対象情報の一部または全部と重要情報取得部132が取得した重要情報とからなる分類対象加工情報を取得する。
When the classification target information accepted by the
受付部22が受け付けた分類対象情報が特許明細書を有する場合、分類対象加工情報取得部233は、例えば、受付部22が受け付けた分類対象情報から特許明細書を含む一部の情報を除き、当該特許明細書等を除いた後の情報と重要情報取得部132が取得した重要情報とからなる分類対象加工情報を取得する。
When the classification target information accepted by the
また、ここでの重要情報取得部132は、使用する学習器に対応付いている種類特定情報を用いることは好適である。
In addition, it is preferable for the important
予測部234は、分類対象加工情報取得部233が取得した分類対象加工情報に学習器に適用し、機械学習のアルゴリズムにより分類対象加工情報の分類を予測し、分類結果情報を取得する。機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。予測部234は、機械学習の関数に学習器と分類対象加工情報とを引数として与え、分類結果情報を取得する。なお、学習器は、学習器格納部211の学習器である。
The
出力部24は、予測部234が取得した分類結果情報を、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する。
The
ここで、出力とは、例えば、ユーザ端末4への送信であるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
Here, output means, for example, transmission to the
サーバ装置3は、特許識別子に対応する特許明細書を多数格納しているサーバである。サーバ装置3は、学習器生産装置1または特許分類装置2から特許識別子を有する特許取得指示を受信すると、当該特許識別子に対応する特許明細書を格納している特許データベースから取得し、当該特許明細書を学習器生産装置1または特許分類装置2に送信する。
The
ユーザ端末4は、ユーザから学習動作開始指示を受け付け、当該学習動作開始指示を学習器生産装置1に送信する。また、ユーザ端末4は、ユーザから予測動作開始指示を受け付け、当該予測動作開始指示を特許分類装置2に送信する。なお、ユーザ端末4は、予測動作開始指示の送信に応じて、予測の結果である分類結果情報を受信し、出力することは好適である。
The
学習格納部11、人手評価情報格納部111、格納部21、および学習器格納部211は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
The learning
学習格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が学習格納部11等で記憶されるようになってもよく、通信回線等を介して送信された情報が学習格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が学習格納部11等で記憶されるようになっても良い。
The process by which information is stored in the
学習受付部12、特許明細書取得部131、学習出力部14、および出力部24は、通常、無線または有線の通信手段等で実現され得る。
The
学習処理部13、重要情報取得部132、学習元情報取得部133、学習部134、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、数字取得手段1329、蓄積部141、処理部23、分類対象加工情報取得部233、および予測部234は、通常、MPUやメモリ等から実現され得る。学習処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The
次に、特許分類システムAの動作例について説明する。まず、学習器生産装置1の動作例について、図4のフローチャートを用いて説明する。
Next, an example of the operation of the patent classification system A will be described. First, an example of the operation of the learning
(ステップS401)学習受付部12は、学習動作開始指示を受け付けたか否かを判断する。学習動作開始指示を受け付けた場合はステップS402に行き、学習動作開始指示を受け付けなかった場合はステップS401に戻る。
(Step S401) The
(ステップS402)学習処理部13は、カウンタiに1を代入する。
(Step S402) The
(ステップS403)学習処理部13は、人手評価情報格納部111に格納されている学習対象の人手評価情報の中に、i番目の人手評価レコードが存在するか否かを判断する。
i番目の人手評価レコードが存在する場合はステップS404に行き、存在しない場合はステップS408に行く。
(Step S403) The
If the i-th manual evaluation record exists, the process proceeds to step S404; if not, the process proceeds to step S408.
(ステップS404)特許明細書取得部131は、i番目の人手評価レコードの中に特許明細書が存在すれば、i番目の人手評価レコードから特許明細書を取得する。また、特許明細書取得部131は、i番目の人手評価レコードの中に特許明細書が存在しなければ、i番目の人手評価レコードが有する特許識別子を取得し、当該特許識別子をキーとして、サーバ装置3から特許明細書を受信する。
(Step S404) If a patent specification exists in the i-th manual evaluation record, the patent
(ステップS405)重要情報取得部132は、ステップS404で取得された特許明細書から、1種類以上の重要情報を取得する。かかる重要情報取得処理例について、図5のフローチャートを用いて説明する。
(Step S405) The important
(ステップS406)学習元情報取得部133は、i番目の人手評価レコードとステップS405で取得された重要情報を用いて、i番目の人手評価レコードの中の分類結果情報と重要情報とを少なくとも有するi番目の特許レコードを取得し、図示しないバッファに一時蓄積する。
(Step S406) The learning source
(ステップS407)学習処理部13は、カウンタiを1、インクリメントする。ステップS403に戻る。
(Step S407) The
(ステップS408)学習元情報取得部133は、ステップS406で一時蓄積したすべての特許レコードを有する学習元情報を構成する。
(Step S408) The learning source
(ステップS409)学習部134は、ステップS408で取得された学習元情報を用いて学習処理を行い、学習器を取得する。
(Step S409) The
(ステップS410)蓄積部141は、学習動作開始指示が有する種類特定情報と学習器とを対応付けて、学習格納部11に蓄積する。ステップS401に戻る。
(Step S410) The
なお、図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。 In the flowchart in Figure 4, processing ends when the power is turned off or an interrupt occurs to end processing.
次に、ステップS405の重要情報取得処理例について、図5のフローチャートを用いて説明する。 Next, an example of the important information acquisition process in step S405 will be described using the flowchart in FIG.
(ステップS501)重要情報取得部132は、学習動作開始指示が有する種類特定情報を取得する。なお、予測処理においては、重要情報取得部132は、予測処理で用いる学習器に対応付いている種類特定情報を取得する。
(Step S501) The important
(ステップS502)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、効果解決手段文を取得するか否かを判断する。効果解決手段文を取得する場合はステップS503に行き、効果解決手段文を取得しない場合はステップS504に行く。
(Step S502) The important
(ステップS503)重要情報取得部132は、効果解決手段文取得処理を行う。効果解決手段文取得処理例について、図6のフローチャートを用いて説明する。
(Step S503) The important
(ステップS504)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、効果文を取得するか否かを判断する。効果文を取得する場合はステップS505に行き、効果文を取得しない場合はステップS506に行く。
(Step S504) The important
(ステップS505)重要情報取得部132は、効果取得処理を行う。効果文取得処理例について、図6のフローチャートを用いて説明する。
(Step S505) The important
(ステップS506)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、解決手段文を取得するか否かを判断する。解決手段文を取得する場合はステップS507に行き、解決手段文を取得しない場合はステップS508に行く。
(Step S506) The important
(ステップS507)重要情報取得部132は、解決手段文取得処理を行う。解決手段文取得処理例について、図6のフローチャートを用いて説明する。
(Step S507) The important
(ステップS508)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、目的文を取得するか否かを判断する。目的文を取得する場合はステップS509に行き、目的文を取得しない場合はステップS510に行く。
(Step S508) The important
(ステップS509)重要情報取得部132は、目的文取得処理を行う。目的文取得処理例について、図6のフローチャートを用いて説明する。
(Step S509) The important
(ステップS510)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、効果用語を取得するか否かを判断する。効果用語を取得する場合はステップS511に行き、効果用語を取得しない場合はステップS512に行く。
(Step S510) The important
(ステップS511)重要情報取得部132は、効果用語取得処理を行う。効果用語取得処理例について、図7のフローチャートを用いて説明する。
(Step S511) The important
(ステップS512)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、解決手段用語を取得するか否かを判断する。解決手段用語を取得する場合はステップS513に行き、解決手段用語を取得しない場合はステップS514に行く。
(Step S512) The important
(ステップS513)重要情報取得部132は、解決手段用語取得処理を行う。解決手段用語取得処理例について、図7のフローチャートを用いて説明する。
(Step S513) The important
(ステップS514)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、目的用語を取得するか否かを判断する。目的用語を取得する場合はステップS515に行き、目的用語を取得しない場合はステップS516に行く。
(Step S514) The important
(ステップS515)重要情報取得部132は、目的用語取得処理を行う。目的用語取得処理例について、図7のフローチャートを用いて説明する。
(Step S515) The important
(ステップS516)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、特徴語を取得するか否かを判断する。特徴語を取得する場合はステップS517に行き、特徴語を取得しない場合はステップS518に行く。
(Step S516) The important
(ステップS517)重要情報取得部132は、特徴語取得処理を行う。なお、特徴語取得処理例として、例えば、上述したTF/IDFのアルゴリズムを用いる。
(Step S517) The important
(ステップS518)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、関連語を取得するか否かを判断する。関連語を取得する場合はステップS519に行き、関連語を取得しない場合はステップS520に行く。
(Step S518) The important
(ステップS519)重要情報取得部132は、関連語取得処理を行う。なお、関連語取得処理例として、例えば、上述したように、ステップS517で取得された1以上の各特徴語をキーとして、関連語辞書を検索し、各特徴語と対になる1以上の関連語を取得する。なお、関連語の取得の前処理として、特徴語の取得処理が行われている、とする。
(Step S519) The important
(ステップS520)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、重要タグ対応文を取得するか否かを判断する。重要タグ対応文を取得する場合はステップS521に行き、重要タグ対応文を取得しない場合はステップS523に行く。
(Step S520) The important
(ステップS521)重要情報取得部132は、重要タグ対応文取得処理を行う。なお、重要タグ対応文取得処理例は、上述したので、ここでの説明は省略する。
(Step S521) The important
(ステップS522)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、重要タグ用語を取得するか否かを判断する。重要タグ用語を取得する場合はステップS523に行き、重要タグ用語を取得しない場合はステップS524に行く。
(Step S522) The important
(ステップS523)重要情報取得部132は、重要タグ用語取得処理を行う。なお、重要タグ用語取得処理例は、上述したので、ここでの説明は省略する。
(Step S523) The important
(ステップS524)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、数値範囲文字列を取得するか否かを判断する。数値範囲文字列を取得する場合はステップS525に行き、数値範囲文字列を取得しない場合は上位処理にリターンする。
(Step S524) The important
(ステップS525)重要情報取得部132は、数値範囲文字列取得処理を行う。なお、数値範囲文字列取得処理例について、図8のフローチャートを用いて説明する。
(Step S525) The important
(ステップS526)重要情報取得部132は、ステップS523で取得された1以上の数値範囲文字列を用いて、数字取得処理を行う。数字取得処理例について、図9のフローチャートを用いて説明する。
(Step S526) The important
次に、ステップS503の効果解決手段文取得処理例、ステップS505の効果取得処理例、ステップS507の解決手段文取得処理例、ステップS509の目的文取得処理例等の文取得処理例について、図6のフローチャートを用いて説明する。 Next, examples of sentence acquisition processing, such as an example of the effect solution means sentence acquisition processing in step S503, an example of the effect acquisition processing in step S505, an example of the solution means sentence acquisition processing in step S507, and an example of the objective sentence acquisition processing in step S509, will be described using the flowchart in FIG. 6.
(ステップS601)重要情報取得部132は、文の抽出対象の特許明細書から、予め決められた文抽出対象の範囲の1以上の文を取得する。なお、予め決められた文抽出対象の範囲は、重要情報の種類に応じて異なっていても良い。予め決められた文抽出対象の範囲は、例えば、特許明細書全体、[発明の効果]、[発明を実施するための形態]である。
(Step S601) The important
(ステップS602)重要情報取得部132は、カウンタiに1を代入する。
(Step S602) The important
(ステップS603)重要情報取得部132は、ステップS601で取得した1以上の文の中に、i番目の文が存在するか否かを判断する。i番目の文が存在する場合はステップS604に行き、i番目の文が存在しない場合は上位処理にリターンする。
(Step S603) The important
(ステップS604)重要情報取得部132は、ステップS603で取得したi番目の文が、対応する種類の重要情報の文に該当するか否かを判断する。なお、かかる判断処理の例については、上述した。かかる判断処理は、例えば、パターンマッチングによる方法、機械学習による方法等がある。
(Step S604) The important
(ステップS605)重要情報取得部132は、ステップS604における判断結果が、該当する種類の重要情報の文である場合はステップS606に行き、該当する種類の重要情報の文でない場合はステップS607に行く。
(Step S605) If the result of the determination in step S604 is that the sentence is of important information of the corresponding type, the important
(ステップS606)重要情報取得部132は、i番目の文を重要情報として取得し、図示しないバッファに一時蓄積する。
(Step S606) The important
(ステップS607)重要情報取得部132は、カウンタiを1、インクリメントする。ステップS603に戻る。
(Step S607) The important
次に、ステップS511の効果用語取得処理例、ステップS513の解決手段用語取得処理例、ステップS515の目的用語取得処理例等の用語取得処理例について、図7のフローチャートを用いて説明する。 Next, examples of term acquisition processing, such as an example of effect term acquisition processing in step S511, an example of solution term acquisition processing in step S513, and an example of target term acquisition processing in step S515, will be described using the flowchart in FIG. 7.
(ステップS701)重要情報取得部132は、用語に対応する文の取得処理を行う。文取得処理は、図6のフローチャートを用いて説明した処理である。なお、用語が効果用語である場合、取得する文は、効果解決手段文と効果文のうちの1種類以上の文である。また、用語が解決手段用語である場合、取得する文は、効果解決手段文と解決手段文のうちの1種類以上の文である。また、用語が目的用語である場合、取得する文は、目的文である。
(Step S701) The important
(ステップS702)重要情報取得部132は、カウンタiに1を代入する。
(Step S702) The important
(ステップS703)重要情報取得部132は、ステップS701で取得した1以上の文の中に、i番目の文が存在するか否かを判断する。i番目の文が存在する場合はステップS704に行き、i番目の文が存在しない場合は上位処理にリターンする。
(Step S703) The important
(ステップS704)重要情報取得部132は、i番目の文を形態素解析し、1以上の用語を取得する。なお、ここで取得する用語は、自立語のみでも良い。また、ここで取得する用語は、各文のパターンを用いて取得される用語であり、パターンの中の変数に対応する用語である。パターンの中の変数に対応する用語とは、用語が効果用語である場合、パターンの中の変数は<効果>である。
(Step S704) The important
(ステップS705)重要情報取得部132は、ステップS704で取得した1以上の用語を重要情報として取得し、図示しないバッファに一時蓄積する。
(Step S705) The important
(ステップS706)重要情報取得部132は、カウンタiを1、インクリメントする。ステップS703に戻る。
(Step S706) The important
次に、ステップS523の数値範囲文字列取得処理例について、図8のフローチャートを用いて説明する。図8のフローチャートにおいて、図6のフローチャートと同一のステップについて、説明を省略する。 Next, an example of the numeric range character string acquisition process in step S523 will be described using the flowchart in FIG. 8. In the flowchart in FIG. 8, the description of the same steps as in the flowchart in FIG. 6 will be omitted.
(ステップS801)重要情報取得部132は、カウンタjに1を代入する。
(Step S801) The important
(ステップS802)重要情報取得部132は、j番目の数値範囲文字列取得パターンが格納されているか否かを判断する。j番目の数値範囲文字列取得パターンが格納されている場合はステップS803に行き、格納されていない場合はステップS607に行く。
(Step S802) The important
(ステップS803)重要情報取得部132は、i番目の文の中に、j番目の数値範囲文字列取得パターンの合致する文字列が存在するか否かを検査する。合致する文字列が存在する場合はステップS804に行き、合致する文字列が存在しない場合はステップS805に行く。
(Step S803) The important
(ステップS804)重要情報取得部132は、i番目の文の中のj番目の数値範囲文字列取得パターンの合致する1以上の文字列を取得し、図示しないバッファに蓄積する。
(Step S804) The important
(ステップS805)重要情報取得部132は、カウンタjを1、インクリメントする。ステップS802に戻る。
(Step S805) The important
次に、ステップS526の数字取得処理例について、図9のフローチャートを用いて説明する。 Next, an example of the number acquisition process in step S526 will be explained using the flowchart in Figure 9.
(ステップS901)重要情報取得部132は、カウンタiに1を代入する。
(Step S901) The important
(ステップS902)重要情報取得部132は、ステップS804で取得されたi番目の数値範囲文字列が存在するか否かを判断する。存在する場合はステップS903に行き、存在しない場合は上位処理にリターンする。
(Step S902) The important
(ステップS903)重要情報取得部132は、i番目の数値範囲文字列の下限の数値を取得する。
(Step S903) The important
(ステップS904)重要情報取得部132は、i番目の数値範囲文字列の上限の数値を取得する。
(Step S904) The important
(ステップS905)重要情報取得部132は、i番目の数値範囲文字列から単位を取得する。
(Step S905) The important
(ステップS906)重要情報取得部132は、i番目の数値範囲文字列の数値から有効桁数を取得する。
(Step S906) The important
(ステップS907)重要情報取得部132は、下限の数値より大きく、上限の数値より小さい数値であり、有効桁数だけの桁数のある1以上の数値を取得する。
(Step S907) The important
(ステップS908)重要情報取得部132は、ステップS907で取得した1以上の各数値の後ろに、ステップS905で取得した単位を付加する。
(Step S908) The important
(ステップS909)重要情報取得部132は、カウンタiを1、インクリメントする。ステップS902に戻る。
(Step S909) The important
次に、特許分類装置2の動作例について、図10のフローチャートを用いて説明する。
Next, an example of the operation of the
(ステップS1001)受付部22は、1以上の分類対象情報を含む予測開始指示を受け付けたか否かを判断する。予測開始指示を受け付けた場合はステップS1002に行き、予測開始指示を受け付けなかった場合はステップS1001に戻る。なお、1以上の分類対象情報を含む予測開始指示は、1以上の分類対象情報を取得するための情報(例えば、ファイル名、URL等)を含む予測開始指示でも良い。
(Step S1001) The
(ステップS1002)処理部23は、カウンタiに1を代入する。
(Step S1002) The
(ステップS1003)処理部23は、ステップS1001で受け付けられた予測開始指示に対応するi番目の分類対象情報が存在するか否かを判断する。i番目の分類対象情報が存在する場合はステップS1004に行き、i番目の分類対象情報が存在しない場合はステップS1001に戻る。
(Step S1003) The
(ステップS1004)特許明細書取得部131は、i番目の分類対象情報の中に、特許明細書が存在するか否かを判断する。特許明細書が存在する場合はステップS1005に行き、特許明細書が存在しない場合はステップS1006に行く。
(Step S1004) The patent
(ステップS1005)特許明細書取得部131は、i番目の分類対象情報の中から、特許明細書を取得する。ステップS1008に行く。
(Step S1005) The patent
(ステップS1006)特許明細書取得部131は、i番目の分類対象情報の中から、特許識別子を取得する。
(Step S1006) The patent
(ステップS1007)特許明細書取得部131は、ステップS1006で取得した特許識別子をキーとして、サーバ装置3から特許明細書を受信する。
(Step S1007) The patent
(ステップS1008)重要情報取得部132は、取得された特許明細書を用いて、i番目の重要情報を取得する。重要情報取得処理例について、図5のフローチャートを用いて説明した。なお、ここで、重要情報取得部132は、予測処理で使用する学習器に対応付いている種類特定情報を使用して、重要情報を取得することは好適である。
(Step S1008) The important
(ステップS1009)分類対象加工情報取得部233は、ステップS1008で取得されたi番目の重要情報を有し、特許明細書の全文を有さない、i番目の分類対象加工情報を取得する。
(Step S1009) The classification target processing
(ステップS1010)予測部234は、予測処理で使用する学習器を学習器格納部211から取得する。
(Step S1010) The
(ステップS1011)予測部234は、i番目の分類対象加工情報とステップS1010で取得した学習器とを用いて、機械学習のアルゴリズムにより、予測処理を行い、分類結果情報を取得する。
(Step S1011) The
(ステップS1012)出力部24は、ステップS1011で取得された分類結果情報を、i番目の分類対象情報に対応付けて蓄積する。
(Step S1012) The
(ステップS1013)処理部23は、カウンタiを1、インクリメントする。ステップS1003に戻る。
(Step S1013) The
なお、図10のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。 In the flowchart in Figure 10, processing ends when the power is turned off or an interrupt occurs to end processing.
以上、本実施の形態によれば、特許明細書に関する重要な情報を用いることにより、特許を精度高く分類できる。 As described above, according to this embodiment, patents can be classified with high accuracy by using important information about patent specifications.
また、本実施の形態によれば、特許請求の範囲または/および要約書をも用いることにより、特許を精度高く分類できる。 In addition, this embodiment allows for accurate classification of patents by using the claims and/or abstracts.
また、本実施の形態によれば、効果解決手段文または効果用語または解決手段用語を用いることにより、特許を精度高く分類できる。 In addition, according to this embodiment, patents can be classified with high accuracy by using effect/solution sentences or effect terms or solution terms.
また、本実施の形態によれば、効果文または効果用語を用いることにより、特許を精度高く分類できる。 In addition, according to this embodiment, patents can be classified with high accuracy by using effect statements or effect terms.
また、本実施の形態によれば、解決手段文または解決手段用語を用いることにより、特許を精度高く分類できる。 In addition, according to this embodiment, patents can be classified with high accuracy by using solution sentences or solution terms.
また、本実施の形態によれば、目的文または目的用語を用いることにより、特許を精度高く分類できる。 In addition, according to this embodiment, patents can be classified with high accuracy by using object sentences or object terms.
また、本実施の形態によれば、特徴語を用いることにより、特許を精度高く分類できる。 In addition, this embodiment allows patents to be classified with high accuracy by using feature words.
また、本実施の形態によれば、特徴語の関連語を用いることにより、特許を精度高く分類できる。 In addition, according to this embodiment, patents can be classified with high accuracy by using related words of characteristic words.
また、本実施の形態によれば、重要タグ対応文または重要タグ対応用語を用いることにより、特許を精度高く分類できる。 In addition, according to this embodiment, patents can be classified with high accuracy by using important tag-corresponding sentences or important tag-corresponding terms.
また、本実施の形態によれば、数値範囲文字列を用いることにより、特許を精度高く分類できる。 In addition, according to this embodiment, patents can be classified with high accuracy by using numeric range strings.
また、本実施の形態によれば、数値範囲文字列が示す数値範囲に含まれる3以上の数字を用いることにより、特許を精度高く分類できる。 In addition, according to this embodiment, patents can be classified with high accuracy by using numbers of 3 or more included in the numerical range indicated by the numerical range string.
また、本実施の形態によれば、外部のサーバ装置から取得した特許明細書を用いて取得された重要情報を用いることにより、特許を精度高く分類できる。 In addition, according to this embodiment, patents can be classified with high accuracy by using important information obtained from patent specifications obtained from an external server device.
また、本実施の形態によれば、種類特定情報を用いて、複数種類の重要情報から適切な重要情報のみを取得することにより、特許をより精度高く分類できる。なお、例えば、効果解決手段文はすべての技術分野の特許の分類で使用可能であると考えられる、一方、数値範囲文字列、数値範囲文字列が示す数値範囲に含まれる数字等は、化学分野等の一部の技術分野の特許の分類で使用可能であると考えられる。 Furthermore, according to this embodiment, by using type-specific information to obtain only the appropriate important information from multiple types of important information, patents can be classified with higher accuracy. For example, an effect/solution statement is considered to be usable in classifying patents in all technical fields, while a numeric range string and numbers included in the numeric range indicated by the numeric range string are considered to be usable in classifying patents in some technical fields, such as the chemical field.
さらに、本実施の形態によれば、特許を精度高く分類するための学習器を生産できる。 Furthermore, this embodiment makes it possible to produce a learning machine for classifying patents with high accuracy.
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における特許分類装置2を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、特許明細書の全文は有さない特許レコードであり、特許を識別する特許識別子に対応する特許明細書を用いて取得された重要情報と、人手による特許の分類結果を特定する分類結果情報とを有する2以上の特許レコードを有する学習元情報を機械学習のアルゴリズムにより学習し、取得された学習器が格納される学習器格納部にアクセス可能なコンピュータを、分類対象の特許を識別する特許識別子を含む分類対象情報を受け付ける受付部と、前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する重要情報取得部と、前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応する情報であり、前記重要情報取得部が取得した重要情報を含む情報である分類対象加工情報を取得する分類対象加工情報取得部と、前記分類対象加工情報取得部が取得した分類対象加工情報に前記学習器を適用し、機械学習のアルゴリズムにより当該分類対象加工情報の分類を予測し、分類結果情報を取得する予測部と、前記予測部が取得した分類結果情報を、前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する出力部として機能させるためのプログラムである。
The processing in this embodiment may be realized by software. This software may be distributed by software download or the like. This software may also be recorded on a recording medium such as a CD-ROM and distributed. This also applies to the other embodiments in this specification. The software that realizes the
また、学習器生産装置1を実現するソフトウェアは、特許を識別する特許識別子と、当該特許識別子に対応する特許の人手による分類結果を特定する分類結果情報とを有する2以上の人手評価レコードを有する人手評価情報が格納される人手評価情報格納部にアクセス可能なコンピュータを、前記人手評価情報格納部に格納されている人手評価情報が有する2以上の各人手評価レコードが有する特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する重要情報取得部と、前記2以上の各人手評価レコードごとに、前記重要情報取得部が取得した重要報と、当該重要情報の元になった特許明細書に対応する特許識別子と対になる分類結果情報とを有する特許レコードを取得し、当該2以上の特許レコードを有する学習元情報を取得する学習元情報取得部と、前記学習元情報取得部が取得した学習元情報を機械学習のアルゴリズムにより学習し、学習器を取得する学習部と、前記学習部が取得した学習器を蓄積する蓄積部として機能させるためのプログラムである。
The software for realizing the learning
(実施の形態2)
本実施の形態において、異なるアルゴリズムを用いて、特許の分類を精度高く行う特許分類システムBについて説明する。
(Embodiment 2)
In this embodiment, a patent classification system B that uses a different algorithm to classify patents with high accuracy will be described.
また、本実施の形態において、使用するデータが異なる場合の、特許分類システムBについて説明する。 In this embodiment, we will also explain patent classification system B, which uses different data.
また、本実施の形態において、学習器生成プログラムが異なる場合の、特許分類システムBについて説明する。 In this embodiment, we will also explain patent classification system B when the learning module generation program is different.
また、本実施の形態において、統計処理が異なる場合の、特許分類システムBについて説明する。 In addition, in this embodiment, we will explain patent classification system B, which uses different statistical processing.
また、本実施の形態において、2以上の統計処理方法は、各学習器の予測結果のORまたはANDまたは多数決を採る方法のうちの2以上の方法を含む、特許分類システムBについて説明する。 Furthermore, in this embodiment, a patent classification system B is described in which the two or more statistical processing methods include two or more of the OR, AND, or majority vote methods of the prediction results of each learning device.
また、本実施の形態において、精度は再現率または適合率またはF値または正解率である、特許分類システムBについて説明する。 In addition, in this embodiment, we will explain patent classification system B, in which accuracy is the recall rate, precision rate, F-measure, or accuracy rate.
また、本実施の形態において、予測処理を行うための適切な処理を決定できるアルゴリズム決定装置5について説明する。
In this embodiment, we also describe an
また、本実施の形態において、アルゴリズム決定装置5が決定したアルゴリズムを用いて最適な学習器を生産する、学習器の生産装置について説明する。
In this embodiment, we also describe a learning module production device that produces an optimal learning module using the algorithm determined by the
また、本実施の形態において、学習器の生産装置が生産した最適な学習器を用いて、特許の分類を精度高く行う特許分類装置について説明する。 In this embodiment, we also describe a patent classification device that uses an optimal learning device produced by a learning device production device to classify patents with high accuracy.
図11は、本実施の形態における特許分類システムBのブロック図である。特許分類システムBは、アルゴリズム決定装置5、学習器生産装置6、特許分類装置8、サーバ装置3、および1または2以上のユーザ端末4を備える。
Figure 11 is a block diagram of a patent classification system B in this embodiment. The patent classification system B includes an
アルゴリズム決定装置5は、格納部51、受付部52、処理部53、および出力部54を備える。格納部51は、プログラム格納部511、および精度特定情報格納部512を備える。受付部52は、学習元情報受付部521を備える。処理部53は、学習部531、予測部532、評価部533、アルゴリズム情報取得部534、学習元情報取得部535、および統計処理部536を備える。
The
学習器生産装置6は、学習格納部61、学習受付部62、学習処理部13、および学習出力部64を備える。学習受付部62は、学習元情報受付部621を備える。学習処理部13は、特許明細書取得部131、重要情報取得部132、学習元情報取得部133、および学習部134を備える。重要情報取得部132は、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、および数字取得手段1329を備える。学習出力部64は、蓄積部641を備える。
The learning
図12は、特許分類装置8のブロック図である。特許分類装置8は、格納部21、受付部81、処理部82、出力部24を備える。処理部82は、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、統計処理部536、および予測部821を備える。
Figure 12 is a block diagram of the
サーバ装置3、およびユーザ端末4は、実施の形態1におけるものと同じ要素である。
The
アルゴリズム決定装置5を構成する格納部51には、各種の情報が格納される。各種の情報とは、例えば、後述するプログラム、および後述する精度特定情報などである。また、格納部51には、例えば、後述する学習元情報なども格納されていても良い。
Various types of information are stored in the
プログラム格納部511には、1または2以上の学習器生成プログラムと、予測プログラムとが格納される。ここで、予測プログラムは、当該1以上の各学習器生成プログラムに対応付いている。つまり、学習器生成プログラムと予測プログラムとは、通常、一対一に対応しているが、多対一に対応していてもよい。
The
学習器生成プログラムとは、学習元情報を用いて、特許情報を分類するための学習器を生成するプログラムである。学習元情報とは、学習器を生成するための元情報である。学習元情報は、例えば、2以上の特許分類情報を有する。特許分類情報とは、特許の分類に関する情報である。特許分類情報は、例えば、特許情報と、分類情報とを有する。 The learning module generation program is a program that uses source information to generate a learning module for classifying patent information. The source information is source information for generating a learning module. The source information has, for example, two or more pieces of patent classification information. The patent classification information is information related to the classification of patents. The patent classification information has, for example, patent information and classification information.
特許情報とは、特許に関する情報である。特許情報は、例えば、特許明細書の一部であることは好適であるが、特許明細書の全文でもよい。特許明細書は、例えば、特許公報、公開特許公報、公表特許公報等であり、その種類は問わない。特許情報は、通常、特許識別子を含む。特許識別子は、前述したように、例えば、ID、出願番号等である。また、特許情報は、例えば、要約、特許請求の範囲、明細書、特許分類コード等のうち1または2以上の情報を含む。特許情報は、上述した重要情報を有することは好適である。ただし、特許情報に含まれる情報の種類は問わない。 Patent information is information about patents. For example, it is preferable that patent information is a part of a patent specification, but it may be the entire text of a patent specification. A patent specification may be, for example, a patent gazette, a published patent gazette, or the like, and the type does not matter. Patent information usually includes a patent identifier. As mentioned above, a patent identifier is, for example, an ID, an application number, or the like. In addition, patent information includes, for example, one or more pieces of information such as an abstract, claims, specification, and patent classification code. It is preferable that patent information includes the important information described above. However, the type of information included in the patent information does not matter.
分類情報とは、特許情報に対する分類を示す情報である。分類情報は、通常、特許に対する人手による分類を示す情報である。分類情報は、例えば、「○,×」「A,B,C」、技術分野のID等、何でも良い。 Classification information is information that indicates the classification of patent information. Classification information is usually information that indicates a manual classification of patents. Classification information can be anything, such as "○, ×", "A, B, C", or a technical field ID.
なお、特許分類情報は、例えば、実施の形態1における特許レコードであってもよい。前述したように、特許レコードは、重要情報と、人手による分類結果情報とを有する。分類情報は、実施の形態1における分類結果情報であってもよい。ただし、分類情報は、人手による情報とは限らず、予測分類情報のうちスコアの高い情報(例えば、後述する予測部532が取得するプリミティブなスコアが予め決められた閾値よりも高いまたは閾値以上の分類情報)でも良い。
The patent classification information may be, for example, the patent record in
ただし、学習元情報の構造は問わない。また、学習元情報は、例えば、後述する学習元情報受付部521によって受け付けられても良いし、後述する学習元情報取得部535によって取得されても良い。
However, the structure of the learning source information does not matter. In addition, the learning source information may be accepted by the learning source information accepting unit 521 described later, or may be acquired by the learning source
学習器生成プログラムは、機械学習のアルゴリズムにより学習処理を行うプログラムである。機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。また、機械学習において、学習器を構成するためには、例えば、機械学習の関数(例えば、fastText、TinySVM、各種のRandomForest関数、TensorFlowのライブラリ等)に、学習元情報を与えると、学習器が得られる。 The learning machine generation program is a program that performs learning processing using a machine learning algorithm. For machine learning, for example, deep learning, SVM, random forest, decision tree, etc. can be used. In machine learning, to configure a learning machine, for example, a learning machine can be obtained by providing the learning source information to a machine learning function (for example, fastText, TinySVM, various RandomForest functions, TensorFlow library, etc.).
予測プログラムとは、学習器を用いて特許分類情報の分類を予測し、予測分類情報を取得するプログラムである。学習器は、後述する学習部531によって取得される。
The prediction program is a program that uses a learning device to predict the classification of patent classification information and obtain predicted classification information. The learning device is obtained by the
プログラム格納部511には、例えば、2以上の学習器生成プログラムと、2以上の予測プログラムとが格納されても良い。
The
予測プログラムは、機械学習のアルゴリズムにより予測処理を行うプログラムである。予測プログラムは、例えば、上述した機械学習の関数を有する。予測プログラムに、学習器と、分類対象の特許分類情報とを与えて、当該予測プログラムが実行されると、予測結果である予測分類情報が得られる。 The prediction program is a program that performs prediction processing using a machine learning algorithm. The prediction program has, for example, the machine learning function described above. When the prediction program is given a learning device and patent classification information of the classification target and executed, predicted classification information, which is the prediction result, is obtained.
ここで、2以上の予測プログラムは、当該2以上の学習器生成プログラムにそれぞれ対応付いている。つまり、学習器生成プログラムと予測プログラムとは、通常、一対一に対応している。 Here, the two or more prediction programs correspond to the two or more learning device generation programs, respectively. In other words, there is usually a one-to-one correspondence between the learning device generation programs and the prediction programs.
精度特定情報格納部512には、精度特定情報が格納される。精度特定情報とは、予め決められた2種類以上の精度のうちのいずれの精度に関する精度情報を取得するかを特定する情報である。予め決められた2種類以上の精度は、例えば、再現率または適合率またはF値または正解率の4つの精度のうちの2以上の精度であることは好適である。
The accuracy specification
再現率、適合率、F値は、周知技術である。正解率とは、例えば、予測部532が取得した全ての予測分類情報のうち、学習元情報に含まれる分類情報と一致するものの割合である。
The recall rate, precision rate, and F-measure are well-known techniques. The accuracy rate is, for example, the percentage of all predicted classification information acquired by the
精度情報とは、精度に関する情報である。精度情報は、例えば、再現率に関する情報、適合率に関する情報、F値に関する情報、正解率に関する情報などであるが、精度に関する情報であれば何でも良い。再現率に関する情報は、例えば、再現率であるが、再現率を基に取得される情報でも良い。適合率に関する情報は、例えば、適合率であるが、適合率を基に取得される情報でも良い。F値に関する情報は、例えば、F値であるが、F値を基に取得される情報でも良い。正解率に関する情報は、例えば、正解率であるが、正解率を基に取得される情報でも良い。 Accuracy information is information related to accuracy. Accuracy information is, for example, information related to recall, information related to precision, information related to F value, information related to accuracy rate, etc., but any information related to accuracy will do. Information related to recall is, for example, recall, but may be information obtained based on recall. Information related to precision is, for example, precision, but may be information obtained based on precision. Information related to F value is, for example, F value, but may be information obtained based on F value. Information related to accuracy rate is, for example, accuracy rate, but may be information obtained based on accuracy rate.
なお、精度特定情報は、例えば、受付部52によって受け付けられ、精度特定情報格納部512に蓄積されるが、予め精度特定情報格納部512に格納されていても良い。
The accuracy specification information is, for example, received by the
受付部52は、各種の情報を受け付ける。各種の情報とは、例えば、学習元情報である。
The
また、受付部52は、例えば、前述した精度特定情報を受け付ける。
The
なお、前述したように、受け付けとは、通常、ユーザ端末4からの受信であるが、キーボード等の入力デバイスから入力された情報の受け付け、ディスクや半導体メモリ等の記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
As mentioned above, acceptance usually means receiving information from the
学習元情報受付部521は、前述した学習元情報を受け付ける。 The learning source information receiving unit 521 receives the learning source information described above.
学習元情報受付部521は、例えば、ユーザ端末4から学習元情報を受信する。ただし、例えば、ディスクや半導体メモリ等の記録媒体に学習元情報が格納されており、学習元情報受付部521は、かかる記録媒体から学習元情報を読み出してもよい。また、学習元情報受付部521が受け付ける学習元情報に含まれる特許情報は、特許識別子でもよい。その場合、学習元情報受付部521は、ユーザ端末4から受信した学習元情報に含まれる特許識別子に対応する特許情報を、例えば、サーバ装置3から受信してもよい。なお、かかる事項は、学習器生産装置6を構成する学習元情報学習受付部621にも当てはまる。
The learning source information receiving unit 521 receives the learning source information from, for example, the
処理部53は、各種の処理を行う。各種の処理とは、例えば、学習部531、予測部532、評価部533、アルゴリズム情報取得部534、学習元情報取得部535、および統計処理部536などの処理である。また、処理部53は、例えば、フローチャートで説明する各種の判断や各種カウンタの制御なども行う。
The
処理部53は、重要情報取得部132が行う処理を行っても良い。つまり、処理部53は、重要情報取得部132を有しても良い。
The
処理部53を構成する学習部531は、例えば、学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の特許分類情報を用いて、1以上の各学習器生成プログラムを実行し、1以上の学習器を取得する。
The
ここで、学習器531が使用する「学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の特許分類情報」とは、例えば、学習元情報のうちのN割の特許分類情報である。N割とは、例えば、9割であるが、8割や9割5分等でもよく、その数値は問わない。
Here, the "patent classification information of at least a part of the learning source information accepted by the learning source information accepting unit 521" used by the
学習部531は、例えば、学習元情報取得部535が取得した2以上の各学習元情報に対して、プログラム格納部511に格納されている1以上の各学習器生成プログラムを実行し、2以上の学習器を取得しても良い。
The
学習部531は、例えば、学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の特許分類情報を用いて、2以上の各学習器生成プログラムを実行し、2以上の学習器を取得しても良い。
The
予測部532は、例えば、学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、学習部531が生成した1以上の各学習器を用いて、予測プログラムを適用し、1以上の各特許分類情報に対する2以上の予測分類情報を取得しても良い。
The
ここで、予測部532の予測対象となる「学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報」とは、通常、学習部134が使用していない1以上の特許分類情報である。例えば、学習器531が学習元情報のうちのN割(例えば、9割)を使用する場合、予測部532の予測対象となるのは、学習元情報のうちの“10-N”割(例えば、1割)であることは好適である。ただし、学習元情報の中には、例えば、学習に使用されず、予測の対象にもならない特許分類情報が存在してもよいし、学習に使用され、かつ予測の対象にもなる特許分類情報が含まれていても構わない。
Here, the "at least some of the patent classification information among the learning source information accepted by the learning source information accepting unit 521" that is the prediction target of the
予測部532は、例えば、学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、学習部531が生成した2以上の各学習器を用いて、予測プログラムを適用し、1以上の各特許分類情報に対する2以上の予測分類情報を取得しても良い。
The
予測部532は、例えば、アルゴリズムの種類(例えば、ディープラーニング1、ランダムフォレスト、ディープラーニング2など)と、使用する情報の種類(例えば、要約書と分類コード、要約書と特許請求の範囲と分類コード等)の組み合わせごとに取得された2以上の各学習器ごとに、当該学習器を用いて予測プログラムを適用し、「A,B,C」や「○,×」等の2以上の分類情報に対応する2以上のプリミティブなスコアを取得し、プリミティブなスコアが最も高い分類情報を、予測分類情報として取得してもよい。なお、プリミティブなスコアとは、予測プログラムが出力するスコアである。
The
これにより、例えば、分類情報「A」に対するプリミティブなスコア(=S1)と、分類情報「B」に対するプリミティブなスコア(=S2)と、分類情報「C」に対するプリミティブなスコア(=S3)とが取得される。そして、例えば、S1>S2>S3である場合は、最高スコアS1に対応する分類情報「A」が、予測分類情報として取得されてもよい。 As a result, for example, a primitive score (=S1) for classification information "A", a primitive score (=S2) for classification information "B", and a primitive score (=S3) for classification information "C" are obtained. Then, for example, if S1>S2>S3, the classification information "A" corresponding to the highest score S1 may be obtained as the predicted classification information.
評価部533は、予測部532が取得した2以上の各予測分類情報と、学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、精度情報が特定する精度が最も高い予測分類情報を決定する。精度は、例えば、再現率、適合率、F値、または正解率である。
The
評価部533は、例えば、予測部532が取得した2以上の予測分類情報に代えて、または予測部532が取得した2以上の各予測分類情報に加えて、統計処理部536が取得した1以上の予測分類情報を含む2以上の各予測分類情報と、学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、精度情報が特定する精度が最も高い予測分類情報を決定しても良い。
The
評価部533は、例えば、予測部532が取得した2以上の各予測分類情報と、学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の、精度特定情報により特定される精度情報を取得し、精度情報が特定する精度が最も高い予測分類情報を決定しても良い。
The
評価部533は、例えば、精度特定情報格納部512に格納されている精度特定情報に対応する精度情報を取得する。
The
評価部533は、例えば、学習元情報に対して、K分割交差検証を用いて、精度情報を取得する。
The
アルゴリズム情報取得部534は、アルゴリズム情報を取得する。アルゴリズム情報とは、評価部533が決定した予測分類情報に対応するアルゴリズムに関する情報である。評価部533が決定した予測分類情報とは、前述したように、精度が最も高い予測分類情報である。
The algorithm
アルゴリズム情報は、使用する情報の種類を特定する情報(後述する情報特定情報)、使用する学習器生成プログラムを特定する情報(後述するプログラム特定情報)、統計処理を特定する情報(後述する統計処理特定情報)のうちの1または2種類以上の情報を含む。 The algorithm information includes one or more of the following information: information that specifies the type of information to be used (information specification information described later), information that specifies the learning device generation program to be used (program specification information described later), and information that specifies the statistical processing (statistical processing specification information described later).
アルゴリズム情報は、例えば、後述する学習元情報取得部535が取得する2以上の学習元情報のうち、精度が最も高い予測分類情報に対応する学習元情報を特定可能な情報である。学習元情報を特定可能な情報は、例えば、学習元情報が有する情報を特定する情報特定情報であってもよい。情報特定情報は、通常、学習元情報を構成する特許情報に含まれる情報の種類(例えば、“要約書”、“特許請求の範囲”、“要約書+特許請求の範囲”等)を特定する情報である。
The algorithm information is, for example, information that can identify the learning source information corresponding to the most accurate predicted classification information among two or more pieces of learning source information acquired by the learning source
すなわち、アルゴリズム情報取得部534は、例えば、評価部533が決定した予測分類情報に対応する学習元情報が有する情報を特定する情報特定情報を含むアルゴリズム情報を取得しても良い。
That is, the algorithm
または、アルゴリズム情報は、例えば、プログラム格納部511に格納されている2以上の学習器生成プログラムのうち、精度が最も高い予測分類情報に対応する学習器生成プログラムを特定する情報であってもよい。
Alternatively, the algorithm information may be, for example, information that identifies the learning device generation program that corresponds to the most accurate prediction classification information among two or more learning device generation programs stored in the
すなわち、アルゴリズム情報取得部534は、例えば、評価部533が決定した予測分類情報に対応する学習器生成プログラムを特定するプログラム特定情報を含むアルゴリズム情報を取得しても良い。
That is, the algorithm
または、アルゴリズム情報は、例えば、後述する統計処理部536が行う2以上の統計処理のうち、精度が最も高い予測分類情報に対応する統計処理を特定する情報であってもよい。
Alternatively, the algorithm information may be, for example, information that identifies the statistical processing corresponding to the most accurate predicted classification information among two or more statistical processing operations performed by the
すなわち、アルゴリズム情報取得部534は、例えば、評価部533が決定した予測分類情報に対応する統計処理の方法を特定する統計処理特定情報を含むアルゴリズム情報を取得しても良い。
That is, the algorithm
または、アルゴリズム情報は、例えば、再現率または適合率またはF値または正解率のうち、ユーザが所望する精度を特定する情報であっても良い。 Alternatively, the algorithm information may be information that specifies the accuracy desired by the user, such as recall, precision, F-measure, or accuracy rate.
すなわち、アルゴリズム情報取得部534は、例えば、受付部52が受け付けた精度特定情報を含むアルゴリズム情報を取得しても良い。
That is, the algorithm
学習元情報取得部535は、学習元情報受付部521が受け付けた学習元情報が有する2以上の各特許分類情報が有する特許情報のうち、異なる情報を有する2以上の特許分類情報を各々有する2以上の学習元情報を取得する。
The learning source
ここで、異なる情報を有する2以上の特許分類情報を有する2以上の各学習元情報は、例えば、一の学習元情報が有する2以上の各特許分類情報を構成する特許情報に含まれる情報が異なるような、2以上の学習元情報である。 Here, each of the two or more pieces of learning source information having two or more pieces of patent classification information with different information is, for example, two or more pieces of learning source information in which the information contained in the patent information constituting each of the two or more pieces of patent classification information held by one piece of learning source information is different.
学習元情報取得部535は、学習元情報受付部521が受け付けた学習元情報が有する2以上の各特許分類情報が有する特許情報の中の明細書から、1または2種類以上の重要情報を取得しても良い。かかる場合、学習元情報取得部535は、重要情報取得部132を有する。
The learning source
具体的には、例えば、学習元情報受付部521が受け付けた学習元情報が有する2以上の各特許分類情報が有する特許情報に、要約、特許請求の範囲、および明細書が含まれており、学習元情報取得部535は、受け付けられた学習元情報が有する2以上の各特許分類情報が有する特許情報を用いて、例えば、各々の特許情報に要約が含まれる2以上の特許分類情報を有する1番目の学習元情報と、各々の特許情報に要約および特許請求の範囲が含まれる2以上の特許分類情報を有する2番目の学習元情報と、各々の特許情報に要約が含まれる2以上の特許分類情報を有する3番目の学習元情報と、各々の特許情報に要約および効果解決手段文が含まれる2以上の特許分類情報を有する3番目の学習元情報と、各々の特許情報に要約、特許請求の範囲、および効果解決手段文が含まれる2以上の特許分類情報を有する4番目の学習元情報とを取得してもよい。
Specifically, for example, the patent information contained in each of the two or more patent classification information contained in the learning source information accepted by the learning source information acceptance unit 521 includes an abstract, a patent claim, and a specification, and the learning source
また、上述した2以上の各学習元情報は、例えば、「要約書と特許請求の範囲とからなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」「要約書からなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」「特許請求の範囲からなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」「要約書と重要情報とからなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」「特許請求の範囲と重要情報とからなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」である。 The two or more pieces of learning source information mentioned above are, for example, "learning source information having two or more patent classification information having patent information and classification information consisting of an abstract and claims", "learning source information having two or more patent classification information having patent information and classification information consisting of an abstract", "learning source information having two or more patent classification information having patent information and classification information consisting of claims", "learning source information having two or more patent classification information having patent information and classification information consisting of an abstract and important information", and "learning source information having two or more patent classification information having patent information and classification information consisting of claims and important information".
または、異なる情報を有する2以上の特許分類情報を各々有する2以上の学習元情報は、例えば、学習元情報のうちの少なくとも一部(以下、学習部分)の特許分類情報を学習部531の学習処理に使用し、学習元情報のうちの少なくとも一部(以下、予測部分)の各特許分類情報を予測部532による予測の対象とする場合において、学習部分に属する1以上の特許分類情報と、予測部分に属する1以上の特許分類情報との組み合わせを異ならせた、2以上の特許分類情報であってもよい。
Alternatively, the two or more pieces of learning source information each having two or more pieces of patent classification information with different information may be, for example, two or more pieces of patent classification information in which the combination of one or more pieces of patent classification information belonging to the learning part and one or more pieces of patent classification information belonging to the prediction part is different when the patent classification information of at least a part of the learning source information (hereinafter, the learning part) is used in the learning process of the
具体的には、例えば、学習元情報受付部521が100件分の特許分類情報を有する学習元情報を受け付けた場合、学習元情報取得部535は、当該100件を第一~第十の10グループに等分(一般には、K個のグループに分割)し、当該10グループ中の9グループ((K-1)個のグループ)を学習部分に、残る1グループを予測部分に配属する処理を、グループの組み合わせを変えながら10回、行ってもよい(K分割交差検証)。
Specifically, for example, if the learning source information receiving unit 521 receives learning source information containing patent classification information for 100 items, the learning source
これによって、例えば、第一~第九の9グループに属する90件が学習部分であり、第十グループに属する10件が予測部分である第一の学習元情報と、第一~第八,第十の9グループに属する90件が学習部分であり、第九グループに属する10件が予測部分である第二の学習元情報と、第一~第七,第九,第十の9グループに属する90件が学習部分であり、第八グループに属する10件が予測部分である第三の学習元情報と、・・・第二~第十の9グループに属する90件が学習部分であり、第一グループに属する10件が予測部分である第十の学習元情報との、10個の学習元情報が取得される。 This allows 10 pieces of learning source information to be obtained, for example: first learning source information in which 90 items belonging to the first to ninth nine groups are the learning portion and 10 items belonging to the tenth group are the prediction portion; second learning source information in which 90 items belonging to the first to eighth and tenth nine groups are the learning portion and 10 items belonging to the ninth group are the prediction portion; third learning source information in which 90 items belonging to the first to seventh, ninth and tenth nine groups are the learning portion and 10 items belonging to the eighth group are the prediction portion; and tenth learning source information in which 90 items belonging to the second to tenth nine groups are the learning portion and 10 items belonging to the first group are the prediction portion.
統計処理部536は、予測部532が取得した2以上の予測分類情報を用いて、1または2種類以上の統計処理を行い、統計処理結果である1または2以上の予測分類情報を取得する。統計処理とは、統計に関する処理である。統計処理は、例えば、予測分類情報の論理和(OR)または論理積(AND)または多数決をとる処理であるが、統計に関する処理であれば何でも良い。
The
統計処理部536は、例えば、2種類以上の統計処理を行い、統計処理結果である2以上の予測分類情報を取得しても良い。2種類以上の統計処理とは、例えば、上記予測分類情報の論理和または論理積または多数決のいずれかのうちの2種類以上の統計処理である。
The
ここで、論理和または論理積または多数決をとる場合のスコアは、例えば、プリミティブなアルゴリズムの2以上の動作結果(つまり、予測部532が、最終結果である予測分類情報を取得する前に、2以上の分類情報ごとに取得したプリミティブなスコア)を用いて取得される。
Here, the score for taking the logical sum, logical product, or majority vote is obtained, for example, using two or more operation results of a primitive algorithm (i.e., the primitive scores obtained for each of two or more pieces of classification information before the
統計処理部536は、プリミティブなアルゴリズムの複数の各動作結果と最終結果とを比較し、合致する数または割合が大きいほど、高いスコアを取得することは好適である。
The
プリミティブなアルゴリズムの複数の各動作結果に含まれるスコアが全て同じである場合、統計処理部536は、プリミティブなアルゴリズムの複数の各動作結果と最終結果とを比較し、合致する数または割合が大きいほど、高いスコアを取得することは好適である。
When the scores contained in the multiple operation results of the primitive algorithm are all the same, it is preferable for the
例えば、統計処理部536は、論理和または論理積または多数決をとる場合のスコアを、例えば、以下のようにして算出する。
(1)プリミティブなアルゴリズムの複数の動作結果がすべて、最終結果(つまり、予測部532が取得した予測分類情報)と一致した場合、統計処理部536は、プリミティブなアルゴリズムの2以上の動作結果のうちの最高のスコアを付ける。
(2)プリミティブなアルゴリズムの複数の動作結果のうち、50%以上が、最終結果と異なる場合・・・最低のスコア(二値分類の場合は0.5)を付ける。
(3)上記(1),(2)以外(つまり、100%未満であり、50%より多い割合が、最終結果と同じ場合)、統計処理部536は、プリミティブなアルゴリズムの複数のスコアのうち、最低のスコアを付ける。
For example, the
(1) If all of the multiple operation results of the primitive algorithm match the final result (i.e., the predicted classification information obtained by the prediction unit 532), the
(2) If more than 50% of the results of multiple operations of a primitive algorithm differ from the final result, the lowest score (0.5 in the case of binary classification) is assigned.
(3) In cases other than (1) and (2) above (i.e., when the percentage is less than 100% and more than 50% is the same as the final result), the
出力部54は、各種の情報を出力する。各種の情報とは、例えば、アルゴリズム情報である。なお、前述したように、出力とは、例えば、ユーザ端末4への送信であるが、ディスプレイへの表示、プリンタでの印字、スピーカーからの音出力、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念と考えても良い。
The
出力部54は、アルゴリズム情報取得部534が取得したアルゴリズム情報を、例えば、学習元情報に対応付けて蓄積する。
The
出力部54は、アルゴリズム情報取得部534が取得したアルゴリズム情報を、例えば、学習器生産装置6に送信する又は引き渡す。ただし、アルゴリズム情報は、例えば、ユーザ端末4に送信されたり、ディスプレイに表示されたり、記録媒体に蓄積されたりしても良く、その出力態様や出力先は問わない。
The
学習器生産装置6を構成する学習格納部61は、各種の情報を格納し得る。各種の情報とは、例えば、学習器、学習元情報、アルゴリズム情報などである。また、学習格納部61には、例えば、前述した効果解決手段文、前述した非効果解決手段文、前述した解決手段用語、前述した非解決手段用語、前述した効果用語、前述した解決手段文、前述した非解決手段文、前述した効果文、前述した非効果文、前述した目的文、前述した非目的文、前述した目的用語、前述した非目的用語なども格納されてもよい。なお、その他の情報について、適時説明する場合がある。
The learning
学習受付部62は、各種の情報を受け付ける。各種の情報とは、例えば、前述した学習元情報である。なお、前述したように、受け付けとは、通常、ユーザ端末4からの受信であるが、キーボード等の入力デバイスから入力された情報の受け付け、ディスクや半導体メモリ等の記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
The learning reception unit 62 receives various types of information. For example, various types of information are the learning source information described above. As described above, reception usually means reception from the
学習元情報受付部621は、学習元情報を受け付ける。学習元情報受付部621は、通常、ユーザ端末4から学習元情報を受信する。ただし、学習元情報は、キーボード等の入力デバイスを介して受け付けられてもよいし、ディスク等の記録媒体から読み出されてもよく、その受け付けの態様は問わない。
The learning source information receiving unit 621 receives the learning source information. The learning source information receiving unit 621 typically receives the learning source information from the
学習処理部13、特許明細書取得部131、重要情報取得部132、学習元情報取得部133、および学習部134を備える。重要情報取得部132は、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、および数字取得手段1329は、基本的に、実施の形態1におけるものと同様の処理を行う。
The
ただし、学習部134は、アルゴリズム決定装置5が出力するアルゴリズム情報に従ったアルゴリズムで、学習元情報受付部621が受け付けた学習元情報または学習元情報取得部133が取得した学習元情報に対して、学習処理を行い、学習器を取得する。
However, the
学習部134は、例えば、アルゴリズム情報が有する情報特定情報で特定される情報を、学習元情報受付部621が受け付けた学習元情報から取得し、当該情報と学習元情報が有する分類情報とを有する2以上の特許分類情報を有する学習元情報を取得する。また、学習部134は、例えば、アルゴリズム情報が有するプログラム特定情報により特定されるプログラムに、取得した学習元情報を与え、学習処理を行い、学習器を構成する。なお、情報特定情報が重要情報を特定する情報を含む場合、学習部134は、重要情報取得部132が行う重要情報取得を行う。
The
学習部134は、例えば、アルゴリズム情報が有する情報特定情報で特定される情報を、学習元情報受付部621が受け付けた学習元情報から取得し、当該情報と学習元情報が有する分類情報とを有する2以上の特許分類情報を有する2以上の学習元情報を取得しても良い。また、学習部134は、例えば、アルゴリズム情報が有するプログラム特定情報により特定される1または2以上の各プログラムに、取得した2以上の各学習元情報を与え、学習処理を行い、2以上の学習器を構成しても良い。なお、情報特定情報が重要情報を特定する情報を含む場合、学習部134は、重要情報取得部132が行う重要情報取得を行う。
The
例えば、アルゴリズム決定装置5が出力するアルゴリズム情報が、(a)2以上の学習元情報のうち、精度が最も高い予測分類情報に対応する学習元情報を特定可能な情報である場合、学習部134は、当該アルゴリズム情報が特定する学習元情報を用いて、学習器を取得する。
For example, if the algorithm information output by the
または、アルゴリズム情報が、(b)プログラム格納部511に格納されている2以上の学習器生成プログラムのうち、精度が最も高い予測分類情報に対応する学習器生成プログラムを特定する情報である場合、学習部134は、当該アルゴリズム情報が特定する学習器生成プログラムを用いて、学習器を取得する。
Alternatively, if the algorithm information is (b) information that identifies a learning device generation program that corresponds to the most accurate predicted classification information among two or more learning device generation programs stored in the
または、アルゴリズム情報が、(c)2以上の統計処理のうち、精度が最も高い予測分類情報に対応する統計処理を特定する情報である場合、学習部134は、当該統計処理を特定する情報に対応する2以上の学習元情報、当該統計処理を特定する情報に対応する2以上の学習器生成プログラム、当該統計処理を特定する情報に対応する2以上の学習元情報と1以上の学習器生成プログラム、または当該統計処理を特定する情報に対応する1以上の学習元情報と2以上の学習器生成プログラムを用いて、2以上の学習器を取得する。
Alternatively, if the algorithm information is (c) information that identifies a statistical process that corresponds to the prediction classification information with the highest accuracy among two or more statistical processes, the
また、例えば、アルゴリズム情報が、再現率または適合率またはF値または正解率のうち、ユーザが所望する精度の種類を特定する情報(つまり、受付部52が受け付けた精度特定情報)に対応付いている場合、学習部134は、当該アルゴリズム情報が特定する精度を上げるための学習器を取得する。なお、学習部134がアルゴリズム情報に従った学習器を生成すれば、上記の効果を奏することができる。
For example, when the algorithm information corresponds to information that specifies the type of accuracy desired by the user, among the recall rate, precision rate, F-value, or accuracy rate (i.e., the accuracy specification information received by the reception unit 52), the
蓄積部641は、学習部134が取得した学習器を蓄積する。蓄積部641は、学習部134が取得した学習器を、通常、アルゴリズム決定装置5が出力するアルゴリズム情報に対応付けて蓄積する。学習器の蓄積先は、通常、特許分類装置2を構成する学習器格納部211である。ただし、学習器は、例えば、学習格納部61に蓄積されてもよく、その蓄積先は問わない。
The storage unit 641 stores the learning devices acquired by the
特許分類装置8を構成する学習器格納部211には、学習器生産装置6が取得した1または2以上の学習器が格納される。学習器には、通常、アルゴリズム情報が対応づいている。
The learning module storage unit 211 constituting the
受付部81は、分類対象の特許を識別する特許識別子を含む分類対象情報を受け付ける。
The
予測部821は、受付部81が受け付けた分類対象情報に対して、学習器格納部211の学習器に対応付いているアルゴリズム情報に従ったアルゴリズムにより、当該学習器を用いて予測処理を行い、分類結果情報を取得する。
The
予測部821は、例えば、受付部81が受け付けた分類対象情報に対応する情報であり、アルゴリズム情報が有する情報特定情報が特定する情報であり、予測処理に使用する情報を取得する。次に、予測部821は、例えば、アルゴリズム情報が有する1以上の各プログラム特定情報により特定される1以上の各予測プログラムに、予測処理に使用する情報を与え、当該1以上の各予測プログラムを実行し、予測プログラムごとの分類結果情報を取得する。
The
また、アルゴリズム情報が統計処理特定情を含む場合、予測部821は、2以上の各予測プログラムごとの分類結果情報を統計処理し、最終的な分類結果情報を取得する。
In addition, if the algorithm information includes statistical processing specific information, the
予測部72は、分類対象加工情報取得部233が取得した分類対象加工情報に学習器に適用し、機械学習のアルゴリズムにより当該分類対象加工情報の分類を予測し、分類結果情報を取得しても良い。
The
出力部73は、予測部72が取得した分類結果情報を、受付部71が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する。
The
格納部51、プログラム格納部511、精度特定情報格納部512、および学習格納部61等は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
The
格納部51等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部51等で記憶されるようになっても良く、通信回線等を介して送信された情報が格納部51等で記憶されるようになっても良く、あるいは、入力デバイスを介して入力された情報が格納部51等で記憶されるようになっても良い。
The process by which information is stored in the
受付部52、学習元情報受付部521、出力部54、学習受付部62、学習元情報受付部621、学習出力部64、蓄積部641、および受付部81は、通常、無線または有線の通信手段等で実現され得る。
The
処理部53、学習部531、予測部532、評価部533、アルゴリズム情報取得部534、学習元情報取得部535、統計処理部536、処理部82、予測部821等は、通常、プロセッサやメモリ等から実現され得る。処理部53等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、例えば、CPU、MPU、GPU等であり、問わない。
The
次に、特許分類システムBの動作例について説明する。まず、アルゴリズム決定装置5の動作例を図13のフローチャートを用いて説明する。
Next, an example of the operation of the patent classification system B will be described. First, an example of the operation of the
(ステップS1301)処理部53は、アルゴリズム情報のすべての候補を取得する。
(Step S1301) The
なお、例えば、格納部51に、1または2以上の情報特定情報(例えば、「要約書」「要約書,特許分類コード」「要約書,効果解決手段文」の3つ)、1または2以上のプログラム特定情報(例えば、「深層学習」「ランダムフォレスト」の2つ)、および1または2以上の統計処理特定情報(例えば、「AND」「OR」)が格納されている場合、処理部53は、3つの情報特定情報のうちのいずれかの情報特定情報と、2つのプログラム特定情報のいずれかのプログラム特定情報の組み合わせである6つのアルゴリズム情報の候補を取得する。また、処理部53は、3つの情報特定情報のうちのいずれかの情報特定情報と、2つの各プログラム特定情報で特定されるプログラムの予測結果の2種類の統計処理特定情報の組み合わせである6つのアルゴリズム情報の候補を取得する。つまり、ここの例では、処理部53は、12のアルゴリズム情報の候補を取得する。
For example, when the
(ステップS1302)処理部53は、カウンタiに1を代入する。
(Step S1302) The
(ステップS1303)処理部53は、ステップS1301で取得したアルゴリズム情報の候補の中で、i番目のアルゴリズム情報の候補が存在するか否かを判断する。i番目のアルゴリズム情報の候補が存在する場合はステップS1304に行き、i番目のアルゴリズム情報の候補が存在しない場合はステップS1306に行く。
(Step S1303) The
(ステップS1304)評価部533は、i番目のアルゴリズム情報の候補に対応する情報およびアルゴリズムを用いた場合における、格納部51に格納されている精度特定情報により特定される精度(例えば、再現率、F値など)の評価を行い、精度情報を取得し、当該精度情報をi番目のアルゴリズム情報の候補に対応付けて一時蓄積する。なお、かかる評価処理について、図14のフローチャートを用いて説明する。
(Step S1304) The
(ステップS1305)処理部53は、カウンタiを1、インクリメントする。ステップS1303に戻る。
(Step S1305) The
(ステップS1306)アルゴリズム情報取得部534は、最良の値の精度情報を取得する。
(Step S1306) The algorithm
(ステップS1307)アルゴリズム情報取得部534は、ステップS1306で取得した最良の値の精度情報と対になるアルゴリズム情報の候補を、アルゴリズム情報として取得する。
(Step S1307) The algorithm
(ステップS1308)アルゴリズム情報取得部534は、アルゴリズム情報を蓄積する。
(Step S1308) The algorithm
なお、図13のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。 In the flowchart in Figure 13, processing ends when the power is turned off or an interrupt occurs to end processing.
次に、ステップS1304における評価処理について、図14のフローチャートを用いて説明する。 Next, the evaluation process in step S1304 will be explained using the flowchart in FIG.
(ステップS1401)学習元情報取得部535は、アルゴリズム情報の候補に対応する情報特定情報を取得する。
(Step S1401) The learning source
(ステップS1402)学習元情報取得部535は、カウンタiに1を代入する。
(Step S1402) The learning source
(ステップS1403)学習元情報取得部535は、処理対象の学習元情報の中に、i番目の特許情報が存在するか否かを判断する。i番目の特許情報が存在する場合はステップS1404に行き、i番目の特許情報が存在しない場合はステップS1406に行く。なお、ステップS1406に行く場合、評価対象の学習元情報が完成している。また、処理対象の学習元情報は、例えば、格納部51に格納されている。
(Step S1403) The learning source
(ステップS1404)学習元情報取得部535は、i番目の特許情報に対応する情報であり、ステップS1401で取得した情報特定情報により特定される情報を取得する。評価部533は、処理対象の学習元情報が有する分類情報と取得した情報とからなる特許分類情報を取得し、図示しないバッファに一時蓄積する。
(Step S1404) The learning source
(ステップS1405)学習元情報取得部535は、カウンタiを1、インクリメントする。ステップS1403に戻る。
(Step S1405) The learning source
(ステップS1406)評価部533は、アルゴリズム情報の候補に対応する統計処理特定情報が存在するか否かを判断する。統計処理特定情報が存在する場合はステップS1409に行き、統計処理特定情報が存在しない場合はステップS1407に行く。
(Step S1406) The
(ステップS1407)評価部533は、アルゴリズム情報の候補に対応するプログラム特定情報を取得する。
(Step S1407) The
(ステップS1408)評価部533は、ステップS1407で取得したプログラム特定情報により特定される学習プログラムと予測プログラムとを用いて、K分割交差検証を行う。K分割交差検証の処理例について、図15のフローチャートを用いて説明する。
(Step S1408) The
(ステップS1409)評価部533は、アルゴリズム情報の候補に対応する統計処理特定情報が存在する場合の評価を行う。かかる統計処理評価の処理の例について、図15のフローチャートを用いて説明する。
(Step S1409) The
(ステップS1410)評価部533は、アルゴリズム情報の候補に対応付けて、取得された精度情報を一時蓄積する。上位処理にリターンする。
(Step S1410) The
次に、ステップS1408のK分割交差検証の処理例について、図15のフローチャートを用いて説明する。 Next, an example of the K-fold cross-validation process in step S1408 will be described using the flowchart in FIG. 15.
(ステップS1501)評価部533は、学習元情報をk(kは2以上の自然数)に分割する。
(Step S1501) The
(ステップS1502)評価部533は、カウンタiに1を代入する。
(Step S1502) The
(ステップS1503)評価部533は、kに分割した学習元情報の中で、i番目の分割パターンが存在するか否かを判断する。i番目の分割パターンが存在する場合はステップS1504に行き、i番目の分割パターンが存在しない場合はステップS1513に行く。なお、kに分割した場合、通常、kの分割パターンが存在する。かかることは、K分割交差検定における公知技術である。
(Step S1503) The
(ステップS1504)学習部531は、学習元情報の中の一部の情報であり、学習対象の情報(kの分割パターンにおける学習処理に使用する特許分類情報)を取得する。
(Step S1504) The
(ステップS1505)学習部531は、プログラム特定情報により特定される学習プログラムに、ステップS1504で取得した学習対象の情報を与え、当該学習プログラムを実行し、学習器を取得する。
(Step S1505) The
(ステップS1506)予測部532は、カウンタjに1を代入する。
(Step S1506) The
(ステップS1507)予測部532は、学習元情報の中の一部の情報であり、予測対象のj番目の情報が存在するか否かを判断する。予測対象のj番目の情報が存在する場合はステップS1508に行き、予測対象のj番目の情報が存在しない場合はステップS1510に行く。
(Step S1507) The
(ステップS1508)予測部532は、プログラム特定情報により特定される予測プログラムに、予測対象のj番目の情報を与え、当該予測プログラムを実行し、予測結果を取得する。
(Step S1508) The
(ステップS1509)予測部532は、カウンタjを1、インクリメントする。ステップS1507に戻る。
(Step S1509) The
(ステップS1510)評価部533は、アルゴリズム情報の候補に対応付く精度特定情報を取得する。
(Step S1510) The
(ステップS1511)評価部533は、ステップS1508で取得された予測結果の集合と、学習元情報の中の予測対象の特許分類情報が有する分類情報の集合とを比較し、ステップS1510で取得した精度特定情報で特定される精度(例えば、再現率、F値)の精度情報を取得する。なお、かかる精度情報は、一次精度情報とする。
(Step S1511) The
(ステップS1512)評価部533は、カウンタiを1、インクリメントする。ステップS1503に戻る。
(Step S1512) The
(ステップS1513)評価部533は、ステップS1511で取得したk個の一次精度情報の代表値(例えば、平均値、中央値)である精度情報を取得し、当該精度情報を、当該アルゴリズム情報の候補に対応付けて蓄積する。上位処理にリターンする。
(Step S1513) The
次に、ステップS1409の統計処理評価の処理の例について、図16のフローチャートを用いて説明する。なお、図16のフローチャートにおいて、図15のフローチャートと同一のステップについて説明を省略する。 Next, an example of the statistical processing evaluation process in step S1409 will be described using the flowchart in FIG. 16. Note that in the flowchart in FIG. 16, the description of the same steps as in the flowchart in FIG. 15 will be omitted.
(ステップS1601)評価部533は、カウンタjに1を代入する。
(Step S1601) The
(ステップS1602)評価部533は、j番目のプログラム特定情報が存在するか否かを判断する。j番目のプログラム特定情報が存在する場合はステップS1603に行き、j番目のプログラム特定情報が存在しない場合はステップS1609に行く。
(Step S1602) The
(ステップS1603)学習部531は、j番目のプログラム特定情報により特定される学習プログラムに、ステップS1504で取得された学習対象の情報を与え、当該学習プログラムを実行し、学習器を取得する。
(Step S1603) The
(ステップS1604)予測部532は、カウンタlに1を代入する。
(Step S1604) The
(ステップS1605)予測部532は、学習元情報の中の一部の情報であり、予測対象のl番目の情報が存在するか否かを判断する。予測対象のl番目の情報が存在する場合はステップS1606に行き、予測対象のl番目の情報が存在しない場合はステップS1608に行く。
(Step S1605) The
(ステップS1606)予測部532は、プログラム特定情報により特定される予測プログラムに、予測対象のl番目の情報を与え、当該予測プログラムを実行し、予測結果を取得する。
(Step S1606) The
(ステップS1607)予測部532は、カウンタlを1、インクリメントする。ステップS1605に戻る。
(Step S1607) The
(ステップS1608)評価部533は、カウンタjを1、インクリメントする。ステップS1602に戻る。
(Step S1608) The
(ステップS1609)統計処理部536は、カウンタlに1を代入する。
(Step S1609) The
(ステップS1610)統計処理部536は、l番目の予測対象の情報が存在するか否かを判断する。l番目の予測対象の情報が存在する場合はステップS1611に行き、l番目の予測対象の情報が存在しない場合はステップS1613に行く。
(Step S1610) The
(ステップS1611)統計処理部536は、l番目の予測対象の情報に対する2以上の予測結果に対して、アルゴリズム情報の候補が有する統計処理特定情報により特定される統計処理(例えば、「AND」「OR」「多数決」)を行い、統計処理結果を取得する。
(Step S1611) The
(ステップS1612)統計処理部536は、カウンタlを1、インクリメントする。ステップS1610に戻る。
(Step S1612) The
(ステップS1613)評価部533は、アルゴリズム情報の候補に対応付く精度特定情報を取得する。
(Step S1613) The
(ステップS1614)評価部533は、ステップS1611で取得された統計処理結果の集合と、学習元情報の中の予測対象の特許分類情報が有する分類情報の集合とを比較し、ステップS1613で取得した精度特定情報で特定される精度(例えば、再現率、F値)の精度情報を取得する。なお、かかる精度情報は、一次精度情報とする。
(Step S1614) The
(ステップS1615)評価部533は、カウンタiを1、インクリメントする。ステップS1503に戻る。
(Step S1615) The
(ステップS1616)評価部533は、ステップS1614で取得したk個の一次精度情報の代表値(例えば、平均値、中央値)である精度情報を取得し、当該精度情報を、当該アルゴリズム情報の候補に対応付けて蓄積する。上位処理にリターンする。
(Step S1616) The
次に、学習器生産装置6の動作例について、図17のフローチャートを用いて説明する。
Next, an example of the operation of the learning
(ステップS1701)学習受付部62は、学習元情報を取得する。 (Step S1701) The learning acceptance unit 62 acquires learning source information.
(ステップS1702)学習処理部13は、ステップS1701で取得した学習元情報に対応するアルゴリズム情報を取得する。
(Step S1702) The
(ステップS1703)学習処理部13は、アルゴリズム情報が有する情報特定情報を取得する。
(Step S1703) The
(ステップS1704)学習処理部13は、ステップS1703で取得した情報特定情報により特定される情報であり、学習元情報が有する各特許分類情報に対応する情報を取得し、当該情報と各特許分類情報が有する分類情報からなる情報を取得する。そして、学習処理部13は、取得した情報を有する学習元情報であり、学習処理に使用する学習元情報を取得する。
(Step S1704) The
(ステップS1705)学習処理部13は、カウンタiに1を代入する。
(Step S1705) The
(ステップS1706)学習処理部13は、ステップS1702で取得したアルゴリズム情報が有するi番目のログラム特定情報が存在するか否かを判断する。i番目のログラム特定情報が存在する場合はステップS1707に行き、i番目のログラム特定情報が存在しない場合は処理を終了する。
(Step S1706) The
(ステップS1707)学習処理部13は、ステップS1707で取得したプログラム特定情報により特定される学習プログラムを学習格納部61から取得する。
(Step S1707) The
(ステップS1708)学習処理部13は、ステップS1707で取得した学習プログラムに、ステップS1704で取得した学習元情報を与え、当該学習プログラムを実行し、学習器を取得する。そして、学習処理部13は、当該学習器をステップS1702で取得したアルゴリズム情報と対に蓄積する。
(Step S1708) The
(ステップS1709)学習処理部13は、カウンタiを1、インクリメントする。ステップS1706に戻る。
(Step S1709) The
次に、特許分類装置8の動作例について、図18のフローチャートを用いて説明する。
Next, an example of the operation of the
(ステップS1801)受付部81は、分類対象情報を受け付けたか否かを判断する。分類対象情報を受け付けた場合はステップS1802に行き、分類対象情報を受け付けなかった場合はステップS1801に戻る。
(Step S1801) The
(ステップS1802)処理部82は、格納部21に格納されているアルゴリズム情報を取得する。
(Step S1802) The
(ステップS1803)処理部82は、ステップS1802で取得したアルゴリズム情報が有する情報特定情報を取得する。
(Step S1803) The
(ステップS1804)処理部82は、ステップS1803で取得した情報特定情報により特定される情報であり、分類対象情報に対応する情報を取得する。
(Step S1804) The
(ステップS1805)処理部82は、ステップS1802で取得したアルゴリズム情報が有するプログラム特定情報を取得する
(Step S1805) The
(ステップS1806)処理部82は、カウンタiに1を代入する。
(Step S1806) The
(ステップS1807)処理部82は、ステップS1802で取得したアルゴリズム情報の中にi番目のプログラム特定情報が存在するか否かを判断する。i番目のプログラム特定情報が存在する場合はステップS1808に行き、i番目のプログラム特定情報が存在しない場合はステップS1811に行く。
(Step S1807) The
(ステップS1808)予測部821は、ステップS1805で取得したプログラム特定情報により特定される予測プログラムを格納部21から取得する。
(Step S1808) The
(ステップS1809)予測部821は、ステップS1808で取得した予測プログラムに、ステップS1802で取得したアルゴリズム情報と対になる学習器と、ステップS1804で取得した情報とを与え、当該予測プログラムを実行し、予測結果を取得し、当該予測結果を分類対象情報に対応付けて蓄積する。なお、予測部821は、スコアをも取得することは好適である。
(Step S1809) The
(ステップS1810)処理部82は、カウンタiを1、インクリメントする。ステップS1807に戻る。
(Step S1810) The
(ステップS1811)予測部821は、ステップS1802で取得したアルゴリズム情報の中に統計処理特定情報が存在するか否かを判断する。統計処理特定情報が存在する場合はステップS1812に行き、統計処理特定情報が存在しない場合はステップS1814に行く。
(Step S1811) The
(ステップS1812)統計処理部536は、ステップS1809における2以上の予測処理の予測結果に対して、統計処理特定情報により特定される統計処理を行い、統計処理結果を取得する。なお、統計処理結果は、最終的な予測結果である。
(Step S1812) The
(ステップS1813)統計処理部536は、予測部821が取得したスコアを用いて、統計処理結果に対応するスコアを取得する。
(Step S1813) The
(ステップS1814)出力部は、ステップS1812で取得された最終的な予測結果と、ステップS1813で取得されたスコアとを出力する。 (Step S1814) The output unit outputs the final prediction result obtained in step S1812 and the score obtained in step S1813.
以下、特許分類システムBの具体的な動作例について説明する。なお、以下の説明は、各種の変更が可能であり、本発明の範囲を何ら制限するものではない。 Below, we will explain a specific example of the operation of patent classification system B. Note that the following explanation can be modified in various ways and does not limit the scope of the present invention in any way.
本例において、情報特定情報は、“要約書,IPC”、または“要約書,効果解決手段文,IPC”の2通りである。また、プログラム特定情報は、“深層学習.exe”、“ランダムフォレスト.exe”2通りである。さらに、統計情報特定情報は、“AND”、または“OR”の2通りである。 In this example, the information specific information is either "Abstract, IPC" or "Abstract, Effect Solution Means Statement, IPC". The program specific information is either "Deep Learning.exe" or "Random Forest.exe". The statistical information specific information is either "AND" or "OR".
アルゴリズム決定装置5の格納部51には、例えば、後述する図19に示すような、8個のアルゴリズム情報候補1~8が格納されている。アルゴリズム情報候補とは、アルゴリズム情報の候補である。アルゴリズム情報候補1~4は、上記2通りの情報特定情報のうちのいずれかの情報特定情報と、上記2通りのプログラム特定情報のいずれかのプログラム特定情報との組み合わせである4つのアルゴリズム情報の候補である。アルゴリズム情報候補5~8は、上記2通りの情報特定情報のうちのいずれかの情報特定情報と、上記2通りの各プログラム特定情報で特定されるプログラムの予測結果の2種類の統計処理特定情報の組み合わせである4つのアルゴリズム情報の候補である。なお、かかる8つのアルゴリズム情報候補1~8は、本例では、予め格納部51に格納されているが、例えば、後述する設定画面を通じて入力されるユーザの指示に応じて処理部53が取得し、格納部51に蓄積してもよい。
The
また、格納部51には、例えば、後述する図20に示すような、上記8個のアルゴリズム情報候補1~8に対応する8個の精度情報1~8が格納され得る。なお、かかる8個の精度情報1~8は、アルゴリズム情報取得部534によって取得され、上記8個のアルゴリズム情報候補1~8に対応付けて格納部51に蓄積される。
In addition, the
図19は、アルゴリズム情報候補のデータ構造図である。アルゴリズム情報候補は、情報特定情報、プログラム特定情報、および統計情報特定情報を有する。ID“1”に対応付いたアルゴリズム情報候補1は、情報特定情報“要約書,IPC”、プログラム特定情報“深層学習.exe”、および統計情報特定情報“-”を有する。なお、“-”は、どの統計処理も行わない旨の情報である。
Figure 19 is a data structure diagram of an algorithm information candidate. An algorithm information candidate has information specific information, program specific information, and statistical information specific information.
また、ID“2”に対応付いたアルゴリズム情報候補2は、情報特定情報“要約書,効果解決手段文,IPC”、プログラム特定情報“深層学習.exe”、および統計情報特定情報“-”を有する。同様に、アルゴリズム情報候補3は、情報特定情報“要約書,IPC”、プログラム特定情報“ランダムフォレスト.exe”、および統計情報特定情報“-”を有する。アルゴリズム情報候補4は、情報特定情報“要約書,効果解決手段文,IPC”、プログラム特定情報“ランダムフォレスト.exe”、および統計情報特定情報“-”を有する。
アルゴリズム情報候補5は、情報特定情報“要約書,IPC”、プログラム特定情報“深層学習.exe,ランダムフォレスト.exe”、および統計情報特定情報“OR”を有する。アルゴリズム情報候補6は、情報特定情報“要約書,効果解決手段文,IPC”、プログラム特定情報“深層学習.exe,ランダムフォレスト.exe”、および統計情報特定情報“OR”を有する。アルゴリズム情報候補7は、情報特定情報“要約書,IPC”、プログラム特定情報“深層学習.exe,ランダムフォレスト.exe”、および統計情報特定情報“AND”を有する。アルゴリズム情報候補8は、情報特定情報“要約書,効果解決手段文,IPC”、プログラム特定情報“深層学習.exe,ランダムフォレスト.exe”、および統計情報特定情報“AND”を有する。
図20は、精度情報のデータ構造図である。精度情報は、再現率、適合率、F値、および正解率を有する。ID“1”に対応付いた精度情報1は、再現率“a1”、適合率“b1”、F値“(a1+b1)/2”、および正解率“c1”を有する。また、ID“2”に対応付いた精度情報2は、再現率“a2”、適合率“b2”、F値“(a2+b2)/2”、および正解率“c2”を有する。
20 is a data structure diagram of accuracy information. The accuracy information has a recall rate, a precision rate, an F value, and a correct answer rate.
同様に、精度情報3は、再現率“a3”、適合率“b3”、F値“(a3+b3)/2”、および正解率“c3”を有する。精度情報4は、再現率“a4”、適合率“b4”、F値“(a4+b4)/2”、および正解率“c4”を有する。精度情報5は、再現率“a5”、適合率“b5”、F値“(a5+b5)/2”、および正解率“c5”を有する。精度情報6は、再現率“a6”、適合率“b6”、F値“(a6+b6)/2”、および正解率“c6”を有する。精度情報7は、再現率“a7”、適合率“b7”、F値“(a7+b7/2”、および正解率“c7”を有する。精度情報8は、再現率“a8”、適合率“b8”、F値“(a8+b8)/2”、および正解率“c8”を有する。
Similarly, the
ユーザは、特許識別子と分類情報とで構成された100個の特許分類情報を有する学習元情報をユーザ端末4に入力する。ユーザ端末4は、学習元情報の入力を受け付け、受け付けた学習元情報をアルゴリズム決定装置5に送信する。
The user inputs learning source information having 100 pieces of patent classification information, each composed of a patent identifier and classification information, into the
プログラム格納部511には、上記2通りのプログラム特定情報に対応する2つの学習器生成プログラムと、当該2つの学習器生成プログラムに対応する2つの予測プログラムとが格納されている。
The
精度特定情報格納部512には、4つの精度特定情報「再現率」「適合率」「F値」「正解率」のうちいずれか一つ(ここでは、「正解率」)が格納されている。なお、格納されている精度特定情報は、例えば、後述する設定画面を通じて入力されるユーザの指示に応じて処理部53が取得し、格納部51に蓄積したものであるが、デフォルトの情報または自動的に取得された情報でもよい。
The accuracy specification
アルゴリズム決定装置5において、学習元情報受付部521が上記学習元情報を受信し、処理部53は、当該受信された学習元情報と、格納部51に格納されている8個のアルゴリズム情報候補1~8とを用いて、以下のような処理を行う。
In the
詳しくは、処理部53を構成する学習元情報取得部535が、上記受信された学習元情報が有する2以上(ここでは、100個)の各特許分類情報ごとに、当該特許分類情報が有する特許情報のうち、アルゴリズム情報候補を構成する上記2種類の情報特定情報で特定される情報を有する2以上の特許分類情報を各々有する2以上の特許分類情報を取得する。これにより、受け付けられた一の特許分類情報に対して、異なる情報を有する2以上の特許分類情報(ここでは、「要約書,IPC」を有する特許分類情報、および「要約書,効果解決手段文,IPC」を有する特許分類情報の2つ)が取得される。
In detail, the learning source
次に、当該取得された2以上の各学習元情報ごとに、学習部531が、当該学習元情報のうち少なくとも一部(例えば、90個)の特許分類情報を用いて、プログラム格納部511に格納されている2つの学習器生成プログラムのうち、当該アルゴリズム情報候補が有するプログラム特定情報で特定される学習器生成プログラムを実行し、2つの学習器を取得する。予測部532は、当該学習元情報のうち少なくとも一部(例えば、学習器の生成に使用されていない10個)の特許分類情報に対して、当該取得された2つの各学習器を用いて、当該学習器の取得に用いた学習器生成プログラムに対応する予測プログラムを適用し、2以上(ここでは、上記10個)の各特許分類情報に対する2以上(ここでは、4個)の予測分類情報を取得する。
Next, for each of the two or more pieces of acquired learning source information, the
統計処理部535は、当該取得された2以上の予測分類情報を用いて、上記2通りの統計処理(AND,OR)のうち、統計情報特定情報で特定される統計処理を行い、統計処理結果である2以上(ここでは、4個)の予測分類情報を取得する。
The
評価部533は、こうして取得された4以上(ここでは、上記2通りのいずれかの情報特定情報と上記2通りのいずれかのプログラム特定情報との組み合わせに対応する4個、および上記2通りのいずれかの情報特定情報と、上記2通りの各プログラム特定情報で特定されるプログラムの予測結果の2種類のいずれかの統計処理特定情報との組み合わせに対応する4個の、合計8個)の予測分類情報と、学習元情報が有する分類情報とを用いて、各予測分類情報の精度情報を取得し、アルゴリズム情報候補に対応付けて格納部51に蓄積する。
The
なお、上記8個の予測分類情報のうち、前者4個の各予測分類情報については、例えば、図15のフローチャートで説明したK分割交差検証により、当該予測分類情報に対応する精度情報が取得され、後者4個の各予測分類情報については、例えば、図16のフローチャートで説明した統計処理評価により、当該予測分類情報に対応する精度情報が取得されてもよい。 Of the eight pieces of predicted classification information, for the first four pieces of predicted classification information, the accuracy information corresponding to the predicted classification information may be obtained, for example, by the K-fold cross-validation described in the flowchart of FIG. 15, and for the latter four pieces of predicted classification information, the accuracy information corresponding to the predicted classification information may be obtained, for example, by the statistical processing evaluation described in the flowchart of FIG. 16.
これにより、図19に示した8個のアルゴリズム情報候補1~8に対応付けて、図20に示した8個の精度情報1~8が格納部51に格納される。
As a result, the eight pieces of
アルゴリズム情報取得部534は、精度特定情報格納部512に格納されている精度特定情報で特定される精度(ここでは、正解率)について、格納部51に格納されている精度情報1~8のうち、最良の値(例えば、最大値)の精度情報を取得する。例えば、精度情報1~8に対応する正解率c1~c8のうちc3が最良の値ある場合は、当該最良の値に対応する精度情報3が取得される。
The algorithm
なお、例えば、格納されている精度特定情報が、4種類の精度をすべて用いる旨の情報(例えば、4種類の各精度ごとに、最良の値に対応する精度情報に各x点(例えば、1点)を加点し、最高得点に対応する精度情報を取得する旨の情報)であり、再現率a1~a8のうち最良の値がa2であり、適合率b1~b8のうち最良の値がb3であり、F値“(a1+b1)/2”~“(a8+b8)/2”のうち最良の値が“(a2+b2)/2”であり、正解率c1~c8のうちc4が最良の値ある場合は、精度情報2について“1点+1点=2点”が取得され、精度情報3について“1点”が取得され、精度情報4について“1点”が取得され、その他の各精度情報1,5~8については“0点”が取得され、こうして取得された8個の点数のうち最高点である2点に対応する精度情報2が取得されてもよい。
For example, when the stored accuracy specification information is information indicating that all four types of accuracy are used (for example, for each of the four types of accuracy, x points (for example, 1 point) are added to the accuracy information corresponding to the best value to obtain the accuracy information corresponding to the highest score), the best value among the recall rates a1 to a8 is a2 , the best value among the precision rates b1 to b8 is b3 , the best value among the F-values "( a1 + b1 ) / 2" to "( a8 + b8 ) / 2" is "( a2 + b2 ) / 2", and the best value among the accuracy rates c1 to c8 is c4 , " 1 point + 1 point = 2 points" is obtained for the
また、例えば、格納されている精度特定情報が、4種類の精度のうち一の精度(例えば、適合率)を重視する旨の情報(例えば、4種類の各精度ごとに、最良の値に対応する精度情報に各x点(例えば、1点)を加点し、x点が加点された精度情報の中に、重視する精度情報が含まれている場合は、当該重視する精度情報について、さらにy点(例えば、2点)を加点する旨の情報など)であり、再現率a1~a8のうち最良の値がa2であり、適合率b1~b8のうち最良の値がb3であり、F値“(a1+b1)/2”~“(a8+b8)/2”のうち最良の値が“(a2+b2)/2”であり、正解率c1~c8のうちc3が最良の値ある場合は、精度情報2について“1点+1点=2点”が取得され、精度情報3について、“(1点+2点)+1点=4点”が取得され、その他の各精度情報1,4~8については“0点”が取得され、こうして取得された8個の点数のうち最高点である4点に対応する精度情報3が取得されてもよい。
Also, for example, the stored accuracy specification information is information indicating that one of four types of accuracy (for example, precision) is emphasized (for example, for each of the four types of accuracy, x points (for example, 1 point) are added to the accuracy information corresponding to the best value, and if the accuracy information to which x points have been added includes the accuracy information to be emphasized, y points (for example, 2 points) are further added to the accuracy information to be emphasized), the best value of the recall rates a1 to a8 is a2 , the best value of the precision rates b1 to b8 is b3 , the best value of the F-values "( a1 + b1 )/2" to "( a8 + b8 )/2" is "( a2 + b2 )/2", and the best value of the accuracy rates c1 to c8 is "(a3 + b3)/2". If 3 is the best value, then "1 point + 1 point = 2 points" is obtained for
アルゴリズム情報取得部534は、当該最良の値の精度情報と対になるアルゴリズム情報(例えば、精度情報3が取得された場合は、当該精度情報3と対になるアルゴリズム情報候補3)を、格納部51からアルゴリズム情報として取得する。アルゴリズム情報取得部534は、当該取得したアルゴリズム情報を、上記受信された学習元情報に対応付けて格納部51に蓄積する。
The algorithm
出力部54は、こうして、学習元情報受付部521が学習元情報を受信したことに応じて、アルゴリズム情報取得部534が取得したアルゴリズム情報を出力する。アルゴリズム情報の出力先は、通常、学習機生産装置6である。
In this way, the
学習機生産装置6において、学習処理部13が、アルゴリズム決定装置5から出力されたアルゴリズム情報を学習格納部61に蓄積し、学習部134は、学習格納部61に格納されているアルゴリズム情報を用いて、例えば、図17のフローチャートに示した手順で、学習器を取得する。取得された学習器は、特許分類装置8に引き渡される。
In the learning
学習機生産装置6によって取得されたアルゴリズム情報は、特許分類装置8にも出力される。特許分類装置8において、処理部82は、学習機生産装置6から引き渡された学習器と、学習機生産装置6から出力されたアルゴリズム情報とを格納部21に蓄積する。その後、受付部81が、ユーザ端末4から分類対象情報を受信し、処理部82は、当該受信された分類対象情報に対し、格納部21に格納されている学習器とアルゴリズム情報と用いて、例えば、図18のフローチャートに示した処理を実行し、予測分類情報とそれに対するスコアを取得する。出力部24は、当該取得された特許分類情報とスコアを、当該分類対象情報の送信元であるユーザ端末4に送信する。これにより、ユーザ端末4のディスプレイに、特許分類情報とスコアが表示される。
The algorithm information acquired by the learning
なお、学習機生産装置6によって取得されたアルゴリズム情報は、上記学習元情報の送信元であるユーザ端末4にも送信されてもよい。ユーザ端末4は、アルゴリズム決定装置5から送信されたアルゴリズム情報を、ディスプレイ等の出力デバイスを介して出力する。これによって、ユーザ端末4のディスプレイに、アルゴリズム情報が表示される。
The algorithm information acquired by the learning
以上、本実施の形態によれば、アルゴリズム決定装置5は、予測処理を行うための適切な処理を決定できる。
As described above, according to this embodiment, the
また、アルゴリズム決定装置5は、予測処理を行う際に使用するデータを変更することにより、予測処理を行うための適切な処理を決定できる。
In addition, the
また、アルゴリズム決定装置5は、複数の学習器生成プログラムを使用することにより、予測処理を行うための適切な処理を決定できる。
In addition, the
また、アルゴリズム決定装置5は、2以上の学習器を用いて取得した予測結果に対して統計処理を行った予測結果を用いることにより、予測処理を行うための適切な処理を決定できる。
The
また、アルゴリズム決定装置5は、2以上の学習器を用いて取得した予測結果に対して2以上の統計処理を行った2以上の予測結果を用いることにより、予測処理を行うための適切な統計処理を含む処理を決定できる。
The
また、アルゴリズム決定装置5は、再現率または適合率またはF値または正解率のうち、ユーザが所望するスコア(受付部52が受け付けた精度特定情報で特定される精度情報)が高い処理を決定できる。
The
また、学習器生産装置6は、アルゴリズム決定装置5が出力するアルゴリズム情報に従ったアルゴリズムで学習処理を行うことにより、適切な学習器が生産できる。
In addition, the learning
また、特許分類装置2は、学習器生産装置6が生産した適切な学習器を用いて、予測処理を行うことにより、特許を精度高く分類できる。
In addition, the
なお、特許分類装置2は、学習器生産装置6が生産した適切な学習器と、特許明細書に関する重要な情報とを用いることにより、特許をより精度高く分類できる。
The
なお、本実施の形態におけるアルゴリズム決定装置5を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、特許に関する特許情報と当該特許情報に対する分類を示す分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、特許に関する特許情報を分類するための学習器を生成する1以上の学習器生成プログラムと、学習器を用いて特許分類情報の分類を予測し、予測分類情報を取得する予測プログラムとが格納されるプログラム格納部511にアクセス可能なコンピュータを、学習元情報を受け付ける学習元情報受付部521と、前記学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の特許分類情報を用いて、前記1以上の各学習器生成プログラムを実行し、1以上の学習器を取得する学習部531と、前記学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、前記学習部531が生成した1以上の各学習器を用いて、予測プログラムを適用し、前記1以上の各特許分類情報に対する2以上の予測分類情報を取得する予測部532と、前記予測部532が取得した2以上の各予測分類情報と、前記学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、当該精度情報が特定する精度が最も高い予測分類情報を決定する評価部と、前記評価部が決定した予測分類情報に対応するアルゴリズムに関するアルゴリズム情報を取得するアルゴリズム情報取得部534と、前記アルゴリズム情報を出力する出力部として機能させるためのプログラムである。
The software for realizing the
また、本実施の形態における学習器生産装置6を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、学習元情報を受け付ける学習元情報受付部621と、アルゴリズム決定装置5が出力するアルゴリズム情報に従ったアルゴリズムで、前記学習元情報受付部621が受け付けた学習元情報に対して、学習処理を行い学習器を取得する学習部134と、前記学習器を前記アルゴリズム情報に対応付けて蓄積する蓄積部641として機能させるためのプログラムである。
The software for realizing the learning
さらに、本実施の形態における特許分類装置2を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、学習器生産装置6が蓄積した学習器が格納される学習器格納部にアクセス可能なコンピュータを、分類対象の特許を識別する特許識別子を含む分類対象情報を受け付ける受付部と、前記分類対象情報に対して、前記学習器に対応付いているアルゴリズム情報に従ったアルゴリズムにより、前記学習器を用いて予測処理を行い、分類結果情報を取得する予測部234と、前記予測部234が取得した分類結果情報を、前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する出力部として機能させるためのプログラムである。
Furthermore, the software for realizing the
(実施の形態3)
図21は、本実施の形態における特許分類システムCのブロック図である。
(Embodiment 3)
FIG. 21 is a block diagram of a patent classification system C in this embodiment.
特許分類システムCは、アルゴリズム決定装置5、学習器生産装置1、特許分類装置2、サーバ装置3、および1または2以上のユーザ端末4を備える。
The patent classification system C includes an
アルゴリズム決定装置5は、実施の形態2におけるものと同じ要素である。学習器生産装置1、特許分類装置2、サーバ装置3、およびユーザ端末4は、実施の形態1におけるものと同じ要素である。
The
ただし、学習器生産装置1を構成する学習処理部13が使用するアルゴリズムは、アルゴリズム決定装置5によって決定されたアルゴリズムである。
However, the algorithm used by the
また、特許分類装置2を構成する重要情報取得部132は、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、および数字取得手段1329を備える。
The important
次に、特許分類システムCの動作について説明する。特許分類システムCを構成するアルゴリズム決定装置5のフローチャートは、図13~図16に示されている。学習器生産装置1のフローチャートは、図4~図9に示されている。特許分類装置2のフローチャートは、図10に示されている。
Next, the operation of the patent classification system C will be described. The flowcharts of the
以上、本実施の形態によれば、実施の形態1に記載の効果に加えて、実施の形態2に記載の効果がさらに得られる。
As described above, according to this embodiment, in addition to the effects described in
(実施の形態4)
本実施の形態において、一の条件とクラス(分類情報)との組である条件情報が格納されており、当該一の条件に合致する予測対象(特許情報)については、当該一の条件と対になるクラスに決定し、当該一の条件に合致しない場合に、機械学習のアルゴリズムでクラスを決定する、分類情報決定装置を備える特許分類システムDについて説明する。
(Embodiment 4)
In this embodiment, a patent classification system D is described that is equipped with a classification information determination device in which condition information, which is a pair of a condition and a class (classification information), is stored, and for a prediction target (patent information) that matches the one condition, the class that pairs with the one condition is determined, and when the one condition is not matched, the class is determined using a machine learning algorithm.
また、本実施の形態において、機械学習のアルゴリズムは、例えば、実施の形態1~3で説明したものと同様であるが、その種類は問わない、分類情報決定装置を備える特許分類システムDについて説明する。 In addition, in this embodiment, the machine learning algorithm is, for example, the same as that described in the first to third embodiments, but the type is not important. We will explain the patent classification system D equipped with the classification information determination device.
また、本実施の形態において、一の条件は、機械学習の学習器を作成した際に使用した教師データの特許であること、である分類情報決定装置を備える特許分類システムDについて説明する。 In addition, in this embodiment, we will explain a patent classification system D that is equipped with a classification information determination device, where one condition is that the patent is the training data used when creating a machine learning learning device.
図22は、本実施の形態における特許分類システムDのブロック図である。特許分類システムDは、学習器生産装置1、分類情報決定装置7、サーバ装置3、およびユーザ端末4を備える。特許分類システムDにおいて、学習器生産装置1に代えて、学習器生産装置6を用いても良い。
Figure 22 is a block diagram of a patent classification system D in this embodiment. The patent classification system D includes a learning
学習器生産装置1は、実施の形態1におけるものと同様の構成を有し、同様の動作を行う。すなわち、学習器生産装置1は、学習元情報を用いて、機械学習の学習処理を行い、学習器を取得する。
The learning
分類情報決定装置7は、格納部71、受付部72、処理部73、および出力部74を備える。格納部71は、学習器格納部711、および条件情報格納部712を備える。受付部72は、特許情報受付部721を備える。処理部73は、予測部731を備える。予測部731は、判断手段7311、第一決定手段7312、および第二決定手段7313を備える。
The classification
分類情報決定装置7を構成する格納部71には、各種の情報が格納される。各種の情報とは、例えば、前述した学習器、および後述する条件情報などである。また、格納部71には、例えば、1または2以上の特許情報が格納されてもよいし、特許分類情報が格納されてもよい。
The
学習器格納部711には、学習器が格納される。本実施の形態では、学習器生産装置1が、学習習元情報を用いて、機械学習の学習処理を行い、学習器を取得する。前述したように、学習元情報は、2以上の特許分類情報を有し、特許分類情報は、特許情報と、特許情報の分類情報とを有する。取得された学習器は、分類情報決定装置7に引き渡され、例えば、後述する処理部73によって、学習器格納部711に蓄積される。
The learning
ただし、学習器は、予め学習器格納部711に格納されていてもよいし、分類情報決定装置7内で取得されもよい。後者の場合、例えば、格納部71に、学習元情報が格納されており、分類情報決定装置7は、当該学習習元情報を用いて機械学習の学習処理を行い、学習器を取得する学習部(図示しない)を備えていてもよい。
However, the learning device may be stored in advance in the learning
条件情報格納部712には、1または2以上の条件情報が格納される。条件情報とは、特許に関する一の条件と、特許情報の分類情報との組である。本実施の形態において、一の条件は、例えば、予測の対象である特許情報が、学習元情報が有する2以上のいずれかの特許分類情報を構成する特許情報であること、である。一の条件は、例えば、特許の検索式である。検索式は、例えば、「発明の名称に「機械学習」を含む」、「出願人=ABC & IPC=G06F*」である。
The condition
なお、特許情報とは、前述したように、特許に関する情報であり、例えば、特許公報や公開特許公報等の特許明細書の一部または全部である。また、分類情報とは、前述したように、特許情報に対する分類を示す情報であり、例えば、「○,×」や「A,B,C」等、何でもよい。 As mentioned above, patent information is information about patents, such as all or part of a patent specification, such as a patent gazette or published patent gazette. As mentioned above, classification information is information that indicates the classification of the patent information, and can be anything, such as "○, ×" or "A, B, C."
条件情報は、例えば、学習元情報が有する2以上の特許分類情報のうちの一の特許分類情報に対応する特許識別子(例えば、公開番号や特許番号等)と、当該一の特許分類情報に対応する分類情報とを含む。例えば、学習器が、学習元情報が有する2以上の特許分類情報のうち一部を用いて取得された場合、条件情報は、学習器を取得する際に使用された2以上の特許分類情報のうちの一の特許分類情報に対応する特許識別子と、当該一の特許分類情報に対応する分類情報とを含む。 The condition information includes, for example, a patent identifier (e.g., publication number, patent number, etc.) corresponding to one of the two or more pieces of patent classification information contained in the learning source information, and classification information corresponding to the one piece of patent classification information. For example, if the learning device is obtained using a portion of the two or more pieces of patent classification information contained in the learning source information, the condition information includes a patent identifier corresponding to one of the two or more pieces of patent classification information used when obtaining the learning device, and classification information corresponding to the one piece of patent classification information.
ただし、条件情報は、例えば、学習元情報が有する2以上の特許分類情報のうちの一の特許分類情報でもよい。例えば、学習器が、学習元情報が有する2以上の特許分類情報のうち一部を用いて取得された場合、条件情報は、学習器を取得する際に使用された2以上の特許分類情報のうちの一の特許分類情報でもよい。 However, the condition information may be, for example, one of two or more pieces of patent classification information contained in the learning source information. For example, if the learning device is obtained using a portion of two or more pieces of patent classification information contained in the learning source information, the condition information may be one of the two or more pieces of patent classification information used when obtaining the learning device.
学習器生産装置1は、例えば、上記学習器と共に、当該学習器を取得する際に使用した学習元情報をも、分類情報決定装置7に引き渡してもよい。
The learning
分類情報決定装置7において、例えば、処理部73が、上記学習元情報の引き渡しを受け、当該学習元情報を用いて、特許識別子と分類情報とを有する2以上の条件情報を取得し、学習器格納部711に蓄積する。ただし、2以上の条件情報の取得は、学習器生産装置1側で行われ、取得された2以上の条件情報が分類情報決定装置7に引き渡されてもよい。
In the classification
これにより、条件情報格納部712には、学習器生産装置1が学習器を取得する際に使用した2以上の特許分類情報(例えば、前述した特許分類情報を構成する100個の特許分類1~100のうち、90個の特許分類情報11~100)に対応する2以上の条件情報(例えば、後述する図25に示す90個の条件情報1~90)が格納される。
As a result, the condition
受付部72は、各種の情報を受け付ける。各種の情報とは、例えば、特許情報である。前述したように、受け付けとは、通常、ユーザ端末4からの受信であるが、例えば、キーボード等の入力デバイスから入力された情報の受け付け、ディスクや半導体メモリ等の記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
The
特許情報受付部721は、1または2以上の特許情報を受け付ける。特許情報受付部721は、通常、ユーザ端末4から、1以上の特許情報を受信する。ただし、例えば、ディスク等の記録媒体に1以上の特許情報が格納されており、特許情報受付部721は、かかる記録媒体から1以上の特許情報を読み出してもよい。
The patent
処理部73は、各種の処理を行う。各種の処理とは、例えば、予測部731、判断手段7311、第一決定手段7312、および第二決定手段7313などの処理である。また、処理部73は、例えば、フローチャートで説明する各種の判断なども行う。なお、処理部73が行うその他の処理について、適時説明する場合がある。
The
予測部731は、1以上の条件情報を用いて、1以上の各特許情報の分類情報を特定する予測分類情報を取得する。
The
予測部731は、例えば、特許情報受付部721が受け付けた1以上の各特許情報ごとに、予測分類情報取得処理を実行する。予測分類情報取得処理とは、予測分類情報を取得する処理である。予測分類情報とは、当該特許情報の分類情報を特定する情報である。
The
判断手段7311は、1以上の各特許情報が、1以上の各条件情報が有する条件のうちのいずれかの条件に合致するか否かを判断する。 The determination means 7311 determines whether or not each of the one or more pieces of patent information matches any of the conditions contained in each of the one or more pieces of condition information.
判断手段7311は、例えば、特許情報受付部721が受け付けた1以上の各特許情報ごとに、当該特許情報が、条件情報格納部712に格納されている1以上の条件情報に対応する1以上の条件のうち、いずれかの条件に合致するか否かを判断する。
The judgment means 7311 judges, for example, for each of one or more pieces of patent information accepted by the patent
本実施の形態では、例えば、条件情報が特許識別子と分類情報の対であり、条件情報格納部712には、1以上の特許識別子が、分類情報に対応付けて格納されており、判断手段7311は、受け付けられた1以上の各特許情報ごとに、当該特許情報が有する特許識別子が、条件情報格納部712に格納されている1以上の特許識別子のうちのいずれかの特許識別子に合致するか否かを判断してもよい。
In this embodiment, for example, the condition information is a pair of a patent identifier and classification information, and the condition
第一決定手段7312は、判断手段7311が合致すると判断した条件と対になる分類情報を取得する。 The first determination means 7312 obtains classification information that pairs with the condition that the determination means 7311 determines to be met.
第一決定手段7312は、例えば、1以上の各特許情報ごとに、当該特許情報が有する特許識別子に合致すると判断された特許識別子と対になる分類情報を取得する。 The first determination means 7312, for example, for each of one or more pieces of patent information, obtains classification information that pairs with a patent identifier that is determined to match the patent identifier possessed by the patent information.
第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、特許情報の分類情報を、機械学習の予測処理により取得する。判断手段7311がいずれの条件にも合致しないと判断した特許情報に対して、第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、機械学習の予測処理により分類情報を取得する。
The second determination means 7313 uses a learning device stored in the learning
本実施の形態では、第二決定手段7313は、例えば、条件情報格納部712に格納されている1以上の特許識別子のいずれにも合致しないと判断された特許識別子に対応する特許情報の分類情報を、機械学習の予測処理により取得する。
In this embodiment, the second determination means 7313 obtains, for example, classification information of patent information corresponding to a patent identifier that is determined not to match any of one or more patent identifiers stored in the condition
出力部74は、各種の情報を出力する。各種の情報とは、例えば、予測分類情報である。出力部74は、例えば、受け付けられた1以上の各特許情報ごとに、第一決定手段7312が決定した分類情報または第二決定手段7313が取得した分類情報を、当該特許情報に対応する特許識別子と対に、予測分類情報として出力する。
The
なお、前述したように、出力とは、例えば、ユーザ端末4への送信であるが、ディスプレイへの表示、プリンタでの印字、スピーカーからの音出力、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念と考えても良い。
As mentioned above, output means, for example, transmission to the
出力部74は、予測部731が取得した予測分類情報を出力する。出力部74は、取得された予測分類情報を、通常、ユーザ端末4に送信する。ただし、予測分類情報は、例えば、ディスプレイに表示されたり、記録媒体に蓄積されたり、他の処理装置や他のプログラムなどに引き渡されたりしても良く、その出力態様や出力先は問わない。
The
サーバ装置3は、実施の形態1におけるものと同様の動作を行う。
The
ユーザ端末4は、実施の形態1におけるものと同様の動作を行う。
格納部71、学習器格納部711、および条件情報格納部712は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
The
格納部71等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部71等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部1等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部1等で記憶されるようになっても良い。
The process by which information is stored in the
受付部72、特許情報受付部721、および出力部74は、通常、無線または有線の通信手段等で実現され得る。
The
処理部73、予測部731、判断手段7311、第一決定手段7312、および第二決定手段7313は、通常、MPUやメモリ等から実現され得る。処理部73等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The
次に、特許分類システムDの動作について図23および図24のフローチャートを用いて説明する。図23は、分類情報決定装置7の動作を説明するフローチャートである。
Next, the operation of the patent classification system D will be explained using the flowcharts in Figures 23 and 24. Figure 23 is a flowchart explaining the operation of the classification
(ステップS2301)処理部73は、特許情報受付部721が1以上の特許情報を受け付けたか否かを判断する。特許情報受付部721が1以上の特許情報を受け付けたと判断された場合はステップS2302に進み、受け付けていないと判断された場合はステップ2501に戻る。
(Step S2301) The
(ステップS2302)処理部73は、カウンタkに1を代入する。
(Step S2302) The
(ステップS2303)処理部73は、k番目の特許情報が存在するか否かを判断する。k番目の特許情報が、存在すると判断された場合はステップS2303に進み、存在しないと判断された場合はステップS2301に戻る。
(Step S2303) The
(ステップS2304)予測部731は、k番目の特許情報の分類情報を特定する予測分類情報kを取得する処理(以下、「k番目の予測分類情報取得処理」)を実行する。なお、k番目の予測分類情報取得処理については、図24のフローチャートを用いて説明する。
(Step S2304) The
(ステップS2305)処理部73は、カウンタkを1、インクリメントする。ステップS2303に戻る。
(Step S2305) The
なお、図23のフローチャートにおいて、分類情報決定装置7の電源オフや処理終了の割り込みにより処理は終了する。
In the flowchart of FIG. 23, the process ends when the classification
図24は、上記ステップS2304の「k番目の予測分類情報取得処理」を説明するフローチャートである。 Figure 24 is a flowchart explaining the "kth predicted classification information acquisition process" in step S2304 above.
(ステップS2401)予測部731は、カウンタnに1を代入する。
(Step S2401) The
(ステップS2402)予測部731は、n番目の条件が存在するか否かを判断する。n番目の条件が、存在すると判断された場合はステップS2403に進み、存在しないと判断された場合はステップS2407に進む。
(Step S2402) The
(ステップS2403)予測部731を構成する判断手段7311は、k番目の特許情報がn番目の条件に合致するか否かを判断する。k番目の特許情報がn番目の条件に、合致すると判断された場合はステップ2605に進み、合致しないと判断された場合はステップS2404に進む。
(Step S2403) The judgment means 7311 constituting the
(ステップS2404)予測部731は、カウンタnを1、インクリメントする。ステップS2402に戻る。
(Step S2404) The
(ステップS2405)第一決定手段7312は、条件情報格納部712に格納されている1以上の条件情報に対応する1以上の条件のうちn番目の条件、と対になる分類情報を決定する。
(Step S2405) The first determination means 7312 determines classification information that pairs with the nth condition among one or more conditions corresponding to one or more pieces of condition information stored in the condition
(ステップS2406)予測部731は、ステップS2405で決定された分類情報を“予測分類情報k”にセットする。上位処理にリターンする。
(Step S2406) The
(ステップS2407)第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、k番目の特許情報の分類情報を、機械学習の予測処理により取得する。
(Step S2407) The second determination means 7313 uses the learning device stored in the learning
(ステップS2408)予測部731は、ステップS2407で取得された分類情報を“予測分類情報k”にセットする。上位処理にリターンする。
(Step S2408) The
以下、本実施の形態における特許分類システムDの具体的な動作例について説明する。 Below, we will explain a specific example of the operation of patent classification system D in this embodiment.
学習器生産装置1は、実施の形態1で説明したように、学習元情報を用いて、機械学習の学習処理を行い、学習器を取得する。学習器生産装置1は、当該取得した学習器と、当該学習器を取得する際に使用した学習元情報とを分類情報決定装置7に引き渡す。本例では、100個の特許分類情報1~100を有する学習元情報を用いて学習器が取得され、当該学習器が当該学習元情報と共に引き渡されたとする。
As described in the first embodiment, the learning
分類情報決定装置7において、処理部73は、上記学習器の引き渡しを受け、学習器格納部711に蓄積する。また、処理部73は、上記学習元情報の引き渡しを受け、当該学習元情報に対応する2以上(本例では、当該学習元情報が有する100個の特許分類情報1~100のうち、学習器の取得の際に使用された90個の特許分類情報11~100に対応する90個)の条件情報を取得し、条件情報格納部712に蓄積する。
In the classification
これにより、学習器格納部711には、学習器生産装置1が、受け付けた学習元情報が有する100個の特許分類情報のうち、特許分類情報11~100を用いて取得した学習器が格納される。また、条件情報格納部712には、例えば、図25に示すような、2以上(本例では、当該学習器を取得する際に使用された90個の特許分類情報11~100に対応する90個)の条件情報が格納される。
As a result, the learning
図25は、本実施の形態における条件情報のデータ構造図である。条件情報は、特許識別子と分類情報とを有する。条件情報格納部712に格納される2以上の各条件情報は、ID(例えば、“1”,“2”等)に対応付いている。例えば、ID“1”に対応付いた条件情報(以下、条件情報1)は、特許識別子“特開2017-dddd”と分類情報“B”とを有する。また、ID“2”に対応付いた条件情報2は、特許識別子“特開2017-eeee”と分類情報“A”とを有する。同様に、条件情報100は、特許識別子“特開2018-ffff”と分類情報“C”とを有する。
Figure 25 is a data structure diagram of condition information in this embodiment. Condition information has a patent identifier and classification information. Two or more pieces of condition information stored in the condition
本例では、受け付けられた学習元情報が有する100個の特許分類情報1~100に対応する100個の特許情報が、ディスク等の既得媒体から読み出されたとする。
In this example, it is assumed that 100 pieces of patent information corresponding to the 100 pieces of
分類情報決定装置7において、特許情報受付部721が上記読み出された100個の特許情報を受け付け、予測部731は、当該受け付けられた100個の特許情報ごとに、当該特許情報の分類情報を特定する予測分類情報を取得する予測分類情報取得処理を実行する。
In the classification
すなわち、予測部731を構成する判断手段7311は、まず、特許分類情報1に対応する1番目の特許情報について、当該特許情報が、条件情報格納部712に格納されている10個の条件情報1~10に対応する10個の条件のうちの、いずれかの条件に合致するか否かを判断する。当該特許情報は、いずれの条件にも合致しないと判断される。
That is, the judgment means 7311 constituting the
いずれの条件にも合致しないとの上記判断結果を受け、第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、1番目の特許情報の分類情報を、機械学習の予測処理により取得する。本例では、分類情報“A”が取得されたとする。これにより、1番目の特許情報の予測分類情報として、学習器による分類情報“A”が取得される。
In response to the above determination result that none of the conditions are met, the second determination means 7313 uses the learning device stored in the learning
特許分類情報2~10についても同様に、いずれの条件にも合致しないと判断され、学習器による予測分類情報(例えば、特許分類情報2について予測分類情報“A”、特許分類情報10について予測分類情報“B”など)が取得される。これにより、2番目~10番目の各特許情報の予測分類情報として、学習器による予測分類情報“A”・・・“B”が取得される。
Similarly, for
次に、判断手段7311は、特許分類情報11に対応する11番目の特許情報について、当該特許情報が、条件情報格納部712に格納されている90個の条件情報1~90に対応する90個の条件のうちのいずれかの条件に合致するか否かを判断する。当該条件情報は、当該90個の条件のうち、1番目の条件に合致すると判断される。
Next, the judgment means 7311 judges whether the 11th patent information corresponding to the
1番目の条件に合致するとの上記判断結果を受け、第一決定手段7312は、条件情報格納部712に格納されている90個の条件情報に対応する90個の条件のうち1番目の条件である特許識別子“特開2017-dddd”、と対になる分類情報“B”を決定する。これにより、11番目の特許情報の予測分類情報として、特許分類情報11を構成する分類情報“B”が取得される。
In response to the above determination result that the first condition is met, the first determination means 7312 determines classification information "B" that pairs with the patent identifier "JP Patent Publication 2017-dddd", which is the first condition out of the 90 conditions corresponding to the 90 pieces of condition information stored in the condition
特許分類情報12~100についても同様に、当該90個の条件のうちの12番目~90番目の条件に合致すると判断され、12番目~100番目の条件である特許識別子“特開2017-eeee”・・・“特開2018-ffff”、と対になる分類情報“B”・・・“C”が決定される。これにより、12番目~100番目の各特許情報の予測分類情報として、各特許分類情報12~100を構成する分類情報“A”・・・“C”が取得される。
Similarly,
出力部74は、こうして、100個の各特許情報ごとに取得された分類情報を、当該特許情報に対応付けて、ディスク等の記録媒体に蓄積する。
The
これにより、記録媒体には、例えば、特許情報と、当該特許情報の分類情報との組が、100組、格納される。 As a result, for example, 100 pairs of patent information and classification information for that patent information are stored on the recording medium.
以上、本実施の形態によれば、学習器生産装置1が、特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、機械学習の学習処理を行い、学習器を取得し、学習器格納部711に、当該取得された学習器が格納される。条件情報格納部712には、特許に関する一の条件と分類情報との組である1以上の条件情報が格納される。分類情報決定装置7は、1以上の特許情報を受け付け、1以上の条件情報を用いて、1以上の各特許情報の分類情報を特定する予測分類情報を取得し、予測分類情報を出力する。
As described above, according to this embodiment, the learning
予測分類情報を取得する際、分類情報決定装置7は、1以上の各特許情報が、1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断し、合致すると判断した条件と対になる分類情報を決定する一方、学習器を用いて、いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得することにより、特許を精度高く分類できる。
When obtaining predicted classification information, the classification
また、上記構成において、一の条件は、学習元情報が有する2以上のいずれかの特許分類情報を構成する特許情報であることであることにより、機械学習の学習器を取得した際に使用した教師データの特許を精度高く分類でき、それ以外の特許をも、学習器を用いた予測処理により精度高く分類できる。 In addition, in the above configuration, one condition is that the patent information constitutes any one of two or more patent classification information contained in the learning source information, so that patents in the training data used when the machine learning learning device was obtained can be classified with high accuracy, and other patents can also be classified with high accuracy by prediction processing using the learning device.
なお、本実施の形態における分類情報決定装置7を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、特許情報と当該特許情報の分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、機械学習の学習処理を行い、取得された学習器が格納される学習器格納部711、および特許に関する一の条件と特許情報の分類情報との組である1以上の条件情報が格納される条件情報格納部712にアクセス可能なコンピュータを、1以上の特許情報を受け付ける特許情報受付部721と、前記1以上の条件情報を用いて、前記1以上の各特許情報の分類情報を特定する予測分類情報を取得する予測部731と、前記予測分類情報を出力する出力部74として機能させ、前記予測部731は、前記1以上の各特許情報が、前記1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断する判断手段7311と、前記判断手段7311が合致すると判断した条件と対になる分類情報を決定する第一決定手段7312と、前記学習器を用いて、前記判断手段7311が前記いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得する第二決定手段7313とを具備するプログラムである。
The software for realizing the classification
(実施の形態5)
本実施の形態において、一の条件とクラス(分類情報)との組である条件情報が格納されており、当該一の条件に合致する予測対象(特許情報)については、当該一の条件と対になるクラスに決定し、当該一の条件に合致しない場合に、機械学習のアルゴリズムでクラスを決定する、分類情報決定装置を備える特許分類システムEについて説明する。
(Embodiment 5)
In this embodiment, a patent classification system E is described that is equipped with a classification information determination device in which condition information, which is a pair of a condition and a class (classification information), is stored, and for a prediction target (patent information) that matches the one condition, the class that pairs with the one condition is determined, and when the prediction target does not match the one condition, the class is determined using a machine learning algorithm.
また、本実施の形態において、機械学習のアルゴリズムは、例えば、実施の形態1~3で説明したものと同様であるが、その種類は問わない、分類情報決定装置を備える特許分類システムEについて説明する。 In addition, in this embodiment, the machine learning algorithm is, for example, similar to that described in the first to third embodiments, but the type is not important. We will explain the patent classification system E equipped with the classification information determination device.
また、本実施の形態において、一の条件は、特許の検索式(例えば、「発明の名称に「機械学習」を含む」等)である、分類情報決定装置を備える特許分類システムEについて説明する。 In addition, in this embodiment, a patent classification system E equipped with a classification information determination device will be described, in which one condition is a patent search formula (e.g., "the name of the invention contains 'machine learning'").
図26は、本実施の形態における特許分類システムEのブロック図である。特許分類システムEは、アルゴリズム決定装置5、学習器生産装置6、分類情報決定装置7a、サーバ装置3、およびユーザ端末4を備える。
Figure 26 is a block diagram of a patent classification system E in this embodiment. The patent classification system E includes an
分類情報決定装置7aは、格納部71、受付部72a、処理部73a、および出力部74を備える。受付部72aは、特許情報受付部721、および検索式受付部722を備える。処理部73aは、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、予測部731、および検索部732を備える。予測部731は、判断手段7311、第一決定手段7312、および第二決定手段7313を備える。
The classification information determination device 7a includes a
ユーザ端末4は、ユーザ受付部41、ユーザ処理部42、ユーザ送信部43、ユーザ受信部44、およびユーザ出力部45を備える。
The
アルゴリズム決定装置5は、実施の形態2におけるものと同様の構成を有し、同様の動作を行う。
The
学習器生産装置6は、実施の形態2におけるものと同様の構成を有し、同様の動作を行う。
The learning
分類情報決定装置7aは、以下で説明する事項を除いて、実施の形態4における分類情報決定装置7と同様の構成を有し、同様の動作を行う。
The classification information determination device 7a has the same configuration and operates in the same manner as the classification
すなわち、条件情報格納部712に格納される1以上の各条件情報を構成する一の条件は、検索式である。検索式とは、特許情報を検索する際の条件(以下、検索条件と記す場合がある)を示す情報である。検索条件は、例えば、「機械学習」等のキーワード、IPC、Fターム、FI等の特許分類コードなどであるが、出願日又は公開日が属する期間を特定する期間情報でもよく、その種類は問わない。
That is, one condition constituting each of the one or more pieces of condition information stored in the condition
また、検索条件は、例えば、『「発明の名称」に「機械学習」を含む』といった、項目情報とキーワードとの組を含んでもよい。項目情報とは、特許情報における項目を特定する情報である。項目情報は、例えば、「発明の名称」、「要約」、「発明の効果」等であるが、「全文」でもよく、その種類は問わない。 The search criteria may also include a combination of item information and a keyword, such as "Name of invention contains machine learning." Item information is information that identifies an item in patent information. Item information may be, for example, "Name of invention," "Abstract," "Effects of invention," etc., but may also be "Full text," and the type of information is not important.
検索式は、例えば、キーワードや特許分類コード等の2以上の条件を論理演算子(例えば、ANDまたはORなど)で結合したものであってもよい。また、検索式は、検索式を複数組み合わせ(論理演算子で結合した)検索式であっても良く、その形式は問わない。 The search formula may be, for example, two or more conditions such as keywords or patent classification codes combined with a logical operator (for example, AND or OR). The search formula may also be a combination of multiple search formulas (combined with logical operators), and the format is not important.
受付部72aは、例えば、特許情報に加えて、検索式も受け付ける。
The
検索式受付部722は、検索式を受け付ける。検索式受付部722は、通常、ユーザ端末4から検索式を受信する。ただし、検索式は、例えば、分類情報決定装置7a内のキーボード等の入力デバイスを介して受け付けられてもよく、その受け付けの態様は問わない。
The search formula receiving unit 722 receives a search formula. The search formula receiving unit 722 typically receives the search formula from the
処理部73aは、予測部731等の処理に加えて、例えば、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、および検索部732の処理をさらに行う。なお、特許明細書取得部131、重要情報取得部132、および分類対象加工情報取得部233は、実施の形態1のものと同様の動作を行う。
In addition to the processing of the
検索部732は、検索式受付部722が受け付けた検索式を用いて検索を行い、検索結果を取得する。検索の対象は、例えば、格納部71内の1以上の特許情報であるが、サーバ装置3内の1以上の特許情報でも良い。検索結果は、検索対象である1以上の特許情報のうち、検索式が示す検索条件を満たす1または2以上の特許情報である。なお、検索結果は、1または2以上の特許情報に対応する1または2以上の特許識別子でもよい。
The
ユーザ端末4を構成するユーザ受付部41は、各種の情報を受け付ける。各種の情報とは、例えば、前述した検索式である。ユーザ受付部41の受け付けは、通常、ユーザ端末4内でのキーボード等の入力デバイスを介した受け付けである。ただし、受け付けは、例えば、記録媒体からの読み出し、外部の装置からの受信等でもよく、その態様は問わない。なお、かかる事項は、検索式受付部411による検索式の受け付けにも当てはまる。
The
検索式受付部411は、検索式を受け付ける。 The search query reception unit 411 receives a search query.
ユーザ処理部42は、各種の処理を行う。各種の処理とは、例えば、ユーザ受付部41が検索式等の情報を受け付けたか否かの判断、受け付けられた情報の送信される情報への変換などであるが、その種類は問わない。
The
ユーザ送信部43は、各種の情報を送信する。各種の情報とは、例えば、検索式である。ユーザ送信部43は、例えば、ユーザ受付部41が受け付けた検索式を分類情報決定装置7aに送信する。
The user transmission unit 43 transmits various types of information. The various types of information are, for example, search expressions. The user transmission unit 43 transmits, for example, the search expressions accepted by the
ユーザ受信部44は、各種の情報を受信する。各種の情報とは、例えば、検索式である。ユーザ受信部44は、例えば、ユーザ送信部43による検索式の送信に応じて、検索結果を分類情報決定装置7aから受信する。
The
ユーザ出力部45は、各種の情報を出力する。各種の情報とは、例えば、検索結果である。ユーザ出力部45は、検索結果等の情報を、例えば、ディスプレイに表示したり、記録媒体に蓄積したりする。ただし、検索結果等の情報は、例えば、他のプログラムに引き渡された、他の装置に送信されたりしてもよく、その出力態様は問わない。 The user output unit 45 outputs various information. For example, the various information is search results. The user output unit 45 displays the search results and other information on a display or stores them in a recording medium, for example. However, the search results and other information may be handed over to another program or sent to another device, and the output format is not important.
検索式受付部411、およびユーザ受付部41は、キーボードやタッチパネル等の入力デバイスを含むと考えても、含まないと考えてもよい。検索式受付部411等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。
The search expression receiving unit 411 and the
ユーザ送信部43、およびユーザ受信部44は、通常、無線または有線の通信手段等で実現され得る。
The user transmitting unit 43 and the
検索部732、およびユーザ処理部42等は、通常、MPUやメモリ等から実現され得る。処理部73a等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The
なお、特許分類システムEの動作は、実施の形態4において図23および図24のフローチャートを用いて説明したものと同様である。
The operation of patent classification system E is the same as that described in
以下、本実施の形態における特許分類システムEの具体的な動作例について説明する。 Below, we will explain a specific example of the operation of patent classification system E in this embodiment.
アルゴリズム決定装置5は、実施の形態2で説明したように、予測処理を行うための適切な処理を決定する。学習器生産装置6は、実施の形態2で説明したように、学習元情報を用いて、機械学習の学習処理であり、アルゴリズム決定装置5の決定に従う学習処理を行い、学習器を取得する。学習器生産装置6は、当該取得した学習器と、当該学習器を取得する際に使用した学習元情報とを分類情報決定装置7aに引き渡す。本例では、100個の特許分類情報を有する学習元情報を用いて学習器が取得され、当該学習器が当該学習元情報と共に引き渡されたとする。
As described in the second embodiment, the
分類情報決定装置7aにおいて、処理部73aは、上記学習器の引き渡しを受け、学習器格納部711に蓄積する。また、処理部73aは、上記学習元情報の引き渡しを受け、当該学習元情報に対応する2以上(本例では、学習器の取得の際に使用された90個の特許分類情報11~100に対応する90個)の条件情報を取得し、条件情報格納部712に蓄積する。
In the classification information determination device 7a, the
これにより、学習器格納部711には、学習器生産装置6が、上記学習元情報のうち、90個の特許分類情報11~100を用いて取得した学習器が格納される。また、条件情報格納部712には、例えば、図27に示すような、2以上の条件情報(条件情報1~3等)が格納される。
As a result, the learning
図27は、本実施の形態における条件情報のデータ構造図である。条件情報は、検索式と分類情報とを有する。条件情報格納部712に格納される2以上の各条件情報は、ID(例えば、“1”,“2”等)に対応付いている。例えば、ID“1”に対応付いた条件情報1は、検索式“「発明の名称」に「機械学習」を含む”と分類情報“A”とを有する。また、ID“2”に対応付いた条件情報2は、検索式“「機械学習」and「自然言語処理」”と分類情報“B”とを有する。同様に、条件情報3は、検索式“「H06 aa/aa」or「G06 bb/bb」or・・・”と分類情報“C”とを有する。
Figure 27 is a data structure diagram of condition information in this embodiment. Condition information has a search formula and classification information. Two or more pieces of condition information stored in the condition
ユーザは、ユーザ端末4の入力デバイスを介して、1以上の特許情報を入力する。ここで入力される特許情は、公開番号等の特許識別子である。例えば、前述した学習元情報が有する100個の特許分類情報1~100のうち、10個の特許分類情報1~10に対応する10個の特許識別子が入力されたとする。
The user inputs one or more pieces of patent information via the input device of the
ユーザ端末4において、ユーザ受付部41が、上記入力された10個の特許識別子を受け付け、ユーザ送信部43は、当該受け付けられた10個の特許識別子を分類情報決定装置7aに送信する。
In the
分類情報決定装置7aにおいて、特許情報受付部721が上記送信された10個の特許識別子を受信し、出力部74は、当該受け付けられた10個の特許情識別子を含む要求をサーバ装置3に送信し、特許情報受付部721は、当該送信された10個の特許情識別子に対応する10個の特許情報をサーバ装置3から受信する。予測部731は、当該受信された10個の特許情報ごとに、当該特許情報の分類情報を特定する予測分類情報を取得する予測分類情報取得処理を実行する。
In the classification information determination device 7a, the patent
すなわち、予測部731を構成する判断手段7311は、まず、特許分類情報1に対応する1番目の特許情報について、当該特許情報が、条件情報格納部712に格納されている2以上の条件情報1~3等に対応する2以上の条件のうちの、いずれかの条件に合致するか否かを判断する。ここでは、当該特許情報は、いずれの条件にも合致しないと判断されたとする。
That is, the judgment means 7311 constituting the
いずれの条件にも合致しないとの上記判断結果を受け、第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、1番目の特許情報の分類情報を、機械学習の予測処理により取得する。本例では、分類情報“A”が取得されたとする。これにより、1番目の特許情報の予測分類情報として、学習器による分類情報“A”が取得される。
In response to the above determination result that none of the conditions are met, the second determination means 7313 uses the learning device stored in the learning
特許分類情報2~9についても同様に、いずれの条件にも合致しないと判断され、学習器による予測分類情報(例えば、特許分類情報2について予測分類情報“A”など)が取得される。これにより、2番目~9番目の各特許情報の予測分類情報として、学習器による予測分類情報“A”,“A”・・・が取得される。
Similarly,
次に、判断手段7311は、特許分類情報10に対応する10番目の特許情報について、当該特許情報が、上記2以上の条件のうちのいずれかの条件に合致するか否かを判断する。当該条件情報は、条件情報3に対応する3番目の条件に合致すると判断されたとする。
Next, the judgment means 7311 judges whether the tenth patent information corresponding to patent classification information 10 satisfies any of the two or more conditions described above. It is assumed that the condition information is judged to satisfy the third condition corresponding to condition
3番目の条件に合致するとの上記判断結果を受け、第一決定手段7312は、条件情報格納部712に格納されている10個の条件情報に対応する3以上の条件のうち3番目の条件である検索式“「H06 aa/aa」or「G06 bb/bb」or・・・”、と対になる分類情報“C”を取得する。これにより、10番目の特許情報の予測分類情報として、特許分類情報10を構成する分類情報“C”が取得される。
In response to the above judgment result that the third condition is met, the first determination means 7312 acquires classification information "C" that pairs with the search expression "H06 aa/aa" or "G06 bb/bb" or...", which is the third condition out of the three or more conditions corresponding to the ten pieces of condition information stored in the condition
出力部74は、こうして、10個の各特許情報ごとに取得された分類情報を、当該特許情報に対応付けて、ユーザ端末4に送信する。これにより、特許情報と分類情報との組である10個の組情報が送信される。
The
ユーザ端末4において、ユーザ受信部44が、上記送信された10個の組情報を受信し、ユーザ出力部45は、当該受信された10個の組情報を、ディスプレイを介して出力する。なお、出力される組情報は、受信された組情報と同じでなくてもよい。例えば、出力される組情報を構成する特許情報は、受信された組情報を構成する特許情報の一部(例えば、特許識別子と要約書など)でもよい。
In the
これにより、ユーザ端末4のディスプレイに、特許情報と分類情報との組が10組、表示される。
As a result, 10 pairs of patent information and classification information are displayed on the display of the
以上、本実施の形態によれば、学習器生産装置6が、特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、機械学習の学習処理を行い、学習器を取得し、学習器格納部711に、当該取得された学習器が格納される。条件情報格納部712には、特許に関する一の条件と分類情報との組である1以上の条件情報が格納される。分類情報決定装置7aは、1以上の特許情報を受け付け、1以上の条件情報を用いて、1以上の各特許情報の分類情報を特定する予測分類情報を取得し、予測分類情報を出力する。
As described above, according to this embodiment, the learning
予測分類情報を取得する際、分類情報決定装置7aは、1以上の各特許情報が、1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断し、合致すると判断した条件と対になる分類情報を決定する一方、学習器を用いて、いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得することにより、特許を精度高く分類できる。 When obtaining predicted classification information, the classification information determination device 7a determines whether or not one or more pieces of patent information match any of the conditions contained in one or more pieces of condition information, and determines classification information that pairs with the condition that is determined to match, while using a learning device to obtain classification information for patent information that is determined not to match any of the conditions through machine learning prediction processing, thereby enabling patents to be classified with high accuracy.
また、上記構成において、一の条件は検索式であることであることにより、検索式に合致する特許を精度高く分類でき、検索式に合致しない特許をも、機械学習の学習器を用いた予測処理により精度高く分類できる。 In addition, in the above configuration, one condition is a search formula, so that patents that match the search formula can be classified with high accuracy, and patents that do not match the search formula can also be classified with high accuracy through prediction processing using a machine learning learner.
また、アルゴリズム決定装置5が、予測処理を行うための適切な処理を決定し、学習器生産装置6は、その決定に従ったアルゴリズムで学習処理を行うことにより、適切な学習器が生産される結果、特許を精度高く分類できる。
In addition, the
なお、本実施の形態における分類情報決定装置7aを実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、特許情報と当該特許情報の分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、機械学習の学習処理を行い、取得された学習器が格納される学習器格納部711、および特許に関する一の条件と特許情報の分類情報との組である1以上の条件情報が格納される条件情報格納部712にアクセス可能なコンピュータを、1以上の特許情報を受け付ける特許情報受付部721と、前記1以上の条件情報を用いて、前記1以上の各特許情報の分類情報を特定する予測分類情報を取得する予測部731と、前記予測分類情報を出力する出力部として機能させ、前記予測部731は、前記1以上の各特許情報が、前記1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断する判断手段7311と、前記判断手段7311が合致すると判断した条件と対になる分類情報を決定する第一決定手段7312と、前記学習器を用いて、前記判断手段7311が前記いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得する第二決定手段7313とを具備するプログラムである。
The software for realizing the classification information determination device 7a in this embodiment is, for example, a program as follows. That is, this program performs machine learning learning processing using learning source information having two or more patent classification information having patent information and classification information of the patent information, and includes a computer that can access a learning
また、図28は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の特許分類装置2等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図28は、このコンピュータシステム300の概観図であり、図29は、システム300のブロック図である。なお、図28、図29は、エンゲージメントシステムを実現するコンピュータの外観等を示す図である。
Figure 28 also shows the external appearance of a computer that executes the program described in this specification to realize the
図28において、コンピュータシステム300は、CD-ROMドライブ3012を含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
In FIG. 28,
図29において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
In FIG. 29, in addition to a CD-
コンピュータシステム300に、上述した各実施の形態の学習器生産装置1、特許分類装置2、アルゴリズム決定装置5、分類情報決定装置7等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
Programs that cause the
プログラムは、コンピュータ301に、上述した実施の形態の学習器生産装置1、特許分類装置2、アルゴリズム決定装置5等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
The program does not necessarily have to include an operating system (OS) or third-party programs that cause the
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。 In the above program, the steps of transmitting information and receiving information do not include processing performed by hardware, such as processing performed by a modem or interface card in the transmission step (processing that is performed only by hardware).
また、上記プログラムを実行するコンピュータは、単数であっても良く、複数であっても良い。すなわち、集中処理を行っても良く、あるいは分散処理を行っても良い。 The program may be executed by a single computer or multiple computers. In other words, the program may be executed by centralized processing or distributed processing.
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。 Furthermore, in each of the above embodiments, it goes without saying that two or more communication means present in one device may be realized physically by one medium.
また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されても良く、あるいは、複数の装置によって分散処理されることによって実現されても良い。つまり、学習器生産装置1、特許分類装置2、アルゴリズム決定装置5は、スタンドアロンで動作しても良い。学習器生産装置1、特許分類装置2、アルゴリズム決定装置5がスタンドアロンで動作する場合、受付部は、ユーザ等から指示や情報等を受け付ける。また、出力部は、情報等を表示、音出力、表示装置へ送信したりする。
In addition, in each of the above embodiments, each process may be realized by centralized processing by a single device, or may be realized by distributed processing by multiple devices. In other words, the learning
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 The present invention is not limited to the above-described embodiment, and various modifications are possible, and it goes without saying that these are also included within the scope of the present invention.
以上のように、本発明にかかる特許分類システムは、適切なアルゴリズムを用いて予測処理を行うことにより、特許を精度高く分類できるという効果を有し、特許分類システム等として有用である。 As described above, the patent classification system of the present invention has the effect of classifying patents with high accuracy by performing predictive processing using an appropriate algorithm, and is useful as a patent classification system, etc.
また、本発明にかかる特許分類システムは、特許明細書に関する重要な情報を用いることにより、特許を精度高く分類できるという効果を有し、特許分類システム等として有用である。 In addition, the patent classification system of the present invention has the effect of being able to classify patents with high accuracy by using important information related to patent specifications, and is useful as a patent classification system, etc.
また、本発明にかかる分類情報決定装置は、予め決められた条件に合致する特許情報と合致しない特許情報とで、異なる決定方法を用いて予測分類情報を取得することにより、特許を精度高く分類できるという効果を有し、分類情報決定装置等として有用である。 The classification information determination device of the present invention has the effect of being able to classify patents with high accuracy by obtaining predicted classification information using different determination methods for patent information that meets predetermined conditions and patent information that does not, and is useful as a classification information determination device, etc.
1、6 学習器生産装置
2、8 特許分類装置
3 サーバ装置
4 ユーザ端末
5 アルゴリズム決定装置
7、7a 分類情報決定装置
11、61 学習格納部
12、62 学習受付部
13 学習処理部
14、64 学習出力部
21、51、71 格納部
22、52、72、81 受付部
23、53、73、73a、82 処理部
24、54、74 出力部
41 ユーザ受付部
42 ユーザ処理部
43 ユーザ送信部
44 ユーザ受信部
45 ユーザ出力部
111 人手評価情報格納部
131 特許明細書取得部
132 重要情報取得部
133、535 学習元情報取得部
134、531 学習部
141、641 蓄積部
211、711 学習器格納部
233 分類対象加工情報取得部
234、532、731、821 予測部
421、732 検索部
511 プログラム格納部
512 精度特定情報格納部
521、621 学習元情報受付部
531 学習器
533 評価部
534 アルゴリズム情報取得部
536 統計処理部
621 学習元情報学習受付部
712 条件情報格納部
721 特許情報受付部
1321 効果解決手段文取得手段
1322 効果文取得手段
1323 解決手段文取得手段
1324 目的文取得手段
1325 特徴語取得手段
1326 関連語取得手段
1327 重要タグ対応文取得手段
1328 数値範囲文字列取得手段
1329 数字取得手段
7311 判断手段
7312 第一決定手段
7313 第二決定手段
1, 6 Learning device production device 2, 8 Patent classification device 3 Server device 4 User terminal 5 Algorithm determination device 7, 7a Classification information determination device 11, 61 Learning storage unit 12, 62 Learning reception unit 13 Learning processing unit 14, 64 Learning output unit 21, 51, 71 Storage unit 22, 52, 72, 81 Reception unit 23, 53, 73, 73a, 82 Processing unit 24, 54, 74 Output unit 41 User reception unit 42 User processing unit 43 User transmission unit 44 User reception unit 45 User output unit 111 Manual evaluation information storage unit 131 Patent specification acquisition unit 132 Important information acquisition unit 133, 535 Learning source information acquisition unit 134, 531 Learning unit 141, 641 Accumulation unit 211, 711 Learning device storage unit 233 Classification target processing information acquisition unit 234, 532, 731, 821 Prediction unit 421, 732 Search unit 511 Program storage unit 512 Precision specification information storage unit 521, 621 Learning source information reception unit 531 Learning device 533 Evaluation unit 534 Algorithm information acquisition unit 536 Statistical processing unit 621 Learning source information learning reception unit 712 Condition information storage unit 721 Patent information reception unit 1321 Effect solution means sentence acquisition means 1322 Effect sentence acquisition means 1323 Solution means sentence acquisition means 1324 Object sentence acquisition means 1325 Feature word acquisition means 1326 Related word acquisition means 1327 Important tag corresponding sentence acquisition means 1328 Numeric range character string acquisition means 1329 Number acquisition means 7311 Judgment means 7312 First determination means 7313 Second determining means
Claims (15)
一の学習元情報を受け付ける学習元情報受付部と、
前記学習元情報受付部が受け付けた前記学習元情報が有する2以上の各特許分類情報が有する特許情報のうち、異なる情報を有する2以上の特許分類情報を各々有する2以上の学習元情報を取得する学習元情報取得部と、
前記学習元情報取得部が取得した2以上の各学習元情報に対して、前記1または2以上の各学習器生成プログラムを実行し、2以上の学習器を取得する学習部と、
前記学習元情報受付部が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、前記学習部が生成した2以上の各学習器を用いて、1または2以上の各予測プログラムを適用し、前記1以上の各特許分類情報に対する2以上の予測分類情報を取得する予測部と、
前記予測部が取得した2以上の各予測分類情報と、前記学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、当該精度情報が特定する精度が最も高い予測分類情報を決定する評価部と、
前記評価部が決定した予測分類情報に対応する学習元情報が有する情報を特定する情報特定情報を含む情報であり、アルゴリズムに関する情報であるアルゴリズム情報を取得するアルゴリズム情報取得部と、
前記アルゴリズム情報を出力する出力部とを具備するアルゴリズム決定装置。 a program storage unit storing one or more learning device generation programs for generating a learning device for classifying patent information relating to a patent using learning source information having two or more patent classification information including patent information relating to a patent and classification information indicating a classification for the patent information, and one or more prediction programs for predicting a classification of the patent classification information using the learning device and acquiring predicted classification information;
a learning source information receiving unit that receives one piece of learning source information;
a learning source information acquisition unit that acquires two or more pieces of learning source information each having two or more pieces of patent classification information having different information from the patent information included in the two or more pieces of patent classification information included in the learning source information accepted by the learning source information acceptance unit;
a learning unit that executes the one or more learning device generation programs for each of the two or more pieces of learning device information acquired by the learning device information acquisition unit , and acquires two or more learning devices;
a prediction unit that applies one or more prediction programs to at least a portion of each of the patent classification information of the learning source information received by the learning source information receiving unit, using two or more learning devices generated by the learning unit, to obtain two or more predicted classification information for each of the one or more patent classification information;
an evaluation unit that uses each of the two or more pieces of predicted classification information acquired by the prediction unit and classification information included in the learning source information to acquire accuracy information regarding the accuracy of each of the two or more pieces of predicted classification information, and determines the predicted classification information having the highest accuracy specified by the accuracy information;
an algorithm information acquisition unit that acquires algorithm information , which is information about an algorithm, including information specifying information that specifies information included in the learning source information corresponding to the predicted classification information determined by the evaluation unit;
and an output unit that outputs the algorithm information.
前記評価部は、
前記予測部が取得した2以上の予測分類情報に代えて、または前記予測部が取得した2以上の各予測分類情報に加えて、前記統計処理部が取得した1以上の予測分類情報を含む2以上の各予測分類情報と、前記学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、当該精度情報が特定する精度が最も高い予測分類情報を決定し、
前記アルゴリズム情報取得部は、
前記評価部が決定した予測分類情報に対応する統計処理の方法を特定する統計処理特定情報を含むアルゴリズム情報を取得する請求項1記載のアルゴリズム決定装置。 The method further includes a statistical processing unit that performs one or more types of statistical processing using the two or more pieces of predicted classification information acquired by the prediction unit, and acquires one or more pieces of predicted classification information as a result of the statistical processing,
The evaluation unit is
acquiring accuracy information regarding accuracy of each of the two or more pieces of predicted classification information using, instead of or in addition to the two or more pieces of predicted classification information acquired by the prediction unit, each of the two or more pieces of predicted classification information including the one or more pieces of predicted classification information acquired by the statistical processing unit and classification information included in the learning source information, and determining the predicted classification information having the highest accuracy specified by the accuracy information;
The algorithm information acquisition unit
The algorithm determination device according to claim 1 , further comprising: acquiring algorithm information including statistical processing specification information that specifies a statistical processing method corresponding to the predicted classification information determined by the evaluation unit.
前記評価部は、
前記予測部が取得した2以上の各予測分類情報と、前記学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の、精度特定情報により特定される精度情報を取得し、当該精度情報が特定する精度が最も高い予測分類情報を決定する請求項1または請求項2記載のアルゴリズム決定装置。 The method further includes an accuracy specification information storage unit in which accuracy specification information is stored, the accuracy specification information specifying which of two or more of the four accuracies, namely, recall rate, precision rate, F-value, or accuracy rate, accuracy information is to be acquired;
The evaluation unit is
3. The algorithm determination device according to claim 1, further comprising: a prediction unit that uses each of two or more pieces of predicted classification information acquired by the prediction unit and classification information contained in the learning source information to obtain accuracy information for each of the two or more pieces of predicted classification information, the accuracy information being specified by accuracy specifying information; and a prediction classification information having the highest accuracy specified by the accuracy information is determined.
学習元情報を受け付ける学習元情報受付部と、
前記アルゴリズム決定装置が取得したアルゴリズム情報に従ったアルゴリズムで、前記学習元情報受付部が受け付けた学習元情報に対して、学習処理を行い学習器を取得する学習部と、
前記学習器を前記アルゴリズム情報に対応付けて蓄積する蓄積部とを具備する学習器の生産装置。 An algorithm determination device according to any one of claims 1 to 3;
A learning source information receiving unit that receives learning source information;
a learning unit that performs a learning process on the learning source information received by the learning source information receiving unit using an algorithm according to the algorithm information acquired by the algorithm determination device to acquire a learning device;
and a storage unit that stores the learning device in association with the algorithm information.
分類対象の特許を識別する特許識別子を含む分類対象情報を受け付ける受付部と、
前記分類対象情報に対して、前記生産装置が蓄積した学習器に対応付いているアルゴリズム情報に従ったアルゴリズムにより、前記学習器を用いて予測処理を行い、分類結果情報を取得する予測部と、
前記予測部が取得した分類結果情報を、前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する出力部とを具備する特許分類装置。 The production device according to claim 4 ,
A receiving unit that receives classification target information including a patent identifier that identifies a patent to be classified;
a prediction unit that performs a prediction process on the classification target information using a learning device according to an algorithm in accordance with algorithm information associated with a learning device stored by the production device , and acquires classification result information;
A patent classification device comprising: an output unit that outputs the classification result information acquired by the prediction unit in correspondence with the patent identifier contained in the classification target information accepted by the acceptance unit.
前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応する情報であり、前記重要情報取得部が取得した重要情報を含む情報である分類対象加工情報を取得する分類対象加工情報取得部とをさらに具備し、
前記予測部は、
前記分類対象加工情報取得部が取得した分類対象加工情報に前記学習器に適用し、機械学習のアルゴリズムにより当該分類対象加工情報の分類を予測し、分類結果情報を取得する請求項5記載の特許分類装置。 an important information acquisition unit that acquires important information that satisfies a predetermined condition by using a patent specification corresponding to a patent identifier included in the classification target information received by the reception unit;
a classification target processing information acquisition unit that acquires classification target processing information, which is information corresponding to a patent identifier included in the classification target information received by the reception unit and includes the important information acquired by the important information acquisition unit;
The prediction unit is
A patent classification device as described in claim 5, wherein the learning device is applied to the classification target processed information acquired by the classification target processed information acquisition unit, the classification of the classification target processed information is predicted using a machine learning algorithm, and classification result information is acquired.
特許に関する一の条件と特許情報の分類情報との組である1以上の条件情報が格納される条件情報格納部と、
1以上の特許情報を受け付ける特許情報受付部と、
前記1以上の条件情報を用いて、前記1以上の各特許情報の分類情報を特定する予測分類情報を取得する予測部と、
前記予測分類情報を出力する出力部とを具備し、
前記予測部は、
前記1以上の各特許情報が、前記1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断する判断手段と、
前記判断手段が合致すると判断した条件と対になる分類情報を決定する第一決定手段と、
前記学習器を用いて、前記判断手段が前記いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得する第二決定手段とを具備する分類情報決定装置。 a learning module storage unit that performs a machine learning learning process using learning source information having two or more pieces of patent classification information each having patent information and classification information of the patent information, and stores the acquired learning module;
a condition information storage unit for storing one or more pieces of condition information each of which is a combination of a condition related to a patent and classification information of patent information;
a patent information receiving unit that receives one or more pieces of patent information;
a prediction unit that obtains predicted classification information that identifies classification information of each of the one or more pieces of patent information using the one or more pieces of condition information;
an output unit that outputs the predicted classification information,
The prediction unit is
A determination means for determining whether or not each of the one or more patent information matches any of the conditions contained in each of the one or more condition information;
a first determination means for determining classification information that is paired with the condition that is determined to be met by the determination means;
A classification information determination device comprising: a second determination means for obtaining classification information of patent information that the judgment means determines does not meet any of the conditions using the learning device, through machine learning prediction processing.
前記アルゴリズム決定装置が行う各ステップを具備するアルゴリズム決定方法。 An algorithm determination method implemented by the algorithm determination device according to any one of claims 1 to 3, comprising :
An algorithm determination method comprising the steps performed by the algorithm determination device .
前記生産装置が行う各ステップを具備する学習器の生産方法。 A method for producing a learning device implemented by the production device according to claim 4, comprising the steps of :
A method for producing a learning device comprising the steps performed by the production device .
前記特許分類装置が行う各ステップを具備する特許分類方法。 A patent classification method implemented by the patent classification device according to claim 5 or 6, comprising :
A patent classification method comprising the steps performed by the patent classification device .
前記特許情報受付部が、1以上の特許情報を受け付ける特許情報受付ステップと、
前記予測部が、前記1以上の条件情報を用いて、前記1以上の各特許情報の分類情報を特定する予測分類情報を取得する予測ステップと、
前記出力部が、前記予測分類情報を出力する出力ステップとを具備し、
前記予測部は、
前記1以上の各特許情報が、前記1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断する判断手段と、
前記判断手段が合致すると判断した条件と対になる分類情報を決定する第一決定手段と、
前記学習器を用いて、前記判断手段が前記いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得する第二決定手段とを具備する分類情報決定方法。 A classification information determination method that performs machine learning learning processing using learning source information having two or more patent classification information having patent information and classification information of the patent information, and is realized by a learning device storage unit in which an acquired learning device is stored, a condition information storage unit in which one or more condition information, which is a combination of one condition related to a patent and classification information of the patent information, a patent information receiving unit, a prediction unit, and an output unit,
a patent information receiving step in which the patent information receiving unit receives one or more pieces of patent information;
a prediction step in which the prediction unit obtains predicted classification information that identifies classification information of each of the one or more pieces of patent information by using the one or more pieces of condition information;
an output step in which the output unit outputs the predicted classification information;
The prediction unit is
A determination means for determining whether or not each of the one or more patent information matches any of the conditions contained in each of the one or more condition information;
a first determination means for determining classification information that is paired with the condition that is determined to be met by the determination means;
A classification information determination method comprising: a second determination means for obtaining classification information of patent information that the judgment means determines does not meet any of the conditions using the learning device, through machine learning prediction processing.
請求項1から請求項3いずれか一項に記載のアルゴリズム決定装置が行うすべての処理を実行させるためのプログラム。 On the computer,
A program for executing all the processes performed by the algorithm determination device according to any one of claims 1 to 3 .
請求項4記載の学習器の生産装置が行うすべての処理を実行させるためのプログラム。 On the computer,
A program for executing all the processes performed by the learning device production device according to claim 4 .
請求項5または請求項6記載の特許分類装置が行うすべての処理を実行させるためのプログラム。 On the computer,
A program for executing all the processes performed by the patent classification device according to claim 5 or 6 .
1以上の特許情報を受け付ける特許情報受付部と、
前記1以上の条件情報を用いて、前記1以上の各特許情報の分類情報を特定する予測分類情報を取得する予測部と、
前記予測分類情報を出力する出力部として機能させ、
前記予測部は、
前記1以上の各特許情報が、前記1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断する判断手段と、
前記判断手段が合致すると判断した条件と対になる分類情報を決定する第一決定手段と、
前記学習器を用いて、前記判断手段が前記いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得する第二決定手段とを具備するプログラム。 A computer that performs machine learning learning processing using learning source information having two or more patent classification information having patent information and classification information of the patent information, and that can access a learning device storage unit in which the acquired learning device is stored, and a condition information storage unit in which one or more condition information, which is a combination of one condition related to a patent and classification information of the patent information,
a patent information receiving unit that receives one or more pieces of patent information;
a prediction unit that obtains predicted classification information that identifies classification information of each of the one or more pieces of patent information using the one or more pieces of condition information;
an output unit that outputs the predicted classification information;
The prediction unit is
A determination means for determining whether or not each of the one or more patent information matches any of the conditions contained in each of the one or more condition information;
a first determination means for determining classification information that is paired with the condition that is determined to be met by the determination means;
A program comprising: a second determination means for using the learning device to obtain classification information of patent information that the judgment means has determined does not meet any of the conditions through machine learning prediction processing.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024228001A JP2025041841A (en) | 2019-08-22 | 2024-12-24 | Algorithm determination device, learning device production device, patent classification device, classification information determination device, algorithm determination method, learning device production method, classification information determination method, and program |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019151888 | 2019-08-22 | ||
| JP2019151888 | 2019-08-22 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024228001A Division JP2025041841A (en) | 2019-08-22 | 2024-12-24 | Algorithm determination device, learning device production device, patent classification device, classification information determination device, algorithm determination method, learning device production method, classification information determination method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021036427A JP2021036427A (en) | 2021-03-04 |
| JP7620866B2 true JP7620866B2 (en) | 2025-01-24 |
Family
ID=74716353
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020139102A Active JP7620866B2 (en) | 2019-08-22 | 2020-08-20 | Algorithm determination device, learning device production device, patent classification device, classification information determination device, algorithm determination method, learning device production method, classification information determination method, and program |
| JP2024228001A Pending JP2025041841A (en) | 2019-08-22 | 2024-12-24 | Algorithm determination device, learning device production device, patent classification device, classification information determination device, algorithm determination method, learning device production method, classification information determination method, and program |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024228001A Pending JP2025041841A (en) | 2019-08-22 | 2024-12-24 | Algorithm determination device, learning device production device, patent classification device, classification information determination device, algorithm determination method, learning device production method, classification information determination method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (2) | JP7620866B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102850274B1 (en) * | 2021-12-28 | 2025-08-27 | (주)윕스 | A method for automatically classifying the patent documents and an apparatus thereof |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018026119A (en) | 2016-07-29 | 2018-02-15 | 株式会社野村総合研究所 | Classification system, classification system control method, and program |
| JP2018190127A (en) | 2017-05-01 | 2018-11-29 | 日本電信電話株式会社 | Determination apparatus, analysis system, determination method, and determination program |
| JP2018190131A (en) | 2017-05-01 | 2018-11-29 | 日本電信電話株式会社 | SPECIFIC DEVICE, ANALYSIS SYSTEM, SPECIFICATION METHOD, AND SPECIFIC PROGRAM |
| JP2019087006A (en) | 2017-11-07 | 2019-06-06 | 株式会社アイ・アール・ディー | Patent information processing apparatus, patent information processing method, and program |
| JP2019128796A (en) | 2018-01-24 | 2019-08-01 | ヤフー株式会社 | Display program, display method, and display device |
-
2020
- 2020-08-20 JP JP2020139102A patent/JP7620866B2/en active Active
-
2024
- 2024-12-24 JP JP2024228001A patent/JP2025041841A/en active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018026119A (en) | 2016-07-29 | 2018-02-15 | 株式会社野村総合研究所 | Classification system, classification system control method, and program |
| JP2018190127A (en) | 2017-05-01 | 2018-11-29 | 日本電信電話株式会社 | Determination apparatus, analysis system, determination method, and determination program |
| JP2018190131A (en) | 2017-05-01 | 2018-11-29 | 日本電信電話株式会社 | SPECIFIC DEVICE, ANALYSIS SYSTEM, SPECIFICATION METHOD, AND SPECIFIC PROGRAM |
| JP2019087006A (en) | 2017-11-07 | 2019-06-06 | 株式会社アイ・アール・ディー | Patent information processing apparatus, patent information processing method, and program |
| JP2019128796A (en) | 2018-01-24 | 2019-08-01 | ヤフー株式会社 | Display program, display method, and display device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021036427A (en) | 2021-03-04 |
| JP2025041841A (en) | 2025-03-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12007988B2 (en) | Interactive assistance for executing natural language queries to data sets | |
| US20180225363A1 (en) | System and Methods for Automating Trademark and Service Mark Searches | |
| CN108920467A (en) | Polysemant lexical study method and device, search result display methods | |
| EP3539018A1 (en) | Apparatus and method for semantic search | |
| CN119149704A (en) | File information resource intelligent sharing method and system based on AI | |
| CN103838735A (en) | Data retrieval method for improving retrieval efficiency and quality | |
| CN111144120A (en) | Training sentence acquisition method and device, storage medium and electronic equipment | |
| CN108319583B (en) | Method and system for extracting knowledge from Chinese language material library | |
| CN112989208A (en) | Information recommendation method and device, electronic equipment and storage medium | |
| US20200409951A1 (en) | Intelligence Augmentation System for Data Analysis and Decision Making | |
| TW202349325A (en) | A system of semantic analysis-based trademark class recommendation and the method thereof | |
| CN114077661A (en) | Information processing apparatus, information processing method, and computer readable medium | |
| CN111753199B (en) | User portrait construction method and device, electronic device and medium | |
| CN110826321A (en) | Contract file risk checking method and device, computer equipment and storage medium | |
| JP2025041841A (en) | Algorithm determination device, learning device production device, patent classification device, classification information determination device, algorithm determination method, learning device production method, classification information determination method, and program | |
| WO2020262183A1 (en) | Information processing device, information processing method, and program | |
| CN114945907A (en) | Method for image search and image indexing, and electronic device | |
| Tonellotto | Lecture notes on neural information retrieval | |
| CN114328860A (en) | Interactive consultation method and device based on multi-model matching and electronic equipment | |
| JP6303148B2 (en) | Document feature extraction device, document feature extraction method, document classification device, document classification method, document search device, document search method, computer program, and recording medium on which computer program is recorded | |
| JP5362807B2 (en) | Document ranking method and apparatus | |
| US12475112B2 (en) | Generating hierarchical queries from natural language | |
| CN118885646A (en) | Database retrieval method, device, electronic device and medium | |
| CN118035422A (en) | Method, system, electronic equipment and storage medium for replying trade commodity classification questions | |
| Inje et al. | Document retrieval using clustering-based Aquila hash-Q optimization with query expansion based on pseudo relevance feedback |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230605 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240430 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240604 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240802 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241203 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241226 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7620866 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |