以下、アルゴリズム決定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、特許明細書から重要情報を取得し、特許明細書の全文は含まず、重要情報と人手分類とを有する1以上の特許レコードを有する学習元情報を機械学習のアルゴリズムにより取得された学習器を用いて、特許情報を分類する特許分類装置を含む特許分類システムについて説明する。
また、本実施の形態において、特許請求の範囲または/および要約書をも含む特許レコードを有する学習元情報を機械学習のアルゴリズムにより取得された学習器を用いて、特許情報を分類する特許分類装置を含む特許分類システムについて説明する。
なお、本実施の形態において、重要情報は、効果解決手段文、効果文、解決手段文、目的文、効果用語、解決手段用語、目的用語、特徴語、特徴語の関連語(上位語、下位語、同義語、予め決められたタグに対応する文、当該文に含まれる用語、数値範囲を示す文字列、当該範囲に含まれる数字等である。
また、本実施の形態において、外部のサーバ装置から特許明細書を取得し、当該特許明細書から重要情報を取得する特許分類装置を含む特許分類システムについて説明する。
さらに、本実施の形態において、学習器の生産装置を含む特許分類システムについて説明する。
図1は、本実施の形態における特許分類システムAの概念図である。特許分類システムAは、学習器生産装置1、特許分類装置2、サーバ装置3、および1以上のユーザ端末4を備える。学習器生産装置1は、学習器を生産する装置である。特許分類装置2は、特許の分類を予測する装置である。サーバ装置3は、特許明細書等を含む特許書類が格納された装置であり、公知の装置である。サーバ装置3は、例えば、商用特許データベースのサーバ(例えば、HYPAT-i2(URL:https://portal.hypatweb.jp/)参照)である。ユーザ端末4は、ユーザが使用する端末である。ユーザ端末4は、例えば、パソコン、スマートフォン、タブレット端末等、問わない。
図2は、本実施の形態における特許分類システムAのブロック図である。図3は、特許分類システムAを構成する学習器生産装置1のブロック図である。
特許分類システムAを構成する学習器生産装置1は、学習格納部11、学習受付部12、学習処理部13、および学習出力部14を備える。学習格納部11は、人手評価情報格納部111を備える。学習処理部13は、特許明細書取得部131、重要情報取得部132、学習元情報取得部133、および学習部134を備える。重要情報取得部132は、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、および数字取得手段1329を備える。学習出力部14は、蓄積部141を備える。
特許分類装置2は、格納部21、受付部22、処理部23、出力部24を備える。格納部21は、学習器格納部211を備える。処理部23は、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、および予測部234を備える。
学習器生産装置1を構成する学習格納部11には、各種の情報が格納される。各種の情報は、例えば、後述する人手評価情報、特許識別子に対応付いた特許明細書、関連語辞書、後述する効果解決手段文パターン等の各種のパターン、各種の重要情報学習器である。
関連語辞書とは、関連語の辞書である。関連語辞書は、例えば、一の用語と関連語の組を多数有する。関連語とは、上位語、下位語、同義語、または類義語である。上位語とは、上位概念の用語である。下位語とは、下位概念の用語である。関連語辞書の構造は問わない、例えば、関連語辞書は、2以上の関連語情報を有する。関連語情報は、例えば、一の用語と、当該一の用語の関連語とを有する。関連語情報は、例えば、一の用語と、当該一の用語の関連語と、フラグである。フラグは、一の用語と、当該一の用語の関連語との関係(例えば、上位語、下位語、同義語、または類義語のうちのいずれか)を特定する情報である。
また、重要情報学習器とは、重要情報であるか否かを判断する学習器である。重要情報学習器には、例えば、後述する効果解決手段文学習器、後述する効果用語学習器、後述する解決手段用語学習器、後述する効果文学習器、後述する解決手段文学習器、後述する目的文学習器、後述する目的用語学習器である。
人手評価情報格納部111は、2以上の人手評価レコードを有する人手評価情報が格納される。人手評価レコードは、一の特許に対する人手による分類結果を特定する分類結果情報を有する情報である。人手評価レコードは、特許識別子と分類結果情報とを有する。なお、人手評価レコードが有する分類結果情報は、人手評価レコードが有する特許識別子で識別される特許の分類の結果を特定する情報である。特許識別子は、特許を識別する情報である。特許識別子、例えば、ID、出願番号、公開番号、登録番号、整理番号等である。分類結果情報は、通常、特許に対する人手による分類結果を特定する情報である。分類結果情報は、例えば、特許の技術分野を特定する情報、特許の関連度合いを特定する情報、特許の重要度を特定する情報等である。分類結果情報は、例えば、「○」「×」、「A」「B」「C」「D」、「1」「2」「3」・・・「9」、社内で用いている社内特有の分類等であり、その情報の種類は問わない。人手評価情報は、例えば、CSVファイル、エクセルファイル等であり、そのデータ構造等は問わない。
人手評価レコードは、特許識別子と分類結果情報以外に、例えば、特許請求の範囲、要約書、特許分類コード(例えば、IPC、FI、Fターム、CPC等)を有することは好適である。また、人手評価レコードは、特許明細書を有しても良い。
学習受付部12は、指示や情報等を受け付ける。指示や情報等は、例えば、学習動作開始指示である。学習動作開始指示は、ここでは、学習器の生産の開始の指示である。学習動作開始指示は、通常、ユーザからの指示である。学習動作開始指示は、例えば、重要情報取得部132が取得する重要情報の種類を特定する種類特定情報を有しても良い。種類特定情報は、学習器の作成のために使用する重要情報の種類を特定する情報である。種類特定情報は、例えば、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、数字取得手段1329のうち、動作させる手段を特定する情報でも良い。また、種類特定情報は、例えば、効果解決手段文、効果文、解決手段文、目的文、効果用語、解決手段用語、目的用語、特徴語、特徴語の関連語(上位語、下位語、同義語)、タグ対応文、タグ対応用語、数値範囲文字列、数値範囲文字列が示す範囲の数字の重要情報のうち、取得する重要情報を特定する情報でも良い。
種類特定情報は、例えば、ベクトルであり、例えば、(効果解決手段文を取得するか否か,効果文を取得するか否か,解決手段文を取得するか否かを取得するか否か,目的文を取得するか否か,効果用語を取得するか否か,解決手段用語を取得するか否か,目的用語を取得するか否か,特徴語を取得するか否か,特徴語の関連語を取得するか否か,タグ対応文を取得するか否か,タグ対応用語を取得するか否か,数値範囲文字列を取得するか否か,数値範囲文字列が示す範囲の数字を取得するか否か)の構造を有する。また、かかる場合、種類特定情報が(1,0,・・・0,1)である場合、当該種類特定情報は、効果解決手段文と、数値範囲文字列が示す範囲の数字のみを取得することを示す。なお、上記ベクトル(1,0,・・・0,1)において、「・・・」に対応する要素は、すべて0である、とする。また、要素が「1」に対応する重要情報は取得され、要素が「0」に対応する重要情報は取得されないことを示す。
なお、効果解決手段文とは、効果の表現と解決手段の表現の両方を含む文である。効果解決手段文は、例えば、「<解決手段>により、<効果>できる。」「<解決手段>を設けることにより、<効果>が可能となる。」「<解決手段>に基づいて、<効果>できる。」「<解決手段>を使用することにより、<効果>する。」といったパターン(効果解決手段文パターンと言っても良い)に合致する文である。なお、「<」と「>」とにより示される情報(例えば、<解決手段>、<効果>)は、任意の文字列がマッチする変数である。効果解決手段文は、例えば、「突起を設けることにより、風量調整が可能となる。」「重要用語を使用することにより、特許分類の精度が向上する。」である。
また、効果文とは、効果の表現を含む文である。効果文は、例えば、「<効果>できる。」「<効果>が可能になる。」「<効果>になる。」といったパターン(効果文パターンと言っても良い)に合致する文である。効果文は、例えば、「本実施の形態によれば、風量調整が可能となる。」「本実施例によれば、特許分類の精度が向上する。」である。効果文は、課題を特定する文である課題文と同一である、と考えても良い。
解決手段文は、解決手段の表現を含む文である。解決手段文は、例えば、「ポイントは、<解決手段>である。」「<解決手段>に基づく。」「<解決手段>により、課題を解決できる。」といったパターン(解決手段文パターンと言っても良い)に合致する文である。解決手段文は、例えば、「突起により、課題を解決できる。」「重要用語取得部により、上記課題を解決できる。」である。
目的文は、目的の表現を含む文である。目的文は、例えば、「本発明において、<目的>することを目的とする。」「本願発明の目的は、<目的>である。」といったパターン(目的文パターンと言っても良い)の文である。目的文は、例えば、「本発明において、風量調整を行うことを目的とする。」「本願発明の目的は、特許分類の精度の向上である。」である。なお、目的文は、効果文または課題文と同一である、と考えても良い。目的、効果、課題は、通常、対応する情報であるからである。
効果用語は、効果を示す用語であり、例えば、「精度向上」「省エネルギー化」「風量調整が可能」「省資源」「安全性の向上」「処理速度の向上」である。なお、効果用語は、課題を特定する文である課題用語と同一である、と考えても良い。
解決手段用語は、解決手段を示す用語であり、例えば、「突起」「重要用語」「重要情報取得部」「処理部」等である。
目的用語は、目的を示す用語であり、例えば、「精度向上」「省エネルギー化」「風量調整が可能」「省資源」「安全性の向上」「処理速度の向上」である。なお、目的用語は、効果用語または課題用語と同一である、と考えても良い。
特徴語は、特許明細書の特徴を示す用語である。特徴語は、着目する特許明細書に多数出現する用語である。また、特徴語は、着目する特許明細書に多数出現し、かつ他の特許明細書での出現頻度が少ない用語であることは好適である。特徴語は、特許明細書の中の用語であり、例えば、TF/IDFの値が、予め決められた条件を満たすほど大きい用語である。なお、TF/IDFの値の算出方法は公知技術であるので、詳細な説明は省略する。
特徴語の関連語は、特徴語の上位語、特徴語の下位語、または特徴語の同義語である。特徴語の関連語は、例えば、特徴語をキーとして、関連語辞書を検索し、取得された用語である。
重要タグ対応文は、予め決められたタグに対応する文である。予め決められたタグとは、特許明細書中の予め決められたタグである。予め決められたタグは、例えば、[発明の効果]または[発明が解決しようとする課題]または[産業上の利用可能性]のタグである。
タグ対応用語は、重要タグ対応文に含まれる用語である。
数値範囲文字列は、特許明細書に含まれる文字列であり、数値範囲を示す文字列である。数値範囲文字列は、例えば、単位を有する。数値範囲文字列は、例えば、「<数字><単位>~<数字><単位>」「<数字>~<数字><単位>」「<数字>~<数字>」「<数字><単位>から<数字><単位>」「<数字>から<数字><単位>」「<数字>から<数字>」「<数字><単位>-<数字><単位>」「<数字>-<数字><単位>」「<数字>-<数字>」のパターン(数値範囲文字列パターンと言っても良い)にマッチする文字列である。また、数字の正負、有効桁数等は問わない。また、単位は、例えば、長さの単位、重さの単位、割合の単位等であり、種類は問わない。数値範囲文字列は、例えば、「1~10mm」「2.5mg-5.2mg」「0.8%から1.9%」等である。
数値範囲文字列が「2.5mg-5.2mg」の場合、数値範囲文字列が示す数値範囲に含まれる数字は、例えば、「2.5mg」「2.6mg」「2.7mg」・・・「5.1mg」「5.2mg」である。
ここで、受け付けとは、通常、ユーザ端末4からの受信であるが、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
学習処理部13は、各種の処理を行う。各種の処理とは、例えば、特許明細書取得部131、重要情報取得部132、学習元情報取得部133、学習部134、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、数字取得手段1329が行う処理である。
学習処理部13は、例えば、重要情報を機械学習のアルゴリズムにより学習し、重要情報であるか否かを判断する学習器を取得し、学習格納部11に蓄積する。機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。また、機械学習において、学習器を構成するためには、例えば、機械学習の関数(例えば、fastText、TinySVM、各種のRandomForest関数、TensorFlowのライブラリ等)に、入力となる情報群(例えば、文から構成されるベクトル、用語の分散表現等)と出力させたい情報(例えば、重要情報であるか、重要情報でないかの判断情報)とを引数として与えると学習器が得られる。また、機械学習にいて、予測する場合、機械学習の関数に学習器と入力となる情報群(例えば、文から構成されるベクトル、用語の分散表現等)とを引数として与えると、予測された情報(例えば、重要情報であるか、重要情報でないかの判断情報)が得られる。
学習処理部13は、例えば、1または2以上の効果解決手段文と、1または2以上の非効果解決手段文とを用いて、機械学習のアルゴリズムにより、判断対象の文が効果解決手段文であるか否かを予測するための学習器である効果解決手段文学習器を取得し、学習格納部11に蓄積する。なお、非効果解決手段文とは、効果解決手段文ではない文である。
さらに具体的には、学習処理部13は、例えば、1または2以上の効果解決手段文を学習格納部11から取得し、取得した1以上の各効果解決手段文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを正例とし、かつ1または2以上の非効果解決手段文を学習格納部11から取得し、取得した1以上の各非効果解決手段文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、効果解決手段文学習器を取得し、学習格納部11に蓄積する。なお、文からベクトルを構成する方法は問わない。つまり、文からベクトルを構成する場合に、どのような情報を素性として用いるかは問わない。取得した1以上の形態素だけではなく、n-gramも素性として用いても良いことは言うまでもない。
学習処理部13は、例えば、1または2以上の効果用語と、1または2以上の非効果用語とを用いて、機械学習のアルゴリズムにより、判断対象の用語が効果用語であるか否かを予測するための学習器である効果用語学習器を取得し、学習格納部11に蓄積する。なお、非効果用語とは、効果用語ではない用語である。
さらに具体的には、学習処理部13は、例えば、1または2以上の効果用語を学習格納部11から取得し、取得した1以上の各効果用語の分散表現(ベクトル)を取得し(例えば、word2vecを使用)、当該分散表現を正例とし、かつ1または2以上の非効果用語を学習格納部11から取得し、取得した1以上の各非効果用語の分散表現(ベクトル)を取得し、当該分散表現を負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、効果用語学習器を取得し、学習格納部11に蓄積する。
学習処理部13は、例えば、1または2以上の解決手段用語と、1または2以上の非解決手段用語とを用いて、機械学習のアルゴリズムにより、判断対象の用語が解決手段用語であるか否かを予測するための学習器である解決手段用語学習器を取得し、学習格納部11に蓄積する。なお、非解決手段用語とは、解決手段用語ではない用語である。
さらに具体的には、学習処理部13は、例えば、1または2以上の解決手段用語を学習格納部11から取得し、取得した1以上の各解決手段用語の分散表現(ベクトル)を取得し、当該分散表現を正例とし、かつ1または2以上の非解決手段用語を学習格納部11から取得し、取得した1以上の各非解決手段用語の分散表現(ベクトル)を取得し、当該分散表現を負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、解決手段用語学習器を取得し、学習格納部11に蓄積する。
学習処理部13は、例えば、1または2以上の解決手段文と、1または2以上の非解決手段文とを用いて、機械学習のアルゴリズムにより、判断対象の文が解決手段文であるか否かを予測するための学習器である解決手段文学習器を取得し、学習格納部11に蓄積する。なお、非解決手段文とは、解決手段文ではない文である。
さらに具体的には、学習処理部13は、例えば、1または2以上の解決手段文を学習格納部11から取得し、取得した1以上の各解決手段文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを正例とし、かつ1または2以上の非解決手段文を学習格納部11から取得し、取得した1以上の各非解決手段文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、解決手段文学習器を取得し、学習格納部11に蓄積する。
学習処理部13は、例えば、1または2以上の効果文と、1または2以上の非効果文とを用いて、機械学習のアルゴリズムにより、判断対象の文が効果文であるか否かを予測するための学習器である効果文学習器を取得し、学習格納部11に蓄積する。なお、非効果文とは、効果文ではない文である。
さらに具体的には、学習処理部13は、例えば、1または2以上の効果文を学習格納部11から取得し、取得した1以上の各効果文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを正例とし、かつ1または2以上の非効果文を学習格納部11から取得し、取得した1以上の各非効果文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、効果文学習器を取得し、学習格納部11に蓄積する。
学習処理部13は、例えば、1または2以上の目的文と、1または2以上の非目的文とを用いて、機械学習のアルゴリズムにより、判断対象の文が目的文であるか否かを予測するための学習器である目的文学習器を取得し、学習格納部11に蓄積する。なお、非目的文とは、目的文ではない文である。
さらに具体的には、学習処理部13は、例えば、1または2以上の目的文を学習格納部11から取得し、取得した1以上の各目的文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを正例とし、かつ1または2以上の非目的文を学習格納部11から取得し、取得した1以上の各非目的文を形態素解析し、取得した1以上の形態素からベクトルを構成し、当該ベクトルを負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、目的文学習器を取得し、学習格納部11に蓄積する。
学習処理部13は、例えば、1または2以上の目的用語と、1または2以上の非目的用語とを用いて、機械学習のアルゴリズムにより、判断対象の用語が目的用語であるか否かを予測するための学習器である目的用語学習器を取得し、学習格納部11に蓄積する。なお、非目的用語とは、目的用語ではない用語である。
さらに具体的には、学習処理部13は、例えば、1または2以上の目的用語を学習格納部11から取得し、取得した1以上の各目的用語の分散表現(ベクトル)を取得し、当該分散表現を正例とし、かつ1または2以上の非目的用語を学習格納部11から取得し、取得した1以上の各非目的用語の分散表現(ベクトル)を取得し、当該分散表現を負例として、機械学習の関数に与え、機械学習による学習処理を行うことにより、目的用語学習器を取得し、学習格納部11に蓄積する。
なお、学習処理部13が文からベクトルを取得する方法、用語からベクトルを取得する方法は問わないことは言うまでもない。学習処理部13は、文からベクトルを取得する種々の方法、用語からベクトルを取得する種々の方法を使用できる。
特許明細書取得部131は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を取得する。特許明細書取得部131は、例えば、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を外部のサーバ装置3から取得する。特許明細書取得部131は、例えば、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を学習格納部11から取得する。特許明細書取得部131は、例えば、人手評価レコードに含まれる特許明細書を取得しても良い。
重要情報取得部132は、後述する受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する。
重要情報取得部132は、特許明細書取得部131が取得した特許明細書を用いて、予め決められた条件を満たす重要情報を取得する。
重要情報取得部132は、人手評価情報格納部111に格納されている人手評価情報が有する2以上の各人手評価レコードが有する特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する。重要情報は、予め決められた条件を満たす文、または予め決められた条件を満たす用語である。
予め決められた条件とは、例えば、効果解決手段文に該当すること、効果用語に該当すること、解決手段用語に該当すること、効果文に該当すること、解決手段文に該当すること、目的文に該当すること、目的用語に該当すること、特徴語に該当すること、関連語に該当すること、重要タグ対応文に該当すること、重要タグ対応用語に該当すること、数値範囲文字列に該当すること、数値範囲文字列から取得できる数値に該当すること等である。
重要情報は、例えば、効果解決手段文取得手段1321が取得した1以上の効果解決手段文、または1以上の効果解決手段文から取得された用語である効果用語および解決手段用語を含む。
重要情報は、例えば、効果文取得手段1322が取得した1以上の効果文、または1以上の効果文から取得された用語である効果用語を含む。
重要情報は、例えば、解決手段文取得手段1323が取得した1以上の解決手段文、または1以上の解決手段文から取得された用語である解決手段用語を含む。
重要情報は、例えば、目的文取得手段1324が取得した1以上の目的文、または1以上の目的文から取得された用語である目的用語を含む。
重要情報は、例えば、特徴語取得手段1325が取得した1以上の特徴語を含む。
重要情報は、例えば、関連語取得手段1326が取得した1以上の関連語を含む。
重要情報は、例えば、重要タグ対応文取得手段1327が取得した1以上の重要タグ対応文を含む、または1以上の重要タグ対応文から取得された用語である重要タグ対応用語を含む。
重要情報は、例えば、数値範囲文字列取得手段1328が取得した1以上の数値範囲文字列を含む。
重要情報は、例えば、数字取得手段1329が取得した3以上の数字を含む。数値範囲文字列が「2.5mg-5.2mg」の場合、数値範囲文字列が示す数値範囲に含まれる3以上の数字は、例えば、「2.5mg」「2.6mg」「2.7mg」・・・「5.1mg」「5.2mg」である。
重要情報取得部132を構成する、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324は、以下に説明するように、例えば、(1)のパターンマッチングの方法、または(2)機械学習の方法等を用いて、重要情報を取得する。なお、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、数字取得手段1329は、上記の(1)(2)以外の方法を採ることにより、重要情報を取得することは好適である。なお、下記の重要情報の取得方法は一例であり、他の方法により、重要情報が取得されても良いことは言うまでもない。
重要情報取得部132は、特許明細書を用いて、特定の表現を含む文を取得する。特定の表現を含む文は、例えば、効果解決手段文、効果文、解決手段文、または目的文である。
重要情報取得部132は、特許明細書を用いて、特定の表現を含む文に含まれる用語を取得する。特定の表現を含む文に含まれる用語は、例えば、効果用語、解決手段用語、または目的用語である。
重要情報取得部132は、特許明細書を用いて、特徴語を取得する。重要情報取得部132は、特徴語を用いて、関連語を取得する。
重要情報取得部132は、特許明細書を用いて、特定のタグに対応する重要タグ対応文、または重要タグ対応用語を取得する。
以下、重要情報の取得例について、各手段ごとに説明する。
(A)効果解決手段文取得手段1321
効果解決手段文取得手段1321は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、効果解決手段文であるか否かを判断し、効果解決手段文であると判断した1以上の効果解決手段文を取得する。
(1)パターンマッチングによる方法
効果解決手段文取得手段1321は、検査対象の特許明細書から1以上の各文を取得し、各文が、予め決められた効果解決手段文パターンに合致するか否かを判断する。効果解決手段文取得手段1321は、1または2以上のうちのいずれかの効果解決手段文パターンに合致する文を、効果解決手段文として取得する。
なお、効果解決手段文パターンは、効果解決手段文のパターンを特定する情報である。1または2以上の効果解決手段文パターンは、例えば、学習格納部11に格納されている。また、効果解決手段文パターンは、例えば、「<解決手段>により、<効果>できる。」「<解決手段>を設けることにより、<効果>できる。」「<解決手段>に基づいて、<効果>できる。」である。なお、パターンマッチングの技術は公知技術であるので、詳細な説明を省略する。
また、効果解決手段文パターン等のパターンは、ブートストラップのアルゴリズムを用いて、増やすことは好適である。
(2)機械学習による方法
効果解決手段文取得手段1321は、検査対象の特許明細書から1以上の各文を取得し、各文に対して、効果解決手段文であるか否かを判定する効果解決手段文学習器に適用し、機械学習のアルゴリズムにより予測し、予測の結果である判断情報を取得する。判断情報は、ここでは、文が効果解決手段文であるか否かを示す情報である。
なお、学習処理と同様、予測処理を行う場合も、機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。そして、機械学習において、予測する場合、機械学習の関数(例えば、fastText、TinySVM、各種のRandomForest関数、TensorFlowのライブラリ等)に学習器と入力となる情報群(例えば、文から構成されるベクトル、用語の分散表現等)とを引数として与えると、予測された情報(例えば、重要情報であるか、重要情報でないかの判断情報)が得られる。
そして、効果解決手段文取得手段1321は、機械学習の関数が取得した判断情報が「効果解決手段文である」との判断情報である場合、当該文を効果解決手段文として取得する。
(3)効果用語、解決手段用語の取得
効果解決手段文取得手段1321は、例えば、取得した効果解決手段文に対応する効果解決手段文パターン(例えば、「<解決手段>により、<効果>できる。」)を用いて、効果用語(<効果>に対応する用語)、解決手段用語(<解決手段>に対応する用語)を、取得した効果解決手段文から取得する。
また、効果解決手段文取得手段1321は、例えば、機械学習のアルゴリズムにより、効果用語、解決手段用語を取得する。
例えば、効果解決手段文取得手段1321は、取得した効果解決手段文を形態素解析し、取得した1以上の各用語に対して、効果用語学習器を適用し、機械学習のアルゴリズムにより、効果用語であるか否かを判断する。また、例えば、効果解決手段文取得手段1321は、取得した効果解決手段文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断する。
なお、効果解決手段文取得手段1321は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、効果用語学習器を適用し、機械学習のアルゴリズムにより、効果用語であるか否かを判断しても良い。また、効果解決手段文取得手段1321は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断しても良い。
(B)効果文取得手段1322
効果文取得手段1322は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、効果文であるか否かを判断し、効果文であると判断した1以上の効果文を取得する。
(1)パターンマッチングによる方法
効果文取得手段1322は、検査対象の特許明細書から1以上の各文を取得し、各文が、予め決められた効果文パターンに合致するか否かを判断する。効果文取得手段1322は、1または2以上のうちのいずれかの効果文パターンに合致する文を、効果文として取得する。
なお、効果文パターンは、効果文のパターンを特定する情報である。1または2以上の効果文パターンは、例えば、学習格納部11に格納されている。また、効果文パターンは、例えば、「<効果>できる。」「<効果>になる。」である。
また、効果文パターン等のパターンは、ブートストラップのアルゴリズムを用いて、増やすことは好適である。
(2)機械学習による方法
効果文取得手段1322は、検査対象の特許明細書から1以上の各文を取得し、各文に対して、効果文であるか否かを判定する効果文学習器に適用し、機械学習のアルゴリズムにより予測し、予測の結果である判断情報を取得する。判断情報は、ここでは、文が効果文であるか否かを示す情報である。
そして、効果文取得手段1322は、機械学習の関数が取得した判断情報が「効果文である」との判断情報である場合、当該文を効果文として取得する。
(3)効果用語の取得
効果文取得手段1322は、例えば、取得した効果文に対応する効果文パターン(例えば、「<効果>できる。」)を用いて、効果用語(<効果>に対応する用語)を、取得した効果文から取得する。
例えば、効果文取得手段1322は、取得した効果文を形態素解析し、取得した1以上の各用語に対して、効果用語学習器を適用し、機械学習のアルゴリズムにより、効果用語であるか否かを判断する。
なお、効果文取得手段1322は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、効果用語学習器を適用し、機械学習のアルゴリズムにより、効果用語であるか否かを判断しても良い。
(C)解決手段文取得手段1323
解決手段文取得手段1323は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、解決手段文であるか否かを判断し、解決手段文であると判断した1以上の解決手段文を取得する。
(1)パターンマッチングによる方法
解決手段文取得手段1323は、検査対象の特許明細書から1以上の各文を取得し、各文が、予め決められた解決手段文パターンに合致するか否かを判断する。解決手段文取得手段1323は、1または2以上のうちのいずれかの解決手段文パターンに合致する文を、解決手段文として取得する。
なお、解決手段文パターンは、解決手段文のパターンを特定する情報である。1または2以上の解決手段文パターンは、例えば、学習格納部11に格納されている。また、解決手段文パターンは、例えば、「ポイントは、<解決手段>である。」「<解決手段>に基づく。」である。
また、解決手段文パターン等のパターンは、ブートストラップのアルゴリズムを用いて、増やすことは好適である。
(2)機械学習による方法
解決手段文取得手段1323は、検査対象の特許明細書から1以上の各文を取得し、各文に対して、解決手段文であるか否かを判定する解決手段文学習器に適用し、機械学習のアルゴリズムにより予測し、予測の結果である判断情報を取得する。判断情報は、ここでは、文が解決手段文であるか否かを示す情報である。
そして、解決手段文取得手段1323は、機械学習の関数が取得した判断情報が「解決手段文である」との判断情報である場合、当該文を解決手段文として取得する。
(3)解決手段用語の取得
解決手段文取得手段1323は、例えば、取得した解決手段文に対応する解決手段文パターン(例えば、「ポイントは、<解決手段>である。」)を用いて、解決手段用語(<解決手段>に対応する用語)を、取得した解決手段文から取得する。
また、解決手段文取得手段1323は、例えば、機械学習のアルゴリズムにより、解決手段用語を取得する。
例えば、解決手段文取得手段1323は、取得した解決手段文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断する。また、例えば、効果解決手段文取得手段1321は、取得した効果解決手段文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断する。
なお、解決手段文取得手段1323は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、解決手段用語学習器を適用し、機械学習のアルゴリズムにより、解決手段用語であるか否かを判断しても良い。
(D)目的文取得手段1324
目的文取得手段1324は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各文に対して、目的文であるか否かを判断し、目的文であると判断した1以上の目的文を取得する。
(1)パターンマッチングによる方法
目的文取得手段1324は、検査対象の特許明細書から1以上の各文を取得し、各文が、予め決められた目的文パターンに合致するか否かを判断する。目的文取得手段1324は、1または2以上のうちのいずれかの目的文パターンに合致する文を、目的文として取得する。
なお、目的文パターンは、目的文のパターンを特定する情報である。1または2以上の目的文パターンは、例えば、学習格納部11に格納されている。また、目的文パターンは、例えば、「本発明において、<目的>することを目的とする。」「本願発明の目的は、<目的>である。」である。
また、目的文パターン等のパターンは、ブートストラップのアルゴリズムを用いて、増やすことは好適である。
(2)機械学習による方法
目的文取得手段1324は、検査対象の特許明細書から1以上の各文を取得し、各文に対して、目的文であるか否かを判定する目的文学習器に適用し、機械学習のアルゴリズムにより予測し、予測の結果である判断情報を取得する。判断情報は、ここでは、文が目的文であるか否かを示す情報である。
そして、目的文取得手段1324は、機械学習の関数が取得した判断情報が「目的文である」との判断情報である場合、当該文を目的文として取得する。
(3)目的用語の取得
目的文取得手段1324は、例えば、取得した目的文に対応する目的文パターン(例えば、「本発明において、<目的>することを目的とする。」)を用いて、目的用語(<目的>に対応する用語)を、取得した目的文から取得する。
また、目的文取得手段1324は、例えば、機械学習のアルゴリズムにより、目的用語を取得する。
例えば、目的文取得手段1324は、取得した目的文を形態素解析し、取得した1以上の各用語に対して、目的用語学習器を適用し、機械学習のアルゴリズムにより、目的用語であるか否かを判断する。また、例えば、目的文取得手段1324は、取得した目的文を形態素解析し、取得した1以上の各用語に対して、目的用語学習器を適用し、機械学習のアルゴリズムにより、目的用語であるか否かを判断する。
なお、目的文取得手段1324は、特許明細書の各文を形態素解析し、取得した1以上の各用語に対して、目的用語学習器を適用し、機械学習のアルゴリズムにより、目的用語であるか否かを判断しても良い。
(E)特徴語取得手段1325
特徴語取得手段1325は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語の出現頻度を取得し、出現頻度を用いて、1以上の各用語に対するスコアを算出し、スコアが予め決められた条件を満たすほど大きい1以上の特徴語を取得する。
特徴語取得手段1325は、例えば、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語の出現回数を取得する。また、特徴語取得手段1325は、例えば、対象となる特許明細書の集合において、1以上の各用語の出現回数を取得する。そして、特徴語取得手段1325は、分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる1以上の各用語のTF/IDFの値(スコア)を算出する。次に、特徴語取得手段1325は、スコアが予め決められた条件を満たすほど高い1以上の用語を、当該特許明細書の特徴語として取得する。なお、文書から特徴語を抽出する技術は、問わない。特徴語取得手段1325は、種々の技術を使用可能である。
(F)関連語取得手段1326
関連語取得手段1326は、関連語辞書から、特徴語取得手段1325が取得した1以上の各特徴語に対応する1以上の関連語を取得する。なお、かかる関連語は、重要情報の一例である。また、関連語取得手段1326が使用する関連語辞書は、学習器生産装置1または特許分類装置2の内部の辞書でも良いし、図示しないサーバの辞書でも良い。
(F)重要タグ対応文取得手段1327
重要タグ対応文取得手段1327は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文であり、1以上の重要タグ対応文を取得する。
重要タグ対応文取得手段1327は、例えば、予め決められたタグを特定する重要タグ特定情報を学習格納部11から読み出し、当該重要タグ特定情報により特定されるタグの中の1以上の文を、処理対象の特許明細書から取得する。なお、重要タグ特定情報は、例えば、[発明の効果]または[発明が解決しようとする課題]または[産業上の利用可能性]である。例えば、特許明細書から[発明の効果]に対応する1以上の文を取得する技術は公知技術である。
また、重要タグ対応文取得手段1327は、重要タグ特定情報に対応する1以上の各文から、重要タグ用語を取得しても良い。重要タグ対応文取得手段1327は、例えば、1以上の各文を形態素解析し、1以上の自立語を重要タグ用語として取得する。
(G)数値範囲文字列取得手段1328
数値範囲文字列取得手段1328は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書に含まれる文字列であり、数値範囲を示す文字列である1以上の数値範囲文字列を取得する。
数値範囲文字列取得手段1328は、例えば、数値範囲文字列パターンにマッチする文字列を特許明細書から取得する。なお、数値範囲文字列パターンは、学習格納部11に格納されている。数値範囲文字列パターンは、例えば、「<数字><単位>~<数字><単位>」「<数字>~<数字><単位>」「<数字>~<数字>」「<数字><単位>から<数字><単位>」「<数字>から<数字><単位>」「<数字>から<数字>」「<数字><単位>-<数字><単位>」「<数字>-<数字><単位>」「<数字>-<数字>」である。
なお、数値範囲文字列取得手段1328は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書の中の特定のタグに対応する領域の1以上の文から1以上の数値範囲文字列を取得することは好適である。なお、特定のタグに対応する領域は、例えば、[発明を実施するための形態][実施例][実験]等である。
(H)数字取得手段1329
数字取得手段1329は、数値範囲文字列取得手段1328が取得した数値範囲文字列が示す数値範囲に含まれる3以上の数字を取得する。数字取得手段1329は、数値範囲文字列取得手段1328が取得した数値範囲文字列が示す数値範囲の両端と1以上の中の数値を少なくとも取得する。数字取得手段1329は、通常、数値範囲の上限と下限の値を取得するが、上限と下限の値を取得しなくても良い。数字取得手段1329は、数値範囲文字列が示す数値範囲の中の数値であり、数値範囲文字列の中に現れていない文字列の数値を取得することは好適である。
取得された数値範囲文字列が「2.5mg-5.2mg」の場合、数字取得手段1329は、数値範囲文字列が示す数値範囲に含まれる数字であり、例えば、「2.5mg」「2.6mg」「2.7mg」・・・「5.1mg」「5.2mg」を取得することは好適である。つまり、数字取得手段1329は、数値範囲文字列の有効桁数(ここでは、例えば、小数点1桁)で示される桁数の数値であり、取得された数値範囲文字列が示す範囲「2.5-5.2」の数値を生成し、3以上の数値を取得する。なお、数字取得手段1329が取得する数値は、単位を有しても有さなくても良い。
学習元情報取得部133は、2以上の各人手評価レコードごとに、重要情報取得部132が取得した重要情報と、分類結果情報とを有する特許レコードを取得し、2以上の特許レコードを有する学習元情報を取得する。分類結果情報は、重要情報の元になった特許明細書に対応する特許識別子と対になる情報であり、通常、人手による当該特許の分類の結果を示す情報である。
特許レコードは、特許識別子に対応する特許請求の範囲または要約書のうちの1種類以上の情報をも含むことは好適である。また、特許レコードは、1または2以上の特許分類コードを含むことは好適である。
学習部134は、学習元情報取得部133が取得した学習元情報を機械学習のアルゴリズムにより学習し、学習器を取得する。
学習部134は、学習元情報取得部133が取得した学習元情報のうち、分類結果情報以外の情報を入力とし、分類結果情報を出力とする学習器を、機械学習のアルゴリズムにより構成する。なお、機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。また、機械学習において、学習器を構成するためには、例えば、機械学習の関数(例えば、fastText、TinySVM、各種のRandomForest関数、TensorFlowのライブラリ等)に、入力となる情報群(例えば、学習元情報のうち、分類結果情報以外の情報)と出力させたい情報(例えば、分類結果情報)とを引数として与えると学習器が得られる。なお、入力となる情報群と出力させたい情報とは、特許レコードを構成する。
学習出力部14は、各種の情報を出力する。各種の情報とは、例えば、学習器、学習処理が完了した旨の情報である。
ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
蓄積部141は、学習部134が取得した学習器を蓄積する。蓄積部141は、例えば、学習格納部11に、学習器を蓄積する。蓄積部141は、学習動作開始指示が有する種類特定情報と学習器とを対応付けて、学習部134が取得した学習器を蓄積することは好適である。
特許分類装置2を構成する格納部21には、各種の情報が格納される。各種の情報とは、例えば、学習器である。
学習器格納部211には、1または2以上の学習器が格納される。学習器格納部211の学習器は、例えば、学習器生産装置1が取得した学習器である。学習器格納部211の学習器は、例えば、種類特定情報に対応付いている。
学習器は、2以上の特許レコードを有する学習元情報を機械学習のアルゴリズムにより学習し、取得された学習器である。特許レコードは、特許明細書の全文は有さない。特許レコードは、特許を識別する特許識別子に対応する特許明細書を用いて取得された重要情報と、人手による特許の分類結果を特定する分類結果情報とを有する。
受付部22は、例えば、予測開始指示を受け付ける。予測開始指示は、予測の開始の指示である。予測開始指示は、例えば、予測対象の分類対象情報、使用する学習器を特定する情報等を有する。
受付部22は、例えば、1または2以上の分類対象情報を受け付ける。分類対象情報は、分類対象の特許を識別する特許識別子を含む。分類対象情報は、例えば、特許請求の範囲、要約書のうちの1以上の情報を含む。分類対象情報は、例えば、1以上の特許分類コードを含む。分類対象情報は、例えば、特許明細書を含む。
ここで、受け付けとは、通常、ユーザ端末4からの受信であるが、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
処理部23は、各種の処理を行う。各種の処理とは、例えば、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、予測部234等が行う処理である。
分類対象加工情報取得部233は、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応する情報であり、重要情報取得部132が取得した重要情報を含む情報である分類対象加工情報を取得する。
分類対象加工情報は、例えば、重要情報取得部132が取得した重要情報と、特許識別子に対応する特許請求の範囲または要約書のうちの1種類以上の情報とを含む。
受付部22が受け付けた分類対象情報が特許明細書を有さない場合、分類対象加工情報取得部233は、例えば、受付部22が受け付けた分類対象情報の一部または全部と重要情報取得部132が取得した重要情報とからなる分類対象加工情報を取得する。
受付部22が受け付けた分類対象情報が特許明細書を有する場合、分類対象加工情報取得部233は、例えば、受付部22が受け付けた分類対象情報から特許明細書を含む一部の情報を除き、当該特許明細書等を除いた後の情報と重要情報取得部132が取得した重要情報とからなる分類対象加工情報を取得する。
また、ここでの重要情報取得部132は、使用する学習器に対応付いている種類特定情報を用いることは好適である。
予測部234は、分類対象加工情報取得部233が取得した分類対象加工情報に学習器に適用し、機械学習のアルゴリズムにより分類対象加工情報の分類を予測し、分類結果情報を取得する。機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。予測部234は、機械学習の関数に学習器と分類対象加工情報とを引数として与え、分類結果情報を取得する。なお、学習器は、学習器格納部211の学習器である。
出力部24は、予測部234が取得した分類結果情報を、受付部22が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する。
ここで、出力とは、例えば、ユーザ端末4への送信であるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
サーバ装置3は、特許識別子に対応する特許明細書を多数格納しているサーバである。サーバ装置3は、学習器生産装置1または特許分類装置2から特許識別子を有する特許取得指示を受信すると、当該特許識別子に対応する特許明細書を格納している特許データベースから取得し、当該特許明細書を学習器生産装置1または特許分類装置2に送信する。
ユーザ端末4は、ユーザから学習動作開始指示を受け付け、当該学習動作開始指示を学習器生産装置1に送信する。また、ユーザ端末4は、ユーザから予測動作開始指示を受け付け、当該予測動作開始指示を特許分類装置2に送信する。なお、ユーザ端末4は、予測動作開始指示の送信に応じて、予測の結果である分類結果情報を受信し、出力することは好適である。
学習格納部11、人手評価情報格納部111、格納部21、および学習器格納部211は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
学習格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が学習格納部11等で記憶されるようになってもよく、通信回線等を介して送信された情報が学習格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が学習格納部11等で記憶されるようになっても良い。
学習受付部12、特許明細書取得部131、学習出力部14、および出力部24は、通常、無線または有線の通信手段等で実現され得る。
学習処理部13、重要情報取得部132、学習元情報取得部133、学習部134、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、数字取得手段1329、蓄積部141、処理部23、分類対象加工情報取得部233、および予測部234は、通常、MPUやメモリ等から実現され得る。学習処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、特許分類システムAの動作例について説明する。まず、学習器生産装置1の動作例について、図4のフローチャートを用いて説明する。
(ステップS401)学習受付部12は、学習動作開始指示を受け付けたか否かを判断する。学習動作開始指示を受け付けた場合はステップS402に行き、学習動作開始指示を受け付けなかった場合はステップS401に戻る。
(ステップS402)学習処理部13は、カウンタiに1を代入する。
(ステップS403)学習処理部13は、人手評価情報格納部111に格納されている学習対象の人手評価情報の中に、i番目の人手評価レコードが存在するか否かを判断する。
i番目の人手評価レコードが存在する場合はステップS404に行き、存在しない場合はステップS408に行く。
(ステップS404)特許明細書取得部131は、i番目の人手評価レコードの中に特許明細書が存在すれば、i番目の人手評価レコードから特許明細書を取得する。また、特許明細書取得部131は、i番目の人手評価レコードの中に特許明細書が存在しなければ、i番目の人手評価レコードが有する特許識別子を取得し、当該特許識別子をキーとして、サーバ装置3から特許明細書を受信する。
(ステップS405)重要情報取得部132は、ステップS404で取得された特許明細書から、1種類以上の重要情報を取得する。かかる重要情報取得処理例について、図5のフローチャートを用いて説明する。
(ステップS406)学習元情報取得部133は、i番目の人手評価レコードとステップS405で取得された重要情報を用いて、i番目の人手評価レコードの中の分類結果情報と重要情報とを少なくとも有するi番目の特許レコードを取得し、図示しないバッファに一時蓄積する。
(ステップS407)学習処理部13は、カウンタiを1、インクリメントする。ステップS403に戻る。
(ステップS408)学習元情報取得部133は、ステップS406で一時蓄積したすべての特許レコードを有する学習元情報を構成する。
(ステップS409)学習部134は、ステップS408で取得された学習元情報を用いて学習処理を行い、学習器を取得する。
(ステップS410)蓄積部141は、学習動作開始指示が有する種類特定情報と学習器とを対応付けて、学習格納部11に蓄積する。ステップS401に戻る。
なお、図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、ステップS405の重要情報取得処理例について、図5のフローチャートを用いて説明する。
(ステップS501)重要情報取得部132は、学習動作開始指示が有する種類特定情報を取得する。なお、予測処理においては、重要情報取得部132は、予測処理で用いる学習器に対応付いている種類特定情報を取得する。
(ステップS502)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、効果解決手段文を取得するか否かを判断する。効果解決手段文を取得する場合はステップS503に行き、効果解決手段文を取得しない場合はステップS504に行く。
(ステップS503)重要情報取得部132は、効果解決手段文取得処理を行う。効果解決手段文取得処理例について、図6のフローチャートを用いて説明する。
(ステップS504)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、効果文を取得するか否かを判断する。効果文を取得する場合はステップS505に行き、効果文を取得しない場合はステップS506に行く。
(ステップS505)重要情報取得部132は、効果取得処理を行う。効果文取得処理例について、図6のフローチャートを用いて説明する。
(ステップS506)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、解決手段文を取得するか否かを判断する。解決手段文を取得する場合はステップS507に行き、解決手段文を取得しない場合はステップS508に行く。
(ステップS507)重要情報取得部132は、解決手段文取得処理を行う。解決手段文取得処理例について、図6のフローチャートを用いて説明する。
(ステップS508)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、目的文を取得するか否かを判断する。目的文を取得する場合はステップS509に行き、目的文を取得しない場合はステップS510に行く。
(ステップS509)重要情報取得部132は、目的文取得処理を行う。目的文取得処理例について、図6のフローチャートを用いて説明する。
(ステップS510)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、効果用語を取得するか否かを判断する。効果用語を取得する場合はステップS511に行き、効果用語を取得しない場合はステップS512に行く。
(ステップS511)重要情報取得部132は、効果用語取得処理を行う。効果用語取得処理例について、図7のフローチャートを用いて説明する。
(ステップS512)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、解決手段用語を取得するか否かを判断する。解決手段用語を取得する場合はステップS513に行き、解決手段用語を取得しない場合はステップS514に行く。
(ステップS513)重要情報取得部132は、解決手段用語取得処理を行う。解決手段用語取得処理例について、図7のフローチャートを用いて説明する。
(ステップS514)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、目的用語を取得するか否かを判断する。目的用語を取得する場合はステップS515に行き、目的用語を取得しない場合はステップS516に行く。
(ステップS515)重要情報取得部132は、目的用語取得処理を行う。目的用語取得処理例について、図7のフローチャートを用いて説明する。
(ステップS516)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、特徴語を取得するか否かを判断する。特徴語を取得する場合はステップS517に行き、特徴語を取得しない場合はステップS518に行く。
(ステップS517)重要情報取得部132は、特徴語取得処理を行う。なお、特徴語取得処理例として、例えば、上述したTF/IDFのアルゴリズムを用いる。
(ステップS518)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、関連語を取得するか否かを判断する。関連語を取得する場合はステップS519に行き、関連語を取得しない場合はステップS520に行く。
(ステップS519)重要情報取得部132は、関連語取得処理を行う。なお、関連語取得処理例として、例えば、上述したように、ステップS517で取得された1以上の各特徴語をキーとして、関連語辞書を検索し、各特徴語と対になる1以上の関連語を取得する。なお、関連語の取得の前処理として、特徴語の取得処理が行われている、とする。
(ステップS520)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、重要タグ対応文を取得するか否かを判断する。重要タグ対応文を取得する場合はステップS521に行き、重要タグ対応文を取得しない場合はステップS523に行く。
(ステップS521)重要情報取得部132は、重要タグ対応文取得処理を行う。なお、重要タグ対応文取得処理例は、上述したので、ここでの説明は省略する。
(ステップS522)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、重要タグ用語を取得するか否かを判断する。重要タグ用語を取得する場合はステップS523に行き、重要タグ用語を取得しない場合はステップS524に行く。
(ステップS523)重要情報取得部132は、重要タグ用語取得処理を行う。なお、重要タグ用語取得処理例は、上述したので、ここでの説明は省略する。
(ステップS524)重要情報取得部132は、ステップS501で取得した種類特定情報を検査し、重要情報として、数値範囲文字列を取得するか否かを判断する。数値範囲文字列を取得する場合はステップS525に行き、数値範囲文字列を取得しない場合は上位処理にリターンする。
(ステップS525)重要情報取得部132は、数値範囲文字列取得処理を行う。なお、数値範囲文字列取得処理例について、図8のフローチャートを用いて説明する。
(ステップS526)重要情報取得部132は、ステップS523で取得された1以上の数値範囲文字列を用いて、数字取得処理を行う。数字取得処理例について、図9のフローチャートを用いて説明する。
次に、ステップS503の効果解決手段文取得処理例、ステップS505の効果取得処理例、ステップS507の解決手段文取得処理例、ステップS509の目的文取得処理例等の文取得処理例について、図6のフローチャートを用いて説明する。
(ステップS601)重要情報取得部132は、文の抽出対象の特許明細書から、予め決められた文抽出対象の範囲の1以上の文を取得する。なお、予め決められた文抽出対象の範囲は、重要情報の種類に応じて異なっていても良い。予め決められた文抽出対象の範囲は、例えば、特許明細書全体、[発明の効果]、[発明を実施するための形態]である。
(ステップS602)重要情報取得部132は、カウンタiに1を代入する。
(ステップS603)重要情報取得部132は、ステップS601で取得した1以上の文の中に、i番目の文が存在するか否かを判断する。i番目の文が存在する場合はステップS604に行き、i番目の文が存在しない場合は上位処理にリターンする。
(ステップS604)重要情報取得部132は、ステップS603で取得したi番目の文が、対応する種類の重要情報の文に該当するか否かを判断する。なお、かかる判断処理の例については、上述した。かかる判断処理は、例えば、パターンマッチングによる方法、機械学習による方法等がある。
(ステップS605)重要情報取得部132は、ステップS604における判断結果が、該当する種類の重要情報の文である場合はステップS606に行き、該当する種類の重要情報の文でない場合はステップS607に行く。
(ステップS606)重要情報取得部132は、i番目の文を重要情報として取得し、図示しないバッファに一時蓄積する。
(ステップS607)重要情報取得部132は、カウンタiを1、インクリメントする。ステップS603に戻る。
次に、ステップS511の効果用語取得処理例、ステップS513の解決手段用語取得処理例、ステップS515の目的用語取得処理例等の用語取得処理例について、図7のフローチャートを用いて説明する。
(ステップS701)重要情報取得部132は、用語に対応する文の取得処理を行う。文取得処理は、図6のフローチャートを用いて説明した処理である。なお、用語が効果用語である場合、取得する文は、効果解決手段文と効果文のうちの1種類以上の文である。また、用語が解決手段用語である場合、取得する文は、効果解決手段文と解決手段文のうちの1種類以上の文である。また、用語が目的用語である場合、取得する文は、目的文である。
(ステップS702)重要情報取得部132は、カウンタiに1を代入する。
(ステップS703)重要情報取得部132は、ステップS701で取得した1以上の文の中に、i番目の文が存在するか否かを判断する。i番目の文が存在する場合はステップS704に行き、i番目の文が存在しない場合は上位処理にリターンする。
(ステップS704)重要情報取得部132は、i番目の文を形態素解析し、1以上の用語を取得する。なお、ここで取得する用語は、自立語のみでも良い。また、ここで取得する用語は、各文のパターンを用いて取得される用語であり、パターンの中の変数に対応する用語である。パターンの中の変数に対応する用語とは、用語が効果用語である場合、パターンの中の変数は<効果>である。
(ステップS705)重要情報取得部132は、ステップS704で取得した1以上の用語を重要情報として取得し、図示しないバッファに一時蓄積する。
(ステップS706)重要情報取得部132は、カウンタiを1、インクリメントする。ステップS703に戻る。
次に、ステップS523の数値範囲文字列取得処理例について、図8のフローチャートを用いて説明する。図8のフローチャートにおいて、図6のフローチャートと同一のステップについて、説明を省略する。
(ステップS801)重要情報取得部132は、カウンタjに1を代入する。
(ステップS802)重要情報取得部132は、j番目の数値範囲文字列取得パターンが格納されているか否かを判断する。j番目の数値範囲文字列取得パターンが格納されている場合はステップS803に行き、格納されていない場合はステップS607に行く。
(ステップS803)重要情報取得部132は、i番目の文の中に、j番目の数値範囲文字列取得パターンの合致する文字列が存在するか否かを検査する。合致する文字列が存在する場合はステップS804に行き、合致する文字列が存在しない場合はステップS805に行く。
(ステップS804)重要情報取得部132は、i番目の文の中のj番目の数値範囲文字列取得パターンの合致する1以上の文字列を取得し、図示しないバッファに蓄積する。
(ステップS805)重要情報取得部132は、カウンタjを1、インクリメントする。ステップS802に戻る。
次に、ステップS526の数字取得処理例について、図9のフローチャートを用いて説明する。
(ステップS901)重要情報取得部132は、カウンタiに1を代入する。
(ステップS902)重要情報取得部132は、ステップS804で取得されたi番目の数値範囲文字列が存在するか否かを判断する。存在する場合はステップS903に行き、存在しない場合は上位処理にリターンする。
(ステップS903)重要情報取得部132は、i番目の数値範囲文字列の下限の数値を取得する。
(ステップS904)重要情報取得部132は、i番目の数値範囲文字列の上限の数値を取得する。
(ステップS905)重要情報取得部132は、i番目の数値範囲文字列から単位を取得する。
(ステップS906)重要情報取得部132は、i番目の数値範囲文字列の数値から有効桁数を取得する。
(ステップS907)重要情報取得部132は、下限の数値より大きく、上限の数値より小さい数値であり、有効桁数だけの桁数のある1以上の数値を取得する。
(ステップS908)重要情報取得部132は、ステップS907で取得した1以上の各数値の後ろに、ステップS905で取得した単位を付加する。
(ステップS909)重要情報取得部132は、カウンタiを1、インクリメントする。ステップS902に戻る。
次に、特許分類装置2の動作例について、図10のフローチャートを用いて説明する。
(ステップS1001)受付部22は、1以上の分類対象情報を含む予測開始指示を受け付けたか否かを判断する。予測開始指示を受け付けた場合はステップS1002に行き、予測開始指示を受け付けなかった場合はステップS1001に戻る。なお、1以上の分類対象情報を含む予測開始指示は、1以上の分類対象情報を取得するための情報(例えば、ファイル名、URL等)を含む予測開始指示でも良い。
(ステップS1002)処理部23は、カウンタiに1を代入する。
(ステップS1003)処理部23は、ステップS1001で受け付けられた予測開始指示に対応するi番目の分類対象情報が存在するか否かを判断する。i番目の分類対象情報が存在する場合はステップS1004に行き、i番目の分類対象情報が存在しない場合はステップS1001に戻る。
(ステップS1004)特許明細書取得部131は、i番目の分類対象情報の中に、特許明細書が存在するか否かを判断する。特許明細書が存在する場合はステップS1005に行き、特許明細書が存在しない場合はステップS1006に行く。
(ステップS1005)特許明細書取得部131は、i番目の分類対象情報の中から、特許明細書を取得する。ステップS1008に行く。
(ステップS1006)特許明細書取得部131は、i番目の分類対象情報の中から、特許識別子を取得する。
(ステップS1007)特許明細書取得部131は、ステップS1006で取得した特許識別子をキーとして、サーバ装置3から特許明細書を受信する。
(ステップS1008)重要情報取得部132は、取得された特許明細書を用いて、i番目の重要情報を取得する。重要情報取得処理例について、図5のフローチャートを用いて説明した。なお、ここで、重要情報取得部132は、予測処理で使用する学習器に対応付いている種類特定情報を使用して、重要情報を取得することは好適である。
(ステップS1009)分類対象加工情報取得部233は、ステップS1008で取得されたi番目の重要情報を有し、特許明細書の全文を有さない、i番目の分類対象加工情報を取得する。
(ステップS1010)予測部234は、予測処理で使用する学習器を学習器格納部211から取得する。
(ステップS1011)予測部234は、i番目の分類対象加工情報とステップS1010で取得した学習器とを用いて、機械学習のアルゴリズムにより、予測処理を行い、分類結果情報を取得する。
(ステップS1012)出力部24は、ステップS1011で取得された分類結果情報を、i番目の分類対象情報に対応付けて蓄積する。
(ステップS1013)処理部23は、カウンタiを1、インクリメントする。ステップS1003に戻る。
なお、図10のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以上、本実施の形態によれば、特許明細書に関する重要な情報を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、特許請求の範囲または/および要約書をも用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、効果解決手段文または効果用語または解決手段用語を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、効果文または効果用語を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、解決手段文または解決手段用語を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、目的文または目的用語を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、特徴語を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、特徴語の関連語を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、重要タグ対応文または重要タグ対応用語を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、数値範囲文字列を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、数値範囲文字列が示す数値範囲に含まれる3以上の数字を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、外部のサーバ装置から取得した特許明細書を用いて取得された重要情報を用いることにより、特許を精度高く分類できる。
また、本実施の形態によれば、種類特定情報を用いて、複数種類の重要情報から適切な重要情報のみを取得することにより、特許をより精度高く分類できる。なお、例えば、効果解決手段文はすべての技術分野の特許の分類で使用可能であると考えられる、一方、数値範囲文字列、数値範囲文字列が示す数値範囲に含まれる数字等は、化学分野等の一部の技術分野の特許の分類で使用可能であると考えられる。
さらに、本実施の形態によれば、特許を精度高く分類するための学習器を生産できる。
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における特許分類装置2を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、特許明細書の全文は有さない特許レコードであり、特許を識別する特許識別子に対応する特許明細書を用いて取得された重要情報と、人手による特許の分類結果を特定する分類結果情報とを有する2以上の特許レコードを有する学習元情報を機械学習のアルゴリズムにより学習し、取得された学習器が格納される学習器格納部にアクセス可能なコンピュータを、分類対象の特許を識別する特許識別子を含む分類対象情報を受け付ける受付部と、前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する重要情報取得部と、前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応する情報であり、前記重要情報取得部が取得した重要情報を含む情報である分類対象加工情報を取得する分類対象加工情報取得部と、前記分類対象加工情報取得部が取得した分類対象加工情報に前記学習器を適用し、機械学習のアルゴリズムにより当該分類対象加工情報の分類を予測し、分類結果情報を取得する予測部と、前記予測部が取得した分類結果情報を、前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する出力部として機能させるためのプログラムである。
また、学習器生産装置1を実現するソフトウェアは、特許を識別する特許識別子と、当該特許識別子に対応する特許の人手による分類結果を特定する分類結果情報とを有する2以上の人手評価レコードを有する人手評価情報が格納される人手評価情報格納部にアクセス可能なコンピュータを、前記人手評価情報格納部に格納されている人手評価情報が有する2以上の各人手評価レコードが有する特許識別子に対応する特許明細書を用いて、予め決められた条件を満たす重要情報を取得する重要情報取得部と、前記2以上の各人手評価レコードごとに、前記重要情報取得部が取得した重要報と、当該重要情報の元になった特許明細書に対応する特許識別子と対になる分類結果情報とを有する特許レコードを取得し、当該2以上の特許レコードを有する学習元情報を取得する学習元情報取得部と、前記学習元情報取得部が取得した学習元情報を機械学習のアルゴリズムにより学習し、学習器を取得する学習部と、前記学習部が取得した学習器を蓄積する蓄積部として機能させるためのプログラムである。
(実施の形態2)
本実施の形態において、異なるアルゴリズムを用いて、特許の分類を精度高く行う特許分類システムBについて説明する。
また、本実施の形態において、使用するデータが異なる場合の、特許分類システムBについて説明する。
また、本実施の形態において、学習器生成プログラムが異なる場合の、特許分類システムBについて説明する。
また、本実施の形態において、統計処理が異なる場合の、特許分類システムBについて説明する。
また、本実施の形態において、2以上の統計処理方法は、各学習器の予測結果のORまたはANDまたは多数決を採る方法のうちの2以上の方法を含む、特許分類システムBについて説明する。
また、本実施の形態において、精度は再現率または適合率またはF値または正解率である、特許分類システムBについて説明する。
また、本実施の形態において、予測処理を行うための適切な処理を決定できるアルゴリズム決定装置5について説明する。
また、本実施の形態において、アルゴリズム決定装置5が決定したアルゴリズムを用いて最適な学習器を生産する、学習器の生産装置について説明する。
また、本実施の形態において、学習器の生産装置が生産した最適な学習器を用いて、特許の分類を精度高く行う特許分類装置について説明する。
図11は、本実施の形態における特許分類システムBのブロック図である。特許分類システムBは、アルゴリズム決定装置5、学習器生産装置6、特許分類装置8、サーバ装置3、および1または2以上のユーザ端末4を備える。
アルゴリズム決定装置5は、格納部51、受付部52、処理部53、および出力部54を備える。格納部51は、プログラム格納部511、および精度特定情報格納部512を備える。受付部52は、学習元情報受付部521を備える。処理部53は、学習部531、予測部532、評価部533、アルゴリズム情報取得部534、学習元情報取得部535、および統計処理部536を備える。
学習器生産装置6は、学習格納部61、学習受付部62、学習処理部13、および学習出力部64を備える。学習受付部62は、学習元情報受付部621を備える。学習処理部13は、特許明細書取得部131、重要情報取得部132、学習元情報取得部133、および学習部134を備える。重要情報取得部132は、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、および数字取得手段1329を備える。学習出力部64は、蓄積部641を備える。
図12は、特許分類装置8のブロック図である。特許分類装置8は、格納部21、受付部81、処理部82、出力部24を備える。処理部82は、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、統計処理部536、および予測部821を備える。
サーバ装置3、およびユーザ端末4は、実施の形態1におけるものと同じ要素である。
アルゴリズム決定装置5を構成する格納部51には、各種の情報が格納される。各種の情報とは、例えば、後述するプログラム、および後述する精度特定情報などである。また、格納部51には、例えば、後述する学習元情報なども格納されていても良い。
プログラム格納部511には、1または2以上の学習器生成プログラムと、予測プログラムとが格納される。ここで、予測プログラムは、当該1以上の各学習器生成プログラムに対応付いている。つまり、学習器生成プログラムと予測プログラムとは、通常、一対一に対応しているが、多対一に対応していてもよい。
学習器生成プログラムとは、学習元情報を用いて、特許情報を分類するための学習器を生成するプログラムである。学習元情報とは、学習器を生成するための元情報である。学習元情報は、例えば、2以上の特許分類情報を有する。特許分類情報とは、特許の分類に関する情報である。特許分類情報は、例えば、特許情報と、分類情報とを有する。
特許情報とは、特許に関する情報である。特許情報は、例えば、特許明細書の一部であることは好適であるが、特許明細書の全文でもよい。特許明細書は、例えば、特許公報、公開特許公報、公表特許公報等であり、その種類は問わない。特許情報は、通常、特許識別子を含む。特許識別子は、前述したように、例えば、ID、出願番号等である。また、特許情報は、例えば、要約、特許請求の範囲、明細書、特許分類コード等のうち1または2以上の情報を含む。特許情報は、上述した重要情報を有することは好適である。ただし、特許情報に含まれる情報の種類は問わない。
分類情報とは、特許情報に対する分類を示す情報である。分類情報は、通常、特許に対する人手による分類を示す情報である。分類情報は、例えば、「○,×」「A,B,C」、技術分野のID等、何でも良い。
なお、特許分類情報は、例えば、実施の形態1における特許レコードであってもよい。前述したように、特許レコードは、重要情報と、人手による分類結果情報とを有する。分類情報は、実施の形態1における分類結果情報であってもよい。ただし、分類情報は、人手による情報とは限らず、予測分類情報のうちスコアの高い情報(例えば、後述する予測部532が取得するプリミティブなスコアが予め決められた閾値よりも高いまたは閾値以上の分類情報)でも良い。
ただし、学習元情報の構造は問わない。また、学習元情報は、例えば、後述する学習元情報受付部521によって受け付けられても良いし、後述する学習元情報取得部535によって取得されても良い。
学習器生成プログラムは、機械学習のアルゴリズムにより学習処理を行うプログラムである。機械学習は、例えば、深層学習、SVM、ランダムフォレスト、決定木等が使用可能である。また、機械学習において、学習器を構成するためには、例えば、機械学習の関数(例えば、fastText、TinySVM、各種のRandomForest関数、TensorFlowのライブラリ等)に、学習元情報を与えると、学習器が得られる。
予測プログラムとは、学習器を用いて特許分類情報の分類を予測し、予測分類情報を取得するプログラムである。学習器は、後述する学習部531によって取得される。
プログラム格納部511には、例えば、2以上の学習器生成プログラムと、2以上の予測プログラムとが格納されても良い。
予測プログラムは、機械学習のアルゴリズムにより予測処理を行うプログラムである。予測プログラムは、例えば、上述した機械学習の関数を有する。予測プログラムに、学習器と、分類対象の特許分類情報とを与えて、当該予測プログラムが実行されると、予測結果である予測分類情報が得られる。
ここで、2以上の予測プログラムは、当該2以上の学習器生成プログラムにそれぞれ対応付いている。つまり、学習器生成プログラムと予測プログラムとは、通常、一対一に対応している。
精度特定情報格納部512には、精度特定情報が格納される。精度特定情報とは、予め決められた2種類以上の精度のうちのいずれの精度に関する精度情報を取得するかを特定する情報である。予め決められた2種類以上の精度は、例えば、再現率または適合率またはF値または正解率の4つの精度のうちの2以上の精度であることは好適である。
再現率、適合率、F値は、周知技術である。正解率とは、例えば、予測部532が取得した全ての予測分類情報のうち、学習元情報に含まれる分類情報と一致するものの割合である。
精度情報とは、精度に関する情報である。精度情報は、例えば、再現率に関する情報、適合率に関する情報、F値に関する情報、正解率に関する情報などであるが、精度に関する情報であれば何でも良い。再現率に関する情報は、例えば、再現率であるが、再現率を基に取得される情報でも良い。適合率に関する情報は、例えば、適合率であるが、適合率を基に取得される情報でも良い。F値に関する情報は、例えば、F値であるが、F値を基に取得される情報でも良い。正解率に関する情報は、例えば、正解率であるが、正解率を基に取得される情報でも良い。
なお、精度特定情報は、例えば、受付部52によって受け付けられ、精度特定情報格納部512に蓄積されるが、予め精度特定情報格納部512に格納されていても良い。
受付部52は、各種の情報を受け付ける。各種の情報とは、例えば、学習元情報である。
また、受付部52は、例えば、前述した精度特定情報を受け付ける。
なお、前述したように、受け付けとは、通常、ユーザ端末4からの受信であるが、キーボード等の入力デバイスから入力された情報の受け付け、ディスクや半導体メモリ等の記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
学習元情報受付部521は、前述した学習元情報を受け付ける。
学習元情報受付部521は、例えば、ユーザ端末4から学習元情報を受信する。ただし、例えば、ディスクや半導体メモリ等の記録媒体に学習元情報が格納されており、学習元情報受付部521は、かかる記録媒体から学習元情報を読み出してもよい。また、学習元情報受付部521が受け付ける学習元情報に含まれる特許情報は、特許識別子でもよい。その場合、学習元情報受付部521は、ユーザ端末4から受信した学習元情報に含まれる特許識別子に対応する特許情報を、例えば、サーバ装置3から受信してもよい。なお、かかる事項は、学習器生産装置6を構成する学習元情報学習受付部621にも当てはまる。
処理部53は、各種の処理を行う。各種の処理とは、例えば、学習部531、予測部532、評価部533、アルゴリズム情報取得部534、学習元情報取得部535、および統計処理部536などの処理である。また、処理部53は、例えば、フローチャートで説明する各種の判断や各種カウンタの制御なども行う。
処理部53は、重要情報取得部132が行う処理を行っても良い。つまり、処理部53は、重要情報取得部132を有しても良い。
処理部53を構成する学習部531は、例えば、学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の特許分類情報を用いて、1以上の各学習器生成プログラムを実行し、1以上の学習器を取得する。
ここで、学習器531が使用する「学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の特許分類情報」とは、例えば、学習元情報のうちのN割の特許分類情報である。N割とは、例えば、9割であるが、8割や9割5分等でもよく、その数値は問わない。
学習部531は、例えば、学習元情報取得部535が取得した2以上の各学習元情報に対して、プログラム格納部511に格納されている1以上の各学習器生成プログラムを実行し、2以上の学習器を取得しても良い。
学習部531は、例えば、学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の特許分類情報を用いて、2以上の各学習器生成プログラムを実行し、2以上の学習器を取得しても良い。
予測部532は、例えば、学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、学習部531が生成した1以上の各学習器を用いて、予測プログラムを適用し、1以上の各特許分類情報に対する2以上の予測分類情報を取得しても良い。
ここで、予測部532の予測対象となる「学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報」とは、通常、学習部134が使用していない1以上の特許分類情報である。例えば、学習器531が学習元情報のうちのN割(例えば、9割)を使用する場合、予測部532の予測対象となるのは、学習元情報のうちの“10-N”割(例えば、1割)であることは好適である。ただし、学習元情報の中には、例えば、学習に使用されず、予測の対象にもならない特許分類情報が存在してもよいし、学習に使用され、かつ予測の対象にもなる特許分類情報が含まれていても構わない。
予測部532は、例えば、学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、学習部531が生成した2以上の各学習器を用いて、予測プログラムを適用し、1以上の各特許分類情報に対する2以上の予測分類情報を取得しても良い。
予測部532は、例えば、アルゴリズムの種類(例えば、ディープラーニング1、ランダムフォレスト、ディープラーニング2など)と、使用する情報の種類(例えば、要約書と分類コード、要約書と特許請求の範囲と分類コード等)の組み合わせごとに取得された2以上の各学習器ごとに、当該学習器を用いて予測プログラムを適用し、「A,B,C」や「○,×」等の2以上の分類情報に対応する2以上のプリミティブなスコアを取得し、プリミティブなスコアが最も高い分類情報を、予測分類情報として取得してもよい。なお、プリミティブなスコアとは、予測プログラムが出力するスコアである。
これにより、例えば、分類情報「A」に対するプリミティブなスコア(=S1)と、分類情報「B」に対するプリミティブなスコア(=S2)と、分類情報「C」に対するプリミティブなスコア(=S3)とが取得される。そして、例えば、S1>S2>S3である場合は、最高スコアS1に対応する分類情報「A」が、予測分類情報として取得されてもよい。
評価部533は、予測部532が取得した2以上の各予測分類情報と、学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、精度情報が特定する精度が最も高い予測分類情報を決定する。精度は、例えば、再現率、適合率、F値、または正解率である。
評価部533は、例えば、予測部532が取得した2以上の予測分類情報に代えて、または予測部532が取得した2以上の各予測分類情報に加えて、統計処理部536が取得した1以上の予測分類情報を含む2以上の各予測分類情報と、学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、精度情報が特定する精度が最も高い予測分類情報を決定しても良い。
評価部533は、例えば、予測部532が取得した2以上の各予測分類情報と、学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の、精度特定情報により特定される精度情報を取得し、精度情報が特定する精度が最も高い予測分類情報を決定しても良い。
評価部533は、例えば、精度特定情報格納部512に格納されている精度特定情報に対応する精度情報を取得する。
評価部533は、例えば、学習元情報に対して、K分割交差検証を用いて、精度情報を取得する。
アルゴリズム情報取得部534は、アルゴリズム情報を取得する。アルゴリズム情報とは、評価部533が決定した予測分類情報に対応するアルゴリズムに関する情報である。評価部533が決定した予測分類情報とは、前述したように、精度が最も高い予測分類情報である。
アルゴリズム情報は、使用する情報の種類を特定する情報(後述する情報特定情報)、使用する学習器生成プログラムを特定する情報(後述するプログラム特定情報)、統計処理を特定する情報(後述する統計処理特定情報)のうちの1または2種類以上の情報を含む。
アルゴリズム情報は、例えば、後述する学習元情報取得部535が取得する2以上の学習元情報のうち、精度が最も高い予測分類情報に対応する学習元情報を特定可能な情報である。学習元情報を特定可能な情報は、例えば、学習元情報が有する情報を特定する情報特定情報であってもよい。情報特定情報は、通常、学習元情報を構成する特許情報に含まれる情報の種類(例えば、“要約書”、“特許請求の範囲”、“要約書+特許請求の範囲”等)を特定する情報である。
すなわち、アルゴリズム情報取得部534は、例えば、評価部533が決定した予測分類情報に対応する学習元情報が有する情報を特定する情報特定情報を含むアルゴリズム情報を取得しても良い。
または、アルゴリズム情報は、例えば、プログラム格納部511に格納されている2以上の学習器生成プログラムのうち、精度が最も高い予測分類情報に対応する学習器生成プログラムを特定する情報であってもよい。
すなわち、アルゴリズム情報取得部534は、例えば、評価部533が決定した予測分類情報に対応する学習器生成プログラムを特定するプログラム特定情報を含むアルゴリズム情報を取得しても良い。
または、アルゴリズム情報は、例えば、後述する統計処理部536が行う2以上の統計処理のうち、精度が最も高い予測分類情報に対応する統計処理を特定する情報であってもよい。
すなわち、アルゴリズム情報取得部534は、例えば、評価部533が決定した予測分類情報に対応する統計処理の方法を特定する統計処理特定情報を含むアルゴリズム情報を取得しても良い。
または、アルゴリズム情報は、例えば、再現率または適合率またはF値または正解率のうち、ユーザが所望する精度を特定する情報であっても良い。
すなわち、アルゴリズム情報取得部534は、例えば、受付部52が受け付けた精度特定情報を含むアルゴリズム情報を取得しても良い。
学習元情報取得部535は、学習元情報受付部521が受け付けた学習元情報が有する2以上の各特許分類情報が有する特許情報のうち、異なる情報を有する2以上の特許分類情報を各々有する2以上の学習元情報を取得する。
ここで、異なる情報を有する2以上の特許分類情報を有する2以上の各学習元情報は、例えば、一の学習元情報が有する2以上の各特許分類情報を構成する特許情報に含まれる情報が異なるような、2以上の学習元情報である。
学習元情報取得部535は、学習元情報受付部521が受け付けた学習元情報が有する2以上の各特許分類情報が有する特許情報の中の明細書から、1または2種類以上の重要情報を取得しても良い。かかる場合、学習元情報取得部535は、重要情報取得部132を有する。
具体的には、例えば、学習元情報受付部521が受け付けた学習元情報が有する2以上の各特許分類情報が有する特許情報に、要約、特許請求の範囲、および明細書が含まれており、学習元情報取得部535は、受け付けられた学習元情報が有する2以上の各特許分類情報が有する特許情報を用いて、例えば、各々の特許情報に要約が含まれる2以上の特許分類情報を有する1番目の学習元情報と、各々の特許情報に要約および特許請求の範囲が含まれる2以上の特許分類情報を有する2番目の学習元情報と、各々の特許情報に要約が含まれる2以上の特許分類情報を有する3番目の学習元情報と、各々の特許情報に要約および効果解決手段文が含まれる2以上の特許分類情報を有する3番目の学習元情報と、各々の特許情報に要約、特許請求の範囲、および効果解決手段文が含まれる2以上の特許分類情報を有する4番目の学習元情報とを取得してもよい。
また、上述した2以上の各学習元情報は、例えば、「要約書と特許請求の範囲とからなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」「要約書からなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」「特許請求の範囲からなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」「要約書と重要情報とからなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」「特許請求の範囲と重要情報とからなる特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報」である。
または、異なる情報を有する2以上の特許分類情報を各々有する2以上の学習元情報は、例えば、学習元情報のうちの少なくとも一部(以下、学習部分)の特許分類情報を学習部531の学習処理に使用し、学習元情報のうちの少なくとも一部(以下、予測部分)の各特許分類情報を予測部532による予測の対象とする場合において、学習部分に属する1以上の特許分類情報と、予測部分に属する1以上の特許分類情報との組み合わせを異ならせた、2以上の特許分類情報であってもよい。
具体的には、例えば、学習元情報受付部521が100件分の特許分類情報を有する学習元情報を受け付けた場合、学習元情報取得部535は、当該100件を第一~第十の10グループに等分(一般には、K個のグループに分割)し、当該10グループ中の9グループ((K-1)個のグループ)を学習部分に、残る1グループを予測部分に配属する処理を、グループの組み合わせを変えながら10回、行ってもよい(K分割交差検証)。
これによって、例えば、第一~第九の9グループに属する90件が学習部分であり、第十グループに属する10件が予測部分である第一の学習元情報と、第一~第八,第十の9グループに属する90件が学習部分であり、第九グループに属する10件が予測部分である第二の学習元情報と、第一~第七,第九,第十の9グループに属する90件が学習部分であり、第八グループに属する10件が予測部分である第三の学習元情報と、・・・第二~第十の9グループに属する90件が学習部分であり、第一グループに属する10件が予測部分である第十の学習元情報との、10個の学習元情報が取得される。
統計処理部536は、予測部532が取得した2以上の予測分類情報を用いて、1または2種類以上の統計処理を行い、統計処理結果である1または2以上の予測分類情報を取得する。統計処理とは、統計に関する処理である。統計処理は、例えば、予測分類情報の論理和(OR)または論理積(AND)または多数決をとる処理であるが、統計に関する処理であれば何でも良い。
統計処理部536は、例えば、2種類以上の統計処理を行い、統計処理結果である2以上の予測分類情報を取得しても良い。2種類以上の統計処理とは、例えば、上記予測分類情報の論理和または論理積または多数決のいずれかのうちの2種類以上の統計処理である。
ここで、論理和または論理積または多数決をとる場合のスコアは、例えば、プリミティブなアルゴリズムの2以上の動作結果(つまり、予測部532が、最終結果である予測分類情報を取得する前に、2以上の分類情報ごとに取得したプリミティブなスコア)を用いて取得される。
統計処理部536は、プリミティブなアルゴリズムの複数の各動作結果と最終結果とを比較し、合致する数または割合が大きいほど、高いスコアを取得することは好適である。
プリミティブなアルゴリズムの複数の各動作結果に含まれるスコアが全て同じである場合、統計処理部536は、プリミティブなアルゴリズムの複数の各動作結果と最終結果とを比較し、合致する数または割合が大きいほど、高いスコアを取得することは好適である。
例えば、統計処理部536は、論理和または論理積または多数決をとる場合のスコアを、例えば、以下のようにして算出する。
(1)プリミティブなアルゴリズムの複数の動作結果がすべて、最終結果(つまり、予測部532が取得した予測分類情報)と一致した場合、統計処理部536は、プリミティブなアルゴリズムの2以上の動作結果のうちの最高のスコアを付ける。
(2)プリミティブなアルゴリズムの複数の動作結果のうち、50%以上が、最終結果と異なる場合・・・最低のスコア(二値分類の場合は0.5)を付ける。
(3)上記(1),(2)以外(つまり、100%未満であり、50%より多い割合が、最終結果と同じ場合)、統計処理部536は、プリミティブなアルゴリズムの複数のスコアのうち、最低のスコアを付ける。
出力部54は、各種の情報を出力する。各種の情報とは、例えば、アルゴリズム情報である。なお、前述したように、出力とは、例えば、ユーザ端末4への送信であるが、ディスプレイへの表示、プリンタでの印字、スピーカーからの音出力、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念と考えても良い。
出力部54は、アルゴリズム情報取得部534が取得したアルゴリズム情報を、例えば、学習元情報に対応付けて蓄積する。
出力部54は、アルゴリズム情報取得部534が取得したアルゴリズム情報を、例えば、学習器生産装置6に送信する又は引き渡す。ただし、アルゴリズム情報は、例えば、ユーザ端末4に送信されたり、ディスプレイに表示されたり、記録媒体に蓄積されたりしても良く、その出力態様や出力先は問わない。
学習器生産装置6を構成する学習格納部61は、各種の情報を格納し得る。各種の情報とは、例えば、学習器、学習元情報、アルゴリズム情報などである。また、学習格納部61には、例えば、前述した効果解決手段文、前述した非効果解決手段文、前述した解決手段用語、前述した非解決手段用語、前述した効果用語、前述した解決手段文、前述した非解決手段文、前述した効果文、前述した非効果文、前述した目的文、前述した非目的文、前述した目的用語、前述した非目的用語なども格納されてもよい。なお、その他の情報について、適時説明する場合がある。
学習受付部62は、各種の情報を受け付ける。各種の情報とは、例えば、前述した学習元情報である。なお、前述したように、受け付けとは、通常、ユーザ端末4からの受信であるが、キーボード等の入力デバイスから入力された情報の受け付け、ディスクや半導体メモリ等の記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
学習元情報受付部621は、学習元情報を受け付ける。学習元情報受付部621は、通常、ユーザ端末4から学習元情報を受信する。ただし、学習元情報は、キーボード等の入力デバイスを介して受け付けられてもよいし、ディスク等の記録媒体から読み出されてもよく、その受け付けの態様は問わない。
学習処理部13、特許明細書取得部131、重要情報取得部132、学習元情報取得部133、および学習部134を備える。重要情報取得部132は、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、および数字取得手段1329は、基本的に、実施の形態1におけるものと同様の処理を行う。
ただし、学習部134は、アルゴリズム決定装置5が出力するアルゴリズム情報に従ったアルゴリズムで、学習元情報受付部621が受け付けた学習元情報または学習元情報取得部133が取得した学習元情報に対して、学習処理を行い、学習器を取得する。
学習部134は、例えば、アルゴリズム情報が有する情報特定情報で特定される情報を、学習元情報受付部621が受け付けた学習元情報から取得し、当該情報と学習元情報が有する分類情報とを有する2以上の特許分類情報を有する学習元情報を取得する。また、学習部134は、例えば、アルゴリズム情報が有するプログラム特定情報により特定されるプログラムに、取得した学習元情報を与え、学習処理を行い、学習器を構成する。なお、情報特定情報が重要情報を特定する情報を含む場合、学習部134は、重要情報取得部132が行う重要情報取得を行う。
学習部134は、例えば、アルゴリズム情報が有する情報特定情報で特定される情報を、学習元情報受付部621が受け付けた学習元情報から取得し、当該情報と学習元情報が有する分類情報とを有する2以上の特許分類情報を有する2以上の学習元情報を取得しても良い。また、学習部134は、例えば、アルゴリズム情報が有するプログラム特定情報により特定される1または2以上の各プログラムに、取得した2以上の各学習元情報を与え、学習処理を行い、2以上の学習器を構成しても良い。なお、情報特定情報が重要情報を特定する情報を含む場合、学習部134は、重要情報取得部132が行う重要情報取得を行う。
例えば、アルゴリズム決定装置5が出力するアルゴリズム情報が、(a)2以上の学習元情報のうち、精度が最も高い予測分類情報に対応する学習元情報を特定可能な情報である場合、学習部134は、当該アルゴリズム情報が特定する学習元情報を用いて、学習器を取得する。
または、アルゴリズム情報が、(b)プログラム格納部511に格納されている2以上の学習器生成プログラムのうち、精度が最も高い予測分類情報に対応する学習器生成プログラムを特定する情報である場合、学習部134は、当該アルゴリズム情報が特定する学習器生成プログラムを用いて、学習器を取得する。
または、アルゴリズム情報が、(c)2以上の統計処理のうち、精度が最も高い予測分類情報に対応する統計処理を特定する情報である場合、学習部134は、当該統計処理を特定する情報に対応する2以上の学習元情報、当該統計処理を特定する情報に対応する2以上の学習器生成プログラム、当該統計処理を特定する情報に対応する2以上の学習元情報と1以上の学習器生成プログラム、または当該統計処理を特定する情報に対応する1以上の学習元情報と2以上の学習器生成プログラムを用いて、2以上の学習器を取得する。
また、例えば、アルゴリズム情報が、再現率または適合率またはF値または正解率のうち、ユーザが所望する精度の種類を特定する情報(つまり、受付部52が受け付けた精度特定情報)に対応付いている場合、学習部134は、当該アルゴリズム情報が特定する精度を上げるための学習器を取得する。なお、学習部134がアルゴリズム情報に従った学習器を生成すれば、上記の効果を奏することができる。
蓄積部641は、学習部134が取得した学習器を蓄積する。蓄積部641は、学習部134が取得した学習器を、通常、アルゴリズム決定装置5が出力するアルゴリズム情報に対応付けて蓄積する。学習器の蓄積先は、通常、特許分類装置2を構成する学習器格納部211である。ただし、学習器は、例えば、学習格納部61に蓄積されてもよく、その蓄積先は問わない。
特許分類装置8を構成する学習器格納部211には、学習器生産装置6が取得した1または2以上の学習器が格納される。学習器には、通常、アルゴリズム情報が対応づいている。
受付部81は、分類対象の特許を識別する特許識別子を含む分類対象情報を受け付ける。
予測部821は、受付部81が受け付けた分類対象情報に対して、学習器格納部211の学習器に対応付いているアルゴリズム情報に従ったアルゴリズムにより、当該学習器を用いて予測処理を行い、分類結果情報を取得する。
予測部821は、例えば、受付部81が受け付けた分類対象情報に対応する情報であり、アルゴリズム情報が有する情報特定情報が特定する情報であり、予測処理に使用する情報を取得する。次に、予測部821は、例えば、アルゴリズム情報が有する1以上の各プログラム特定情報により特定される1以上の各予測プログラムに、予測処理に使用する情報を与え、当該1以上の各予測プログラムを実行し、予測プログラムごとの分類結果情報を取得する。
また、アルゴリズム情報が統計処理特定情を含む場合、予測部821は、2以上の各予測プログラムごとの分類結果情報を統計処理し、最終的な分類結果情報を取得する。
予測部72は、分類対象加工情報取得部233が取得した分類対象加工情報に学習器に適用し、機械学習のアルゴリズムにより当該分類対象加工情報の分類を予測し、分類結果情報を取得しても良い。
出力部73は、予測部72が取得した分類結果情報を、受付部71が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する。
格納部51、プログラム格納部511、精度特定情報格納部512、および学習格納部61等は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
格納部51等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部51等で記憶されるようになっても良く、通信回線等を介して送信された情報が格納部51等で記憶されるようになっても良く、あるいは、入力デバイスを介して入力された情報が格納部51等で記憶されるようになっても良い。
受付部52、学習元情報受付部521、出力部54、学習受付部62、学習元情報受付部621、学習出力部64、蓄積部641、および受付部81は、通常、無線または有線の通信手段等で実現され得る。
処理部53、学習部531、予測部532、評価部533、アルゴリズム情報取得部534、学習元情報取得部535、統計処理部536、処理部82、予測部821等は、通常、プロセッサやメモリ等から実現され得る。処理部53等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、例えば、CPU、MPU、GPU等であり、問わない。
次に、特許分類システムBの動作例について説明する。まず、アルゴリズム決定装置5の動作例を図13のフローチャートを用いて説明する。
(ステップS1301)処理部53は、アルゴリズム情報のすべての候補を取得する。
なお、例えば、格納部51に、1または2以上の情報特定情報(例えば、「要約書」「要約書,特許分類コード」「要約書,効果解決手段文」の3つ)、1または2以上のプログラム特定情報(例えば、「深層学習」「ランダムフォレスト」の2つ)、および1または2以上の統計処理特定情報(例えば、「AND」「OR」)が格納されている場合、処理部53は、3つの情報特定情報のうちのいずれかの情報特定情報と、2つのプログラム特定情報のいずれかのプログラム特定情報の組み合わせである6つのアルゴリズム情報の候補を取得する。また、処理部53は、3つの情報特定情報のうちのいずれかの情報特定情報と、2つの各プログラム特定情報で特定されるプログラムの予測結果の2種類の統計処理特定情報の組み合わせである6つのアルゴリズム情報の候補を取得する。つまり、ここの例では、処理部53は、12のアルゴリズム情報の候補を取得する。
(ステップS1302)処理部53は、カウンタiに1を代入する。
(ステップS1303)処理部53は、ステップS1301で取得したアルゴリズム情報の候補の中で、i番目のアルゴリズム情報の候補が存在するか否かを判断する。i番目のアルゴリズム情報の候補が存在する場合はステップS1304に行き、i番目のアルゴリズム情報の候補が存在しない場合はステップS1306に行く。
(ステップS1304)評価部533は、i番目のアルゴリズム情報の候補に対応する情報およびアルゴリズムを用いた場合における、格納部51に格納されている精度特定情報により特定される精度(例えば、再現率、F値など)の評価を行い、精度情報を取得し、当該精度情報をi番目のアルゴリズム情報の候補に対応付けて一時蓄積する。なお、かかる評価処理について、図14のフローチャートを用いて説明する。
(ステップS1305)処理部53は、カウンタiを1、インクリメントする。ステップS1303に戻る。
(ステップS1306)アルゴリズム情報取得部534は、最良の値の精度情報を取得する。
(ステップS1307)アルゴリズム情報取得部534は、ステップS1306で取得した最良の値の精度情報と対になるアルゴリズム情報の候補を、アルゴリズム情報として取得する。
(ステップS1308)アルゴリズム情報取得部534は、アルゴリズム情報を蓄積する。
なお、図13のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、ステップS1304における評価処理について、図14のフローチャートを用いて説明する。
(ステップS1401)学習元情報取得部535は、アルゴリズム情報の候補に対応する情報特定情報を取得する。
(ステップS1402)学習元情報取得部535は、カウンタiに1を代入する。
(ステップS1403)学習元情報取得部535は、処理対象の学習元情報の中に、i番目の特許情報が存在するか否かを判断する。i番目の特許情報が存在する場合はステップS1404に行き、i番目の特許情報が存在しない場合はステップS1406に行く。なお、ステップS1406に行く場合、評価対象の学習元情報が完成している。また、処理対象の学習元情報は、例えば、格納部51に格納されている。
(ステップS1404)学習元情報取得部535は、i番目の特許情報に対応する情報であり、ステップS1401で取得した情報特定情報により特定される情報を取得する。評価部533は、処理対象の学習元情報が有する分類情報と取得した情報とからなる特許分類情報を取得し、図示しないバッファに一時蓄積する。
(ステップS1405)学習元情報取得部535は、カウンタiを1、インクリメントする。ステップS1403に戻る。
(ステップS1406)評価部533は、アルゴリズム情報の候補に対応する統計処理特定情報が存在するか否かを判断する。統計処理特定情報が存在する場合はステップS1409に行き、統計処理特定情報が存在しない場合はステップS1407に行く。
(ステップS1407)評価部533は、アルゴリズム情報の候補に対応するプログラム特定情報を取得する。
(ステップS1408)評価部533は、ステップS1407で取得したプログラム特定情報により特定される学習プログラムと予測プログラムとを用いて、K分割交差検証を行う。K分割交差検証の処理例について、図15のフローチャートを用いて説明する。
(ステップS1409)評価部533は、アルゴリズム情報の候補に対応する統計処理特定情報が存在する場合の評価を行う。かかる統計処理評価の処理の例について、図15のフローチャートを用いて説明する。
(ステップS1410)評価部533は、アルゴリズム情報の候補に対応付けて、取得された精度情報を一時蓄積する。上位処理にリターンする。
次に、ステップS1408のK分割交差検証の処理例について、図15のフローチャートを用いて説明する。
(ステップS1501)評価部533は、学習元情報をk(kは2以上の自然数)に分割する。
(ステップS1502)評価部533は、カウンタiに1を代入する。
(ステップS1503)評価部533は、kに分割した学習元情報の中で、i番目の分割パターンが存在するか否かを判断する。i番目の分割パターンが存在する場合はステップS1504に行き、i番目の分割パターンが存在しない場合はステップS1513に行く。なお、kに分割した場合、通常、kの分割パターンが存在する。かかることは、K分割交差検定における公知技術である。
(ステップS1504)学習部531は、学習元情報の中の一部の情報であり、学習対象の情報(kの分割パターンにおける学習処理に使用する特許分類情報)を取得する。
(ステップS1505)学習部531は、プログラム特定情報により特定される学習プログラムに、ステップS1504で取得した学習対象の情報を与え、当該学習プログラムを実行し、学習器を取得する。
(ステップS1506)予測部532は、カウンタjに1を代入する。
(ステップS1507)予測部532は、学習元情報の中の一部の情報であり、予測対象のj番目の情報が存在するか否かを判断する。予測対象のj番目の情報が存在する場合はステップS1508に行き、予測対象のj番目の情報が存在しない場合はステップS1510に行く。
(ステップS1508)予測部532は、プログラム特定情報により特定される予測プログラムに、予測対象のj番目の情報を与え、当該予測プログラムを実行し、予測結果を取得する。
(ステップS1509)予測部532は、カウンタjを1、インクリメントする。ステップS1507に戻る。
(ステップS1510)評価部533は、アルゴリズム情報の候補に対応付く精度特定情報を取得する。
(ステップS1511)評価部533は、ステップS1508で取得された予測結果の集合と、学習元情報の中の予測対象の特許分類情報が有する分類情報の集合とを比較し、ステップS1510で取得した精度特定情報で特定される精度(例えば、再現率、F値)の精度情報を取得する。なお、かかる精度情報は、一次精度情報とする。
(ステップS1512)評価部533は、カウンタiを1、インクリメントする。ステップS1503に戻る。
(ステップS1513)評価部533は、ステップS1511で取得したk個の一次精度情報の代表値(例えば、平均値、中央値)である精度情報を取得し、当該精度情報を、当該アルゴリズム情報の候補に対応付けて蓄積する。上位処理にリターンする。
次に、ステップS1409の統計処理評価の処理の例について、図16のフローチャートを用いて説明する。なお、図16のフローチャートにおいて、図15のフローチャートと同一のステップについて説明を省略する。
(ステップS1601)評価部533は、カウンタjに1を代入する。
(ステップS1602)評価部533は、j番目のプログラム特定情報が存在するか否かを判断する。j番目のプログラム特定情報が存在する場合はステップS1603に行き、j番目のプログラム特定情報が存在しない場合はステップS1609に行く。
(ステップS1603)学習部531は、j番目のプログラム特定情報により特定される学習プログラムに、ステップS1504で取得された学習対象の情報を与え、当該学習プログラムを実行し、学習器を取得する。
(ステップS1604)予測部532は、カウンタlに1を代入する。
(ステップS1605)予測部532は、学習元情報の中の一部の情報であり、予測対象のl番目の情報が存在するか否かを判断する。予測対象のl番目の情報が存在する場合はステップS1606に行き、予測対象のl番目の情報が存在しない場合はステップS1608に行く。
(ステップS1606)予測部532は、プログラム特定情報により特定される予測プログラムに、予測対象のl番目の情報を与え、当該予測プログラムを実行し、予測結果を取得する。
(ステップS1607)予測部532は、カウンタlを1、インクリメントする。ステップS1605に戻る。
(ステップS1608)評価部533は、カウンタjを1、インクリメントする。ステップS1602に戻る。
(ステップS1609)統計処理部536は、カウンタlに1を代入する。
(ステップS1610)統計処理部536は、l番目の予測対象の情報が存在するか否かを判断する。l番目の予測対象の情報が存在する場合はステップS1611に行き、l番目の予測対象の情報が存在しない場合はステップS1613に行く。
(ステップS1611)統計処理部536は、l番目の予測対象の情報に対する2以上の予測結果に対して、アルゴリズム情報の候補が有する統計処理特定情報により特定される統計処理(例えば、「AND」「OR」「多数決」)を行い、統計処理結果を取得する。
(ステップS1612)統計処理部536は、カウンタlを1、インクリメントする。ステップS1610に戻る。
(ステップS1613)評価部533は、アルゴリズム情報の候補に対応付く精度特定情報を取得する。
(ステップS1614)評価部533は、ステップS1611で取得された統計処理結果の集合と、学習元情報の中の予測対象の特許分類情報が有する分類情報の集合とを比較し、ステップS1613で取得した精度特定情報で特定される精度(例えば、再現率、F値)の精度情報を取得する。なお、かかる精度情報は、一次精度情報とする。
(ステップS1615)評価部533は、カウンタiを1、インクリメントする。ステップS1503に戻る。
(ステップS1616)評価部533は、ステップS1614で取得したk個の一次精度情報の代表値(例えば、平均値、中央値)である精度情報を取得し、当該精度情報を、当該アルゴリズム情報の候補に対応付けて蓄積する。上位処理にリターンする。
次に、学習器生産装置6の動作例について、図17のフローチャートを用いて説明する。
(ステップS1701)学習受付部62は、学習元情報を取得する。
(ステップS1702)学習処理部13は、ステップS1701で取得した学習元情報に対応するアルゴリズム情報を取得する。
(ステップS1703)学習処理部13は、アルゴリズム情報が有する情報特定情報を取得する。
(ステップS1704)学習処理部13は、ステップS1703で取得した情報特定情報により特定される情報であり、学習元情報が有する各特許分類情報に対応する情報を取得し、当該情報と各特許分類情報が有する分類情報からなる情報を取得する。そして、学習処理部13は、取得した情報を有する学習元情報であり、学習処理に使用する学習元情報を取得する。
(ステップS1705)学習処理部13は、カウンタiに1を代入する。
(ステップS1706)学習処理部13は、ステップS1702で取得したアルゴリズム情報が有するi番目のログラム特定情報が存在するか否かを判断する。i番目のログラム特定情報が存在する場合はステップS1707に行き、i番目のログラム特定情報が存在しない場合は処理を終了する。
(ステップS1707)学習処理部13は、ステップS1707で取得したプログラム特定情報により特定される学習プログラムを学習格納部61から取得する。
(ステップS1708)学習処理部13は、ステップS1707で取得した学習プログラムに、ステップS1704で取得した学習元情報を与え、当該学習プログラムを実行し、学習器を取得する。そして、学習処理部13は、当該学習器をステップS1702で取得したアルゴリズム情報と対に蓄積する。
(ステップS1709)学習処理部13は、カウンタiを1、インクリメントする。ステップS1706に戻る。
次に、特許分類装置8の動作例について、図18のフローチャートを用いて説明する。
(ステップS1801)受付部81は、分類対象情報を受け付けたか否かを判断する。分類対象情報を受け付けた場合はステップS1802に行き、分類対象情報を受け付けなかった場合はステップS1801に戻る。
(ステップS1802)処理部82は、格納部21に格納されているアルゴリズム情報を取得する。
(ステップS1803)処理部82は、ステップS1802で取得したアルゴリズム情報が有する情報特定情報を取得する。
(ステップS1804)処理部82は、ステップS1803で取得した情報特定情報により特定される情報であり、分類対象情報に対応する情報を取得する。
(ステップS1805)処理部82は、ステップS1802で取得したアルゴリズム情報が有するプログラム特定情報を取得する
(ステップS1806)処理部82は、カウンタiに1を代入する。
(ステップS1807)処理部82は、ステップS1802で取得したアルゴリズム情報の中にi番目のプログラム特定情報が存在するか否かを判断する。i番目のプログラム特定情報が存在する場合はステップS1808に行き、i番目のプログラム特定情報が存在しない場合はステップS1811に行く。
(ステップS1808)予測部821は、ステップS1805で取得したプログラム特定情報により特定される予測プログラムを格納部21から取得する。
(ステップS1809)予測部821は、ステップS1808で取得した予測プログラムに、ステップS1802で取得したアルゴリズム情報と対になる学習器と、ステップS1804で取得した情報とを与え、当該予測プログラムを実行し、予測結果を取得し、当該予測結果を分類対象情報に対応付けて蓄積する。なお、予測部821は、スコアをも取得することは好適である。
(ステップS1810)処理部82は、カウンタiを1、インクリメントする。ステップS1807に戻る。
(ステップS1811)予測部821は、ステップS1802で取得したアルゴリズム情報の中に統計処理特定情報が存在するか否かを判断する。統計処理特定情報が存在する場合はステップS1812に行き、統計処理特定情報が存在しない場合はステップS1814に行く。
(ステップS1812)統計処理部536は、ステップS1809における2以上の予測処理の予測結果に対して、統計処理特定情報により特定される統計処理を行い、統計処理結果を取得する。なお、統計処理結果は、最終的な予測結果である。
(ステップS1813)統計処理部536は、予測部821が取得したスコアを用いて、統計処理結果に対応するスコアを取得する。
(ステップS1814)出力部は、ステップS1812で取得された最終的な予測結果と、ステップS1813で取得されたスコアとを出力する。
以下、特許分類システムBの具体的な動作例について説明する。なお、以下の説明は、各種の変更が可能であり、本発明の範囲を何ら制限するものではない。
本例において、情報特定情報は、“要約書,IPC”、または“要約書,効果解決手段文,IPC”の2通りである。また、プログラム特定情報は、“深層学習.exe”、“ランダムフォレスト.exe”2通りである。さらに、統計情報特定情報は、“AND”、または“OR”の2通りである。
アルゴリズム決定装置5の格納部51には、例えば、後述する図19に示すような、8個のアルゴリズム情報候補1~8が格納されている。アルゴリズム情報候補とは、アルゴリズム情報の候補である。アルゴリズム情報候補1~4は、上記2通りの情報特定情報のうちのいずれかの情報特定情報と、上記2通りのプログラム特定情報のいずれかのプログラム特定情報との組み合わせである4つのアルゴリズム情報の候補である。アルゴリズム情報候補5~8は、上記2通りの情報特定情報のうちのいずれかの情報特定情報と、上記2通りの各プログラム特定情報で特定されるプログラムの予測結果の2種類の統計処理特定情報の組み合わせである4つのアルゴリズム情報の候補である。なお、かかる8つのアルゴリズム情報候補1~8は、本例では、予め格納部51に格納されているが、例えば、後述する設定画面を通じて入力されるユーザの指示に応じて処理部53が取得し、格納部51に蓄積してもよい。
また、格納部51には、例えば、後述する図20に示すような、上記8個のアルゴリズム情報候補1~8に対応する8個の精度情報1~8が格納され得る。なお、かかる8個の精度情報1~8は、アルゴリズム情報取得部534によって取得され、上記8個のアルゴリズム情報候補1~8に対応付けて格納部51に蓄積される。
図19は、アルゴリズム情報候補のデータ構造図である。アルゴリズム情報候補は、情報特定情報、プログラム特定情報、および統計情報特定情報を有する。ID“1”に対応付いたアルゴリズム情報候補1は、情報特定情報“要約書,IPC”、プログラム特定情報“深層学習.exe”、および統計情報特定情報“-”を有する。なお、“-”は、どの統計処理も行わない旨の情報である。
また、ID“2”に対応付いたアルゴリズム情報候補2は、情報特定情報“要約書,効果解決手段文,IPC”、プログラム特定情報“深層学習.exe”、および統計情報特定情報“-”を有する。同様に、アルゴリズム情報候補3は、情報特定情報“要約書,IPC”、プログラム特定情報“ランダムフォレスト.exe”、および統計情報特定情報“-”を有する。アルゴリズム情報候補4は、情報特定情報“要約書,効果解決手段文,IPC”、プログラム特定情報“ランダムフォレスト.exe”、および統計情報特定情報“-”を有する。
アルゴリズム情報候補5は、情報特定情報“要約書,IPC”、プログラム特定情報“深層学習.exe,ランダムフォレスト.exe”、および統計情報特定情報“OR”を有する。アルゴリズム情報候補6は、情報特定情報“要約書,効果解決手段文,IPC”、プログラム特定情報“深層学習.exe,ランダムフォレスト.exe”、および統計情報特定情報“OR”を有する。アルゴリズム情報候補7は、情報特定情報“要約書,IPC”、プログラム特定情報“深層学習.exe,ランダムフォレスト.exe”、および統計情報特定情報“AND”を有する。アルゴリズム情報候補8は、情報特定情報“要約書,効果解決手段文,IPC”、プログラム特定情報“深層学習.exe,ランダムフォレスト.exe”、および統計情報特定情報“AND”を有する。
図20は、精度情報のデータ構造図である。精度情報は、再現率、適合率、F値、および正解率を有する。ID“1”に対応付いた精度情報1は、再現率“a1”、適合率“b1”、F値“(a1+b1)/2”、および正解率“c1”を有する。また、ID“2”に対応付いた精度情報2は、再現率“a2”、適合率“b2”、F値“(a2+b2)/2”、および正解率“c2”を有する。
同様に、精度情報3は、再現率“a3”、適合率“b3”、F値“(a3+b3)/2”、および正解率“c3”を有する。精度情報4は、再現率“a4”、適合率“b4”、F値“(a4+b4)/2”、および正解率“c4”を有する。精度情報5は、再現率“a5”、適合率“b5”、F値“(a5+b5)/2”、および正解率“c5”を有する。精度情報6は、再現率“a6”、適合率“b6”、F値“(a6+b6)/2”、および正解率“c6”を有する。精度情報7は、再現率“a7”、適合率“b7”、F値“(a7+b7/2”、および正解率“c7”を有する。精度情報8は、再現率“a8”、適合率“b8”、F値“(a8+b8)/2”、および正解率“c8”を有する。
ユーザは、特許識別子と分類情報とで構成された100個の特許分類情報を有する学習元情報をユーザ端末4に入力する。ユーザ端末4は、学習元情報の入力を受け付け、受け付けた学習元情報をアルゴリズム決定装置5に送信する。
プログラム格納部511には、上記2通りのプログラム特定情報に対応する2つの学習器生成プログラムと、当該2つの学習器生成プログラムに対応する2つの予測プログラムとが格納されている。
精度特定情報格納部512には、4つの精度特定情報「再現率」「適合率」「F値」「正解率」のうちいずれか一つ(ここでは、「正解率」)が格納されている。なお、格納されている精度特定情報は、例えば、後述する設定画面を通じて入力されるユーザの指示に応じて処理部53が取得し、格納部51に蓄積したものであるが、デフォルトの情報または自動的に取得された情報でもよい。
アルゴリズム決定装置5において、学習元情報受付部521が上記学習元情報を受信し、処理部53は、当該受信された学習元情報と、格納部51に格納されている8個のアルゴリズム情報候補1~8とを用いて、以下のような処理を行う。
詳しくは、処理部53を構成する学習元情報取得部535が、上記受信された学習元情報が有する2以上(ここでは、100個)の各特許分類情報ごとに、当該特許分類情報が有する特許情報のうち、アルゴリズム情報候補を構成する上記2種類の情報特定情報で特定される情報を有する2以上の特許分類情報を各々有する2以上の特許分類情報を取得する。これにより、受け付けられた一の特許分類情報に対して、異なる情報を有する2以上の特許分類情報(ここでは、「要約書,IPC」を有する特許分類情報、および「要約書,効果解決手段文,IPC」を有する特許分類情報の2つ)が取得される。
次に、当該取得された2以上の各学習元情報ごとに、学習部531が、当該学習元情報のうち少なくとも一部(例えば、90個)の特許分類情報を用いて、プログラム格納部511に格納されている2つの学習器生成プログラムのうち、当該アルゴリズム情報候補が有するプログラム特定情報で特定される学習器生成プログラムを実行し、2つの学習器を取得する。予測部532は、当該学習元情報のうち少なくとも一部(例えば、学習器の生成に使用されていない10個)の特許分類情報に対して、当該取得された2つの各学習器を用いて、当該学習器の取得に用いた学習器生成プログラムに対応する予測プログラムを適用し、2以上(ここでは、上記10個)の各特許分類情報に対する2以上(ここでは、4個)の予測分類情報を取得する。
統計処理部535は、当該取得された2以上の予測分類情報を用いて、上記2通りの統計処理(AND,OR)のうち、統計情報特定情報で特定される統計処理を行い、統計処理結果である2以上(ここでは、4個)の予測分類情報を取得する。
評価部533は、こうして取得された4以上(ここでは、上記2通りのいずれかの情報特定情報と上記2通りのいずれかのプログラム特定情報との組み合わせに対応する4個、および上記2通りのいずれかの情報特定情報と、上記2通りの各プログラム特定情報で特定されるプログラムの予測結果の2種類のいずれかの統計処理特定情報との組み合わせに対応する4個の、合計8個)の予測分類情報と、学習元情報が有する分類情報とを用いて、各予測分類情報の精度情報を取得し、アルゴリズム情報候補に対応付けて格納部51に蓄積する。
なお、上記8個の予測分類情報のうち、前者4個の各予測分類情報については、例えば、図15のフローチャートで説明したK分割交差検証により、当該予測分類情報に対応する精度情報が取得され、後者4個の各予測分類情報については、例えば、図16のフローチャートで説明した統計処理評価により、当該予測分類情報に対応する精度情報が取得されてもよい。
これにより、図19に示した8個のアルゴリズム情報候補1~8に対応付けて、図20に示した8個の精度情報1~8が格納部51に格納される。
アルゴリズム情報取得部534は、精度特定情報格納部512に格納されている精度特定情報で特定される精度(ここでは、正解率)について、格納部51に格納されている精度情報1~8のうち、最良の値(例えば、最大値)の精度情報を取得する。例えば、精度情報1~8に対応する正解率c1~c8のうちc3が最良の値ある場合は、当該最良の値に対応する精度情報3が取得される。
なお、例えば、格納されている精度特定情報が、4種類の精度をすべて用いる旨の情報(例えば、4種類の各精度ごとに、最良の値に対応する精度情報に各x点(例えば、1点)を加点し、最高得点に対応する精度情報を取得する旨の情報)であり、再現率a1~a8のうち最良の値がa2であり、適合率b1~b8のうち最良の値がb3であり、F値“(a1+b1)/2”~“(a8+b8)/2”のうち最良の値が“(a2+b2)/2”であり、正解率c1~c8のうちc4が最良の値ある場合は、精度情報2について“1点+1点=2点”が取得され、精度情報3について“1点”が取得され、精度情報4について“1点”が取得され、その他の各精度情報1,5~8については“0点”が取得され、こうして取得された8個の点数のうち最高点である2点に対応する精度情報2が取得されてもよい。
また、例えば、格納されている精度特定情報が、4種類の精度のうち一の精度(例えば、適合率)を重視する旨の情報(例えば、4種類の各精度ごとに、最良の値に対応する精度情報に各x点(例えば、1点)を加点し、x点が加点された精度情報の中に、重視する精度情報が含まれている場合は、当該重視する精度情報について、さらにy点(例えば、2点)を加点する旨の情報など)であり、再現率a1~a8のうち最良の値がa2であり、適合率b1~b8のうち最良の値がb3であり、F値“(a1+b1)/2”~“(a8+b8)/2”のうち最良の値が“(a2+b2)/2”であり、正解率c1~c8のうちc3が最良の値ある場合は、精度情報2について“1点+1点=2点”が取得され、精度情報3について、“(1点+2点)+1点=4点”が取得され、その他の各精度情報1,4~8については“0点”が取得され、こうして取得された8個の点数のうち最高点である4点に対応する精度情報3が取得されてもよい。
アルゴリズム情報取得部534は、当該最良の値の精度情報と対になるアルゴリズム情報(例えば、精度情報3が取得された場合は、当該精度情報3と対になるアルゴリズム情報候補3)を、格納部51からアルゴリズム情報として取得する。アルゴリズム情報取得部534は、当該取得したアルゴリズム情報を、上記受信された学習元情報に対応付けて格納部51に蓄積する。
出力部54は、こうして、学習元情報受付部521が学習元情報を受信したことに応じて、アルゴリズム情報取得部534が取得したアルゴリズム情報を出力する。アルゴリズム情報の出力先は、通常、学習機生産装置6である。
学習機生産装置6において、学習処理部13が、アルゴリズム決定装置5から出力されたアルゴリズム情報を学習格納部61に蓄積し、学習部134は、学習格納部61に格納されているアルゴリズム情報を用いて、例えば、図17のフローチャートに示した手順で、学習器を取得する。取得された学習器は、特許分類装置8に引き渡される。
学習機生産装置6によって取得されたアルゴリズム情報は、特許分類装置8にも出力される。特許分類装置8において、処理部82は、学習機生産装置6から引き渡された学習器と、学習機生産装置6から出力されたアルゴリズム情報とを格納部21に蓄積する。その後、受付部81が、ユーザ端末4から分類対象情報を受信し、処理部82は、当該受信された分類対象情報に対し、格納部21に格納されている学習器とアルゴリズム情報と用いて、例えば、図18のフローチャートに示した処理を実行し、予測分類情報とそれに対するスコアを取得する。出力部24は、当該取得された特許分類情報とスコアを、当該分類対象情報の送信元であるユーザ端末4に送信する。これにより、ユーザ端末4のディスプレイに、特許分類情報とスコアが表示される。
なお、学習機生産装置6によって取得されたアルゴリズム情報は、上記学習元情報の送信元であるユーザ端末4にも送信されてもよい。ユーザ端末4は、アルゴリズム決定装置5から送信されたアルゴリズム情報を、ディスプレイ等の出力デバイスを介して出力する。これによって、ユーザ端末4のディスプレイに、アルゴリズム情報が表示される。
以上、本実施の形態によれば、アルゴリズム決定装置5は、予測処理を行うための適切な処理を決定できる。
また、アルゴリズム決定装置5は、予測処理を行う際に使用するデータを変更することにより、予測処理を行うための適切な処理を決定できる。
また、アルゴリズム決定装置5は、複数の学習器生成プログラムを使用することにより、予測処理を行うための適切な処理を決定できる。
また、アルゴリズム決定装置5は、2以上の学習器を用いて取得した予測結果に対して統計処理を行った予測結果を用いることにより、予測処理を行うための適切な処理を決定できる。
また、アルゴリズム決定装置5は、2以上の学習器を用いて取得した予測結果に対して2以上の統計処理を行った2以上の予測結果を用いることにより、予測処理を行うための適切な統計処理を含む処理を決定できる。
また、アルゴリズム決定装置5は、再現率または適合率またはF値または正解率のうち、ユーザが所望するスコア(受付部52が受け付けた精度特定情報で特定される精度情報)が高い処理を決定できる。
また、学習器生産装置6は、アルゴリズム決定装置5が出力するアルゴリズム情報に従ったアルゴリズムで学習処理を行うことにより、適切な学習器が生産できる。
また、特許分類装置2は、学習器生産装置6が生産した適切な学習器を用いて、予測処理を行うことにより、特許を精度高く分類できる。
なお、特許分類装置2は、学習器生産装置6が生産した適切な学習器と、特許明細書に関する重要な情報とを用いることにより、特許をより精度高く分類できる。
なお、本実施の形態におけるアルゴリズム決定装置5を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、特許に関する特許情報と当該特許情報に対する分類を示す分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、特許に関する特許情報を分類するための学習器を生成する1以上の学習器生成プログラムと、学習器を用いて特許分類情報の分類を予測し、予測分類情報を取得する予測プログラムとが格納されるプログラム格納部511にアクセス可能なコンピュータを、学習元情報を受け付ける学習元情報受付部521と、前記学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の特許分類情報を用いて、前記1以上の各学習器生成プログラムを実行し、1以上の学習器を取得する学習部531と、前記学習元情報受付部521が受け付けた学習元情報のうちの少なくとも一部の各特許分類情報に対して、前記学習部531が生成した1以上の各学習器を用いて、予測プログラムを適用し、前記1以上の各特許分類情報に対する2以上の予測分類情報を取得する予測部532と、前記予測部532が取得した2以上の各予測分類情報と、前記学習元情報が有する分類情報とを用いて、2以上の各予測分類情報の精度に関する精度情報を取得し、当該精度情報が特定する精度が最も高い予測分類情報を決定する評価部と、前記評価部が決定した予測分類情報に対応するアルゴリズムに関するアルゴリズム情報を取得するアルゴリズム情報取得部534と、前記アルゴリズム情報を出力する出力部として機能させるためのプログラムである。
また、本実施の形態における学習器生産装置6を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、学習元情報を受け付ける学習元情報受付部621と、アルゴリズム決定装置5が出力するアルゴリズム情報に従ったアルゴリズムで、前記学習元情報受付部621が受け付けた学習元情報に対して、学習処理を行い学習器を取得する学習部134と、前記学習器を前記アルゴリズム情報に対応付けて蓄積する蓄積部641として機能させるためのプログラムである。
さらに、本実施の形態における特許分類装置2を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、学習器生産装置6が蓄積した学習器が格納される学習器格納部にアクセス可能なコンピュータを、分類対象の特許を識別する特許識別子を含む分類対象情報を受け付ける受付部と、前記分類対象情報に対して、前記学習器に対応付いているアルゴリズム情報に従ったアルゴリズムにより、前記学習器を用いて予測処理を行い、分類結果情報を取得する予測部234と、前記予測部234が取得した分類結果情報を、前記受付部が受け付けた分類対象情報に含まれる特許識別子に対応付けて出力する出力部として機能させるためのプログラムである。
(実施の形態3)
図21は、本実施の形態における特許分類システムCのブロック図である。
特許分類システムCは、アルゴリズム決定装置5、学習器生産装置1、特許分類装置2、サーバ装置3、および1または2以上のユーザ端末4を備える。
アルゴリズム決定装置5は、実施の形態2におけるものと同じ要素である。学習器生産装置1、特許分類装置2、サーバ装置3、およびユーザ端末4は、実施の形態1におけるものと同じ要素である。
ただし、学習器生産装置1を構成する学習処理部13が使用するアルゴリズムは、アルゴリズム決定装置5によって決定されたアルゴリズムである。
また、特許分類装置2を構成する重要情報取得部132は、効果解決手段文取得手段1321、効果文取得手段1322、解決手段文取得手段1323、目的文取得手段1324、特徴語取得手段1325、関連語取得手段1326、重要タグ対応文取得手段1327、数値範囲文字列取得手段1328、および数字取得手段1329を備える。
次に、特許分類システムCの動作について説明する。特許分類システムCを構成するアルゴリズム決定装置5のフローチャートは、図13~図16に示されている。学習器生産装置1のフローチャートは、図4~図9に示されている。特許分類装置2のフローチャートは、図10に示されている。
以上、本実施の形態によれば、実施の形態1に記載の効果に加えて、実施の形態2に記載の効果がさらに得られる。
(実施の形態4)
本実施の形態において、一の条件とクラス(分類情報)との組である条件情報が格納されており、当該一の条件に合致する予測対象(特許情報)については、当該一の条件と対になるクラスに決定し、当該一の条件に合致しない場合に、機械学習のアルゴリズムでクラスを決定する、分類情報決定装置を備える特許分類システムDについて説明する。
また、本実施の形態において、機械学習のアルゴリズムは、例えば、実施の形態1~3で説明したものと同様であるが、その種類は問わない、分類情報決定装置を備える特許分類システムDについて説明する。
また、本実施の形態において、一の条件は、機械学習の学習器を作成した際に使用した教師データの特許であること、である分類情報決定装置を備える特許分類システムDについて説明する。
図22は、本実施の形態における特許分類システムDのブロック図である。特許分類システムDは、学習器生産装置1、分類情報決定装置7、サーバ装置3、およびユーザ端末4を備える。特許分類システムDにおいて、学習器生産装置1に代えて、学習器生産装置6を用いても良い。
学習器生産装置1は、実施の形態1におけるものと同様の構成を有し、同様の動作を行う。すなわち、学習器生産装置1は、学習元情報を用いて、機械学習の学習処理を行い、学習器を取得する。
分類情報決定装置7は、格納部71、受付部72、処理部73、および出力部74を備える。格納部71は、学習器格納部711、および条件情報格納部712を備える。受付部72は、特許情報受付部721を備える。処理部73は、予測部731を備える。予測部731は、判断手段7311、第一決定手段7312、および第二決定手段7313を備える。
分類情報決定装置7を構成する格納部71には、各種の情報が格納される。各種の情報とは、例えば、前述した学習器、および後述する条件情報などである。また、格納部71には、例えば、1または2以上の特許情報が格納されてもよいし、特許分類情報が格納されてもよい。
学習器格納部711には、学習器が格納される。本実施の形態では、学習器生産装置1が、学習習元情報を用いて、機械学習の学習処理を行い、学習器を取得する。前述したように、学習元情報は、2以上の特許分類情報を有し、特許分類情報は、特許情報と、特許情報の分類情報とを有する。取得された学習器は、分類情報決定装置7に引き渡され、例えば、後述する処理部73によって、学習器格納部711に蓄積される。
ただし、学習器は、予め学習器格納部711に格納されていてもよいし、分類情報決定装置7内で取得されもよい。後者の場合、例えば、格納部71に、学習元情報が格納されており、分類情報決定装置7は、当該学習習元情報を用いて機械学習の学習処理を行い、学習器を取得する学習部(図示しない)を備えていてもよい。
条件情報格納部712には、1または2以上の条件情報が格納される。条件情報とは、特許に関する一の条件と、特許情報の分類情報との組である。本実施の形態において、一の条件は、例えば、予測の対象である特許情報が、学習元情報が有する2以上のいずれかの特許分類情報を構成する特許情報であること、である。一の条件は、例えば、特許の検索式である。検索式は、例えば、「発明の名称に「機械学習」を含む」、「出願人=ABC & IPC=G06F*」である。
なお、特許情報とは、前述したように、特許に関する情報であり、例えば、特許公報や公開特許公報等の特許明細書の一部または全部である。また、分類情報とは、前述したように、特許情報に対する分類を示す情報であり、例えば、「○,×」や「A,B,C」等、何でもよい。
条件情報は、例えば、学習元情報が有する2以上の特許分類情報のうちの一の特許分類情報に対応する特許識別子(例えば、公開番号や特許番号等)と、当該一の特許分類情報に対応する分類情報とを含む。例えば、学習器が、学習元情報が有する2以上の特許分類情報のうち一部を用いて取得された場合、条件情報は、学習器を取得する際に使用された2以上の特許分類情報のうちの一の特許分類情報に対応する特許識別子と、当該一の特許分類情報に対応する分類情報とを含む。
ただし、条件情報は、例えば、学習元情報が有する2以上の特許分類情報のうちの一の特許分類情報でもよい。例えば、学習器が、学習元情報が有する2以上の特許分類情報のうち一部を用いて取得された場合、条件情報は、学習器を取得する際に使用された2以上の特許分類情報のうちの一の特許分類情報でもよい。
学習器生産装置1は、例えば、上記学習器と共に、当該学習器を取得する際に使用した学習元情報をも、分類情報決定装置7に引き渡してもよい。
分類情報決定装置7において、例えば、処理部73が、上記学習元情報の引き渡しを受け、当該学習元情報を用いて、特許識別子と分類情報とを有する2以上の条件情報を取得し、学習器格納部711に蓄積する。ただし、2以上の条件情報の取得は、学習器生産装置1側で行われ、取得された2以上の条件情報が分類情報決定装置7に引き渡されてもよい。
これにより、条件情報格納部712には、学習器生産装置1が学習器を取得する際に使用した2以上の特許分類情報(例えば、前述した特許分類情報を構成する100個の特許分類1~100のうち、90個の特許分類情報11~100)に対応する2以上の条件情報(例えば、後述する図25に示す90個の条件情報1~90)が格納される。
受付部72は、各種の情報を受け付ける。各種の情報とは、例えば、特許情報である。前述したように、受け付けとは、通常、ユーザ端末4からの受信であるが、例えば、キーボード等の入力デバイスから入力された情報の受け付け、ディスクや半導体メモリ等の記録媒体から読み出された情報の受け付けなどを含む概念である、と考えても良い。
特許情報受付部721は、1または2以上の特許情報を受け付ける。特許情報受付部721は、通常、ユーザ端末4から、1以上の特許情報を受信する。ただし、例えば、ディスク等の記録媒体に1以上の特許情報が格納されており、特許情報受付部721は、かかる記録媒体から1以上の特許情報を読み出してもよい。
処理部73は、各種の処理を行う。各種の処理とは、例えば、予測部731、判断手段7311、第一決定手段7312、および第二決定手段7313などの処理である。また、処理部73は、例えば、フローチャートで説明する各種の判断なども行う。なお、処理部73が行うその他の処理について、適時説明する場合がある。
予測部731は、1以上の条件情報を用いて、1以上の各特許情報の分類情報を特定する予測分類情報を取得する。
予測部731は、例えば、特許情報受付部721が受け付けた1以上の各特許情報ごとに、予測分類情報取得処理を実行する。予測分類情報取得処理とは、予測分類情報を取得する処理である。予測分類情報とは、当該特許情報の分類情報を特定する情報である。
判断手段7311は、1以上の各特許情報が、1以上の各条件情報が有する条件のうちのいずれかの条件に合致するか否かを判断する。
判断手段7311は、例えば、特許情報受付部721が受け付けた1以上の各特許情報ごとに、当該特許情報が、条件情報格納部712に格納されている1以上の条件情報に対応する1以上の条件のうち、いずれかの条件に合致するか否かを判断する。
本実施の形態では、例えば、条件情報が特許識別子と分類情報の対であり、条件情報格納部712には、1以上の特許識別子が、分類情報に対応付けて格納されており、判断手段7311は、受け付けられた1以上の各特許情報ごとに、当該特許情報が有する特許識別子が、条件情報格納部712に格納されている1以上の特許識別子のうちのいずれかの特許識別子に合致するか否かを判断してもよい。
第一決定手段7312は、判断手段7311が合致すると判断した条件と対になる分類情報を取得する。
第一決定手段7312は、例えば、1以上の各特許情報ごとに、当該特許情報が有する特許識別子に合致すると判断された特許識別子と対になる分類情報を取得する。
第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、特許情報の分類情報を、機械学習の予測処理により取得する。判断手段7311がいずれの条件にも合致しないと判断した特許情報に対して、第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、機械学習の予測処理により分類情報を取得する。
本実施の形態では、第二決定手段7313は、例えば、条件情報格納部712に格納されている1以上の特許識別子のいずれにも合致しないと判断された特許識別子に対応する特許情報の分類情報を、機械学習の予測処理により取得する。
出力部74は、各種の情報を出力する。各種の情報とは、例えば、予測分類情報である。出力部74は、例えば、受け付けられた1以上の各特許情報ごとに、第一決定手段7312が決定した分類情報または第二決定手段7313が取得した分類情報を、当該特許情報に対応する特許識別子と対に、予測分類情報として出力する。
なお、前述したように、出力とは、例えば、ユーザ端末4への送信であるが、ディスプレイへの表示、プリンタでの印字、スピーカーからの音出力、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念と考えても良い。
出力部74は、予測部731が取得した予測分類情報を出力する。出力部74は、取得された予測分類情報を、通常、ユーザ端末4に送信する。ただし、予測分類情報は、例えば、ディスプレイに表示されたり、記録媒体に蓄積されたり、他の処理装置や他のプログラムなどに引き渡されたりしても良く、その出力態様や出力先は問わない。
サーバ装置3は、実施の形態1におけるものと同様の動作を行う。
ユーザ端末4は、実施の形態1におけるものと同様の動作を行う。
格納部71、学習器格納部711、および条件情報格納部712は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
格納部71等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部71等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部1等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部1等で記憶されるようになっても良い。
受付部72、特許情報受付部721、および出力部74は、通常、無線または有線の通信手段等で実現され得る。
処理部73、予測部731、判断手段7311、第一決定手段7312、および第二決定手段7313は、通常、MPUやメモリ等から実現され得る。処理部73等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、特許分類システムDの動作について図23および図24のフローチャートを用いて説明する。図23は、分類情報決定装置7の動作を説明するフローチャートである。
(ステップS2301)処理部73は、特許情報受付部721が1以上の特許情報を受け付けたか否かを判断する。特許情報受付部721が1以上の特許情報を受け付けたと判断された場合はステップS2302に進み、受け付けていないと判断された場合はステップ2501に戻る。
(ステップS2302)処理部73は、カウンタkに1を代入する。
(ステップS2303)処理部73は、k番目の特許情報が存在するか否かを判断する。k番目の特許情報が、存在すると判断された場合はステップS2303に進み、存在しないと判断された場合はステップS2301に戻る。
(ステップS2304)予測部731は、k番目の特許情報の分類情報を特定する予測分類情報kを取得する処理(以下、「k番目の予測分類情報取得処理」)を実行する。なお、k番目の予測分類情報取得処理については、図24のフローチャートを用いて説明する。
(ステップS2305)処理部73は、カウンタkを1、インクリメントする。ステップS2303に戻る。
なお、図23のフローチャートにおいて、分類情報決定装置7の電源オフや処理終了の割り込みにより処理は終了する。
図24は、上記ステップS2304の「k番目の予測分類情報取得処理」を説明するフローチャートである。
(ステップS2401)予測部731は、カウンタnに1を代入する。
(ステップS2402)予測部731は、n番目の条件が存在するか否かを判断する。n番目の条件が、存在すると判断された場合はステップS2403に進み、存在しないと判断された場合はステップS2407に進む。
(ステップS2403)予測部731を構成する判断手段7311は、k番目の特許情報がn番目の条件に合致するか否かを判断する。k番目の特許情報がn番目の条件に、合致すると判断された場合はステップ2605に進み、合致しないと判断された場合はステップS2404に進む。
(ステップS2404)予測部731は、カウンタnを1、インクリメントする。ステップS2402に戻る。
(ステップS2405)第一決定手段7312は、条件情報格納部712に格納されている1以上の条件情報に対応する1以上の条件のうちn番目の条件、と対になる分類情報を決定する。
(ステップS2406)予測部731は、ステップS2405で決定された分類情報を“予測分類情報k”にセットする。上位処理にリターンする。
(ステップS2407)第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、k番目の特許情報の分類情報を、機械学習の予測処理により取得する。
(ステップS2408)予測部731は、ステップS2407で取得された分類情報を“予測分類情報k”にセットする。上位処理にリターンする。
以下、本実施の形態における特許分類システムDの具体的な動作例について説明する。
学習器生産装置1は、実施の形態1で説明したように、学習元情報を用いて、機械学習の学習処理を行い、学習器を取得する。学習器生産装置1は、当該取得した学習器と、当該学習器を取得する際に使用した学習元情報とを分類情報決定装置7に引き渡す。本例では、100個の特許分類情報1~100を有する学習元情報を用いて学習器が取得され、当該学習器が当該学習元情報と共に引き渡されたとする。
分類情報決定装置7において、処理部73は、上記学習器の引き渡しを受け、学習器格納部711に蓄積する。また、処理部73は、上記学習元情報の引き渡しを受け、当該学習元情報に対応する2以上(本例では、当該学習元情報が有する100個の特許分類情報1~100のうち、学習器の取得の際に使用された90個の特許分類情報11~100に対応する90個)の条件情報を取得し、条件情報格納部712に蓄積する。
これにより、学習器格納部711には、学習器生産装置1が、受け付けた学習元情報が有する100個の特許分類情報のうち、特許分類情報11~100を用いて取得した学習器が格納される。また、条件情報格納部712には、例えば、図25に示すような、2以上(本例では、当該学習器を取得する際に使用された90個の特許分類情報11~100に対応する90個)の条件情報が格納される。
図25は、本実施の形態における条件情報のデータ構造図である。条件情報は、特許識別子と分類情報とを有する。条件情報格納部712に格納される2以上の各条件情報は、ID(例えば、“1”,“2”等)に対応付いている。例えば、ID“1”に対応付いた条件情報(以下、条件情報1)は、特許識別子“特開2017-dddd”と分類情報“B”とを有する。また、ID“2”に対応付いた条件情報2は、特許識別子“特開2017-eeee”と分類情報“A”とを有する。同様に、条件情報100は、特許識別子“特開2018-ffff”と分類情報“C”とを有する。
本例では、受け付けられた学習元情報が有する100個の特許分類情報1~100に対応する100個の特許情報が、ディスク等の既得媒体から読み出されたとする。
分類情報決定装置7において、特許情報受付部721が上記読み出された100個の特許情報を受け付け、予測部731は、当該受け付けられた100個の特許情報ごとに、当該特許情報の分類情報を特定する予測分類情報を取得する予測分類情報取得処理を実行する。
すなわち、予測部731を構成する判断手段7311は、まず、特許分類情報1に対応する1番目の特許情報について、当該特許情報が、条件情報格納部712に格納されている10個の条件情報1~10に対応する10個の条件のうちの、いずれかの条件に合致するか否かを判断する。当該特許情報は、いずれの条件にも合致しないと判断される。
いずれの条件にも合致しないとの上記判断結果を受け、第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、1番目の特許情報の分類情報を、機械学習の予測処理により取得する。本例では、分類情報“A”が取得されたとする。これにより、1番目の特許情報の予測分類情報として、学習器による分類情報“A”が取得される。
特許分類情報2~10についても同様に、いずれの条件にも合致しないと判断され、学習器による予測分類情報(例えば、特許分類情報2について予測分類情報“A”、特許分類情報10について予測分類情報“B”など)が取得される。これにより、2番目~10番目の各特許情報の予測分類情報として、学習器による予測分類情報“A”・・・“B”が取得される。
次に、判断手段7311は、特許分類情報11に対応する11番目の特許情報について、当該特許情報が、条件情報格納部712に格納されている90個の条件情報1~90に対応する90個の条件のうちのいずれかの条件に合致するか否かを判断する。当該条件情報は、当該90個の条件のうち、1番目の条件に合致すると判断される。
1番目の条件に合致するとの上記判断結果を受け、第一決定手段7312は、条件情報格納部712に格納されている90個の条件情報に対応する90個の条件のうち1番目の条件である特許識別子“特開2017-dddd”、と対になる分類情報“B”を決定する。これにより、11番目の特許情報の予測分類情報として、特許分類情報11を構成する分類情報“B”が取得される。
特許分類情報12~100についても同様に、当該90個の条件のうちの12番目~90番目の条件に合致すると判断され、12番目~100番目の条件である特許識別子“特開2017-eeee”・・・“特開2018-ffff”、と対になる分類情報“B”・・・“C”が決定される。これにより、12番目~100番目の各特許情報の予測分類情報として、各特許分類情報12~100を構成する分類情報“A”・・・“C”が取得される。
出力部74は、こうして、100個の各特許情報ごとに取得された分類情報を、当該特許情報に対応付けて、ディスク等の記録媒体に蓄積する。
これにより、記録媒体には、例えば、特許情報と、当該特許情報の分類情報との組が、100組、格納される。
以上、本実施の形態によれば、学習器生産装置1が、特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、機械学習の学習処理を行い、学習器を取得し、学習器格納部711に、当該取得された学習器が格納される。条件情報格納部712には、特許に関する一の条件と分類情報との組である1以上の条件情報が格納される。分類情報決定装置7は、1以上の特許情報を受け付け、1以上の条件情報を用いて、1以上の各特許情報の分類情報を特定する予測分類情報を取得し、予測分類情報を出力する。
予測分類情報を取得する際、分類情報決定装置7は、1以上の各特許情報が、1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断し、合致すると判断した条件と対になる分類情報を決定する一方、学習器を用いて、いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得することにより、特許を精度高く分類できる。
また、上記構成において、一の条件は、学習元情報が有する2以上のいずれかの特許分類情報を構成する特許情報であることであることにより、機械学習の学習器を取得した際に使用した教師データの特許を精度高く分類でき、それ以外の特許をも、学習器を用いた予測処理により精度高く分類できる。
なお、本実施の形態における分類情報決定装置7を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、特許情報と当該特許情報の分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、機械学習の学習処理を行い、取得された学習器が格納される学習器格納部711、および特許に関する一の条件と特許情報の分類情報との組である1以上の条件情報が格納される条件情報格納部712にアクセス可能なコンピュータを、1以上の特許情報を受け付ける特許情報受付部721と、前記1以上の条件情報を用いて、前記1以上の各特許情報の分類情報を特定する予測分類情報を取得する予測部731と、前記予測分類情報を出力する出力部74として機能させ、前記予測部731は、前記1以上の各特許情報が、前記1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断する判断手段7311と、前記判断手段7311が合致すると判断した条件と対になる分類情報を決定する第一決定手段7312と、前記学習器を用いて、前記判断手段7311が前記いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得する第二決定手段7313とを具備するプログラムである。
(実施の形態5)
本実施の形態において、一の条件とクラス(分類情報)との組である条件情報が格納されており、当該一の条件に合致する予測対象(特許情報)については、当該一の条件と対になるクラスに決定し、当該一の条件に合致しない場合に、機械学習のアルゴリズムでクラスを決定する、分類情報決定装置を備える特許分類システムEについて説明する。
また、本実施の形態において、機械学習のアルゴリズムは、例えば、実施の形態1~3で説明したものと同様であるが、その種類は問わない、分類情報決定装置を備える特許分類システムEについて説明する。
また、本実施の形態において、一の条件は、特許の検索式(例えば、「発明の名称に「機械学習」を含む」等)である、分類情報決定装置を備える特許分類システムEについて説明する。
図26は、本実施の形態における特許分類システムEのブロック図である。特許分類システムEは、アルゴリズム決定装置5、学習器生産装置6、分類情報決定装置7a、サーバ装置3、およびユーザ端末4を備える。
分類情報決定装置7aは、格納部71、受付部72a、処理部73a、および出力部74を備える。受付部72aは、特許情報受付部721、および検索式受付部722を備える。処理部73aは、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、予測部731、および検索部732を備える。予測部731は、判断手段7311、第一決定手段7312、および第二決定手段7313を備える。
ユーザ端末4は、ユーザ受付部41、ユーザ処理部42、ユーザ送信部43、ユーザ受信部44、およびユーザ出力部45を備える。
アルゴリズム決定装置5は、実施の形態2におけるものと同様の構成を有し、同様の動作を行う。
学習器生産装置6は、実施の形態2におけるものと同様の構成を有し、同様の動作を行う。
分類情報決定装置7aは、以下で説明する事項を除いて、実施の形態4における分類情報決定装置7と同様の構成を有し、同様の動作を行う。
すなわち、条件情報格納部712に格納される1以上の各条件情報を構成する一の条件は、検索式である。検索式とは、特許情報を検索する際の条件(以下、検索条件と記す場合がある)を示す情報である。検索条件は、例えば、「機械学習」等のキーワード、IPC、Fターム、FI等の特許分類コードなどであるが、出願日又は公開日が属する期間を特定する期間情報でもよく、その種類は問わない。
また、検索条件は、例えば、『「発明の名称」に「機械学習」を含む』といった、項目情報とキーワードとの組を含んでもよい。項目情報とは、特許情報における項目を特定する情報である。項目情報は、例えば、「発明の名称」、「要約」、「発明の効果」等であるが、「全文」でもよく、その種類は問わない。
検索式は、例えば、キーワードや特許分類コード等の2以上の条件を論理演算子(例えば、ANDまたはORなど)で結合したものであってもよい。また、検索式は、検索式を複数組み合わせ(論理演算子で結合した)検索式であっても良く、その形式は問わない。
受付部72aは、例えば、特許情報に加えて、検索式も受け付ける。
検索式受付部722は、検索式を受け付ける。検索式受付部722は、通常、ユーザ端末4から検索式を受信する。ただし、検索式は、例えば、分類情報決定装置7a内のキーボード等の入力デバイスを介して受け付けられてもよく、その受け付けの態様は問わない。
処理部73aは、予測部731等の処理に加えて、例えば、特許明細書取得部131、重要情報取得部132、分類対象加工情報取得部233、および検索部732の処理をさらに行う。なお、特許明細書取得部131、重要情報取得部132、および分類対象加工情報取得部233は、実施の形態1のものと同様の動作を行う。
検索部732は、検索式受付部722が受け付けた検索式を用いて検索を行い、検索結果を取得する。検索の対象は、例えば、格納部71内の1以上の特許情報であるが、サーバ装置3内の1以上の特許情報でも良い。検索結果は、検索対象である1以上の特許情報のうち、検索式が示す検索条件を満たす1または2以上の特許情報である。なお、検索結果は、1または2以上の特許情報に対応する1または2以上の特許識別子でもよい。
ユーザ端末4を構成するユーザ受付部41は、各種の情報を受け付ける。各種の情報とは、例えば、前述した検索式である。ユーザ受付部41の受け付けは、通常、ユーザ端末4内でのキーボード等の入力デバイスを介した受け付けである。ただし、受け付けは、例えば、記録媒体からの読み出し、外部の装置からの受信等でもよく、その態様は問わない。なお、かかる事項は、検索式受付部411による検索式の受け付けにも当てはまる。
検索式受付部411は、検索式を受け付ける。
ユーザ処理部42は、各種の処理を行う。各種の処理とは、例えば、ユーザ受付部41が検索式等の情報を受け付けたか否かの判断、受け付けられた情報の送信される情報への変換などであるが、その種類は問わない。
ユーザ送信部43は、各種の情報を送信する。各種の情報とは、例えば、検索式である。ユーザ送信部43は、例えば、ユーザ受付部41が受け付けた検索式を分類情報決定装置7aに送信する。
ユーザ受信部44は、各種の情報を受信する。各種の情報とは、例えば、検索式である。ユーザ受信部44は、例えば、ユーザ送信部43による検索式の送信に応じて、検索結果を分類情報決定装置7aから受信する。
ユーザ出力部45は、各種の情報を出力する。各種の情報とは、例えば、検索結果である。ユーザ出力部45は、検索結果等の情報を、例えば、ディスプレイに表示したり、記録媒体に蓄積したりする。ただし、検索結果等の情報は、例えば、他のプログラムに引き渡された、他の装置に送信されたりしてもよく、その出力態様は問わない。
検索式受付部411、およびユーザ受付部41は、キーボードやタッチパネル等の入力デバイスを含むと考えても、含まないと考えてもよい。検索式受付部411等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。
ユーザ送信部43、およびユーザ受信部44は、通常、無線または有線の通信手段等で実現され得る。
検索部732、およびユーザ処理部42等は、通常、MPUやメモリ等から実現され得る。処理部73a等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
なお、特許分類システムEの動作は、実施の形態4において図23および図24のフローチャートを用いて説明したものと同様である。
以下、本実施の形態における特許分類システムEの具体的な動作例について説明する。
アルゴリズム決定装置5は、実施の形態2で説明したように、予測処理を行うための適切な処理を決定する。学習器生産装置6は、実施の形態2で説明したように、学習元情報を用いて、機械学習の学習処理であり、アルゴリズム決定装置5の決定に従う学習処理を行い、学習器を取得する。学習器生産装置6は、当該取得した学習器と、当該学習器を取得する際に使用した学習元情報とを分類情報決定装置7aに引き渡す。本例では、100個の特許分類情報を有する学習元情報を用いて学習器が取得され、当該学習器が当該学習元情報と共に引き渡されたとする。
分類情報決定装置7aにおいて、処理部73aは、上記学習器の引き渡しを受け、学習器格納部711に蓄積する。また、処理部73aは、上記学習元情報の引き渡しを受け、当該学習元情報に対応する2以上(本例では、学習器の取得の際に使用された90個の特許分類情報11~100に対応する90個)の条件情報を取得し、条件情報格納部712に蓄積する。
これにより、学習器格納部711には、学習器生産装置6が、上記学習元情報のうち、90個の特許分類情報11~100を用いて取得した学習器が格納される。また、条件情報格納部712には、例えば、図27に示すような、2以上の条件情報(条件情報1~3等)が格納される。
図27は、本実施の形態における条件情報のデータ構造図である。条件情報は、検索式と分類情報とを有する。条件情報格納部712に格納される2以上の各条件情報は、ID(例えば、“1”,“2”等)に対応付いている。例えば、ID“1”に対応付いた条件情報1は、検索式“「発明の名称」に「機械学習」を含む”と分類情報“A”とを有する。また、ID“2”に対応付いた条件情報2は、検索式“「機械学習」and「自然言語処理」”と分類情報“B”とを有する。同様に、条件情報3は、検索式“「H06 aa/aa」or「G06 bb/bb」or・・・”と分類情報“C”とを有する。
ユーザは、ユーザ端末4の入力デバイスを介して、1以上の特許情報を入力する。ここで入力される特許情は、公開番号等の特許識別子である。例えば、前述した学習元情報が有する100個の特許分類情報1~100のうち、10個の特許分類情報1~10に対応する10個の特許識別子が入力されたとする。
ユーザ端末4において、ユーザ受付部41が、上記入力された10個の特許識別子を受け付け、ユーザ送信部43は、当該受け付けられた10個の特許識別子を分類情報決定装置7aに送信する。
分類情報決定装置7aにおいて、特許情報受付部721が上記送信された10個の特許識別子を受信し、出力部74は、当該受け付けられた10個の特許情識別子を含む要求をサーバ装置3に送信し、特許情報受付部721は、当該送信された10個の特許情識別子に対応する10個の特許情報をサーバ装置3から受信する。予測部731は、当該受信された10個の特許情報ごとに、当該特許情報の分類情報を特定する予測分類情報を取得する予測分類情報取得処理を実行する。
すなわち、予測部731を構成する判断手段7311は、まず、特許分類情報1に対応する1番目の特許情報について、当該特許情報が、条件情報格納部712に格納されている2以上の条件情報1~3等に対応する2以上の条件のうちの、いずれかの条件に合致するか否かを判断する。ここでは、当該特許情報は、いずれの条件にも合致しないと判断されたとする。
いずれの条件にも合致しないとの上記判断結果を受け、第二決定手段7313は、学習器格納部711に格納されている学習器を用いて、1番目の特許情報の分類情報を、機械学習の予測処理により取得する。本例では、分類情報“A”が取得されたとする。これにより、1番目の特許情報の予測分類情報として、学習器による分類情報“A”が取得される。
特許分類情報2~9についても同様に、いずれの条件にも合致しないと判断され、学習器による予測分類情報(例えば、特許分類情報2について予測分類情報“A”など)が取得される。これにより、2番目~9番目の各特許情報の予測分類情報として、学習器による予測分類情報“A”,“A”・・・が取得される。
次に、判断手段7311は、特許分類情報10に対応する10番目の特許情報について、当該特許情報が、上記2以上の条件のうちのいずれかの条件に合致するか否かを判断する。当該条件情報は、条件情報3に対応する3番目の条件に合致すると判断されたとする。
3番目の条件に合致するとの上記判断結果を受け、第一決定手段7312は、条件情報格納部712に格納されている10個の条件情報に対応する3以上の条件のうち3番目の条件である検索式“「H06 aa/aa」or「G06 bb/bb」or・・・”、と対になる分類情報“C”を取得する。これにより、10番目の特許情報の予測分類情報として、特許分類情報10を構成する分類情報“C”が取得される。
出力部74は、こうして、10個の各特許情報ごとに取得された分類情報を、当該特許情報に対応付けて、ユーザ端末4に送信する。これにより、特許情報と分類情報との組である10個の組情報が送信される。
ユーザ端末4において、ユーザ受信部44が、上記送信された10個の組情報を受信し、ユーザ出力部45は、当該受信された10個の組情報を、ディスプレイを介して出力する。なお、出力される組情報は、受信された組情報と同じでなくてもよい。例えば、出力される組情報を構成する特許情報は、受信された組情報を構成する特許情報の一部(例えば、特許識別子と要約書など)でもよい。
これにより、ユーザ端末4のディスプレイに、特許情報と分類情報との組が10組、表示される。
以上、本実施の形態によれば、学習器生産装置6が、特許情報と分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、機械学習の学習処理を行い、学習器を取得し、学習器格納部711に、当該取得された学習器が格納される。条件情報格納部712には、特許に関する一の条件と分類情報との組である1以上の条件情報が格納される。分類情報決定装置7aは、1以上の特許情報を受け付け、1以上の条件情報を用いて、1以上の各特許情報の分類情報を特定する予測分類情報を取得し、予測分類情報を出力する。
予測分類情報を取得する際、分類情報決定装置7aは、1以上の各特許情報が、1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断し、合致すると判断した条件と対になる分類情報を決定する一方、学習器を用いて、いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得することにより、特許を精度高く分類できる。
また、上記構成において、一の条件は検索式であることであることにより、検索式に合致する特許を精度高く分類でき、検索式に合致しない特許をも、機械学習の学習器を用いた予測処理により精度高く分類できる。
また、アルゴリズム決定装置5が、予測処理を行うための適切な処理を決定し、学習器生産装置6は、その決定に従ったアルゴリズムで学習処理を行うことにより、適切な学習器が生産される結果、特許を精度高く分類できる。
なお、本実施の形態における分類情報決定装置7aを実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、特許情報と当該特許情報の分類情報とを有する2以上の特許分類情報を有する学習元情報を用いて、機械学習の学習処理を行い、取得された学習器が格納される学習器格納部711、および特許に関する一の条件と特許情報の分類情報との組である1以上の条件情報が格納される条件情報格納部712にアクセス可能なコンピュータを、1以上の特許情報を受け付ける特許情報受付部721と、前記1以上の条件情報を用いて、前記1以上の各特許情報の分類情報を特定する予測分類情報を取得する予測部731と、前記予測分類情報を出力する出力部として機能させ、前記予測部731は、前記1以上の各特許情報が、前記1以上の各条件情報が有する条件のうちいずれかの条件に合致するか否かを判断する判断手段7311と、前記判断手段7311が合致すると判断した条件と対になる分類情報を決定する第一決定手段7312と、前記学習器を用いて、前記判断手段7311が前記いずれの条件にも合致しないと判断した特許情報の分類情報を、機械学習の予測処理により取得する第二決定手段7313とを具備するプログラムである。
また、図28は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の特許分類装置2等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図28は、このコンピュータシステム300の概観図であり、図29は、システム300のブロック図である。なお、図28、図29は、エンゲージメントシステムを実現するコンピュータの外観等を示す図である。
図28において、コンピュータシステム300は、CD-ROMドライブ3012を含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
図29において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム300に、上述した各実施の形態の学習器生産装置1、特許分類装置2、アルゴリズム決定装置5、分類情報決定装置7等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ301に、上述した実施の形態の学習器生産装置1、特許分類装置2、アルゴリズム決定装置5等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であっても良く、複数であっても良い。すなわち、集中処理を行っても良く、あるいは分散処理を行っても良い。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されても良く、あるいは、複数の装置によって分散処理されることによって実現されても良い。つまり、学習器生産装置1、特許分類装置2、アルゴリズム決定装置5は、スタンドアロンで動作しても良い。学習器生産装置1、特許分類装置2、アルゴリズム決定装置5がスタンドアロンで動作する場合、受付部は、ユーザ等から指示や情報等を受け付ける。また、出力部は、情報等を表示、音出力、表示装置へ送信したりする。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。