Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4497338B2 - Concept search device and recording medium recording computer program - Google Patents
[go: Go Back, main page]

JP4497338B2 - Concept search device and recording medium recording computer program - Google Patents

Concept search device and recording medium recording computer program Download PDF

Info

Publication number
JP4497338B2
JP4497338B2 JP2000223710A JP2000223710A JP4497338B2 JP 4497338 B2 JP4497338 B2 JP 4497338B2 JP 2000223710 A JP2000223710 A JP 2000223710A JP 2000223710 A JP2000223710 A JP 2000223710A JP 4497338 B2 JP4497338 B2 JP 4497338B2
Authority
JP
Japan
Prior art keywords
search
vector
document
client
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000223710A
Other languages
Japanese (ja)
Other versions
JP2002041557A (en
Inventor
誠司 高野
伸治 市川
英久 廣本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2000223710A priority Critical patent/JP4497338B2/en
Publication of JP2002041557A publication Critical patent/JP2002041557A/en
Application granted granted Critical
Publication of JP4497338B2 publication Critical patent/JP4497338B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明が属する技術分野】
この発明は、文献データについての検索システムに対して、文献データと異なる言語を使用しても利用できる概念検索の技術に関する。
【0002】
【先行技術】
(従来の文書検索技術)
予め検索対象文書からキーワードを切り出し、インデックスファイルを作成する。そしてそのインデックスファイルと、検索のために入力されたキーワードとのマッチングによってヒットした文書をピックアップする方法が一般に用いられている。
【0003】
この技術では、該当するキーワードが存在する文書がヒットするため、検索が終了するまではヒット件数を把握できない。そのため、期待していたヒット件数よりも少ないヒット数しか得られない場合には、検索キーワードの再検討が必要となる。一方、期待していたヒット件数よりも多いヒット数を得てしまった場合にも、いわゆる絞り込みと呼ばれる検索キーワードの再検討が必要となる。
【0004】
(概念検索技術)
近年、ベクトル演算を用いた検索技術(概念検索技術)が誕生した。この技術は、予め辞書作成用の文種から形態素解析などによって単語を切り出し、各単語に基本となるベクトルを付与して、辞書機能をなすベクトル群(ステムベクトル)を生成する。そのステムベクトルをもとにして、検索対象文書全体のベクトルを決定し、検索対象文書群から検索対象文書ベクトル群を生成する。その結果、検索対象文書は、各々一文書あたり一つのベクトルを持つこととなる。検索を実行する際には、検索のために入力した文章よりステムベクトルに基づいて検索文章ベクトルを生成し、その検索文章ベクトルと前記検索対象文書ベクトル群との内積を演算し、内積値の高い検索対象文書から所定件数を出力させる。
この技術によれば、検索対象文書群から関連度の高い文書から順に所定件数を必ず出力させることが可能となり、キーワード検索による欠点を克服できる。
【0005】
(調査結果)
なお、本出願人は、特許出願、実用新案登録出願を調査し、関連技術として次の技術を抽出した。
【0006】
その関連技術たる特開2000−20520号は、「言語解析認識処理の方法等」に関するものである。そしてその技術は、操作者が自由に入力した自然語、入力文に対して柔軟に適応する機能を備えて作動することを特徴とする。そのほか、特願平9−219299号、特願平11−4523号などを抽出した。
【0007】
【発明が解決しようとする課題】
しかし、上記した技術では、以下のような問題点があった。すなわち、調査対象となる文献データが通常用いる言語と異なる言語で作成されている場合、検索を実行するためには、調査対象の言語を用いなければならず、調査対象の言語に習熟していなければ検索できないこととなる。
【0008】
一方、入力した言語を翻訳するソフトウエア(いわゆる機械翻訳)は日進月歩しているが、ソフトウエアが翻訳した文章は、未だに完璧ではない。ところで、前述した概念検索の技術は、検索用文章が曖昧であっても、その曖昧な文章との関連度の高い文書から順に所定件数を出力させることが可能である。
【0009】
本発明が解決すべき課題は、機械翻訳と概念検索とを組み合わせることによって機械翻訳の欠点を概念検索にて補い、調査対象となる文献データが通常用いる言語と異なる言語で作成されていても、そのまま概念検索が行え、機械翻訳が完璧でなくても結果的に関連度の高い文献を抽出できる技術を提供することにある。
【0010】
ここで、請求項1から請求項5に記載の発明の目的は、機械翻訳と概念検索とを組み合わせ、調査対象となる文献データが通常用いる言語と異なる言語で作成されていても、そのまま概念検索が行える概念検索装置を提供することである。
【0011】
また、請求6に記載の発明の目的は、機械翻訳と概念検索とを組み合わせ、調査対象となる文献データが通常用いる言語と異なる言語で作成されていても、そのまま概念検索が行える概念検索プログラムを提供することである。
【0012】
【課題を解決するための手段】
本発明は、上記した目的を達成するためのものである。
(請求項1)
請求項1記載の発明は、クライアント・サーバシステムにおけるサーバに備えられる装置である。
すなわち、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントから所定出力数を入力される所定出力数入力手段と、 クライアントから入力された検索用文章を前記ステムベクトル作成手段に用いる言語へ翻訳する翻訳手段と、 その翻訳手段によって翻訳された検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成する検索用文書ベクトル作成手段と、 前記検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段と、を備え、 前記の辞書作成用文書群および前記の検索対象文書群の少なくとも一方は、特許情報文献群とし、 前記のソート手段は、前記の所定出力数入力手段にて所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントの出力手段へ出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとした概念検索装置に係る。
【0013】
(用語説明)
「クライアント・サーバシステム」は、LANで接続されたもののほか、イントラネット上のクライアント・サーバシステム、クライアントがサーバ運営者と契約してインターネットなどのネットワークにて接続された場合を含む。「ベクトル」とは、多次元のベクトルをいい、数次元から数百次元である。あまり少ないと精度が下がり、あまり多いと演算負担が大きいので、精度および演算負担に鑑みて、次元数を決定する。後述する実施形態では「280次元」とした。
【0014】
「ベクトル演算値」とは、代表的には、検索対象文書ベクトルと検索用文章ベクトルとの内積値をいうが、各種の係数を掛けたり、外積としたりする他の計算手法を採用する場合もある。
「特許情報文献」とは、特許出願された公開公報、特許された特許公報、以前の特許法の下で出願公告された公告公報、実用新案登録出願に係る文献、特許出願を審査するために用いられる公開技報、技術論文などをいう。
【0015】
(作用)
まず、ステムベクトル作成手段が辞書作成用文書群から辞書機能をなすステムベクトルを作成し、文書ベクトル作成手段が前記ステムベクトルおよび検索対象文書群から文書ベクトル群を作成する。
一方、翻訳手段は、クライアントから入力された検索用文章が、検索用文書ベクトル作成手段に用いる言語と異なる場合に、当該言語を検索用文書ベクトル作成手段に用いる言語へ翻訳する。検索用文書ベクトル作成手段は、その翻訳検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成し、ベクトル演算手段がその検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算する。そして、ソート手段が演算されたベクトル演算値の昇順あるいは降順に検索対象文書群を並べたソート結果をクライアントの出力手段へ出力する。
ここにおいて、検索用文章が他言語であっても、翻訳手段が翻訳可能な文章であれば、完全な翻訳文へ翻訳する必要はなく、そのまま検索に用いることができる。
【0016】
(削除)
【0017】
(作用)
辞書作成用文書群および検索対象文書群の少なくとも一方は、特許情報文献群としているので、特許文献検索に適している。また、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書に対し、概念検索を達成できる。更に、辞書作成用文書群について検索対象文書群とは異なる種類の文献とすると、質の異なった概念検索が行える。
【0018】
以下のような概念検索装置を提供することもできる。
すなわち、翻訳手段が翻訳する前の言語で作成された他言語文書データを蓄積した他言語文書データベースと、 検索対象文書群の各検索対象文書データにおける一部たるキー情報と前記他言語文書との対応関係を蓄積した文書対応データベースと、ソート結果から得たキー情報に対応する他言語文書またはその書誌的事項を検索し、その検索結果をクライアントの出力手段へ出力する対応文書検索・出力手段とを備えた概念検索装置に係る。
【0019】
上記のような概念検索装置によれば、以下のような作用をなす。
翻訳手段が翻訳する前の言語で作成された他言語文書データを蓄積した他言語文書データベースが、予め備えられている。また、検索対象文書群の各検索対象文書データにおける一部たるキー情報と前記他言語文書との対応関係を蓄積した文書対応データベースも、予め備えられている。
対応文書検索・出力手段は、ソート結果から、キー情報を特定し、そのキー情報に対応する他言語文書またはその書誌的事項を検索する。そして、その検索結果をクライアントの出力手段へ出力する。ここにおいて、ソート結果から対応結果を得ることができる。
【0020】
請求項1に記載した概念検索装置は、 前記の辞書作成用文書群は、その辞書作成用文書群の中から選ばれた数の辞書作成用文書群とすることもできる。
(用語説明)
「辞書作成用文書群の中から選ばれた数の辞書作成用文書群」とは、例えば、隔年毎に区切られた10年分の文書群の中の、例えば5年分の文書群である。
【0021】
(作用)
辞書作成用文書群を、辞書作成用文書群がなす群の中の一部分としているので、ステムベクトルの作成が短時間で行える。
【0022】
以下のような概念検索装置を提供することもできる。
すなわち、辞書作成用文書群は、辞書作成用文書群における各々の辞書作成用文書の所定部分とした概念検索装置である。
(用語説明)
「辞書作成用文書群における各々の辞書作成用文書の所定部分」とは、例えば、辞書作成用文書群が技術論文である場合に技術論文におけるサマリー、辞書作成用文書群が特許出願書類である場合における特許請求の範囲、要約書、請求項1、発明の詳細な説明、など、あるいはそれらの組み合わせである。
【0023】
上記のような概念検索装置によれば、以下のような作用をなす。
辞書作成用文書群を、辞書作成用文書群における各々の辞書作成用文書の所定部分としているので、ステムベクトルの作成が短時間で行える。
【0024】
以下のような概念検索装置を提供することもできる。
すなわち、検索対象文書群は、特許情報文献群における各々の特許出願文献の所定部分とした概念検索装置である。
(用語説明)
「特許情報文献群における各々の特許出願文献の所定部分」とは、例えば、特許請求の範囲、要約書、請求項1、発明の詳細な説明のいずれか、あるいはそれらの組み合わせなどである。
【0025】
上記のような概念検索装置によれば、以下のような作用をなす。
検索対象文書群を、特許情報文献群における各々の特許出願文献の所定部分としたので、検索対象文書ベクトルの作成、ベクトル演算値の演算などが短時間で行える。
【0026】
以下のような概念検索装置を提供することもできる。
すなわち、ソート手段は、所定スコアとして予め入力されたスコアデータを上回る検索対象文書群をクライアントの出力手段へ出力させることとした概念検索装置である。
(用語説明)
「所定スコア」とは、クライアントの操作者が入力したり、サーバがクライアントへ選択してもらうような入力手段を提供したりして予め決定することをいう。ベクトル演算値が内積値である場合には、完全一致スコアが1.00であるので、それよりも低い値を入力することとなる。なお、ソート手段による出力後に再入力することができるようにしてもよい。
【0027】
上記のような概念検索装置によれば、以下のような作用をなす。
概念検索には、検索対象文書群に全てスコアを付けるので「ヒット件数」という考え方が存在しないが、所定スコアを入力してあれば、そのスコアデータを上回る検索対象文書群をクライアントの出力手段へ出力することができる。所定スコアとして例えば「0.6」を予め入力しておくと、0.6を上回る検索対象文書群が高スコア順にソートされて出力されることとなる。
【0028】
以下のような概念検索装置を提供することもできる。
すなわち、ソート手段は、スコアデータを上回る検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力させることとした概念検索装置に係る。
【0029】
上記のような概念検索装置によれば、以下のような作用をなす。
最高スコアおよび最低スコアがクライアントの出力手段へ出力されるので、概念検索の検証、検索用文章についての再検討などが行える。
【0030】
(削除)
【0031】
(用語説明)
「所定出力数」とは、クライアントの操作者が入力したり、サーバがクライアントへ選択してもらうような入力手段を提供したりして予め決定することをいう。なお、ソート手段による出力後に再入力することができるようにしてもよい。また、請求項5にいう「所定スコア」と組み合わせ、例えば、「50件までで且つ所定スコア=0.7以上」というように決定することができるようにしてもよい。
【0032】
(作用)
概念検索には、「ヒット件数」という考え方が存在しないが、所定出力数を入力してあれば、その数の検索対象文書群をクライアントの出力手段へ出力することができる。
最高スコアおよび最低スコアがクライアントの出力手段へ出力されるので、概念検索の検証、検索用文章についての再検討などが行える。
【0033】
(請求項2)
請求項2に記載の発明は、請求項1に記載の概念検索装置を限定したものである。
すなわち、ソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供し、 検索用文章ベクトル作成手段は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、 ベクトル演算手段は、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、 ソート手段は、その新たなベクトル演算値に基づいてソートすることとした概念検索装置に係る。
【0034】
(用語説明)
「検索用文章ベクトル作成手段」は、「再入力手段」にて入力された検索用文章が用いる言語と異なる場合には、翻訳手段を介して翻訳文章としてから用いる。
(作用)
サーバは、ソート手段による出力後、そのソート出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供し、クライアントユーザは、新たな検索用文章を入力する。その新たな検索用文章によって新たな検索用文章ベクトルを作成し、ベクトル演算手段は、新たなベクトル演算値を演算し、ソート手段が新たなベクトル演算値に基づくソートを行う。その結果、再入力した検索用文章に基づくソート結果を得ることができる。
【0035】
以下のような概念検索装置を提供することもできる。
すなわち、ソート手段は、ソート結果の書誌的事項を一覧表示させる一覧表示機能と、 当該書誌的事項の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させるためのリンク機能とを備えるとともに、 前記リンク機能は、検索対象文書の一部または全部を、コピーアンドペースト可能であるようにクライアントの出力手段へ出力することとした概念検索装置である。
【0036】
上記のような概念検索装置によれば、以下のような作用をなす。
ソート手段の一覧表示機能によってソート結果の書誌的事項を一覧表示される。そして、リンク機能を用いて出力させた検索対象文書の一部または全部は、コピーアンドペースト可能である。したがって、続けて概念検索を行う場合などにおいて、検索用文章を考えたり、タイプしたりするという入力の手間が軽減できる。
【0037】
以下のような概念検索装置を提供することもできる。
すなわち、ソート手段は、ソート結果の書誌的事項を一覧表示させる一覧表示機能を備え、再入力手段は、前記一覧表示の中から検索対象文書の一部または全部を、検索用文章として選択可能とすることで入力を代行するリンク機能を備えた概念検索装置に係る。
【0038】
上記のような概念検索装置によれば、以下のような作用をなす。
ソート結果は、ソート手段の一覧表示機能によって書誌的事項が一覧表示される。その中から検索対象文書の一部または全部をクライアントが選択すると、リンク機能が選択された検索対象文書の一部または全部を検索用文章として採択し、ベクトル演算手段によってベクトル演算値を演算する。ここにおいて、クライアントユーザは、検索用文章を入力する手間が要らないというメリットがある。
【0039】
(請求項3)
請求項3に記載の発明は、請求項1または請求項2のいずれかに記載の概念検索装置を限定したものである。
すなわち、クライアントから通常検索のためのキーワードまたは分類等を入力された場合に、キーワード検索または分類検索等の通常検索を行って、その検索結果をクライアントの出力手段へ出力させるための通常検索手段を備え、 その通常検索手段は、ソート結果に対してクライアントから通常検索のためのキーワードまたは分類等を入力された場合に、通常検索を行うこととした概念検索装置に係る。
【0040】
(用語説明)
「通常検索」とは、予め定められた分類を指定したり、検索対象文書において使用されているキーワードなどについてヒットしている文書を検索するものである。論理式(and、×、*、or、+など)を採用することができるようにしている場合が一般的である。
【0041】
(作用)
通常検索手段は、クライアントから通常検索のためのキーワードまたは分類を入力された場合に通常検索を行う。そして、その通常検索結果を更なる概念検索に用いたり、概念検索の後に通常検索を行ったりすることができる。例えば、特許文献検索において、所定の出願人に絞ってから概念検索をする、という場合に便利である。
概念検索のソート結果に対して、通常検索を行わせることができる。従って、欲する情報を入手しやすくなる。
【0042】
(削除)
【0043】
(請求項4)
請求項4に記載の発明は、請求項3に記載の概念検索装置を限定したものである。
すなわち、前記の通常検索手段は、検索結果の書誌的事項を一覧表示させる一覧表示機能と、 当該一覧表示の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させるためのリンク機能とを備え、 その通常検索手段のリンク機能は、一覧表示の中から検索対象文書の一部または全部を、検索用文章として選択可能することで入力を代行させることとした概念検索装置に係る。
【0044】
(用語説明)
「書誌的事項」とは、各検索対象文書におけるインデックス的な情報であって、例えば、技術論文におけるタイトルや筆者名、特許情報書類における発明の名称や出願公開番号などである。「一覧表示機能」とは、複数の書誌的事項を表にして出力させる機能をいう。
【0045】
(作用)
通常検索手段の一覧表示機能が検索結果の書誌的事項を一覧表示させる。次いで、リンク機能が、クライアントが一覧表示から選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させる。ここにおいて、欲しい情報か否かの判断を素早く行うことができる。
【0046】
(削除)
【0047】
また、通常検索手段による検索結果は、一覧表示機能によって書誌的事項が一覧表示される。その中から検索対象文書の一部または全部をクライアントが選択すると、リンク機能が選択された検索対象文書の一部または全部を検索用文章として採択し、ベクトル演算手段によってベクトル演算値を演算する。ここにおいて、クライアントユーザは、検索用文章を入力する手間が要らないというメリットがある。
【0048】
(請求項5)
請求項5に記載の発明は、請求項3または請求項4のいずれかに記載の概念検索装置を限定したものである。
すなわち、検索対象文書ベクトル作成手段には、通常検索手段の検索結果を用いて検索対象文書ベクトル群を作成するベクトル群抽出手段を備え、 ベクトル演算手段は、その検索対象文書ベクトル群を用いてベクトル演算値を演算することとした概念検索装置に係る。
【0049】
(作用)
ベクトル群抽出手段が、検索対象文書ベクトル作成手段の作成した検索対象文書ベクトル群の中から所定の検索対象文書ベクトル群を抽出する。そして、そのベクトル群抽出手段は、通常検索手段の検索結果を用いて検索対象文書ベクトル群を抽出する。このようにすると、すべての検索対象ベクトル群を用いてベクトル演算する場合に比べて、ベクトル演算の数を絞ることができ、演算が短時間で行える。
【0050】
以下のような方法発明を提供することもできる。
すなわち、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが入力した検索用文章を前記ステムベクトル作成手順にて用いる言語へ翻訳する翻訳手順と、 その翻訳手順によって翻訳された検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成する検索用文書ベクトル作成手順と、 前記検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備えた概念検索方法である。
【0051】
以下のような方法発明を提供することもできる。
すなわち、翻訳手順が翻訳する前の言語で作成された他言語文書データを予め蓄積した他言語文書データ蓄積手順と、 検索対象文書群の各検索対象文書データにおける一部たるキー情報と前記他言語文書との対応関係を予め蓄積した文書対応データ蓄積手順と、 ソート結果から得たキー情報に対応する他言語文書またはその書誌的事項を検索し、その検索結果をクライアントの出力手段へ出力する対応文書検索手順とを備えた概念検索方法である。
【0052】
以下のような方法発明を提供することもできる。
すなわち、ソート手順による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供する再入力手段提供手順と、 再入力された検索用文章を用いて新たな検索用文章ベクトルを作成する検索用文章ベクトル再作成手順と、 その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算する再ベクトル演算手順と、 その新たなベクトル演算値に基づいてソートする再ソート手順とを備えた概念検索方法である。
【0053】
以下のような方法発明を提供することもできる。
すなわち、クライアントから通常検索のためのキーワードまたは分類等を入力された場合に、キーワード検索または分類検索等の通常検索を行って、その検索結果をクライアントの出力手段へ出力させるための通常検索手順を備えた概念検索方法である。
【0054】
(請求項6)
請求項6に記載の発明は、プログラムを記録したコンピュータ読みとり可能な記録媒体に係る。
そのプログラムは、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントから所定出力数を入力される所定出力数入力手順と、 クライアントから入力された検索用文章を前記ステムベクトル作成手順にて用いる言語へ翻訳する翻訳手順と、 その翻訳手順によって翻訳された検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成する検索用文書ベクトル作成手順と、 前記検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に前記の所定出力数入力手順にて所定出力数として予め入力されたデータ件数の検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとしたソート手順とをコンピュータに実行させるプログラムとし、 前記の辞書作成用文書群および前記の検索対象文書群の少なくとも一方は、特許情報文献群とし、 前記の辞書作成用文書群は、辞書作成用文書群がなす群の中の一部分とした。
ここで、「記録媒体」とは、それ自身では空間を占有し得ないプログラムを担持することができる媒体であり、例えば、フロッピー(登録商標)ディスク、ハードディスク、CD−ROM、MO(光磁気ディスク)、DVD−ROM、PDなどである。
【0055】
(削除)
【0056】
【発明の実施の形態】
以下、本発明を実施の形態及び図面に基づいて、更に詳しく説明する。ここで使用する図面は、図1乃至図9である。図1から図6は、第一の実施形態、第二の実施形態、第三の実施形態、第四の実施形態、第五の実施形態および第六の実施形態を示す概念図である。図7は、クライアントユーザの操作の一例を示す概念図である。図8および図9は、第七の実施形態および第八の実施形態を示す概念図である。
【0057】
(図1)
図1は、本発明の第一の実施形態を示す概念図であり、クライアント・サーバシステムにおけるサーバに備えられる装置である。クライアントユーザは、サーバを運営する事業主体との契約に基づいて、会員IDおよびパスワードの提供を受け、インターネットにて接続して、サーバが提供するサービスを利用する。
【0058】
サーバには、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、クライアントが入力した検索用文章を前記ステムベクトル作成手段に用いる言語へ翻訳する翻訳手段と、その翻訳手段によって翻訳された検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成する検索用文書ベクトル作成手段と、前記検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段とを備えている。
【0059】
また、ソート手段によってクライアントの出力手段へ出力されるベクトル演算値の範囲を予め設定する「設定ベクトル演算値」を記憶する設定値記憶手段を備えている。例えば、設定ベクトル演算値の「上位100」が選択された状態となっている場合には、ベクトル演算値のスコアが高い順に100件を一覧表示させるという指示となる。そのほか、スコアを設定しておき、その設定スコア以上の件数を表示させることもできる。
【0060】
辞書作成用文書群および検索対象文書群とも、特許情報文献群としている。ここにいう「特許情報文献」とは、特許出願された公開公報、特許された特許公報、以前の特許法の下で出願公告された公告公報、実用新案登録出願に係る文献、特許出願を審査するために用いられる公開技報、技術論文などを含んでいる。「ベクトル」としては、精度と演算負担とを考慮して「280次元」とした。また、ベクトル演算としては、「内積」を演算することとした。
クライアントユーザは、サーバと契約し、インターネットにて接続可能なクライアントである。クライアントユーザは、サーバから別途付与されたIDとパスワードとを用いてサーバが提供する上記概念検索システムへアクセスする。
【0061】
(第一の実施形態の作用)
まず、ステムベクトル作成手段が辞書作成用文書群から辞書機能をなすステムベクトルを作成し、検索対象文書ベクトル作成手段が前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する。
【0062】
一方、クライアントが検索用文章入力手段を用いて検索用文章を入力する。この検索用文章は、辞書作成用文書群および検索対象文書群とは異なる言語で作成する。検索用文章は、翻訳手段によって、辞書作成用文書群および検索対象文書群と同じ言語へ翻訳された翻訳文章となる。翻訳文章はクライアントへは出力されないが、翻訳手段が翻訳可能な言語であれば、その言語で検索用文章を入力することができる。
【0063】
続いて、検索用文章ベクトル作成手段が、翻訳された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成し、ベクトル演算手段がその検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算する。また、所定ベクトル演算値の設定手段にて設定した設定値をサーバへ送る。そして、ソート手段が演算されたベクトル演算値の順に、設定値の数だけ検索対象文書群を並べたソート結果をクライアントの出力手段へ出力する。
辞書作成用文書群および検索対象文書群は、特許情報文献群としているので、特許文献検索に適している。また、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書たる特許情報文献に対し、概念検索を達成できる。
【0064】
(第一の実施形態のバリエーション)
第一のバリエーションとして、辞書作成用文書群を、辞書作成用文書群がなす群の中の一部分とすることができる。すなわち、辞書を作成するための文書群が数年分の特許公報とする場合、例えば1年分の特許公報に限ることとする。この場合、辞書作成用文書群を、辞書作成用文書群がなす群の中の一部分としているので、ステムベクトルの作成が短時間で行える。また、年々変化する技術の傾向に合致した概念検索を行えることが期待できる。
【0065】
第二のバリエーションとして、辞書作成用文書群を、辞書作成用文書群における各々の辞書作成用文書の所定部分とすることができる。すなわち、辞書を作成するための文書群が数年分の特許公報とする場合、その特許公報における要約書の部分のみ、または特許請求の範囲のみ、あるいはそれらの組み合わせを辞書作成用文書群とするのである。このようにすれば、ステムベクトルの作成が短時間で行える。
【0066】
第三のバリエーションとして、検索対象文書群は、特許情報文献群における各々の特許出願文献の所定部分とすることができる。すなわち、数年分の特許公報が存在する場合、検索対象文書群を、例えば、特許請求の範囲、要約書、あるいはそれらの組み合わせとするのである。その場合、検索対象文書ベクトルの作成、ベクトル演算値の演算などが短時間で行える。
【0067】
(図2)
図2に示す第二の実施形態は、翻訳手段が翻訳する前の言語で作成された他言語文書データを蓄積した他言語文書データベースと、検索対象文書群の各検索対象文書データにおける一部たるキー情報と前記他言語文書との対応関係を蓄積した文書対応データベースと、ソート結果から得たキー情報に対応する他言語文書またはその書誌的事項を検索し、その検索結果をクライアントの出力手段へ出力する対応文書検索・出力手段とを備えたことが特徴である。
【0068】
「他言語文書データベース」とは、例えば、検索対象文書群が米国、欧州の英文による特許情報文献である場合には、日本の日本語による特許情報文献のデータベースである。その場合の「文書対応データベース」とは、米国の特許情報文献と日本の特許情報文献との対応関係を蓄積したデータベースである。検索対象文書群の各検索対象文書データのキー情報は、例えば、米国特許番号と日本の公開特許番号である。
【0069】
(第二の実施形態の作用)
対応文書検索・出力手段は、ソート結果から、キー情報を特定し、そのキー情報に対応する他言語文書またはその書誌的事項を検索する。そして、その検索結果をクライアントの出力手段へ出力する。ここにおいて、ソート結果から対応結果を得ることができる。この実施形態によれば、概念検索のソート結果を、他言語文書との対応にまで生かすことができる。
【0070】
(図3)
図3に示す第三の実施形態は、ソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供していることが特徴である。そして、検索用文章ベクトル作成手段は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、ベクトル演算手段は、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、ソート手段は、その新たなベクトル演算値に基づいてソートすることとしている。
【0071】
(第三の実施形態の作用)
サーバでは、検索対象文書群および辞書作成用文書群が英文の特許情報として備えられている。クライアントは、検索用文章入力手段において、和文にて検索用文章1を入力する。その検索用文章1は、サーバの和英翻訳手段によって翻訳文章に翻訳され、検索用文章ベクトル作成手段によってステムベクトルとともに検索用文章ベクトルとなる。
【0072】
その検索用文章ベクトルは、別途作成された検索対象文書ベクトル群とともにベクトル演算手段によってベクトル演算値を演算され、ソート手段によって、ソート結果1をクライアントの出力手段へ出力する。このソート結果1は、英文である。この英文のソート結果1を用いて、更なる概念検索を続行する。前述した再入力手段では、ソート結果1からコピーアンドペーストなどの手段を用いて、英文の検索用文章2を作成し、サーバの検索用文章ベクトル作成手段へ送信する。検索用文章2は英文であるから、翻訳手段は使用しない。
【0073】
この検索用文章2は、検索用文章ベクトル作成手段によってステムベクトルとともに検索用文章ベクトルとなる。その検索用文章ベクトルは、別途作成された検索対象文書ベクトル群とともにベクトル演算手段によって再びベクトル演算値を演算され、ソート手段によって、ソート結果2をクライアントの出力手段へ出力する。このソート結果2もまた、英文である。
以上のように、再入力手段によって、連続的な概念検索を効率的に行うことができる。
【0074】
(図4)
図4に示す第四の実施形態は、サーバでは、検索対象文書群および辞書作成用文書群が和文の特許情報として備えられ、翻訳手段は英和翻訳を行う点が、第三の実施形態と異なる。
クライアントは、検索用文章入力手段において、英文にて検索用文章1を入力し、ソート結果を英文にて出力する。再入力手段によって入力する検索用文章2も和文であり、ソート手段から出力されるソート結果2もまた和文である。
【0075】
(図5)
図5に示す第五の実施形態は、サーバに通常検索手段を、クライアントにその通常検索手段に対して検索を行うためのキーワード等入力手段を、それぞれ備えたことを特徴としている。
この通常検索手段は、概念検索の結果としてのソート結果に対して、クライアントから通常検索のためのキーワードまたは分類等を入力された場合に、キーワード検索または分類検索等の通常検索を行い、その検索結果をクライアントの出力手段へ出力させることができる。
【0076】
(図6)
図6に示す第六の実施形態もまた、サーバに通常検索手段を備えたことを特徴としている。第五の実施形態との違いは、先に通常検索を行い、その検索結果を用いて概念検索を行わせる点である。また、検索結果を一覧表示させ、その一覧表示からある文献を選択し、その文献に関連度の高い文書を検索させるという「類似検索」を行わせることができる。更にその「類似検索」の入力手段は、検索用文章を指定するだけで、サーバに備えられたリンク機能によって検索用文章の入力を代行する。そのリンク機能によって入力代行された検索用文章は、翻訳手段によって翻訳文章となり、概念検索を行うための検索用文章ベクトルとして用いられる。
【0077】
(図7)
図7は、第二の実施形態において備えられていた文書対応データベースおよび他言語文書データベースに基づくソート結果、そのソート結果に基づくリンク機能による出力、およびリンク機能による検索用文章の入力を示している。ソート結果として、最左欄には米国特許番号を、最右欄には存在する対応特許を一覧表示している。ソート結果を見たクライアントユーザが最下欄の日本特許(JP−666)をポインタにて指定し、クリックする。すると、サーバのリンク機能が働き、クライアントの出力手段には、当該日本特許の要約書が出力される。出力された要約書から目的部分をコピーし、検索用文章の入力欄へペーストし、それを検索用文章とする。
なお、サーバ上において、「JP−666」をクリックすれば、コピーアンドペーストしなくても自動的に検索用文章を入力したとして処理することにより、クライアントユーザの操作を省略するようにしてもよい。
【0078】
(図8)
図8に示す第七の実施形態は、第二の実施形態において備えられていた文書対応データベースおよび他言語文書データベースと、それらの対応結果を用いることができる再入力手段とを備えたものである。
【0079】
検索用文章入力手段によって英文の検索用文章1を入力すると、翻訳手段が和文の翻訳文章へ翻訳する。そして、検索用文章ベクトルが作成され、ベクトル演算値が演算され、ソート結果1が出力される。このソート結果1に対してクライアントが「対応検索を要望」した場合には、対応文書検索・出力手段が文書対応データベースおよび他言語文書データベースにアクセスし、例えば英文の対応結果を出力する。
その対応結果を用い、再入力手段にて英文の検索用文章2を入力すれば、その検索用文章2を用いて翻訳文章、検索用文章ベクトルが作成され、ベクトル演算がなされ、ソート結果2を得ることができる。
【0080】
(図9)
図9に示す第八の実施形態は、通常検索手段の検索結果をクライアントの出力手段へ出力するだけでなく、検索対象文書ベクトルを絞り込むベクトル群抽出手段を備えたものである。
【0081】
すなわち、キーワード等入力手段によって通常検索を行うと、検索結果が出力されるとともに、その検索結果によってベクトル群抽出手段が検索対象文書ベクトルを絞り込み、検索対象文書ベクトル群を作成する。一方、通常検索の検索結果を得たクライアントは、検索用文章を入力し、翻訳手段へ送信する。翻訳手段は翻訳文章を作成し、その翻訳文章をステムベクトルとともに検索用文章ベクトル作成手段にて検索用文章ベクトルを作成する。検索用文章ベクトルと検索対象文書ベクトル群とでベクトル演算値を演算し、ソート結果として出力する。
最初の通常検索によって検索対象文書ベクトルが絞り込まれているので、概念検索の結果出力までの演算が少なくて済む。
【0082】
(図10)
図10は、概念検索を行うための検索用文章の入力画面として、サーバからクライアントへ提供される画面出力を示している。
【0083】
「検索項目」の右側には、プルダウン選択メニューとして、検索対象文書群の選択ボタン(10)を用意している。この検索項目とは、検索対象文書群たる特許情報書類のうちの一部分を表している。画面には、「要約」が選択された状態となっているが、特許請求の範囲、請求項1、発明の詳細な説明、あるいはそれらの組み合わせなどが選択できるようになっている。
【0084】
「一覧表示数」の右側には、プルダウン選択メニューとして、ソート出力数の選択ボタン(11)を用意している。この一覧表示数とは、概念検索には「ヒット数」という考え方がなく、ベクトル演算値として全ての検索対象文書群がスコア化されるので、出力表示させる数を制限するために設けたものである。図10の画面には、「100」が選択された状態となっているが、これは、ベクトル演算値のスコアが高い順に100件を一覧表示させるという指示となる。
【0085】
図10の中央には、文章を入力するボックスが用意されている。これは、検索用文章の入力欄(12)である。キーワードや分類、論理式などの入力と異なり、文章を入力する。ここでは、ある英文特許出願の要約の一部を入力した例を示している。検索用文章の入力を終えたら、図10の中央下部付近にある検索開始ボタン(13)をクリックして、概念検索を開始する。
【0086】
(図11)
図11は、図10において検索開始ボタン(13)をクリックした結果、サーバが機械翻訳および概念検索を終え、クライアントへその結果を出力した状態である。図中の左上には、ソート出力数の表示欄(20)があり、図10でのソート出力数の選択ボタン(11)に対応した件数たる「上位100件」を表示している。またその右隣には、当該100件のうちの最高スコアと最低スコアとを表示するスコア範囲表示欄(21)が出力される。ベクトル演算としては、内積を計算するのであるから、最高点は1.000であるが、点数を見やすくするために、100倍して表示することとしている。
【0087】
このスコア範囲表示欄(21)を見て、希望する結果が得られなかったと判断する場合には、図11の下側に用意されている検索対象文書群の選択ボタン(10)、ソート出力数の選択ボタン(11)、検索用文章の入力欄(12)などに対して、再入力をして、検索開始ボタン(13)を再クリックする。一方、スコア範囲表示欄(21)を見て、希望する結果をおおむね得られたと判断した場合には、スコア範囲表示欄(21)の右隣にある一覧表示ボタン(22)をクリックする。すると、図12のような画面出力が提供される。
【0088】
(図12)
図12の上半分には、英文たる検索用文章が再現され、どのような検索結果なのかを表示している。一方、下半分には、日本語の検索対象文書の中からピックアップされた表示件数100件のうちの一部が一覧表示(30)として出力されている。
【0089】
一覧表示(30)は、一行欄にて、1件の出願公開書類における書誌的事項を示している。一覧表示(30)における左から2番目の欄は、スコア表示欄(31)となっている。このスコア表示欄(31)の最上に表示されるスコアは、図11におけるスコア範囲表示欄(21)のスコアと一致している。さて、欄の最右欄は、書誌的事項にて特定される出願公開書類における「要約」または「特許請求の範囲」に記載された文章を、そのまま概念検索のための検索用文章として採用する「類似検索」をさせるためのリンクボタン(33)である。このリンクボタン(33)をクリックすると、サーバのリンク機能によって図13に示すような出力画面が提供される。すなわち、図4に示した「コピーアンドペースト」の作業をクライアントにて行わずに済むよう、サーバが提供しているのである。
なお、文献番号の欄にもリンクボタン(32)を備えており、そのリンクボタン(32)をクリックすると、当該文献の全文を出力させることができる。
【0090】
(図13)
図13は、特許の出願公開書類における要約によって類似検索を行わせた結果の出力画面の一部を示しており、その上半分には、検索用文章として採用された文章の出所が再現されて表示している。一方、下半分には、再び表示件数100件のうちの一部が一覧表示(30)として出力されている。
【0091】
この場合、一覧表示(30)における最上行の左から2番目の欄は、最高スコア表示(34)として100.0が出力される。これは、図12の出力画面にて選択した類似検索において、完全一致する特許出願を選択してくるのであるから、満点となって当然である。なお、図13に示した欄の最右欄は、図12と同じリンクボタン(32,33)が用意されており、サーバのリンク機能によって更なる「類似検索」が行えるようになっている。
【0092】
(翻訳手段)
前述してきた実施形態では、翻訳手段について、英和翻訳機能または和英翻訳機能を備えているとして説明してきたが、本願発明にいう「翻訳手段、翻訳手順」は、あらゆる翻訳機能を含む趣旨である。
【0093】
【発明の効果】
請求項1から請求項5に記載の発明によれば、機械翻訳と概念検索とを組み合わせ、調査対象となる文献データが通常用いる言語と異なる言語で作成されていても、そのまま概念検索が行える概念検索装置を提供することができた。
【0094】
また、請求項6に記載の発明によれば、機械翻訳と概念検索とを組み合わせ、調査対象となる文献データが通常用いる言語と異なる言語で作成されていても、そのまま概念検索が行える概念検索プログラムを提供することができた。
【図面の簡単な説明】
【図1】 第一の実施形態を示す概念図である。
【図2】 第二の実施形態を示す概念図である。
【図3】 第三の実施形態を示す概念図である。
【図4】 第四の実施形態を示す概念図である。
【図5】 第五の実施形態を示す概念図である。
【図6】 第六の実施形態を示す概念図である。
【図7】 クライアントユーザの操作の一例を示す概念図である。
【図8】 第七の実施形態を示す概念図である。
【図9】 第八の実施形態を示す概念図である。
【図10】 概念検索を行うための検索用文章の入力画面として、サーバからクライアントへ提供される画面出力の一部を示す図である。
【図11】 図10の次画面出力の一部を示す図である。
【図12】 概念検索のソート結果の次画面出力の一部を示す図である。
【図13】 特許の出願公開書類における要約によって類似検索を行わせた結果の出力画面の一部を示した図である。
【符号の説明】
10 検索対象文書群の選択ボタン 11ソート出力数の選択ボタン
12 検索用文章の入力欄 13 検索開始ボタン
20 ソート出力数の表示欄 21 スコア範囲表示欄
22 一覧表示の要求ボタン
30 一覧表示 31 スコア表示欄
32 リンクボタン 33 リンクボタン
34 最高スコア表示
[0001]
[Technical field to which the invention belongs]
The present invention relates to a concept search technique that can be used even if a language different from that of document data is used for a document data search system.
[0002]
[Prior art]
(Conventional document search technology)
A keyword is cut out from a search target document in advance and an index file is created. A method of picking up a hit document by matching the index file with a keyword input for search is generally used.
[0003]
With this technique, a document containing the relevant keyword is hit, so the number of hits cannot be determined until the search is completed. For this reason, when the number of hits smaller than the expected number of hits can be obtained, the search keyword needs to be reexamined. On the other hand, even when the number of hits larger than the expected number of hits is obtained, it is necessary to review the search keyword called so-called narrowing down.
[0004]
(Concept search technology)
In recent years, a search technique (concept search technique) using vector operations has been born. In this technique, words are extracted from a sentence creation sentence in advance by morphological analysis or the like, a basic vector is assigned to each word, and a vector group (stem vector) forming a dictionary function is generated. Based on the stem vector, a vector of the entire search target document is determined, and a search target document vector group is generated from the search target document group. As a result, each search target document has one vector per document. When executing a search, a search sentence vector is generated based on a stem vector from a sentence input for the search, and an inner product of the search sentence vector and the search target document vector group is calculated to obtain a high inner product value. A predetermined number is output from the search target document.
According to this technique, it is possible to always output a predetermined number of documents in order from the search target document group in descending order of relevance, thereby overcoming the drawbacks of keyword search.
[0005]
(Investigation result)
The applicant investigated patent applications and utility model registration applications, and extracted the following technologies as related technologies.
[0006]
Japanese Unexamined Patent Publication No. 2000-20520, which is a related technology, relates to “a method of language analysis recognition processing and the like”. The technique is characterized in that it operates with a function that flexibly adapts to natural language and input sentences freely input by the operator. In addition, Japanese Patent Application No. 9-219299 and Japanese Patent Application No. 11-4523 were extracted.
[0007]
[Problems to be solved by the invention]
However, the above technique has the following problems. In other words, if the document data to be surveyed is created in a language different from the language that is normally used, the search target language must be used in order to perform a search, and the user must be familiar with the language to be surveyed. If you do not search.
[0008]
On the other hand, software that translates input languages (so-called machine translation) is constantly evolving, but the sentences translated by the software are still not perfect. By the way, the above-described concept search technology can output a predetermined number of documents in descending order of relevance with the ambiguous text even if the text for retrieval is ambiguous.
[0009]
The problem to be solved by the present invention is to compensate for the shortcomings of machine translation by combining machine translation and concept search, even if the document data to be investigated is created in a language different from the normal language, The object is to provide a technology that can perform conceptual search as it is, and can extract highly relevant documents even if machine translation is not perfect.
[0010]
Here, the object of the invention described in claims 1 to 5 is a combination of machine translation and concept search, and even if the document data to be investigated is created in a language different from the language normally used, the concept search is performed as it is. It is to provide a concept search device that can perform the above.
[0011]
Further, an object of the invention described in claim 6 is to combine a machine translation and a concept search, and to provide a concept search program that can perform a concept search as it is even if the document data to be investigated is created in a language different from the language used normally. Is to provide.
[0012]
[Means for Solving the Problems]
The present invention is for achieving the above-described object.
(Claim 1)
The invention described in claim 1 is an apparatus provided in a server in a client-server system.
That is, a stem vector creating means for creating a stem vector having a dictionary function from a dictionary creating document group, a search target document vector creating means for creating a search target document vector group from the stem vector and the search target document group, and a client A predetermined output number input means for inputting a predetermined output number; a translation means for translating a search text input from a client into a language used for the stem vector creating means; a search text translated by the translation means; Search document vector creation means for creating a search document vector from a stem vector, vector calculation means for calculating a vector operation value of the search document vector and the document vector group, and in the order of the calculated vector operation value Sort the document group to be searched, and the client Output means Sorting means for outputting a sort result to the at least one of the dictionary creation document group and the search target document group as a patent information document group, and the sorting means is configured to input the predetermined number of outputs. The retrieval target document group of the number of data input in advance as the predetermined number of outputs by the client Output means And output the highest score and the lowest score among the search target documents to be output to the client. Output means This relates to a concept retrieval device that is to output to.
[0013]
(Glossary)
The “client / server system” includes a client / server system on an intranet, a case where a client contracts with a server operator, and a case where the client / server system is connected via a network such as the Internet. “Vector” refers to a multi-dimensional vector and has several dimensions to several hundred dimensions. If the number is too small, the accuracy decreases, and if the number is too large, the calculation burden is large. Therefore, the number of dimensions is determined in consideration of the accuracy and the calculation burden. In the embodiment described later, “280 dimensions” is used.
[0014]
The “vector operation value” is typically an inner product value of the search target document vector and the search sentence vector, but other calculation methods such as multiplying various coefficients or making an outer product may be employed. is there.
“Patent Information Document” means a patent application publication, a patent patent publication, a publication published under the previous patent law, a document related to a utility model registration application, and a patent application. This refers to public technical reports and technical papers used.
[0015]
(Function)
First, the stem vector creation means creates a stem vector having a dictionary function from the dictionary creation document group, and the document vector creation means creates a document vector group from the stem vector and the search target document group.
On the other hand, if the search text input from the client is different from the language used for the search document vector creation means, the translation means translates the language into the language used for the search document vector creation means. The search document vector creating means creates a search document vector from the translation search text and the stem vector, and the vector computing means computes a vector operation value between the search document vector and the document vector group. Then, the sorting result obtained by arranging the search target document groups in ascending order or descending order of the vector operation values calculated by the sorting means is displayed on the client. Output means Output to.
Here, even if the search text is in another language, it is not necessary to translate it into a completely translated text as long as the translation means can translate it, and it can be used for the search as it is.
[0016]
(Delete)
[0017]
(Function)
Since at least one of the dictionary creation document group and the search target document group is a patent information document group, it is suitable for patent document search. Further, it is possible to achieve a concept search for a search target document that is a dynamic search target document group that is frequently updated or added and that has a large number of words per document. Furthermore, if the dictionary creation document group is a different type of document from the search target document group, a concept search with a different quality can be performed.
[0018]
The following concept search device can also be provided.
That is, the other language document database storing the other language document data created in the language before the translation means translates, the key information as a part of each search target document data of the search target document group, and the other language document A document correspondence database that stores correspondence relationships, a corresponding document search / output unit that searches for other language documents corresponding to key information obtained from the sort result or bibliographic items thereof, and outputs the search result to the output unit of the client. Relates to a concept retrieval apparatus comprising:
[0019]
According to the concept retrieval apparatus as described above, the following operations are performed.
A foreign language document database in which foreign language document data created in a language before translation by the translation unit is stored is provided in advance. In addition, a document correspondence database in which correspondence information between a part of key information in each search target document data of the search target document group and the other language document is stored is provided in advance.
Corresponding document search / output means specifies key information from the sorting result, and searches for another language document corresponding to the key information or a bibliographic item thereof. Then, the search result is output to the output means of the client. Here, the correspondence result can be obtained from the sort result.
[0020]
The concept search device according to claim 1, wherein the dictionary creating document group may be a number of dictionary creating document groups selected from the dictionary creating document group.
(Glossary)
The “number of dictionary creation document groups selected from the dictionary creation document group” is, for example, a document group for five years in a document group for ten years divided every other year. .
[0021]
(Function)
Since the dictionary creating document group is a part of the dictionary creating document group, the stem vector can be created in a short time.
[0022]
The following concept search device can also be provided.
That is, the dictionary creation document group is a concept retrieval device that uses a predetermined portion of each dictionary creation document in the dictionary creation document group.
(Glossary)
“Predetermined portion of each dictionary creation document in the dictionary creation document group” means, for example, when the dictionary creation document group is a technical paper, a summary in the technical paper, and the dictionary creation document group is a patent application document Claims, abstracts, claims 1, detailed descriptions of the invention, etc., or combinations thereof.
[0023]
According to the concept retrieval apparatus as described above, the following operations are performed.
Since the dictionary creation document group is a predetermined portion of each dictionary creation document in the dictionary creation document group, the stem vector can be created in a short time.
[0024]
The following concept search device can also be provided.
That is, the search target document group is a concept search device that uses a predetermined part of each patent application document in the patent information document group.
(Glossary)
The “predetermined portion of each patent application document in the patent information document group” is, for example, any one of claims, abstract, claim 1, detailed description of the invention, or a combination thereof.
[0025]
According to the concept retrieval apparatus as described above, the following operations are performed.
Since the search target document group is a predetermined part of each patent application document in the patent information document group, creation of a search target document vector, calculation of a vector calculation value, and the like can be performed in a short time.
[0026]
The following concept search device can also be provided.
In other words, the sorting unit is a concept retrieval device that outputs a search target document group that exceeds the score data input in advance as a predetermined score to the output unit of the client.
(Glossary)
The “predetermined score” is determined in advance by an operator of the client or by providing an input means for the server to select by the client. When the vector operation value is an inner product value, since the perfect match score is 1.00, a value lower than that is input. It may be possible to input again after output by the sorting means.
[0027]
According to the concept retrieval apparatus as described above, the following operations are performed.
In concept search, all search target documents are scored, so there is no concept of “number of hits”. However, if a predetermined score is input, search target documents that exceed the score data are set as clients. Output means Can be output. For example, if “0.6” is input in advance as the predetermined score, search target document groups exceeding 0.6 are sorted and output in the order of high score.
[0028]
The following concept search device can also be provided.
In other words, the sorting unit relates to a concept search device that causes the highest score and the lowest score to be output to the output unit of the client among the search target document group exceeding the score data.
[0029]
According to the concept retrieval apparatus as described above, the following operations are performed.
Highest score and lowest score are clients Output means Can be used to verify concept searches and re-examine search sentences.
[0030]
(Delete)
[0031]
(Glossary)
The “predetermined number of outputs” means to be determined in advance by inputting by an operator of the client or providing an input means for the server to select by the client. It may be possible to input again after output by the sorting means. Further, in combination with the “predetermined score” recited in claim 5, for example, “up to 50 cases and the predetermined score = 0.7 or more” may be determined.
[0032]
(Function)
There is no concept of “number of hits” in concept search, but if you have entered a specified number of outputs, that number of search target documents can be used as a client. Output means Can be output.
Highest score and lowest score are clients Output means Can be used to verify concept searches and re-examine search sentences.
[0033]
(Claim 2)
The invention described in claim 2 limits the concept search device described in claim 1.
That is, the client is provided with a re-input means for re-inputting a new search text created based on the output from the sort means, and the search text vector creating means uses the re-input search text to newly A search text vector is created, the vector calculation means calculates a new vector calculation value using the new search text vector, and the sorting means sorts based on the new vector calculation value; Related to the concept retrieval apparatus.
[0034]
(Glossary)
The “search text vector creation means” is used as a translated text via the translation means if the search text input by the “re-input means” is different from the language used.
(Function)
After the output by the sorting means, the server provides the client with re-input means for re-inputting the new search text created based on the sort output, and the client user inputs the new search text. A new search text vector is created by the new search text, the vector calculation means calculates a new vector calculation value, and the sorting means performs sorting based on the new vector calculation value. As a result, it is possible to obtain a sorting result based on the re-input search text.
[0035]
The following concept search device can also be provided.
In other words, the sorting means calls up a list display function for displaying a list of bibliographic items of the sorting result, a search target document selected by the client from the bibliographic items, and a part or all of the search target document, A link function for outputting to a client output unit, and the link function outputs a part or all of a search target document to a client output unit so that it can be copied and pasted. A search device.
[0036]
According to the concept retrieval apparatus as described above, the following operations are performed.
A list display function of the sorting means displays a list of bibliographic items of the sorting result. A part or all of the search target document output using the link function can be copied and pasted. Therefore, in the case where a concept search is continuously performed, it is possible to reduce the input trouble of thinking or typing a search sentence.
[0037]
The following concept search device can also be provided.
That is, the sorting means has a list display function for displaying a list of bibliographic items of the sorting result, and the re-input means can select a part or all of the search target document from the list display as a search sentence. The present invention relates to a concept retrieval device having a link function that performs input in substitution.
[0038]
According to the concept retrieval apparatus as described above, the following operations are performed.
The sorting result is displayed as a list of bibliographic items by the list display function of the sorting means. When the client selects a part or all of the search target document from among them, a part or all of the search target document for which the link function is selected is adopted as a search sentence, and a vector calculation value is calculated by the vector calculation means. Here, there is an advantage that the client user does not need to input the search text.
[0039]
(Claim 3)
The invention according to claim 3 limits the concept search device according to claim 1 or claim 2.
That is, when a keyword or classification for a normal search is input from the client, a normal search such as a keyword search or a classification search is performed, and the search result is sent to the client. Output means The normal search means for outputting to the system, and the normal search means performs the normal search when a keyword or classification for normal search is input from the client to the sort result. Concerning.
[0040]
(Glossary)
“Normal search” is to specify a predetermined classification or search for a document hitting a keyword or the like used in a search target document. In general, logical expressions (and, x, *, or, +, etc.) can be adopted.
[0041]
(Function)
The normal search means performs a normal search when a keyword or classification for normal search is input from a client. The normal search result can be used for further concept search, or the normal search can be performed after the concept search. For example, in patent document search, it is convenient when a concept search is performed after narrowing down to a predetermined applicant.
A normal search can be performed on the sorting result of the concept search. Therefore, it becomes easy to obtain desired information.
[0042]
(Delete)
[0043]
(Claim 4)
The invention described in claim 4 limits the concept search device described in claim 3.
That is, the normal search means includes a list display function for displaying a list of bibliographic items of search results, and a search target document selected by the client from the list display, and a part or all of the search target document. The client Output means The link function of the normal search means is able to select a part or all of the search target document from the list display as a search sentence, and substitute the input. Related to the concept retrieval apparatus.
[0044]
(Glossary)
“Bibliographic items” are index-like information in each search target document, such as titles and author names in technical papers, invention names and application publication numbers in patent information documents. The “list display function” refers to a function for outputting a plurality of bibliographic items as a table.
[0045]
(Function)
The list display function of the normal search means displays a list of bibliographic items of the search results. Next, the link function calls the search target document selected by the client from the list display, and part or all of the search target document is transferred to the client. Output means To output. Here, it is possible to quickly determine whether the information is desired.
[0046]
(Delete)
[0047]
In addition, bibliographic items are displayed in a list by the list display function as a search result by the normal search means. When the client selects a part or all of the search target document from among them, a part or all of the search target document for which the link function is selected is adopted as a search sentence, and a vector calculation value is calculated by the vector calculation means. Here, there is an advantage that the client user does not need to input the search text.
[0048]
(Claim 5)
The invention according to claim 5 limits the concept search device according to claim 3 or claim 4.
In other words, the search target document vector creation means includes a vector group extraction means for creating a search target document vector group using the search result of the normal search means, and the vector calculation means uses the search target document vector group as a vector. The present invention relates to a concept search apparatus that calculates a calculated value.
[0049]
(Function)
The vector group extraction unit extracts a predetermined search target document vector group from the search target document vector group created by the search target document vector creation unit. Then, the vector group extraction unit extracts a search target document vector group using the search result of the normal search unit. In this way, the number of vector operations can be reduced as compared with the case of performing vector operations using all search target vector groups, and the operations can be performed in a short time.
[0050]
The following method invention can also be provided.
A stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group; a search target document vector creation procedure for creating a search target document vector group from the stem vector and the search target document group; A translation procedure for translating the input search text into the language used in the stem vector creation procedure, and a search document vector creation for creating a search document vector from the search text translated by the translation procedure and the stem vector A procedure, a vector operation procedure for calculating a vector operation value of the search document vector and the document vector group, and sorting the search target document group in the order of the calculated vector operation value, and outputting the sort result to the client A concept search method comprising a sorting procedure.
[0051]
The following method invention can also be provided.
That is, the other language document data storage procedure in which other language document data created in the language before the translation procedure is translated, the key information that is a part of each search target document data of the search target document group, and the other language Document-corresponding data storage procedure that stores the correspondence with documents in advance, and corresponding language documents or bibliographic items corresponding to the key information obtained from the sort result, and outputting the search results to the client output means A concept search method comprising a document search procedure.
[0052]
The following method invention can also be provided.
In other words, a re-input means providing procedure for providing the client with re-input means for re-inputting a new search text created based on the output by the sorting procedure, and a new search using the re-input search text Re-storing text vector to create a text vector for search, re-vector operating procedure to calculate a new vector operation value using the new search text vector, and sorting based on the new vector operation value A concept search method comprising a re-sorting procedure.
[0053]
The following method invention can also be provided.
That is, when a keyword or classification for normal search is input from the client, a normal search procedure for performing a normal search such as keyword search or classification search and outputting the search result to the client output means is performed. A concept search method provided.
[0054]
(Claim 6)
The invention described in claim 6 relates to a computer-readable recording medium in which a program is recorded.
The program includes a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group, a search target document vector creation procedure for creating a search target document vector group from the stem vector and the search target document group, A predetermined output number input procedure in which a predetermined output number is input from the client, a translation procedure for translating search text input from the client into a language used in the stem vector creation procedure, and a search procedure translated by the translation procedure A search document vector creation procedure for creating a search document vector from a sentence and the stem vector, a vector computation procedure for computing a vector computation value of the search document vector and the document vector group, and a computed vector computation In the order of the values, the predetermined output number is input in advance by the above predetermined output number input procedure. To sort the search target document group of data number, client Output means Output the sort results to the client and set the highest score and the lowest score among the search target documents to be output. Output means A program for causing a computer to execute the sorting procedure to be output to At least one of the dictionary creation document group and the search target document group is a patent information document group, The dictionary creation document group is a part of the group formed by the dictionary creation document group.
Here, the “recording medium” is a medium that can carry a program that cannot occupy space by itself, such as a floppy (registered trademark) disk, a hard disk, a CD-ROM, or an MO (magneto-optical disk). ), DVD-ROM, PD, and the like.
[0055]
(Delete)
[0056]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the present invention will be described in more detail based on embodiments and drawings. The drawings used here are FIGS. 1 to 9. 1 to 6 are conceptual diagrams showing the first embodiment, the second embodiment, the third embodiment, the fourth embodiment, the fifth embodiment, and the sixth embodiment. FIG. 7 is a conceptual diagram showing an example of the operation of the client user. 8 and 9 are conceptual views showing the seventh embodiment and the eighth embodiment.
[0057]
(Fig. 1)
FIG. 1 is a conceptual diagram showing a first embodiment of the present invention, which is a device provided in a server in a client / server system. A client user receives a member ID and a password based on a contract with a business entity that operates the server, connects to the Internet, and uses a service provided by the server.
[0058]
The server includes a stem vector creation unit that creates a stem vector that performs a dictionary function from a dictionary creation document group, a search target document vector creation unit that creates a search target document vector group from the stem vector and the search target document group, Translation means for translating search text inputted by a client into a language used for the stem vector creation means, and search document vector for creating a search document vector from the search text translated by the translation means and the stem vector Creation means, vector calculation means for calculating vector calculation values of the search document vector and the document vector group, and sorting the search target document group in the order of the calculated vector calculation values, and sorting to the client output means Sorting means for outputting the results.
[0059]
Also provided is a set value storage means for storing a “set vector calculation value” for presetting the range of vector calculation values output to the client output means by the sorting means. For example, when “highest 100” of the set vector calculation values is selected, an instruction is given to display a list of 100 items in descending order of vector calculation value scores. In addition, it is also possible to set a score and display the number of records that exceed the set score.
[0060]
The dictionary creation document group and the search target document group are both a patent information document group. "Patent information document" here refers to examination of patent publications, patent patents, publications published under the previous patent law, documents relating to utility model registration applications, patent applications It includes public technical reports and technical papers used to The “vector” is set to “280 dimensions” in consideration of accuracy and calculation burden. Further, as the vector calculation, “inner product” is calculated.
A client user is a client who makes a contract with a server and can connect to the Internet. The client user accesses the concept search system provided by the server using the ID and password separately assigned from the server.
[0061]
(Operation of the first embodiment)
First, the stem vector creation means creates a stem vector having a dictionary function from the dictionary creation document group, and the search target document vector creation means creates a search target document vector group from the stem vector and the search target document group.
[0062]
On the other hand, the client inputs the search text using the search text input means. The search text is created in a language different from the dictionary creation document group and the search target document group. The search text becomes a translated text translated into the same language as the dictionary creation document group and the search target document group by the translation means. The translated text is not output to the client, but if the translation means is a translatable language, the search text can be input in that language.
[0063]
Subsequently, the search text vector creating means creates a search text vector from the translated search text and the stem vector, and the vector calculation means is a vector of the search text vector and the search target document vector group. Calculate the calculated value. Also, the set value set by the setting means for the predetermined vector calculation value is sent to the server. Then, the sorting result obtained by arranging the search target document groups by the number of set values in the order of the vector operation values calculated by the sorting means is displayed on the client. Output means Output to.
Since the dictionary creation document group and the search target document group are the patent information document group, they are suitable for patent document search. Further, it is possible to achieve a concept search for a patent information document that is a dynamic search target document group that is frequently updated or added and has a large number of words per document.
[0064]
(Variation of the first embodiment)
As a first variation, the dictionary creation document group may be a part of the group formed by the dictionary creation document group. That is, when a document group for creating a dictionary is a patent gazette for several years, it is limited to a patent gazette for one year, for example. In this case, since the dictionary creation document group is a part of the group formed by the dictionary creation document group, the stem vector can be created in a short time. In addition, it can be expected that concept searches that match the technological trends that change from year to year can be performed.
[0065]
As a second variation, the dictionary creation document group can be a predetermined portion of each dictionary creation document in the dictionary creation document group. That is, when a document group for creating a dictionary is a patent gazette for several years, only the abstract part of the patent gazette, only the claims, or a combination thereof is used as the document group for dictionary creation. It is. In this way, a stem vector can be created in a short time.
[0066]
As a third variation, the search target document group can be a predetermined portion of each patent application document in the patent information document group. That is, when there are patent publications for several years, the search target document group is, for example, a claim, a summary, or a combination thereof. In this case, creation of a search target document vector, calculation of a vector calculation value, and the like can be performed in a short time.
[0067]
(Figure 2)
The second embodiment shown in FIG. 2 is a part of another language document database in which other language document data created in a language before translation is translated by the translation unit and each search target document data in the search target document group. The document correspondence database storing the correspondence relationship between the key information and the other language document, the other language document corresponding to the key information obtained from the sort result or the bibliographic item thereof are searched, and the search result is output to the client output means. It is characterized by having corresponding document retrieval / output means for outputting.
[0068]
The “other language document database” is a database of Japanese patent information documents in Japanese when the document group to be searched is, for example, patent information documents in English in the United States and Europe. In this case, the “document correspondence database” is a database in which correspondence relationships between US patent information documents and Japanese patent information documents are accumulated. The key information of each search target document data in the search target document group is, for example, a US patent number and a Japanese published patent number.
[0069]
(Operation of the second embodiment)
Corresponding document search / output means specifies key information from the sorting result, and searches for another language document corresponding to the key information or a bibliographic item thereof. Then, the search result is output to the output means of the client. Here, the correspondence result can be obtained from the sort result. According to this embodiment, the sorting result of the concept search can be utilized even for correspondence with other language documents.
[0070]
(Figure 3)
The third embodiment shown in FIG. 3 is characterized in that the client is provided with re-input means for re-inputting a new search text created based on the output from the sort means. Then, the search text vector creation means creates a new search text vector using the re-input search text, and the vector calculation means uses the new search text vector to create a new vector computation value. The sorting means sorts on the basis of the new vector operation value.
[0071]
(Operation of the third embodiment)
In the server, a search target document group and a dictionary creation document group are provided as English patent information. The client inputs the search text 1 in Japanese text in the search text input means. The search text 1 is translated into a translated text by the Japanese-English translation means of the server, and becomes a search text vector together with the stem vector by the search text vector creating means.
[0072]
The search text vector is calculated as a vector calculation value by the vector calculation means together with a separately created search target document vector group, and the sorting means outputs sort result 1 to the output means of the client. This sort result 1 is in English. Using this English sort result 1, further concept search is continued. In the re-input means described above, English search text 2 is created from the sort result 1 using means such as copy and paste, and transmitted to the search text vector creation means of the server. Since the search sentence 2 is an English sentence, no translation means is used.
[0073]
This search text 2 becomes a search text vector together with the stem vector by the search text vector creating means. The search text vector is calculated again by the vector calculation means together with the separately created search target document vector group, and the sorting means outputs sort result 2 to the client output means. This sort result 2 is also in English.
As described above, the continuous concept search can be efficiently performed by the re-input means.
[0074]
(Fig. 4)
The fourth embodiment shown in FIG. 4 differs from the third embodiment in that the server includes a search target document group and a dictionary creation document group as Japanese patent information, and the translation means performs English-Japanese translation. .
In the search text input means, the client inputs the search text 1 in English and outputs the sorting result in English. The search sentence 2 input by the re-input means is also a Japanese sentence, and the sort result 2 output from the sort means is also a Japanese sentence.
[0075]
(Fig. 5)
The fifth embodiment shown in FIG. 5 is characterized in that the server is provided with normal search means, and the client is provided with input means such as keywords for performing a search with respect to the normal search means.
This normal search means performs a normal search such as a keyword search or a classification search when a keyword or a classification for a normal search is input from the client to the sort result as a result of the concept search, and the search Client results Output means Can be output.
[0076]
(Fig. 6)
The sixth embodiment shown in FIG. 6 is also characterized in that a normal search means is provided in the server. The difference from the fifth embodiment is that a normal search is performed first, and a concept search is performed using the search result. Further, it is possible to perform a “similarity search” in which a list of search results is displayed, a document is selected from the list display, and a document having a high degree of relevance is searched for the document. Furthermore, the “similarity search” input means designates the search text and substitutes the search text by the link function provided in the server. The search text input by the link function is converted into a translated text by the translation means, and is used as a search text vector for conceptual search.
[0077]
(Fig. 7)
FIG. 7 shows the sorting result based on the document correspondence database and the other language document database provided in the second embodiment, the output by the link function based on the sorting result, and the input of the search text by the link function. . As a sorting result, the US patent numbers are displayed in the leftmost column, and the corresponding patents are listed in the rightmost column. The client user who sees the sorting result designates the Japanese patent (JP-666) in the bottom column with a pointer and clicks it. Then, the link function of the server works, and the summary of the Japanese patent is output to the client output means. Copy the target part from the output summary and paste it into the search text input field to make it a search text.
Note that if “JP-666” is clicked on the server, the processing of the client user may be omitted by processing as if the search text was automatically input without copying and pasting. .
[0078]
(Fig. 8)
The seventh embodiment shown in FIG. 8 includes the document correspondence database and the other language document database provided in the second embodiment, and re-input means that can use the correspondence results. .
[0079]
When an English search sentence 1 is input by the search sentence input means, the translation means translates it into a Japanese translation sentence. Then, a search text vector is created, a vector operation value is calculated, and a sort result 1 is output. When the client requests “correspondence search” for this sort result 1, the corresponding document search / output means accesses the document correspondence database and the other language document database, and outputs, for example, the correspondence result in English.
If the English search sentence 2 is input by the re-input means using the correspondence result, a translation sentence and a search sentence vector are created using the search sentence 2 and a vector operation is performed. Obtainable.
[0080]
(Fig. 9)
In the eighth embodiment shown in FIG. 9, the search result of the normal search means is sent to the client. Output means And a vector group extracting means for narrowing down search target document vectors.
[0081]
That is, when a normal search is performed by means such as a keyword input means, the search result is output, and the vector group extraction means narrows down the search target document vector based on the search result to create a search target document vector group. On the other hand, the client who has obtained the search result of the normal search inputs the search text and transmits it to the translation means. The translation means creates a translation text, and creates a search text vector by the search text vector creation means along with the stem text. A vector operation value is calculated from the search text vector and the search target document vector group, and output as a sorting result.
Since the search target document vectors are narrowed down by the first normal search, the number of operations until the result of the concept search is reduced.
[0082]
(Fig. 10)
FIG. 10 shows a screen output provided from the server to the client as a search text input screen for performing a concept search.
[0083]
On the right side of the “search item”, a search target document group selection button (10) is prepared as a pull-down selection menu. This search item represents a part of the patent information document which is a search target document group. “Summary” is selected on the screen, but claims, claim 1, detailed description of the invention, or a combination thereof can be selected.
[0084]
On the right side of “List Display Number”, a sort output number selection button (11) is prepared as a pull-down selection menu. This list display number is provided in order to limit the number to be output and displayed because the concept search does not have the concept of “number of hits” and all search target document groups are scored as vector operation values. is there. In the screen of FIG. 10, “100” is selected. This is an instruction to display a list of 100 items in descending order of the vector operation score.
[0085]
In the center of FIG. 10, a box for inputting text is prepared. This is the search text input field (12). Unlike entering keywords, classifications, and logical expressions, enter sentences. Here, an example in which a part of a summary of an English patent application is input is shown. When the input of the search text is completed, the concept search is started by clicking the search start button (13) near the lower center of FIG.
[0086]
(Fig. 11)
FIG. 11 shows a state in which the server finishes machine translation and concept search as a result of clicking the search start button (13) in FIG. 10 and outputs the result to the client. In the upper left of the figure, there is a display field (20) for the number of sort outputs, which displays “the top 100 cases” corresponding to the sort output number selection button (11) in FIG. Further, on the right side, a score range display field (21) for displaying the highest score and the lowest score among the 100 cases is output. As the vector operation, the inner product is calculated, and thus the highest point is 1.000. However, in order to make the score easy to see, it is displayed by multiplying by 100.
[0087]
When looking at this score range display field (21) and determining that the desired result has not been obtained, the search target document group selection button (10) prepared at the bottom of FIG. Re-enter the selection button (11), search text input field (12), etc., and click the search start button (13) again. On the other hand, if it is determined that the desired result has been generally obtained by looking at the score range display field (21), the list display button (22) on the right side of the score range display field (21) is clicked. Then, the screen output as shown in FIG. 12 is provided.
[0088]
(Fig. 12)
In the upper half of FIG. 12, English search sentences are reproduced and the search results are displayed. On the other hand, in the lower half, a part of 100 display items picked up from Japanese search target documents is output as a list display (30).
[0089]
The list display (30) shows bibliographic items in one application publication document in one line column. The second column from the left in the list display (30) is a score display column (31). The score displayed at the top of the score display field (31) matches the score in the score range display field (21) in FIG. The rightmost column of the column adopts the text described in the “Summary” or “Claims” in the application publication document specified by the bibliographic items as the search text for the concept search as it is. This is a link button (33) for "similar search". When this link button (33) is clicked, an output screen as shown in FIG. 13 is provided by the link function of the server. That is, the server provides the “copy and paste” operation shown in FIG.
The document number column also includes a link button (32), and when the link button (32) is clicked, the full text of the document can be output.
[0090]
(Fig. 13)
FIG. 13 shows a part of an output screen that is a result of performing a similar search by summarizing patent application publication documents. In the upper half, the source of the text adopted as the search text is reproduced. it's shown. On the other hand, in the lower half, a part of the display number 100 is output again as a list display (30).
[0091]
In this case, 100.0 is output as the highest score display (34) in the second column from the left of the top row in the list display (30). This is naturally a perfect score because the patent application that matches completely is selected in the similarity search selected on the output screen of FIG. In the rightmost column of the column shown in FIG. 13, the same link buttons (32, 33) as those in FIG. 12 are prepared, and further “similar search” can be performed by the link function of the server.
[0092]
(Translation means)
In the embodiment described above, the translation means has been described as having an English-Japanese translation function or a Japanese-English translation function. However, the “translation means, translation procedure” referred to in the present invention is intended to include all translation functions.
[0093]
【The invention's effect】
According to the first to fifth aspects of the present invention, a combination of machine translation and concept search allows the concept search to be performed as it is even if the document data to be investigated is created in a language different from the language normally used. A search device could be provided.
[0094]
According to the invention described in claim 6, a concept search program that combines machine translation and concept search and can perform concept search as it is even if the document data to be investigated is created in a language different from the language used normally. Could be provided.
[Brief description of the drawings]
FIG. 1 is a conceptual diagram showing a first embodiment.
FIG. 2 is a conceptual diagram showing a second embodiment.
FIG. 3 is a conceptual diagram showing a third embodiment.
FIG. 4 is a conceptual diagram showing a fourth embodiment.
FIG. 5 is a conceptual diagram showing a fifth embodiment.
FIG. 6 is a conceptual diagram showing a sixth embodiment.
FIG. 7 is a conceptual diagram illustrating an example of an operation of a client user.
FIG. 8 is a conceptual diagram showing a seventh embodiment.
FIG. 9 is a conceptual diagram showing an eighth embodiment.
FIG. 10 is a diagram showing a part of a screen output provided from a server to a client as a search text input screen for performing a concept search.
11 is a diagram showing a part of the next screen output of FIG.
FIG. 12 is a diagram showing a part of the next screen output of the concept search sorting result;
FIG. 13 is a diagram showing a part of an output screen as a result of performing a similar search by summarizing patent application publication documents.
[Explanation of symbols]
10 Search target document group selection button 11 Sort output number selection button
12 Search text entry field 13 Search start button
20 Sort output number display column 21 Score range display column
22 List display request button
30 List display 31 Score display field
32 Link button 33 Link button
34 Highest score display

Claims (6)

クライアント・サーバシステムにおけるサーバに備えられる概念検索装置であって、
辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、
前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、
クライアントから所定出力数を入力される所定出力数入力手段と、
クライアントから入力された検索用文章を前記ステムベクトル作成手段に用いる言語へ翻訳する翻訳手段と、
その翻訳手段によって翻訳された検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成する検索用文書ベクトル作成手段と、
前記検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、
演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段と、を備え、
前記の辞書作成用文書群および前記の検索対象文書群の少なくとも一方は、特許情報文献群とし、
前記のソート手段は、前記の所定出力数入力手段にて所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントの出力手段へ出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとした概念検索装置。
A concept retrieval device provided in a server in a client-server system,
A stem vector creating means for creating a stem vector having a dictionary function from the dictionary creating document group;
Search target document vector creating means for creating a search target document vector group from the stem vector and the search target document group;
A predetermined output number input means for inputting a predetermined output number from the client;
Translation means for translating search text input from a client into a language used for the stem vector creation means;
A search document vector creating means for creating a search document vector from the search text translated by the translation means and the stem vector;
Vector calculation means for calculating a vector calculation value of the search document vector and the document vector group;
Sorting means for sorting the search target document group in the order of the calculated vector operation value, and outputting the sort result to the output means of the client,
At least one of the dictionary creation document group and the search target document group is a patent information document group,
The sorting unit outputs a search target document group of the number of data items previously input as a predetermined output number by the predetermined output number input unit to the output unit of the client , and among the output search target document group, A concept retrieval device that outputs the highest score and the lowest score to the output means of the client.
前記のソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供し、
前記の検索用文章ベクトル作成手段は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、
前記のベクトル演算手段は、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、
前記のソート手段は、その新たなベクトル演算値に基づいてソートすることとした請求項1に記載の概念検索装置。
Providing the client with a re-input means for re-inputting the new search text created based on the output by the sort means;
The search sentence vector creating means creates a new search sentence vector using the re-entered search sentence,
The vector calculation means calculates a new vector calculation value using the new search sentence vector,
The concept search device according to claim 1, wherein the sorting unit performs sorting based on the new vector operation value.
クライアントから通常検索のためのキーワードまたは分類等を入力された場合に、キーワード検索または分類検索等の通常検索を行って、その検索結果をクライアントの出力手段へ出力させるための通常検索手段を備え、
その通常検索手段は、ソート結果に対してクライアントから通常検索のためのキーワードまたは分類等を入力された場合に、通常検索を行うこととした請求項1または請求項2のいずれかに記載の概念検索装置。
A normal search means for performing a normal search such as a keyword search or a classification search and outputting the search result to the output means of the client when a keyword or classification for normal search is input from the client;
3. The concept according to claim 1, wherein the normal search means performs a normal search when a keyword or classification for normal search is input from a client to the sort result. Search device.
前記の通常検索手段は、検索結果の書誌的事項を一覧表示させる一覧表示機能と、当該一覧表示の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させるためのリンク機能と、を備え、
前記の通常検索手段のリンク機能は、一覧表示の中から検索対象文書の一部または全部を、検索用文章として選択可能することで入力を代行させることとした請求項3に記載の概念検索装置。
The normal search means includes a list display function for displaying a list of bibliographic items of search results, a search target document selected by the client from the list display, and a part or all of the search target document. A link function for outputting to the output means of the client,
4. The concept search device according to claim 3, wherein the link function of the normal search means substitutes an input by selecting a part or all of a search target document as a search sentence from a list display. .
検索対象文書ベクトル作成手段には、通常検索手段の検索結果を用いて検索対象文書ベクトル群を作成するベクトル群抽出手段を備え、ベクトル演算手段は、その検索対象文書ベクトル群を用いてベクトル演算値を演算することとした請求項3または請求項4のいずれかに記載の概念検索装置。  The search target document vector creation means includes a vector group extraction means for creating a search target document vector group using the search result of the normal search means, and the vector calculation means uses the search target document vector group as a vector calculation value. The concept search device according to claim 3, wherein the concept search device is operated. プログラムを記録したコンピュータ読みとり可能な記録媒体であって、
そのプログラムは、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、
前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、
クライアントから所定出力数を入力される所定出力数入力手順と、
クライアントから入力された検索用文章を前記ステムベクトル作成手順にて用いる言語へ翻訳する翻訳手順と、
その翻訳手順によって翻訳された検索用文章と前記ステムベクトルとから検索用文書ベクトルを作成する検索用文書ベクトル作成手順と、
前記検索用文書ベクトルと前記文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、
演算されたベクトル演算値の順に前記の所定出力数入力手順にて所定出力数として予め入力されたデータ件数の検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとしたソート手順と、をコンピュータに実行させるプログラムとし、
前記の辞書作成用文書群および前記の検索対象文書群の少なくとも一方は、特許情報文献群とし、
前記の辞書作成用文書群は、辞書作成用文書群がなす群の中の一部分としたコンピュータ読みとり可能な記録媒体。
A computer-readable recording medium storing a program,
The program includes a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group,
A search target document vector creation procedure for creating a search target document vector group from the stem vector and the search target document group;
A predetermined output number input procedure for inputting a predetermined output number from the client;
A translation procedure for translating the search text input from the client into the language used in the stem vector creation procedure;
A search document vector creation procedure for creating a search document vector from the search text translated by the translation procedure and the stem vector;
A vector operation procedure for calculating a vector operation value of the search document vector and the document vector group;
Sort the search target document group with the number of data items input in advance as the predetermined output number in the predetermined output number input procedure in the order of the calculated vector operation value, and output the sort result to the output means of the client, and output And a sorting procedure for outputting the highest score and the lowest score to the output means of the client in the search target document group.
At least one of the dictionary creation document group and the search target document group is a patent information document group,
The dictionary creation document group is a computer-readable recording medium that is a part of the dictionary creation document group.
JP2000223710A 2000-07-25 2000-07-25 Concept search device and recording medium recording computer program Expired - Lifetime JP4497338B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000223710A JP4497338B2 (en) 2000-07-25 2000-07-25 Concept search device and recording medium recording computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000223710A JP4497338B2 (en) 2000-07-25 2000-07-25 Concept search device and recording medium recording computer program

Publications (2)

Publication Number Publication Date
JP2002041557A JP2002041557A (en) 2002-02-08
JP4497338B2 true JP4497338B2 (en) 2010-07-07

Family

ID=18717765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000223710A Expired - Lifetime JP4497338B2 (en) 2000-07-25 2000-07-25 Concept search device and recording medium recording computer program

Country Status (1)

Country Link
JP (1) JP4497338B2 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096799A (en) * 1995-06-19 1997-01-10 Sharp Corp Document classification device and document search device

Also Published As

Publication number Publication date
JP2002041557A (en) 2002-02-08

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
US20050203900A1 (en) Associative retrieval system and associative retrieval method
US20110270815A1 (en) Extracting structured data from web queries
CN107967290A (en) A kind of knowledge mapping network establishing method and system, medium based on magnanimity scientific research data
US7440938B2 (en) Method and apparatus for calculating similarity among documents
JPH09101991A (en) Information filtering device
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
US20050065920A1 (en) System and method for similarity searching based on synonym groups
JP4091146B2 (en) Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP2003150623A (en) Cross-language patent document search method
CN110990003A (en) An API Recommendation Method Based on Word Embedding Technology
JP3612769B2 (en) Information search apparatus and information search method
JP3198932B2 (en) Document search device
JPH0944523A (en) Relative word display device
JP4497337B2 (en) Concept search device and recording medium recording computer program
JPH1145268A (en) Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP4497338B2 (en) Concept search device and recording medium recording computer program
JP2000163441A (en) Dictionary creation method and apparatus, storage medium storing dictionary creation program, search request creation method and apparatus, storage medium storing search request creation program, and multilingual information search system
JP7428035B2 (en) Data retrieval device, data retrieval method and program
JP4493825B2 (en) Concept retrieval device based on non-text input and recording medium recording computer program
JP2002183195A (en) Concept search method
JPH09153064A (en) Information filtering device
JP4384736B2 (en) Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device
JPH1145255A (en) Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100331

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100407

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4497338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term