JP5700566B2

JP5700566B2 - スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム

Info

Publication number: JP5700566B2
Application number: JP2012023886A
Authority: JP
Inventors: 隆伸大庭; 堀　貴明; 貴明堀; 中村　篤; 篤中村; 伊藤　彰則; 彰則伊藤
Original assignee: Tohoku University NUC; Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: Tohoku University NUC; NTT Inc; NTT Inc USA
Priority date: 2012-02-07
Filing date: 2012-02-07
Publication date: 2015-04-15
Anticipated expiration: 2032-02-07
Also published as: JP2013161330A

Description

本発明は、ドキュメント検索や音声ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する際に用いる学習データを生成する学習データ生成装置及びその方法、並びに、生成された学習データに基づき学習されたスコアリングモデルによってドキュメント検索を行う検索装置及びその方法に関する。

ドキュメント検索は、事前に与えられた有限個のドキュメントの中から、入力されたクエリ（以下「入力クエリ」ともいう）に関連深いドキュメントを選び出す問題である。通常、入力クエリに関連深い順にドキュメントを並べる。このとき入力クエリと各ドキュメントの関連深さを表すスコアを算出する必要があり、スコア順にドキュメントを並べる。したがって、スコアの算出方法が技術的核となる。なおクエリとは検索を行うユーザが指定する単語列（言い換えると検索対象となる単語列）であり、文、文章、句、単語、記号及びそれらの組み合わせであってもよい。またドキュメントとは通常、一つ以上の文や文章を含むｗｅｂページやテキストファイル等であり、ドキュメント検索の対象となるものである。

また音声ドキュメント検索は、検索対象が音声ドキュメントであるドキュメント検索である。音声ドキュメントとは音声を録音した音声ファイル等である。音声ドキュメントに音声認識を適用し、テキスト化した上で、ドキュメント検索の技術を適用することで実現される。またクエリが音声で与えられる場合もあり、同様に音声認識が適用されるのが一般的である。ただし、クエリと各音声ドキュメントの関連深さを表すスコアの算出は、音声認識の誤認識や、未知語(音声認識システムに登録されていない単語)の存在を考慮した上で行われる。以下ドキュメント及び音声ドキュメントを併せて単にドキュメントともいう。

従来、ドキュメント検索では、ヒューリスティックな方法（試行錯誤・実験・検討などの過程を通じて問題解決を行う手法であり、発見的方法）で、入力クエリと各ドキュメントの関連深さを表すスコアの算出していた。しかし自然言語処理分野の多くの問題で見るように、統計的モデル学習に基づき生成されたモデルを利用してスコアを算出することで、更なる精度向上を見込むことができる。なお入力クエリと各ドキュメントとの関連深さを表すスコアを算出する際に利用されるモデルをスコアリングモデルと呼ぶ。非特許文献１が統計的モデル学習に基づきスコアリングモデルを生成する従来技術として知られている。以下スコアリングモデルについて説明する。

クエリｑとドキュメントｄの組から抽出される素性ベクトルをｆ_ｑ,ｄとおく。なお素性ベクトルの抽出は事前に定義されたルールに基づき実行される。例えば要素（素性）として、クエリｑとドキュメントｄに共通の単語ｗ_ｉの、ドキュメントｄにおける個数ｃ（ｗ_ｉ，ｄ）の対数値の総和や単語ｗ_ｉの逆文書頻度（Inverse Document Frequency）ｉｄｆ（ｗ_ｉ）の対数値の総和等を用いることができる。スコアリングモデルのパラメータベクトルをΦとするとき、このスコアリングモデルによってクエリｑとドキュメントｄの組に与えられるスコアをＳ_Φ（ｆ_ｑ，ｄ）と表記する。このスコアＳ_Φ（ｆ_ｑ，ｄ）がクエリｑとドキュメントｄの関連深さを表す。

広く使用されるスコアリングモデルの１つとして線形モデルがある。線形モデルでは例えば次式でスコアを算出する。
S_Φ(f_q,d)=Φ・f_q,d (1)
なお、・は内積演算子である。

パラメータベクトルΦは事前に統計的モデル学習法により求める。学習データを用意し、既存の学習法を使用してパラメータベクトルΦの値を求めることができる。なお学習データは一般に、クエリとリファレンスラベル（クエリと関連深いドキュメントを指し示すラベルであり、関連深いドキュメントの数は複数であってもよい）の組の集合である。学習データは、各クエリに対し関連が深いと考えられるドキュメントを人手により判断し、用意する。

なお、非特許文献２では、言語モデルを用いたドキュメント検索手法が示されている。言語モデルのパラメータを統計データを用いて学習するため統計的にモデルを学習していると言えるが、リファレンスラベルを使用していないため、ドキュメントとクエリの関連の有無を直接的には学習していない。そのため、本明細書においてはヒューリスティックな手法と位置づける。

Ramesh Nallapati, "Discriminative Models for Information Retrieval", Proceedings of ACM SIGIR, 2004, pp.64-71 Jay M. Ponte and W. Bruce Croft，" A Language Modeling Approach to Information Retrieval", Proceedings of ACM SIGIR, 1998, pp. 275-281

一般に、適切なパラメータ推定結果を得るためには、パラメータ数が多い（パラメータベクトルΦの次元が高い）ほど、多くの学習データ（クエリとリファレンスラベルの組）を必要とする。しかし、前述の通り学習データは人手で用意する必要があり、大量に用意することが難しい。そのため従来技術のパラメータベクトルΦは低次元のベクトルである。

例えば式（１）の線形モデルにおいて、パラメータベクトルΦが８次元であるとすると、素性ベクトルｆ_ｑ,ｄも８次元である。これは、クエリｑとドキュメントｄから高々８種類の特徴しか使用してはいけないことを意味しており、ドキュメント検索を行う上で重要な特徴を落としている可能性が高い。一般に言語処理分野では、数万〜数千万次元といった高次元のモデルを使用するのに対し、ドキュメント検索では極端に低次元のパラメータベクトルに基づくスコアリングモデルが使用されている。これは学習データを人手で大量に用意することが難しいことに起因する。

統計的モデル学習に基づきスコアリングモデルを生成する利点は、（１）クエリとリファレンスラベルとの関連を明示的に学習していること、（２）線形モデルのような単純なモデルを用いることで様々な特徴を容易に導入可能な点にある。高次元のパラメータベクトルに基づくスコアリングモデルが使用可能になれば、様々な特徴を利用することができるようになり、より精密にクエリとリファレンスラベルとの関連を学習できるようになる。したがって、高次元のパラメータベクトルに基づくスコアリングモデルを使用することができれば、仮に既存手法を精度で下回っても、少なくとも既存手法とは異なる特徴が取り込めるため、クエリとドキュメントの関連深さを表すスコアの算出において、既存手法により求めたスコアと高次元のパラメータベクトルに基づくスコアリングモデルにより求めたスコアとの重ね合わせによりスコアを算出することにより、精度向上が期待できる。

本発明は、統計的モデル学習に基づきスコアリングモデルを学習するスコアリングモデル生成装置、その際に用いる学習データを生成する学習データ生成装置を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、スコアリングモデル生成装置は、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する。スコアリングモデル生成装置は、Ｍをドキュメントの個数、Ｎを１つのドキュメントから生成されるクエリの個数、ｍ＝１，２，…，Ｍ、ｎ＝１，２，…，Ｎとし、Ｍ×Ｎ個の学習データｓ _ｍｎを受け取り、学習データｓ _ｍｎに含まれるクエリｑと各ドキュメントｄとから素性ベクトルｆ _ｑ,ｄを抽出し、パラメータベクトルΦと素性ベクトルｆ _ｑ,ｄとの内積が、ドキュメントｄがクエリｑの関連ドキュメントである場合には正の値を、ドキュメントｄがクエリｑの関連ドキュメントでない場合には負の値をとるように、パラメータベクトルΦを学習する。
上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は複数のドキュメントを与えられ、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する際に用いる学習データを生成する。学習データ生成装置は単語列生成手段と学習データ生成手段とを含む。単語列生成手段は与えられる各ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を１つ以上生成する。学習データ生成手段は生成した各単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を学習データとする。

本発明によれば、統計的モデル学習に基づきスコアリングモデルを学習する際に用いる学習データを、人手によらずに自動で生成できるという効果を奏する。大量の学習データを用いて高次元のパラメータベクトルを適切に推定することができ、ヒューリスティックな手法では扱いづらかった情報が利用可能となるため、そのパラメータベクトルを用いた検索装置は、より精度の高い検索が可能となる。

第一実施形態に係る検索システム１の構成図。第一実施形態に係る検索システム１の処理フローを示す図。第一実施形態に係る学習データ生成装置１１の機能ブロック図。第一実施形態に係る学習データ生成装置１１の処理フローを示す図。第一実施形態の検索装置１３のシミュレーション１の結果を示す図。第一実施形態の検索装置１３のシミュレーション２の結果を示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態＞
図１は検索システム１の構成例を、図２はその処理フローを示す。検索システム１は学習データ生成装置１１とスコアリングモデル生成装置１２と検索装置１３とを含む。

学習データ生成装置１１はＭ個のドキュメントｄ_１，ｄ_２，…，ｄ_Ｍを入力とし、Ｍ×Ｎ個の学習データｓ_ｍｎを生成し（ｓ１１）、スコアリングモデル生成装置１２に出力する。ただし、ｍ＝１，２，…，Ｍであり、ｎ＝１，２，…，Ｎであり、Ｎは一つのドキュメントから生成される単語列（クエリ）の個数である。詳細は後述する。

スコアリングモデル生成装置１２はＭ×Ｎ個の学習データｓ_ｍｎを用いて、スコアリングモデルにおいて利用するパラメータベクトルΦを学習、生成し（ｓ１２）、検索装置１３に出力する。

検索装置１３はパラメータベクトルΦをスコアリングモデルに設定する。検索装置１３は利用者の操作する端末２から検索用クエリｑ_ｕを受信すると、検索用クエリｑ_ｕに対応するドキュメントを検索する（ｓ１３）。ドキュメントの検索は例えば以下のように行う。スコアリングモデルを用いて、検索用クエリｑ_ｕに対する各ドキュメントのスコアを計算し、スコアの高い順にドキュメントの一部やタイトル、ＵＲＬ等を並べたドキュメント情報Ｄ_ｕを生成し、端末２に送信する。利用者はドキュメント情報Ｄ_ｕに含まれるＵＲＬ等にアクセスすることで検索用クエリｑ_ｕに関連深いドキュメントを閲覧することができる。

＜学習データ生成装置１１＞
図３は学習データ生成装置１１の機能ブロック図を、図４はその処理フローを示す。学習データ生成装置１１は、記憶部１１１と個別言語モデル生成手段１１２と総合言語モデル生成手段１１３と単語列生成手段１１４と学習データ生成手段１１５とを含む。

（記憶部１１１）
記憶部１１１は与えられたＭ個のドキュメントｄ_１，ｄ_２，…，ｄ_Ｍを格納する。また処理途中のデータや各種パラメータ等を記憶する。各手段は、記憶部１１１に対し、各処理過程で所定のデータやパラメータの読み書きを行う。ただし、各手段は、必ずしも記憶部１１１に対し各データの読み書きを行わなければならないわけではなく、各部間で直接データを受け渡すように制御してもよい。記憶部１１１は補助記憶装置、ＲＡＭ（Random Access Memory）、レジスタ、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。

（総合言語モデル生成手段１１３）
総合言語モデル生成手段１１３は、Ｍ個のドキュメントｄ_１，ｄ_２，…，ｄ_Ｍを記憶部１１１から取り出し、全てのドキュメントに対する確率的言語モデルＢを生成し（ｓ１１０１）、記憶部１１１に格納する。確率的言語モデルとしては例えば、ｎ−ｇｒａｍ言語モデル、ｂａｃｋ−ｏｆｆｎ−ｇｒａｍ言語モデル、隠れマルコフモデル、最大エントロピーモデル等が考えられる。

（個別言語モデル生成手段１１２）
個別言語モデル生成手段１１２は、ドキュメントｄ_ｍを記憶部１１１から取り出し、そのドキュメントｄ_ｍに対する確率的言語モデルＬ_ｍを生成し（ｓ１１０３）、記憶部１１１に格納する。個別言語モデル生成手段１１２はＭ個のドキュメントｄ_１，ｄ_２，…，ｄ_Ｍに対してそれぞれ確率的言語モデルＬ_１，Ｌ_２，…，Ｌ_Ｍを生成する（ｓ１１０２、ｓ１１０９、ｓ１１１０）。

（単語列生成手段１１４）
単語列生成手段１１４は、二つの確率的言語モデルＢ及びＬ_ｍを記憶部１１１から取り出し、二つの確率的言語モデルＢ及びＬ_ｍに基づき単語列ｑ_ｍｎを生成し（ｓ１１０５）、記憶部１１１に格納する。本実施形態では単語列からなる文ｑ_ｍｎを生成する。

例えば次式により二つの確率的言語モデルＢ及びＬ_ｍを線形結合したものにより与えられる単語Ｗの確率Ｐ（Ｗ）を求め、その確率分布に従ってランダムに文ｑ_ｍｎを生成する。
P(W)=λP_Lm(W)+(1-λ)P_B(W) (2)
ただし、Ｐ_Ｌｍ（Ｗ）は確率的言語モデルＬ_ｍにより与えられる単語Ｗの確率であり、Ｐ_Ｂ（Ｗ）は確率的言語モデルＢにより与えられる単語Ｗの確率であり、λは０＜λ≦１の実数値からなる重み係数である。なお言語モデルの学習において各ドキュメント中に文末シンボルの存在を仮定する。ランダムに単語列を生成する際に文末シンボルの出力をもって一つの単語列（クエリ）とみなす。なお一つのドキュメントｄ_ｍに対してＮ個の文ｑ_ｍｎを生成する（ｓ１１０４、ｓ１１０７、ｓ１１０８）。

（学習データ生成手段１１５）
学習データ生成手段１１５は、記憶部１１１からドキュメントｄ_ｍを指し示すラベルｍと、単語列生成手段１１４においてそのドキュメントｄ_ｍから生成された単語列ｑ_ｍｎとを取り出し、ラベルｍをリファレンスとし、単語列ｑ_ｍｎをクエリとし、そのセットを学習データｓ_ｍｎ＝（ｍ，ｑ_ｍｎ）とし（ｓ１１０６）、記憶部１１１に格納する。全ての文ｑ_ｍｎに対してこの処理を行う（ｓ１１０４、ｓ１１０７、ｓ１１０８）。

学習データ生成装置１１はこのようにしてＭ×Ｎ個の学習データｓ_ｍｎを生成し、スコアリングモデル生成装置１２に送信する。

＜効果＞
このような構成により統計的モデル学習に基づきスコアリングモデルを学習する際に用いる学習データを、人手によらずに自動で生成できる。

以下、学習データ生成装置１１によって生成された学習データを用いたスコアリングモデルの生成方法、及び生成されたスコアリングモデルを用いたドキュメント検索方法の概略を説明する。

＜検索装置１３＞
検索装置１３は、学習データ生成装置１１で得られたＭ×Ｎ個の学習データｓ_ｍｎを用いて学習したスコアリングモデルを利用してドキュメント検索を行う。本実施形態では、自動生成された学習データと真の学習データとは大きく異なることを考慮して、検索精度を担保するため、学習データｓ_ｍｎを用いて学習したスコアリングモデルを従来の検索手法に対するリスコアリングとして導入する。スコアリングモデルの学習方法については後述する。

ベースライン検索システムが与えるドキュメントｄとクエリｑの関連度をＤ（ｆ_ｑ，ｆ_ｄ）と表記すると、本実施形態では線形モデルのパラメータベクトルΦと素性ベクトルｆ_ｑ,ｄとを用いて関連度Ｄ（ｆ_ｑ，ｆ_ｄ）を次式で補正（リスコアリング）する。
D(f_q,f_d)+αΦ・f_q,d (3)
ただし、αは両者のスケールを調整するための定数である。

例えばベースライン検索システムの関連度Ｄ（ｆ_ｑ，ｆ_ｄ）として素性ベクトル間の距離に基づく手法（参考文献１参照）を用いることができる。
（参考文献１）宇野有，伊藤仁，伊藤彰則，牧野正三，“音声ドキュメント検索のためのWWWを用いたインデクス改善”，第4回音声ドキュメント処理ワークショップ講演論文集，2010年

クエリｑから抽出される素性ベクトルをｆ_ｑ、ドキュメントｄから抽出される素性ベクトルをｆ_ｄと記す。この素性ベクトルの抽出は事前に定義されたルールに基づき実行される。例えば素性ベクトルには単語等のｔｆ−ｉｄｆ（term frequency and inverse document frequency）からなるベクトルを用いることができる。クエリｑとドキュメントｄの関連深さを表すスコアを両ベクトルの距離Ｄ（ｆ_ｑ，ｆ_ｄ）により算出する。例えば距離Ｄ（ｆ_ｑ，ｆ_ｄ）にはコサイン距離を用いることができる。すなわちｔｆ−ｉｄｆ（ｘ）を単語列ｘのｕｎｉｇｒａｍのｔｆ−ｉｄｆベクトル、ｃｏｓｉｎｅ（ｙ，ｚ）をｙとｚ間のコサイン距離として、関連度Ｄ（ｆ_ｑ，ｆ_ｄ）を次式により算出する。
D(f_q,f_d)=cosine(tf-idf(d),tf-idf(q))

パラメータベクトルΦ及び素性ベクトルｆ_ｑ,ｄは、ｕｎｉｇｒａｍ頻度に関するベクトルを用いる場合、単語の種類の総数と同数の次元を持つ。このとき、素性ベクトルｆ_ｑ,ｄは、ドキュメントｄにおける各単語の出現頻度を要素の値とする。ただし、クエリｑに出現しない単語に対応する要素の値を０とする。

従来技術では多くの学習データを用意することが困難であるため、高次元のパラメータベクトルΦを適切に推定することができない。そのためパラメータベクトルΦは低次元となり素性ベクトルも低次元とならざるを得なかった。本実施形態では大量の学習データを用意に用意することができるため、高次元のパラメータベクトルΦを適切に推定でき、単語の種類の総数と同数の次元数を持つような高次元の素性ベクトルを用いることができる。これはクエリｑとドキュメントｄから多くの特徴を使用できることを意味し、ドキュメント検索を行う上で重要な特徴を逃さずに利用できることを意味する。

検索装置１３は、各ドキュメントに対するスコアを式（３）により算出し、その値の大きな順にドキュメントの上位候補として順位を決定する。

＜スコアリングモデル生成装置１２＞
スコアリングモデル生成装置１２は、Ｍ×Ｎ個の学習データｓ_ｍｎを受信し、スコアリングモデルにおいて用いるパラメータベクトルΦを学習し、生成し、検索装置１３に送信する。例えばパラメータベクトルΦの学習には既存の最大エントロピーモデルに基づく手法を用いることができる（非特許文献１）。これは、ドキュメントｄがクエリｑの関連ドキュメントであるかどうか（１ｏｒ−１）をｒ（ｄ，ｑ）で表すとき、Φ・ｆ_ｑ,ｄの符号とｒ（ｄ，ｑ）の符号を一致させるように学習を行うことを意味している。なおドキュメントｄがクエリｑの関連ドキュメントであるかどうかを表す情報ｒ（ｄ，ｑ）がＭ×Ｎ個の学習データｓ_ｍｎ＝（ｍ，ｑ_ｍｎ）から生成される。

具体的にはまず２つのパラメータベクトルΦ_＋１及びΦ_−１に関し次式を最小化する値を求める。

そして、ΦをΦ_＋１−Φ_−１により求める。なお、||x||² ₂はＬ２−ノルム、ｃは定数であり本実施形態ではｃ＝１である。最小化問題の解法にはＬ−ＢＦＧＳアルゴリズムを用いることができる。

＜シミュレーション１＞
第一実施形態の検索装置１３について日本語話し言葉コーパスＣＳＪのSpoken document retrieval test collection （参考文献２参照）を用いて評価実験を実施した。
（参考文献２）Tomoyosi Akiba, Kiyoaki Aikawa, Yoshiaki Itoh, Tatsuya Kawahara, Hiroaki Nanjo, Hiromitsu Nishizaki, Norihito Yasuda, Yoichi Yamashita, Katunobu Itou, "Construction of a Test Collection for Spoken Document Retrieval from Lecture Audio Data", IPSJ Journal, 2009. Vol.50, No.2, pp.501-513,

本テストコレクションには、２７０２個の音声ドキュメント及びその音声認識結果と、３９個のクエリ及びそのリファレンスラベルが収録されている。３９個のクエリを９個と３０個に分け、それぞれ開発セット、評価セットとした。なお開発セットは式（３）のαを決めるためのみに使用した。

学習データ生成装置１１において、言語モデルとしてｂａｃｋ−ｏｆｆｔｒｉ−ｇｒａｍ言語モデルを用い、全ドキュメントから作成した言語モデルＢと各ドキュメントから生成した言語モデルＬ_ｍとを線形結合したものを利用した。式（２）のλは0.9,0.8,0.7,0.6,0.5の何れかとし、単語列生成手段１１４は各ドキュメントの各λに対してそれぞれ５０個のクエリを生成した。つまり、一つのドキュメントからＮ＝５０個×５個(λ値の総数)＝２５０個のクエリを生成した。よって学習用に生成したクエリの総数は２５０個×２７０２個(ドキュメントの総数)＝６７５５００個である。この方法によれば、ドキュメントｄに出現していない単語のみから構成されるクエリが生成される可能性がゼロではない。しかし、そのようなクエリは全体のごく一部に過ぎず、パラメータの推定にほとんど影響しないことが予想される。そのため、当該クエリの存在を確認すること無く全てのクエリを学習に利用した。なおドキュメントｄに出現していない単語のみから構成されるクエリを学習データから除外する構成としてもよい。

スコアリングモデル生成装置１２は、６７５５００個の学習データを用いて、パラメータベクトルΦを推定した。なお学習には既存の最大エントロピーモデルに基づく手法を用いた（非特許文献１参照）。

検索装置１３は、パラメータベクトルΦを用いて式（３）により開発セットのクエリに対するドキュントのスコアを計算し、その値の大きな順にドキュメントの上位候補として順位を決定した。なお単語の種類の総数は約２万７千であり、Φ及びｆ_ｑ,ｄの次元はこれに一致する。

評価尺度はＭＡＰ（mean average precision）、Ｒ−ｐｒｅｃｉｓｉｏｎ、５位におけるｎＤＣＧ（normalized discounted cumulative gain）である。いずれも大きな値ほど性能が良いことを示す。評価セットにおける値は図５に示す通りである。何れの評価尺度においてもベースライン検索システムの評価よりも検索装置１３の評価のほうが高いことがわかる。

＜シミュレーション２＞
シミュレーション１では、素性に単語頻度を用いたが、ｎ−ｇｒａｍ頻度を使用することでさらに高次元のモデルにすることもできる。また、品詞、文字や音素等のサブワードに関する素性を用いることも可能であり、これにより、未知の単語が出現した場合にも頑健な検索結果を期待できる。さらに、音声認識の信頼度を素性に使うことで、音声認識の誤認識に頑健な検索が期待できる。なお学習データ生成装置１１によって大量の学習データを生成することができるため、素性を追加して素性ベクトルの次元数を増やしても適切にパラメータベクトルを学習し、生成することができる。

シミュレーション２では、素性として音素を加えている。またシミュレーション２において３９個のクエリの中には音声認識の未知語を含むものが４個あり（開発セットに１、評価セットに３）、これも別途評価に用いた。またシミュレーション２ではスコアリングモデル生成装置１２において式（４）によりパラメータベクトルΦを学習し生成している。

シミュレーション２では評価尺度としてＭＡＰと上位１０位に関するｎＤＣＧを用いる。図６に結果を示す。図中”ｅｖａｌ”には３０クエリの評価セットに対する精度、”ｏｏｖ”には未知語を含む４クエリに対する精度を示している。まずｅｖａｌに関して、ベースライン単体（Ｂａｓｅｌｉｎｅ）の検索精度と比べて、第一実施形態のスコアリングモデル生成装置を利用して生成したモデルによるリスコアリング（＋単語）を行うことで大きく性能が改善している。この結果はシミュレーション１と同様である。未知語や認識誤りの有無とは別に、本質的に検索能力が向上したものと考えられる。音素素性はｅｖａｌに関して、精度を低下させる結果となった。しかし、ｏｏｖに着目するとベースラインに対して大きく検索精度を改善している。このことから、第一実施形態では単に音素素性を加えるだけで未知語に対する頑健性を向上させることがわかる。

＜第一変形例＞
第一実施形態の学習データ生成装置１１は、総合言語モデル生成手段１１３を備えない構成としてもよい。その場合、図４のｓ１１０１を行わない。単語列生成手段１１４ではドキュメントｄ_ｍに対する確率的言語モデルＬ_ｍにより与えられる単語Ｗの確率Ｐ_Ｌｍ（Ｗ）を求め、その確率分布に従ってランダムに文ｑ_ｍｎを生成する。ただし、確率Ｐ_Ｌｍ（Ｗ）の確率分布に従ってランダムに文ｑ_ｍｎを生成すると、ｑ_ｍｎは一般にドキュメントｄ_ｍに出現する語彙のみで構成される。クエリに出現する単語の全てが、リファレンスとなるドキュメントに全て出現することは稀であるため、第一実施形態のように全てのドキュメントに対する確率的言語モデルを用いたほうがその精度高くなると考えられる。

＜第二変形例＞
第一変形例の学習データ生成装置１１は、さらに個別言語モデル生成手段１１２を備えない構成としてもよい。その場合、図４のｓ１１０３を行わない。単語列生成手段１１４ではドキュメントｄ_ｍからランダムに単語、句、文を抽出し、それを接続してできる文（文章）をクエリとする。ただし、ランダムに単語のみを抽出する場合は、個別言語モデル生成手段１１２で単語ｕｎｉｇｒａｍ言語モデルを生成した場合と等価となる。

抽出する単語、句、文の単位、数に関してランダムに決定することも可能である。クエリに出現する単語の全てが、リファレンスとなるドキュメントに全て出現することは現実には稀である。そこで対策として、一部の単語や句を、他のドキュメントから抽出した単語や句に置換又は挿入することもできる。置換や挿入を行う数、位置についてもランダムに決定することができる。ただし、ランダムとは、一様分布も含め、種々の確率モデルに従った分布に従うことを意味している。例えば、単語列を構成する単語の数であれば、ポアソン分布に従って決定することが考えられる。

第一実施形態と第一変形例と第二変形例との関係性をみれば、明らかにその何れかを組合せて単語列（クエリ）を作成することも可能である。例えば第一実施形態や第一変形例により抽出した単語に対し、第二変形例の方法により一部を置換したり、挿入してもよい。

＜その他の変形例＞
総合言語モデル生成手段１１３は、必ずしも全てのドキュメントに対する確率的言語モデルを生成しなくともよく、ドキュメントｄ_ｍに対する確率的言語モデルＬ_ｍとは別の（バックグラウンド）言語モデル、言い換えると言語モデルＬ_ｍに含まれていない語彙を含む言語モデルであればよい。

検索装置１３は必ずしも本実施形態のスコアリングモデルを従来の検索手法に対するリスコアリングとして導入する必要はない。つまり検索装置１３は、ベースライン検索システムの関連度をＤ（ｆ_ｑ，ｆ_ｄ）を用いずに、パラメータベクトルΦと素性ベクトルｆ_ｄ，ｐのみを用いて式（１）によりスコアを求めてもよい。

第一実施形態では一つのドキュメントｄ_ｍから生成されるクエリはＮ個としているが、ドキュメント毎に生成されるクエリの個数を変更してもよい。例えばドキュメントｄ_ｍの長さに応じてＮを変更してもよい。

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述した学習データ生成装置、スコアリングモデル生成装置及び検索装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置（各種実施例で図に示した機能構成をもつ装置）として機能させるためのプログラム、又はその処理手順（各実施形態で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

Claims

ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習するスコアリングモデル生成装置であって、
Ｍをドキュメントの個数、Ｎを１つのドキュメントから生成されるクエリの個数とし、Ｍ×Ｎ個の学習データｓ _ｍｎを受け取り、
前記学習データｓ _ｍｎに含まれるクエリｑと各ドキュメントｄとから素性ベクトルｆ _ｑ,ｄを抽出し、
パラメータベクトルΦと素性ベクトルｆ _ｑ,ｄとの内積が、ドキュメントｄがクエリｑの関連ドキュメントである場合には正の値を、ドキュメントｄがクエリｑの関連ドキュメントでない場合には負の値をとるように、前記パラメータベクトルΦを学習する、
スコアリングモデル生成装置。
請求項１記載のスコアリングモデル生成装置であって、
||x|| ² ₂ をＬ２−ノルムとし、ｃを定数とし、ドキュメントｄがクエリｑの関連ドキュメントであるかどうかを表す情報をｒ（ｄ，ｑ）とし、次式を最小化するパラメータベクトルΦ _＋１及びΦ _−１を求め、

前記パラメータベクトルΦを次式により求める、
Φ=Φ _＋１ −Φ _−１
スコアリングモデル生成装置。
複数のドキュメントを与えられ、請求項１または請求項２記載のスコアリングモデル生成装置で用いるＭ×Ｎ個の前記学習データｓ _ｍｎを生成する学習データ生成装置であって、
与えられる各前記ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を１つ以上生成する単語列生成手段と、
生成した各前記単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を前記学習データとする学習データ生成手段と、を含む
学習データ生成装置。
請求項３記載の学習データ生成装置であって、
与えられる各前記ドキュメントを用いて、各前記ドキュメントに対する確率的言語モデルを生成する個別言語モデル生成手段をさらに含み、
前記単語列生成手段は、前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成装置。
請求項４記載の学習データ生成装置であって、
与えられる全ての前記ドキュメントを用いて、全ての前記ドキュメントに対する確率的言語モデルを生成する総合言語モデル生成手段をさらに含み、
前記単語列生成手段は、二つの前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成装置。
請求項１または２記載のスコアリングモデル生成装置と、請求項３から５の何れかに記載の学習データ生成装置とを含む検索システムであって、
さらに、前記学習データ生成装置で生成された前記学習データを用いて前記スコアリングモデル生成装置で学習したスコアリングモデルを利用してドキュメント検索を行う検索装置を含む、
検索システム。
スコアリングモデル生成装置を用いて、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習するスコアリングモデル生成方法であって、
Ｍをドキュメントの個数、Ｎを１つのドキュメントから生成されるクエリの個数とし、Ｍ×Ｎ個の学習データｓ _ｍｎを受け取り、
前記学習データｓ _ｍｎに含まれるクエリｑと各ドキュメントｄとから素性ベクトルｆ _ｑ,ｄを抽出し、
パラメータベクトルΦと素性ベクトルｆ _ｑ,ｄとの内積が、ドキュメントｄがクエリｑの関連ドキュメントである場合には正の値を、ドキュメントｄがクエリｑの関連ドキュメントでない場合には負の値をとるように、前記パラメータベクトルΦを学習する、
スコアリングモデル生成方法。
請求項７記載のスコアリングモデル生成方法であって、
||x|| ² ₂ をＬ２−ノルムとし、ｃを定数とし、ドキュメントｄがクエリｑの関連ドキュメントであるかどうかを表す情報をｒ（ｄ，ｑ）とし、次式を最小化するパラメータベクトルΦ _＋１及びΦ _−１を求め、

前記パラメータベクトルΦを次式により求める、
Φ=Φ _＋１ −Φ _−１
スコアリングモデル生成方法。
複数のドキュメントを与えられ、学習データ生成装置を用いて、請求項７または請求項８記載のスコアリングモデル生成方法で用いるＭ×Ｎ個の前記学習データｓ _ｍｎを生成する学習データ生成方法であって、
与えられる各前記ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を１つ以上生成する単語列生成ステップと、
生成した各前記単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を前記学習データとする学習データ生成ステップと、を含む
学習データ生成方法。
請求項９記載の学習データ生成方法であって、
与えられる各前記ドキュメントを用いて、各前記ドキュメントに対する確率的言語モデルを生成する個別言語モデル生成ステップをさらに含み、
前記単語列生成ステップにおいて、前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成方法。
請求項１０記載の学習データ生成方法であって、
与えられる全ての前記ドキュメントを用いて、全ての前記ドキュメントに対する確率的言語モデルを生成する総合言語モデル生成ステップをさらに含み、
前記単語列生成ステップにおいて、二つの前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成方法。
請求項７または８記載のスコアリングモデル生成方法と、請求項９から１１の何れかに記載の学習データ生成方法とを含み、
さらに、前記学習データ生成方法で生成された前記学習データを用いて前記学習データ生成方法で学習したスコアリングモデルを利用してドキュメント検索を行う、
検索方法。
請求項１または２記載のスコアリングモデル生成装置としてコンピュータを機能させるためのプログラム。
請求項３から５の何れかに記載の学習データ生成装置としてコンピュータを機能させるためのプログラム。
請求項６記載の検索システムに含まれる検索装置としてコンピュータを機能させるためのプログラム。