Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5700566B2 - スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム - Google Patents
[go: Go Back, main page]

JP5700566B2 - スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム - Google Patents

スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム Download PDF

Info

Publication number
JP5700566B2
JP5700566B2 JP2012023886A JP2012023886A JP5700566B2 JP 5700566 B2 JP5700566 B2 JP 5700566B2 JP 2012023886 A JP2012023886 A JP 2012023886A JP 2012023886 A JP2012023886 A JP 2012023886A JP 5700566 B2 JP5700566 B2 JP 5700566B2
Authority
JP
Japan
Prior art keywords
document
learning data
scoring model
query
generation device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012023886A
Other languages
English (en)
Other versions
JP2013161330A (ja
Inventor
隆伸 大庭
隆伸 大庭
堀 貴明
貴明 堀
中村 篤
篤 中村
伊藤 彰則
彰則 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
NTT Inc
NTT Inc USA
Original Assignee
Tohoku University NUC
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Tohoku University NUC
Priority to JP2012023886A priority Critical patent/JP5700566B2/ja
Publication of JP2013161330A publication Critical patent/JP2013161330A/ja
Application granted granted Critical
Publication of JP5700566B2 publication Critical patent/JP5700566B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ドキュメント検索や音声ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する際に用いる学習データを生成する学習データ生成装置及びその方法、並びに、生成された学習データに基づき学習されたスコアリングモデルによってドキュメント検索を行う検索装置及びその方法に関する。
ドキュメント検索は、事前に与えられた有限個のドキュメントの中から、入力されたクエリ(以下「入力クエリ」ともいう)に関連深いドキュメントを選び出す問題である。通常、入力クエリに関連深い順にドキュメントを並べる。このとき入力クエリと各ドキュメントの関連深さを表すスコアを算出する必要があり、スコア順にドキュメントを並べる。したがって、スコアの算出方法が技術的核となる。なおクエリとは検索を行うユーザが指定する単語列(言い換えると検索対象となる単語列)であり、文、文章、句、単語、記号及びそれらの組み合わせであってもよい。またドキュメントとは通常、一つ以上の文や文章を含むwebページやテキストファイル等であり、ドキュメント検索の対象となるものである。
また音声ドキュメント検索は、検索対象が音声ドキュメントであるドキュメント検索である。音声ドキュメントとは音声を録音した音声ファイル等である。音声ドキュメントに音声認識を適用し、テキスト化した上で、ドキュメント検索の技術を適用することで実現される。またクエリが音声で与えられる場合もあり、同様に音声認識が適用されるのが一般的である。ただし、クエリと各音声ドキュメントの関連深さを表すスコアの算出は、音声認識の誤認識や、未知語(音声認識システムに登録されていない単語)の存在を考慮した上で行われる。以下ドキュメント及び音声ドキュメントを併せて単にドキュメントともいう。
従来、ドキュメント検索では、ヒューリスティックな方法(試行錯誤・実験・検討などの過程を通じて問題解決を行う手法であり、発見的方法)で、入力クエリと各ドキュメントの関連深さを表すスコアの算出していた。しかし自然言語処理分野の多くの問題で見るように、統計的モデル学習に基づき生成されたモデルを利用してスコアを算出することで、更なる精度向上を見込むことができる。なお入力クエリと各ドキュメントとの関連深さを表すスコアを算出する際に利用されるモデルをスコアリングモデルと呼ぶ。非特許文献1が統計的モデル学習に基づきスコアリングモデルを生成する従来技術として知られている。以下スコアリングモデルについて説明する。
クエリqとドキュメントdの組から抽出される素性ベクトルをfq,dとおく。なお素性ベクトルの抽出は事前に定義されたルールに基づき実行される。例えば要素(素性)として、クエリqとドキュメントdに共通の単語wの、ドキュメントdにおける個数c(w,d)の対数値の総和や単語wの逆文書頻度(Inverse Document Frequency)idf(w)の対数値の総和等を用いることができる。スコアリングモデルのパラメータベクトルをΦとするとき、このスコアリングモデルによってクエリqとドキュメントdの組に与えられるスコアをSΦ(fq,d)と表記する。このスコアSΦ(fq,d)がクエリqとドキュメントdの関連深さを表す。
広く使用されるスコアリングモデルの1つとして線形モデルがある。線形モデルでは例えば次式でスコアを算出する。
SΦ(fq,d)=Φ・fq,d (1)
なお、・は内積演算子である。
パラメータベクトルΦは事前に統計的モデル学習法により求める。学習データを用意し、既存の学習法を使用してパラメータベクトルΦの値を求めることができる。なお学習データは一般に、クエリとリファレンスラベル(クエリと関連深いドキュメントを指し示すラベルであり、関連深いドキュメントの数は複数であってもよい)の組の集合である。学習データは、各クエリに対し関連が深いと考えられるドキュメントを人手により判断し、用意する。
なお、非特許文献2では、言語モデルを用いたドキュメント検索手法が示されている。言語モデルのパラメータを統計データを用いて学習するため統計的にモデルを学習していると言えるが、リファレンスラベルを使用していないため、ドキュメントとクエリの関連の有無を直接的には学習していない。そのため、本明細書においてはヒューリスティックな手法と位置づける。
Ramesh Nallapati, "Discriminative Models for Information Retrieval", Proceedings of ACM SIGIR, 2004, pp.64-71 Jay M. Ponte and W. Bruce Croft," A Language Modeling Approach to Information Retrieval", Proceedings of ACM SIGIR, 1998, pp. 275-281
一般に、適切なパラメータ推定結果を得るためには、パラメータ数が多い(パラメータベクトルΦの次元が高い)ほど、多くの学習データ(クエリとリファレンスラベルの組)を必要とする。しかし、前述の通り学習データは人手で用意する必要があり、大量に用意することが難しい。そのため従来技術のパラメータベクトルΦは低次元のベクトルである。
例えば式(1)の線形モデルにおいて、パラメータベクトルΦが8次元であるとすると、素性ベクトルfq,dも8次元である。これは、クエリqとドキュメントdから高々8種類の特徴しか使用してはいけないことを意味しており、ドキュメント検索を行う上で重要な特徴を落としている可能性が高い。一般に言語処理分野では、数万〜数千万次元といった高次元のモデルを使用するのに対し、ドキュメント検索では極端に低次元のパラメータベクトルに基づくスコアリングモデルが使用されている。これは学習データを人手で大量に用意することが難しいことに起因する。
統計的モデル学習に基づきスコアリングモデルを生成する利点は、(1)クエリとリファレンスラベルとの関連を明示的に学習していること、(2)線形モデルのような単純なモデルを用いることで様々な特徴を容易に導入可能な点にある。高次元のパラメータベクトルに基づくスコアリングモデルが使用可能になれば、様々な特徴を利用することができるようになり、より精密にクエリとリファレンスラベルとの関連を学習できるようになる。したがって、高次元のパラメータベクトルに基づくスコアリングモデルを使用することができれば、仮に既存手法を精度で下回っても、少なくとも既存手法とは異なる特徴が取り込めるため、クエリとドキュメントの関連深さを表すスコアの算出において、既存手法により求めたスコアと高次元のパラメータベクトルに基づくスコアリングモデルにより求めたスコアとの重ね合わせによりスコアを算出することにより、精度向上が期待できる。
本発明は、統計的モデル学習に基づきスコアリングモデルを学習するスコアリングモデル生成装置、その際に用いる学習データを生成する学習データ生成装置を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、スコアリングモデル生成装置は、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する。スコアリングモデル生成装置は、Mをドキュメントの個数、Nを1つのドキュメントから生成されるクエリの個数、m=1,2,…,M、n=1,2,…,Nとし、M×N個の学習データs mn を受け取り、学習データs mn に含まれるクエリqと各ドキュメントdとから素性ベクトルf q,d を抽出し、パラメータベクトルΦと素性ベクトルf q,d との内積が、ドキュメントdがクエリqの関連ドキュメントである場合には正の値を、ドキュメントdがクエリqの関連ドキュメントでない場合には負の値をとるように、パラメータベクトルΦを学習する。
上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は複数のドキュメントを与えられ、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する際に用いる学習データを生成する。学習データ生成装置は単語列生成手段と学習データ生成手段とを含む。単語列生成手段は与えられる各ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を1つ以上生成する。学習データ生成手段は生成した各単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を学習データとする。
本発明によれば、統計的モデル学習に基づきスコアリングモデルを学習する際に用いる学習データを、人手によらずに自動で生成できるという効果を奏する。大量の学習データを用いて高次元のパラメータベクトルを適切に推定することができ、ヒューリスティックな手法では扱いづらかった情報が利用可能となるため、そのパラメータベクトルを用いた検索装置は、より精度の高い検索が可能となる。
第一実施形態に係る検索システム1の構成図。 第一実施形態に係る検索システム1の処理フローを示す図。 第一実施形態に係る学習データ生成装置11の機能ブロック図。 第一実施形態に係る学習データ生成装置11の処理フローを示す図。 第一実施形態の検索装置13のシミュレーション1の結果を示す図。 第一実施形態の検索装置13のシミュレーション2の結果を示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態>
図1は検索システム1の構成例を、図2はその処理フローを示す。検索システム1は学習データ生成装置11とスコアリングモデル生成装置12と検索装置13とを含む。
学習データ生成装置11はM個のドキュメントd,d,…,dを入力とし、M×N個の学習データsmnを生成し(s11)、スコアリングモデル生成装置12に出力する。ただし、m=1,2,…,Mであり、n=1,2,…,Nであり、Nは一つのドキュメントから生成される単語列(クエリ)の個数である。詳細は後述する。
スコアリングモデル生成装置12はM×N個の学習データsmnを用いて、スコアリングモデルにおいて利用するパラメータベクトルΦを学習、生成し(s12)、検索装置13に出力する。
検索装置13はパラメータベクトルΦをスコアリングモデルに設定する。検索装置13は利用者の操作する端末2から検索用クエリqを受信すると、検索用クエリqに対応するドキュメントを検索する(s13)。ドキュメントの検索は例えば以下のように行う。スコアリングモデルを用いて、検索用クエリqに対する各ドキュメントのスコアを計算し、スコアの高い順にドキュメントの一部やタイトル、URL等を並べたドキュメント情報Dを生成し、端末2に送信する。利用者はドキュメント情報Dに含まれるURL等にアクセスすることで検索用クエリqに関連深いドキュメントを閲覧することができる。
<学習データ生成装置11>
図3は学習データ生成装置11の機能ブロック図を、図4はその処理フローを示す。学習データ生成装置11は、記憶部111と個別言語モデル生成手段112と総合言語モデル生成手段113と単語列生成手段114と学習データ生成手段115とを含む。
(記憶部111)
記憶部111は与えられたM個のドキュメントd,d,…,dを格納する。また処理途中のデータや各種パラメータ等を記憶する。各手段は、記憶部111に対し、各処理過程で所定のデータやパラメータの読み書きを行う。ただし、各手段は、必ずしも記憶部111に対し各データの読み書きを行わなければならないわけではなく、各部間で直接データを受け渡すように制御してもよい。記憶部111は補助記憶装置、RAM(Random Access Memory)、レジスタ、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。
(総合言語モデル生成手段113)
総合言語モデル生成手段113は、M個のドキュメントd,d,…,dを記憶部111から取り出し、全てのドキュメントに対する確率的言語モデルBを生成し(s1101)、記憶部111に格納する。確率的言語モデルとしては例えば、n−gram言語モデル、back−off n−gram言語モデル、隠れマルコフモデル、最大エントロピーモデル等が考えられる。
(個別言語モデル生成手段112)
個別言語モデル生成手段112は、ドキュメントdを記憶部111から取り出し、そのドキュメントdに対する確率的言語モデルLを生成し(s1103)、記憶部111に格納する。個別言語モデル生成手段112はM個のドキュメントd,d,…,dに対してそれぞれ確率的言語モデルL,L,…,Lを生成する(s1102、s1109、s1110)。
(単語列生成手段114)
単語列生成手段114は、二つの確率的言語モデルB及びLを記憶部111から取り出し、二つの確率的言語モデルB及びLに基づき単語列qmnを生成し(s1105)、記憶部111に格納する。本実施形態では単語列からなる文qmnを生成する。
例えば次式により二つの確率的言語モデルB及びLを線形結合したものにより与えられる単語Wの確率P(W)を求め、その確率分布に従ってランダムに文qmnを生成する。
P(W)=λPLm(W)+(1-λ)PB(W) (2)
ただし、PLm(W)は確率的言語モデルLにより与えられる単語Wの確率であり、P(W)は確率的言語モデルBにより与えられる単語Wの確率であり、λは0<λ≦1の実数値からなる重み係数である。なお言語モデルの学習において各ドキュメント中に文末シンボルの存在を仮定する。ランダムに単語列を生成する際に文末シンボルの出力をもって一つの単語列(クエリ)とみなす。なお一つのドキュメントdに対してN個の文qmnを生成する(s1104、s1107、s1108)。
(学習データ生成手段115)
学習データ生成手段115は、記憶部111からドキュメントdを指し示すラベルmと、単語列生成手段114においてそのドキュメントdから生成された単語列qmnとを取り出し、ラベルmをリファレンスとし、単語列qmnをクエリとし、そのセットを学習データsmn=(m,qmn)とし(s1106)、記憶部111に格納する。全ての文qmnに対してこの処理を行う(s1104、s1107、s1108)。
学習データ生成装置11はこのようにしてM×N個の学習データsmnを生成し、スコアリングモデル生成装置12に送信する。
<効果>
このような構成により統計的モデル学習に基づきスコアリングモデルを学習する際に用いる学習データを、人手によらずに自動で生成できる。
以下、学習データ生成装置11によって生成された学習データを用いたスコアリングモデルの生成方法、及び生成されたスコアリングモデルを用いたドキュメント検索方法の概略を説明する。
<検索装置13>
検索装置13は、学習データ生成装置11で得られたM×N個の学習データsmnを用いて学習したスコアリングモデルを利用してドキュメント検索を行う。本実施形態では、自動生成された学習データと真の学習データとは大きく異なることを考慮して、検索精度を担保するため、学習データsmnを用いて学習したスコアリングモデルを従来の検索手法に対するリスコアリングとして導入する。スコアリングモデルの学習方法については後述する。
ベースライン検索システムが与えるドキュメントdとクエリqの関連度をD(f,f)と表記すると、本実施形態では線形モデルのパラメータベクトルΦと素性ベクトルfq,dとを用いて関連度D(f,f)を次式で補正(リスコアリング)する。
D(fq,fd)+αΦ・fq,d (3)
ただし、αは両者のスケールを調整するための定数である。
例えばベースライン検索システムの関連度D(f,f)として素性ベクトル間の距離に基づく手法(参考文献1参照)を用いることができる。
(参考文献1)宇野有,伊藤仁,伊藤彰則,牧野正三,“音声ドキュメント検索のためのWWWを用いたインデクス改善”,第4回音声ドキュメント処理ワークショップ講演論文集,2010年
クエリqから抽出される素性ベクトルをf、ドキュメントdから抽出される素性ベクトルをfと記す。この素性ベクトルの抽出は事前に定義されたルールに基づき実行される。例えば素性ベクトルには単語等のtf−idf(term frequency and inverse document frequency)からなるベクトルを用いることができる。クエリqとドキュメントdの関連深さを表すスコアを両ベクトルの距離D(f,f)により算出する。例えば距離D(f,f)にはコサイン距離を用いることができる。すなわちtf−idf(x)を単語列xのunigramのtf−idfベクトル、cosine(y,z)をyとz間のコサイン距離として、関連度D(f,f)を次式により算出する。
D(fq,fd)=cosine(tf-idf(d),tf-idf(q))
パラメータベクトルΦ及び素性ベクトルfq,dは、unigram頻度に関するベクトルを用いる場合、単語の種類の総数と同数の次元を持つ。このとき、素性ベクトルfq,dは、ドキュメントdにおける各単語の出現頻度を要素の値とする。ただし、クエリqに出現しない単語に対応する要素の値を0とする。
従来技術では多くの学習データを用意することが困難であるため、高次元のパラメータベクトルΦを適切に推定することができない。そのためパラメータベクトルΦは低次元となり素性ベクトルも低次元とならざるを得なかった。本実施形態では大量の学習データを用意に用意することができるため、高次元のパラメータベクトルΦを適切に推定でき、単語の種類の総数と同数の次元数を持つような高次元の素性ベクトルを用いることができる。これはクエリqとドキュメントdから多くの特徴を使用できることを意味し、ドキュメント検索を行う上で重要な特徴を逃さずに利用できることを意味する。
検索装置13は、各ドキュメントに対するスコアを式(3)により算出し、その値の大きな順にドキュメントの上位候補として順位を決定する。
<スコアリングモデル生成装置12>
スコアリングモデル生成装置12は、M×N個の学習データsmnを受信し、スコアリングモデルにおいて用いるパラメータベクトルΦを学習し、生成し、検索装置13に送信する。例えばパラメータベクトルΦの学習には既存の最大エントロピーモデルに基づく手法を用いることができる(非特許文献1)。これは、ドキュメントdがクエリqの関連ドキュメントであるかどうか(1or−1)をr(d,q)で表すとき、Φ・fq,dの符号とr(d,q)の符号を一致させるように学習を行うことを意味している。なおドキュメントdがクエリqの関連ドキュメントであるかどうかを表す情報r(d,q)がM×N個の学習データsmn=(m,qmn)から生成される。
具体的にはまず2つのパラメータベクトルΦ+1及びΦ−1に関し次式を最小化する値を求める。
Figure 0005700566
そして、ΦをΦ+1−Φ−1により求める。なお、||x||2 2はL2−ノルム、cは定数であり本実施形態ではc=1である。最小化問題の解法にはL−BFGSアルゴリズムを用いることができる。
<シミュレーション1>
第一実施形態の検索装置13について日本語話し言葉コーパスCSJのSpoken document retrieval test collection (参考文献2参照)を用いて評価実験を実施した。
(参考文献2)Tomoyosi Akiba, Kiyoaki Aikawa, Yoshiaki Itoh, Tatsuya Kawahara, Hiroaki Nanjo, Hiromitsu Nishizaki, Norihito Yasuda, Yoichi Yamashita, Katunobu Itou, "Construction of a Test Collection for Spoken Document Retrieval from Lecture Audio Data", IPSJ Journal, 2009. Vol.50, No.2, pp.501-513,
本テストコレクションには、2702個の音声ドキュメント及びその音声認識結果と、39個のクエリ及びそのリファレンスラベルが収録されている。39個のクエリを9個と30個に分け、それぞれ開発セット、評価セットとした。なお開発セットは式(3)のαを決めるためのみに使用した。
学習データ生成装置11において、言語モデルとしてback−off tri−gram言語モデルを用い、全ドキュメントから作成した言語モデルBと各ドキュメントから生成した言語モデルLとを線形結合したものを利用した。式(2)のλは0.9,0.8,0.7,0.6,0.5の何れかとし、単語列生成手段114は各ドキュメントの各λに対してそれぞれ50個のクエリを生成した。つまり、一つのドキュメントからN=50個×5個(λ値の総数)=250個のクエリを生成した。よって学習用に生成したクエリの総数は250個×2702個(ドキュメントの総数)=675500個である。この方法によれば、ドキュメントdに出現していない単語のみから構成されるクエリが生成される可能性がゼロではない。しかし、そのようなクエリは全体のごく一部に過ぎず、パラメータの推定にほとんど影響しないことが予想される。そのため、当該クエリの存在を確認すること無く全てのクエリを学習に利用した。なおドキュメントdに出現していない単語のみから構成されるクエリを学習データから除外する構成としてもよい。
スコアリングモデル生成装置12は、675500個の学習データを用いて、パラメータベクトルΦを推定した。なお学習には既存の最大エントロピーモデルに基づく手法を用いた(非特許文献1参照)。
検索装置13は、パラメータベクトルΦを用いて式(3)により開発セットのクエリに対するドキュントのスコアを計算し、その値の大きな順にドキュメントの上位候補として順位を決定した。なお単語の種類の総数は約2万7千であり、Φ及びfq,dの次元はこれに一致する。
評価尺度はMAP(mean average precision)、R−precision、5位におけるnDCG(normalized discounted cumulative gain)である。いずれも大きな値ほど性能が良いことを示す。評価セットにおける値は図5に示す通りである。何れの評価尺度においてもベースライン検索システムの評価よりも検索装置13の評価のほうが高いことがわかる。
<シミュレーション2>
シミュレーション1では、素性に単語頻度を用いたが、n−gram頻度を使用することでさらに高次元のモデルにすることもできる。また、品詞、文字や音素等のサブワードに関する素性を用いることも可能であり、これにより、未知の単語が出現した場合にも頑健な検索結果を期待できる。さらに、音声認識の信頼度を素性に使うことで、音声認識の誤認識に頑健な検索が期待できる。なお学習データ生成装置11によって大量の学習データを生成することができるため、素性を追加して素性ベクトルの次元数を増やしても適切にパラメータベクトルを学習し、生成することができる。
シミュレーション2では、素性として音素を加えている。またシミュレーション2において39個のクエリの中には音声認識の未知語を含むものが4個あり(開発セットに1、評価セットに3)、これも別途評価に用いた。またシミュレーション2ではスコアリングモデル生成装置12において式(4)によりパラメータベクトルΦを学習し生成している。
シミュレーション2では評価尺度としてMAPと上位10位に関するnDCGを用いる。図6に結果を示す。図中”eval”には30クエリの評価セットに対する精度、”oov”には未知語を含む4クエリに対する精度を示している。まずevalに関して、ベースライン単体(Baseline)の検索精度と比べて、第一実施形態のスコアリングモデル生成装置を利用して生成したモデルによるリスコアリング(+単語)を行うことで大きく性能が改善している。この結果はシミュレーション1と同様である。未知語や認識誤りの有無とは別に、本質的に検索能力が向上したものと考えられる。音素素性はevalに関して、精度を低下させる結果となった。しかし、oovに着目するとベースラインに対して大きく検索精度を改善している。このことから、第一実施形態では単に音素素性を加えるだけで未知語に対する頑健性を向上させることがわかる。
<第一変形例>
第一実施形態の学習データ生成装置11は、総合言語モデル生成手段113を備えない構成としてもよい。その場合、図4のs1101を行わない。単語列生成手段114ではドキュメントdに対する確率的言語モデルLにより与えられる単語Wの確率PLm(W)を求め、その確率分布に従ってランダムに文qmnを生成する。ただし、確率PLm(W)の確率分布に従ってランダムに文qmnを生成すると、qmnは一般にドキュメントdに出現する語彙のみで構成される。クエリに出現する単語の全てが、リファレンスとなるドキュメントに全て出現することは稀であるため、第一実施形態のように全てのドキュメントに対する確率的言語モデルを用いたほうがその精度高くなると考えられる。
<第二変形例>
第一変形例の学習データ生成装置11は、さらに個別言語モデル生成手段112を備えない構成としてもよい。その場合、図4のs1103を行わない。単語列生成手段114ではドキュメントdからランダムに単語、句、文を抽出し、それを接続してできる文(文章)をクエリとする。ただし、ランダムに単語のみを抽出する場合は、個別言語モデル生成手段112で単語unigram言語モデルを生成した場合と等価となる。
抽出する単語、句、文の単位、数に関してランダムに決定することも可能である。クエリに出現する単語の全てが、リファレンスとなるドキュメントに全て出現することは現実には稀である。そこで対策として、一部の単語や句を、他のドキュメントから抽出した単語や句に置換又は挿入することもできる。置換や挿入を行う数、位置についてもランダムに決定することができる。ただし、ランダムとは、一様分布も含め、種々の確率モデルに従った分布に従うことを意味している。例えば、単語列を構成する単語の数であれば、ポアソン分布に従って決定することが考えられる。
第一実施形態と第一変形例と第二変形例との関係性をみれば、明らかにその何れかを組合せて単語列(クエリ)を作成することも可能である。例えば第一実施形態や第一変形例により抽出した単語に対し、第二変形例の方法により一部を置換したり、挿入してもよい。
<その他の変形例>
総合言語モデル生成手段113は、必ずしも全てのドキュメントに対する確率的言語モデルを生成しなくともよく、ドキュメントdに対する確率的言語モデルLとは別の(バックグラウンド)言語モデル、言い換えると言語モデルLに含まれていない語彙を含む言語モデルであればよい。
検索装置13は必ずしも本実施形態のスコアリングモデルを従来の検索手法に対するリスコアリングとして導入する必要はない。つまり検索装置13は、ベースライン検索システムの関連度をD(f,f)を用いずに、パラメータベクトルΦと素性ベクトルfd,pのみを用いて式(1)によりスコアを求めてもよい。
第一実施形態では一つのドキュメントdから生成されるクエリはN個としているが、ドキュメント毎に生成されるクエリの個数を変更してもよい。例えばドキュメントdの長さに応じてNを変更してもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した学習データ生成装置、スコアリングモデル生成装置及び検索装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、又はその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

Claims (15)

  1. ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習するスコアリングモデル生成装置であって、
    Mをドキュメントの個数、Nを1つのドキュメントから生成されるクエリの個数とし、M×N個の学習データs mn を受け取り、
    前記学習データs mn に含まれるクエリqと各ドキュメントdとから素性ベクトルf q,d を抽出し、
    パラメータベクトルΦと素性ベクトルf q,d との内積が、ドキュメントdがクエリqの関連ドキュメントである場合には正の値を、ドキュメントdがクエリqの関連ドキュメントでない場合には負の値をとるように、前記パラメータベクトルΦを学習する、
    スコアリングモデル生成装置。
  2. 請求項1記載のスコアリングモデル生成装置であって、
    ||x|| 2 2 をL2−ノルムとし、cを定数とし、ドキュメントdがクエリqの関連ドキュメントであるかどうかを表す情報をr(d,q)とし、次式を最小化するパラメータベクトルΦ +1 及びΦ −1 を求め、
    Figure 0005700566

    前記パラメータベクトルΦを次式により求める、
    Φ=Φ +1 −Φ −1
    スコアリングモデル生成装置。
  3. 複数のドキュメントを与えられ、請求項1または請求項2記載のスコアリングモデル生成装置で用いるM×N個の前記学習データs mn を生成する学習データ生成装置であって、
    与えられる各前記ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を1つ以上生成する単語列生成手段と、
    生成した各前記単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を前記学習データとする学習データ生成手段と、を含む
    学習データ生成装置。
  4. 請求項記載の学習データ生成装置であって、
    与えられる各前記ドキュメントを用いて、各前記ドキュメントに対する確率的言語モデルを生成する個別言語モデル生成手段をさらに含み、
    前記単語列生成手段は、前記確率的言語モデルに基づき前記単語列を生成する、
    学習データ生成装置。
  5. 請求項記載の学習データ生成装置であって、
    与えられる全ての前記ドキュメントを用いて、全ての前記ドキュメントに対する確率的言語モデルを生成する総合言語モデル生成手段をさらに含み、
    前記単語列生成手段は、二つの前記確率的言語モデルに基づき前記単語列を生成する、
    学習データ生成装置。
  6. 請求項1または2記載のスコアリングモデル生成装置と、請求項からの何れかに記載の学習データ生成装置とを含む検索システムであって、
    さらに、前記学習データ生成装置で生成された前記学習データを用いて前記スコアリングモデル生成装置で学習したスコアリングモデルを利用してドキュメント検索を行う検索装置を含む、
    検索システム。
  7. スコアリングモデル生成装置を用いて、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習するスコアリングモデル生成方法であって、
    Mをドキュメントの個数、Nを1つのドキュメントから生成されるクエリの個数とし、M×N個の学習データs mn を受け取り、
    前記学習データs mn に含まれるクエリqと各ドキュメントdとから素性ベクトルf q,d を抽出し、
    パラメータベクトルΦと素性ベクトルf q,d との内積が、ドキュメントdがクエリqの関連ドキュメントである場合には正の値を、ドキュメントdがクエリqの関連ドキュメントでない場合には負の値をとるように、前記パラメータベクトルΦを学習する、
    スコアリングモデル生成方法。
  8. 請求項7記載のスコアリングモデル生成方法であって、
    ||x|| 2 2 をL2−ノルムとし、cを定数とし、ドキュメントdがクエリqの関連ドキュメントであるかどうかを表す情報をr(d,q)とし、次式を最小化するパラメータベクトルΦ +1 及びΦ −1 を求め、
    Figure 0005700566

    前記パラメータベクトルΦを次式により求める、
    Φ=Φ +1 −Φ −1
    スコアリングモデル生成方法。
  9. 複数のドキュメントを与えられ、学習データ生成装置を用いて、請求項7または請求項8記載のスコアリングモデル生成方法で用いるM×N個の前記学習データs mn を生成する学習データ生成方法であって、
    与えられる各前記ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を1つ以上生成する単語列生成ステップと、
    生成した各前記単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を前記学習データとする学習データ生成ステップと、を含む
    学習データ生成方法。
  10. 請求項記載の学習データ生成方法であって、
    与えられる各前記ドキュメントを用いて、各前記ドキュメントに対する確率的言語モデルを生成する個別言語モデル生成ステップをさらに含み、
    前記単語列生成ステップにおいて、前記確率的言語モデルに基づき前記単語列を生成する、
    学習データ生成方法。
  11. 請求項10記載の学習データ生成方法であって、
    与えられる全ての前記ドキュメントを用いて、全ての前記ドキュメントに対する確率的言語モデルを生成する総合言語モデル生成ステップをさらに含み、
    前記単語列生成ステップにおいて、二つの前記確率的言語モデルに基づき前記単語列を生成する、
    学習データ生成方法。
  12. 請求項7または8記載のスコアリングモデル生成方法と、請求項から11の何れかに記載の学習データ生成方法とを含み、
    さらに、前記学習データ生成方法で生成された前記学習データを用いて前記学習データ生成方法で学習したスコアリングモデルを利用してドキュメント検索を行う
    検索方法。
  13. 請求項1または2記載のスコアリングモデル生成装置としてコンピュータを機能させるためのプログラム。
  14. 請求項3から5の何れかに記載の学習データ生成装置としてコンピュータを機能させるためのプログラム。
  15. 請求項6記載の検索システムに含まれる検索装置としてコンピュータを機能させるためのプログラム。
JP2012023886A 2012-02-07 2012-02-07 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム Active JP5700566B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012023886A JP5700566B2 (ja) 2012-02-07 2012-02-07 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012023886A JP5700566B2 (ja) 2012-02-07 2012-02-07 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2013161330A JP2013161330A (ja) 2013-08-19
JP5700566B2 true JP5700566B2 (ja) 2015-04-15

Family

ID=49173507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012023886A Active JP5700566B2 (ja) 2012-02-07 2012-02-07 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5700566B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7256357B2 (ja) * 2018-10-31 2023-04-12 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
JP4005477B2 (ja) * 2002-05-15 2007-11-07 日本電信電話株式会社 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP3868344B2 (ja) * 2002-07-12 2007-01-17 日本電信電話株式会社 テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体
US7496500B2 (en) * 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US8250061B2 (en) * 2006-01-30 2012-08-21 Yahoo! Inc. Learning retrieval functions incorporating query differentiation for information retrieval
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
JP2009157442A (ja) * 2007-12-25 2009-07-16 Toshiba Corp データ検索装置および方法
CN101561805B (zh) * 2008-04-18 2014-06-25 日电(中国)有限公司 文档分类器生成方法和系统
JP5049223B2 (ja) * 2008-07-29 2012-10-17 ヤフー株式会社 Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム
JP5152918B2 (ja) * 2008-11-27 2013-02-27 日本電信電話株式会社 固有表現抽出装置、その方法およびプログラム
US9110971B2 (en) * 2010-02-03 2015-08-18 Thomson Reuters Global Resources Method and system for ranking intellectual property documents using claim analysis
US20110314011A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Automatically generating training data

Also Published As

Publication number Publication date
JP2013161330A (ja) 2013-08-19

Similar Documents

Publication Publication Date Title
CN113449514B (zh) 一种适用于垂直领域的文本纠错方法及其纠错装置
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP2004355483A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
CN102246169A (zh) 为搜索词分配指标权重
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
Kurimo et al. Modeling under-resourced languages for speech recognition
Raval et al. Improving deep learning based automatic speech recognition for Gujarati
Tian et al. Tod-da: Towards boosting the robustness of task-oriented dialogue modeling on spoken conversations
US12423518B2 (en) Attention neural networks with N-grammer layers
SG193995A1 (en) A method, an apparatus and a computer-readable medium for indexing a document for document retrieval
JP5700566B2 (ja) スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP5670293B2 (ja) 単語追加装置、単語追加方法、およびプログラム
Zhang et al. Character-aware sub-word level language modeling for uyghur and turkish ASR
JP6549064B2 (ja) 音声認識装置、音声認識方法、プログラム
Habeeb et al. Three n-grams based language model for auto-correction of speech recognition errors
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
JP5264649B2 (ja) 情報圧縮型モデルパラメータ推定装置、方法及びプログラム
Juan et al. Language modelling for a low-resource language in Sarawak, Malaysia
US11556783B2 (en) Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program
Laryea et al. Automatic Speech Recognition System for Somali in the interest of reducing Maternal Morbidity and Mortality.
JP2008226104A (ja) 情報処理装置、情報処理方法、及びプログラム
CN111274392B (zh) 一种多频道联合处理方法和装置
Udagedara et al. Language model-based spell-checker for sri lankan names and addresses

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150212

R150 Certificate of patent or registration of utility model

Ref document number: 5700566

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250