JP5700566B2 - スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム - Google Patents
スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム Download PDFInfo
- Publication number
- JP5700566B2 JP5700566B2 JP2012023886A JP2012023886A JP5700566B2 JP 5700566 B2 JP5700566 B2 JP 5700566B2 JP 2012023886 A JP2012023886 A JP 2012023886A JP 2012023886 A JP2012023886 A JP 2012023886A JP 5700566 B2 JP5700566 B2 JP 5700566B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- learning data
- scoring model
- query
- generation device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
SΦ(fq,d)=Φ・fq,d (1)
なお、・は内積演算子である。
上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は複数のドキュメントを与えられ、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習する際に用いる学習データを生成する。学習データ生成装置は単語列生成手段と学習データ生成手段とを含む。単語列生成手段は与えられる各ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を1つ以上生成する。学習データ生成手段は生成した各単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を学習データとする。
図1は検索システム1の構成例を、図2はその処理フローを示す。検索システム1は学習データ生成装置11とスコアリングモデル生成装置12と検索装置13とを含む。
図3は学習データ生成装置11の機能ブロック図を、図4はその処理フローを示す。学習データ生成装置11は、記憶部111と個別言語モデル生成手段112と総合言語モデル生成手段113と単語列生成手段114と学習データ生成手段115とを含む。
記憶部111は与えられたM個のドキュメントd1,d2,…,dMを格納する。また処理途中のデータや各種パラメータ等を記憶する。各手段は、記憶部111に対し、各処理過程で所定のデータやパラメータの読み書きを行う。ただし、各手段は、必ずしも記憶部111に対し各データの読み書きを行わなければならないわけではなく、各部間で直接データを受け渡すように制御してもよい。記憶部111は補助記憶装置、RAM(Random Access Memory)、レジスタ、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。
総合言語モデル生成手段113は、M個のドキュメントd1,d2,…,dMを記憶部111から取り出し、全てのドキュメントに対する確率的言語モデルBを生成し(s1101)、記憶部111に格納する。確率的言語モデルとしては例えば、n−gram言語モデル、back−off n−gram言語モデル、隠れマルコフモデル、最大エントロピーモデル等が考えられる。
個別言語モデル生成手段112は、ドキュメントdmを記憶部111から取り出し、そのドキュメントdmに対する確率的言語モデルLmを生成し(s1103)、記憶部111に格納する。個別言語モデル生成手段112はM個のドキュメントd1,d2,…,dMに対してそれぞれ確率的言語モデルL1,L2,…,LMを生成する(s1102、s1109、s1110)。
単語列生成手段114は、二つの確率的言語モデルB及びLmを記憶部111から取り出し、二つの確率的言語モデルB及びLmに基づき単語列qmnを生成し(s1105)、記憶部111に格納する。本実施形態では単語列からなる文qmnを生成する。
P(W)=λPLm(W)+(1-λ)PB(W) (2)
ただし、PLm(W)は確率的言語モデルLmにより与えられる単語Wの確率であり、PB(W)は確率的言語モデルBにより与えられる単語Wの確率であり、λは0<λ≦1の実数値からなる重み係数である。なお言語モデルの学習において各ドキュメント中に文末シンボルの存在を仮定する。ランダムに単語列を生成する際に文末シンボルの出力をもって一つの単語列(クエリ)とみなす。なお一つのドキュメントdmに対してN個の文qmnを生成する(s1104、s1107、s1108)。
学習データ生成手段115は、記憶部111からドキュメントdmを指し示すラベルmと、単語列生成手段114においてそのドキュメントdmから生成された単語列qmnとを取り出し、ラベルmをリファレンスとし、単語列qmnをクエリとし、そのセットを学習データsmn=(m,qmn)とし(s1106)、記憶部111に格納する。全ての文qmnに対してこの処理を行う(s1104、s1107、s1108)。
このような構成により統計的モデル学習に基づきスコアリングモデルを学習する際に用いる学習データを、人手によらずに自動で生成できる。
検索装置13は、学習データ生成装置11で得られたM×N個の学習データsmnを用いて学習したスコアリングモデルを利用してドキュメント検索を行う。本実施形態では、自動生成された学習データと真の学習データとは大きく異なることを考慮して、検索精度を担保するため、学習データsmnを用いて学習したスコアリングモデルを従来の検索手法に対するリスコアリングとして導入する。スコアリングモデルの学習方法については後述する。
D(fq,fd)+αΦ・fq,d (3)
ただし、αは両者のスケールを調整するための定数である。
(参考文献1)宇野有,伊藤仁,伊藤彰則,牧野正三,“音声ドキュメント検索のためのWWWを用いたインデクス改善”,第4回音声ドキュメント処理ワークショップ講演論文集,2010年
D(fq,fd)=cosine(tf-idf(d),tf-idf(q))
スコアリングモデル生成装置12は、M×N個の学習データsmnを受信し、スコアリングモデルにおいて用いるパラメータベクトルΦを学習し、生成し、検索装置13に送信する。例えばパラメータベクトルΦの学習には既存の最大エントロピーモデルに基づく手法を用いることができる(非特許文献1)。これは、ドキュメントdがクエリqの関連ドキュメントであるかどうか(1or−1)をr(d,q)で表すとき、Φ・fq,dの符号とr(d,q)の符号を一致させるように学習を行うことを意味している。なおドキュメントdがクエリqの関連ドキュメントであるかどうかを表す情報r(d,q)がM×N個の学習データsmn=(m,qmn)から生成される。
第一実施形態の検索装置13について日本語話し言葉コーパスCSJのSpoken document retrieval test collection (参考文献2参照)を用いて評価実験を実施した。
(参考文献2)Tomoyosi Akiba, Kiyoaki Aikawa, Yoshiaki Itoh, Tatsuya Kawahara, Hiroaki Nanjo, Hiromitsu Nishizaki, Norihito Yasuda, Yoichi Yamashita, Katunobu Itou, "Construction of a Test Collection for Spoken Document Retrieval from Lecture Audio Data", IPSJ Journal, 2009. Vol.50, No.2, pp.501-513,
シミュレーション1では、素性に単語頻度を用いたが、n−gram頻度を使用することでさらに高次元のモデルにすることもできる。また、品詞、文字や音素等のサブワードに関する素性を用いることも可能であり、これにより、未知の単語が出現した場合にも頑健な検索結果を期待できる。さらに、音声認識の信頼度を素性に使うことで、音声認識の誤認識に頑健な検索が期待できる。なお学習データ生成装置11によって大量の学習データを生成することができるため、素性を追加して素性ベクトルの次元数を増やしても適切にパラメータベクトルを学習し、生成することができる。
第一実施形態の学習データ生成装置11は、総合言語モデル生成手段113を備えない構成としてもよい。その場合、図4のs1101を行わない。単語列生成手段114ではドキュメントdmに対する確率的言語モデルLmにより与えられる単語Wの確率PLm(W)を求め、その確率分布に従ってランダムに文qmnを生成する。ただし、確率PLm(W)の確率分布に従ってランダムに文qmnを生成すると、qmnは一般にドキュメントdmに出現する語彙のみで構成される。クエリに出現する単語の全てが、リファレンスとなるドキュメントに全て出現することは稀であるため、第一実施形態のように全てのドキュメントに対する確率的言語モデルを用いたほうがその精度高くなると考えられる。
第一変形例の学習データ生成装置11は、さらに個別言語モデル生成手段112を備えない構成としてもよい。その場合、図4のs1103を行わない。単語列生成手段114ではドキュメントdmからランダムに単語、句、文を抽出し、それを接続してできる文(文章)をクエリとする。ただし、ランダムに単語のみを抽出する場合は、個別言語モデル生成手段112で単語unigram言語モデルを生成した場合と等価となる。
総合言語モデル生成手段113は、必ずしも全てのドキュメントに対する確率的言語モデルを生成しなくともよく、ドキュメントdmに対する確率的言語モデルLmとは別の(バックグラウンド)言語モデル、言い換えると言語モデルLmに含まれていない語彙を含む言語モデルであればよい。
上述した学習データ生成装置、スコアリングモデル生成装置及び検索装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、又はその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
Claims (15)
- ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習するスコアリングモデル生成装置であって、
Mをドキュメントの個数、Nを1つのドキュメントから生成されるクエリの個数とし、M×N個の学習データs mn を受け取り、
前記学習データs mn に含まれるクエリqと各ドキュメントdとから素性ベクトルf q,d を抽出し、
パラメータベクトルΦと素性ベクトルf q,d との内積が、ドキュメントdがクエリqの関連ドキュメントである場合には正の値を、ドキュメントdがクエリqの関連ドキュメントでない場合には負の値をとるように、前記パラメータベクトルΦを学習する、
スコアリングモデル生成装置。 - 複数のドキュメントを与えられ、請求項1または請求項2記載のスコアリングモデル生成装置で用いるM×N個の前記学習データs mn を生成する学習データ生成装置であって、
与えられる各前記ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を1つ以上生成する単語列生成手段と、
生成した各前記単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を前記学習データとする学習データ生成手段と、を含む
学習データ生成装置。 - 請求項3記載の学習データ生成装置であって、
与えられる各前記ドキュメントを用いて、各前記ドキュメントに対する確率的言語モデルを生成する個別言語モデル生成手段をさらに含み、
前記単語列生成手段は、前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成装置。 - 請求項4記載の学習データ生成装置であって、
与えられる全ての前記ドキュメントを用いて、全ての前記ドキュメントに対する確率的言語モデルを生成する総合言語モデル生成手段をさらに含み、
前記単語列生成手段は、二つの前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成装置。 - 請求項1または2記載のスコアリングモデル生成装置と、請求項3から5の何れかに記載の学習データ生成装置とを含む検索システムであって、
さらに、前記学習データ生成装置で生成された前記学習データを用いて前記スコアリングモデル生成装置で学習したスコアリングモデルを利用してドキュメント検索を行う検索装置を含む、
検索システム。 - スコアリングモデル生成装置を用いて、ドキュメント検索におけるスコアリングモデルを統計的モデル学習に基づき学習するスコアリングモデル生成方法であって、
Mをドキュメントの個数、Nを1つのドキュメントから生成されるクエリの個数とし、M×N個の学習データs mn を受け取り、
前記学習データs mn に含まれるクエリqと各ドキュメントdとから素性ベクトルf q,d を抽出し、
パラメータベクトルΦと素性ベクトルf q,d との内積が、ドキュメントdがクエリqの関連ドキュメントである場合には正の値を、ドキュメントdがクエリqの関連ドキュメントでない場合には負の値をとるように、前記パラメータベクトルΦを学習する、
スコアリングモデル生成方法。 - 複数のドキュメントを与えられ、学習データ生成装置を用いて、請求項7または請求項8記載のスコアリングモデル生成方法で用いるM×N個の前記学習データs mn を生成する学習データ生成方法であって、
与えられる各前記ドキュメントに対して、そのドキュメントに含まれる単語を含む単語列を1つ以上生成する単語列生成ステップと、
生成した各前記単語列及びその単語列を生成する際に用いられたドキュメントを指し示すラベルを、それぞれクエリ及びリファレンスとし、クエリ及びリファレンスの組を前記学習データとする学習データ生成ステップと、を含む
学習データ生成方法。 - 請求項9記載の学習データ生成方法であって、
与えられる各前記ドキュメントを用いて、各前記ドキュメントに対する確率的言語モデルを生成する個別言語モデル生成ステップをさらに含み、
前記単語列生成ステップにおいて、前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成方法。 - 請求項10記載の学習データ生成方法であって、
与えられる全ての前記ドキュメントを用いて、全ての前記ドキュメントに対する確率的言語モデルを生成する総合言語モデル生成ステップをさらに含み、
前記単語列生成ステップにおいて、二つの前記確率的言語モデルに基づき前記単語列を生成する、
学習データ生成方法。 - 請求項7または8記載のスコアリングモデル生成方法と、請求項9から11の何れかに記載の学習データ生成方法とを含み、
さらに、前記学習データ生成方法で生成された前記学習データを用いて前記学習データ生成方法で学習したスコアリングモデルを利用してドキュメント検索を行う、
検索方法。 - 請求項1または2記載のスコアリングモデル生成装置としてコンピュータを機能させるためのプログラム。
- 請求項3から5の何れかに記載の学習データ生成装置としてコンピュータを機能させるためのプログラム。
- 請求項6記載の検索システムに含まれる検索装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012023886A JP5700566B2 (ja) | 2012-02-07 | 2012-02-07 | スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012023886A JP5700566B2 (ja) | 2012-02-07 | 2012-02-07 | スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2013161330A JP2013161330A (ja) | 2013-08-19 |
| JP5700566B2 true JP5700566B2 (ja) | 2015-04-15 |
Family
ID=49173507
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012023886A Active JP5700566B2 (ja) | 2012-02-07 | 2012-02-07 | スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5700566B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7256357B2 (ja) * | 2018-10-31 | 2023-04-12 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
| JP4005477B2 (ja) * | 2002-05-15 | 2007-11-07 | 日本電信電話株式会社 | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
| JP3868344B2 (ja) * | 2002-07-12 | 2007-01-17 | 日本電信電話株式会社 | テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体 |
| US7496500B2 (en) * | 2004-03-01 | 2009-02-24 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
| US8250061B2 (en) * | 2006-01-30 | 2012-08-21 | Yahoo! Inc. | Learning retrieval functions incorporating query differentiation for information retrieval |
| US8001121B2 (en) * | 2006-02-27 | 2011-08-16 | Microsoft Corporation | Training a ranking function using propagated document relevance |
| JP2009157442A (ja) * | 2007-12-25 | 2009-07-16 | Toshiba Corp | データ検索装置および方法 |
| CN101561805B (zh) * | 2008-04-18 | 2014-06-25 | 日电(中国)有限公司 | 文档分类器生成方法和系统 |
| JP5049223B2 (ja) * | 2008-07-29 | 2012-10-17 | ヤフー株式会社 | Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム |
| JP5152918B2 (ja) * | 2008-11-27 | 2013-02-27 | 日本電信電話株式会社 | 固有表現抽出装置、その方法およびプログラム |
| US9110971B2 (en) * | 2010-02-03 | 2015-08-18 | Thomson Reuters Global Resources | Method and system for ranking intellectual property documents using claim analysis |
| US20110314011A1 (en) * | 2010-06-18 | 2011-12-22 | Microsoft Corporation | Automatically generating training data |
-
2012
- 2012-02-07 JP JP2012023886A patent/JP5700566B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2013161330A (ja) | 2013-08-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113449514B (zh) | 一种适用于垂直领域的文本纠错方法及其纠错装置 | |
| CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
| JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
| JP2004355483A (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
| CN102246169A (zh) | 为搜索词分配指标权重 | |
| KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
| Kurimo et al. | Modeling under-resourced languages for speech recognition | |
| Raval et al. | Improving deep learning based automatic speech recognition for Gujarati | |
| Tian et al. | Tod-da: Towards boosting the robustness of task-oriented dialogue modeling on spoken conversations | |
| US12423518B2 (en) | Attention neural networks with N-grammer layers | |
| SG193995A1 (en) | A method, an apparatus and a computer-readable medium for indexing a document for document retrieval | |
| JP5700566B2 (ja) | スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム | |
| JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
| JP5670293B2 (ja) | 単語追加装置、単語追加方法、およびプログラム | |
| Zhang et al. | Character-aware sub-word level language modeling for uyghur and turkish ASR | |
| JP6549064B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
| Habeeb et al. | Three n-grams based language model for auto-correction of speech recognition errors | |
| CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
| JP5264649B2 (ja) | 情報圧縮型モデルパラメータ推定装置、方法及びプログラム | |
| Juan et al. | Language modelling for a low-resource language in Sarawak, Malaysia | |
| US11556783B2 (en) | Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program | |
| Laryea et al. | Automatic Speech Recognition System for Somali in the interest of reducing Maternal Morbidity and Mortality. | |
| JP2008226104A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| CN111274392B (zh) | 一种多频道联合处理方法和装置 | |
| Udagedara et al. | Language model-based spell-checker for sri lankan names and addresses |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140114 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140114 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140514 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140520 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140711 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150203 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150212 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5700566 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |