Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5113863B2 - 用語抽出方法とその装置と、プログラム - Google Patents
[go: Go Back, main page]

JP5113863B2 - 用語抽出方法とその装置と、プログラム - Google Patents

用語抽出方法とその装置と、プログラム Download PDF

Info

Publication number
JP5113863B2
JP5113863B2 JP2010044964A JP2010044964A JP5113863B2 JP 5113863 B2 JP5113863 B2 JP 5113863B2 JP 2010044964 A JP2010044964 A JP 2010044964A JP 2010044964 A JP2010044964 A JP 2010044964A JP 5113863 B2 JP5113863 B2 JP 5113863B2
Authority
JP
Japan
Prior art keywords
wfst
term
fluctuation
character
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010044964A
Other languages
English (en)
Other versions
JP2011180862A (ja
Inventor
義博 松尾
のぞみ 小林
久子 浅野
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010044964A priority Critical patent/JP5113863B2/ja
Publication of JP2011180862A publication Critical patent/JP2011180862A/ja
Application granted granted Critical
Publication of JP5113863B2 publication Critical patent/JP5113863B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、テキストから用語を抽出する用語抽出方法と、その装置とプログラムに関する。
従来の用語抽出方法の最も簡単な例としては、予め用語リストを準備しておき、与えられたテキストと文字列が一致する用語を抽出する方法がある。この方法は、テキストと用語リストの各語とを逐一照合するので、用語リストの用語数に比例した抽出時間を必要とする。
その抽出時間を減らす目的で、例えば、トライ(trie)と呼ばれる木構造形式で辞書データを管理する方法が知られている(非特許文献1)。この方法は、長さがk文字の用語の場合、k回の処理で登録されている用語を抽出できるので、単語リストの各語を逐一照合する方法に比較して抽出時間を短縮できる。また、テキストの全ての部分文字列と照合することを避ける目的で、不要な照合をしないように改良された方法も知られている(非特許文献2)。
長尾 真、佐藤 理史 編「岩波講座ソフトウェア科学 自然言語処理」岩波書店、p250 北 研二、津田 和彦 著「情報探索アルゴリズム」共立出版、2002年1月、p108
上記した従来の方法は、用語リストと完全に一致する用語しか抽出できないという課題を持つ。例えば、用語リストに「バイオリン」が登録されていた場合でも、表記揺らぎ「ヴァイオリン」を抽出することができない。また、「violin」といった異なる表記を抽出することもできないという課題があった。
用語リスト中の「バイオリン」と「ヴァイオリン」の照合を成功させるためには、例えば、両表記を動的計画法(参考文献:「日本語情報処理」p40、電子通信学会編)で照合することが考えられる。しかし、この方法では、従来の方法と同様に用語リスト中の用語数に比例した照合時間が必要であり現実的ではない。また、「violin」と照合するためには「バイ-vi」「オ-o」「リン-lin」といった音素毎の音訳確率を求めておき、「バイオリン-violin」全体の音訳確率が閾値を越えたら抽出する方法も考えられる。しかし、この方法でも用語リスト中の用語数に比例した照合時間が必要であり現実的ではない。
この発明は、このような課題に鑑みてなされたものであり、照合が高速に行え、且つ、表記ゆらぎを考慮した用語も抽出できる用語抽出方法とその装置と、プログラムを提供することを目的とする。この発明の用語抽出方法は、有限状態オートマトンを拡張した重み付き有限状態変換器(Weighted Finite-State Transducer、以降、WFSTと称する)を利用する。
この発明の用語抽出方法は、用語WFST作成過程と、ゆらぎWFST変換過程と、変換器合成過程と、WFST記憶過程と、WFST復号過程と、を含む。用語WFST作成過程は、外部から入力される用語リストの各用語から、その各用語を文字毎に区切り各文字を入力文字としたWFST表現された用語リストである用語WFSTを作成する。ゆらぎWFST変換過程は、用語のゆらぎ確率若しくは音訳のゆらぎ確率をゆらぎモデルであるゆらぎWFSTに変換する。変換器合成過程は、用語WFSTとゆらぎWFSTを合成し、合成WFSTを出力する。WFST記憶過程は、合成WFSTをWFST記憶部に記憶する。WFST復号過程は、WFST記憶部を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号し、状態番号が受理状態番号であれば当該受理状態を結果リストに登録する。
この発明の用語抽出方法によれば、用語のゆらぎ確率や音訳のゆらぎ確率をWFSTで表現し、その、ゆらぎWFSTと、用語リストの各用語から作成した用語WFSTとを合成することで得られた合成WFSTを用いることで、表記ゆらぎや異表記を含む用語を抽出する。したがって、この合成WFSTには、用語の全候補が圧縮して格納されることになるので、1回の照合で高速に、且つ、表記ゆらぎ等を考慮した用語抽出が可能になる。
この発明の用語抽出方法を実現する構成例100を示す図。 この発明の用語抽出方法の動作フローを示す図。 用語リスト1の例を示す図であり、(a)は用語のみ、(b)は用語に識別IDを付与した例を示す。 用語リスト1の用語WFSTの例を示す図。 用語のゆらぎ確率2の例を示す図。 ゆらぎWFST(用語)の例を示す図。 音訳のゆらぎ確率3の例を示す図。 ゆらぎWFST(音訳)の例を示す図。 合成WFSTの例を示す図。 WFST復号部50の処理の例を示す図。 この発明の用語抽出装置200の機能構成例を示す図。 用語抽出装置200の動作フローを示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の用語抽出方法を実現する機能構成例100を示す。その動作フローを図2に示す。機能構成例100は、用語WFST作成部10、ゆらぎWFST変換部20、変換器合成部30、WFST記憶部40、WFST復号部50、を具備する。これらの各部、若しくは全部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
用語WFST作成部10は、外部から入力される用語リスト1の各用語から、その各用語を文字毎に区切り各文字を入力文字としたWFST表現された用語リストである用語WFSTを作成する(ステップS10)。
ゆらぎWFST変換部20は、用語のゆらぎ確率2若しくは音訳のゆらぎ確率3をゆらぎモデルであるゆらぎWFSTに変換する(ステップS20)。変換器合成部30は、用語WFST作成部10で作成した用語WFSTと、ゆらぎWFST変換部20で変換したゆらぎWFSTを合成し、合成WFSTを出力する(ステップS30)。WFST記憶部40は、合成WFSTを記憶する(ステップS40)。WFST復号部50は、WFST記憶部40を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号する(ステップS50)。
以上、説明した用語抽出方法によれば、入力文字列の中から特定の用語を、高速に、且つ、表記ゆらぎを考慮して抽出することができる。以降、用語WFSTや、ゆらぎWFSTの具体例を示して更に詳しくこの発明の動作を説明する。
〔用語WFST〕
図3に用語リスト1の例を示す。図3(a)に具体例として、「バイオリン」、「イアリング」、「ボーリング」を示す。図3(b)に示すように各用語に識別IDを付与してもよい。
図4に、図3の用語リスト1から、用語WFST作成部10で作成した用語WFSTの例を示す。等価なWFSTは無数に存在するため図4はその一例である。図4において、円は状態を表し円中の数字は状態番号を表す。矢印は状態遷移を表す。矢印に付記された文字列は、「入力文字:出力文字/重み」を表す。なお、出力文字のεは空文字を意味する。
初期状態が状態(0)であり、受理状態が二重丸で示す状態(5)である。用語リスト1から用語WFSTへの変換は、各用語を文字に区切り、各文字を入力文字とした状態遷移を設定することで行う。
初期状態(0)において入力文字「バ」が与えられると、状態(0)→状態(1)に状態遷移する。その時の状態遷移が、入力文字「バ」、出力文字「バイオリン」、重み1.0である。状態(1)→状態(2)の状態遷移の入力文字が「イ」、出力文字がε(空文字)、状態(2)→状態(3)の状態遷移の入力文字が「オ」、出力文字がε(空文字)、状態(3)→状態(4)の状態遷移の入力文字が「リ」、出力文字がε(空文字)、状態(4)→状態(5)の状態遷移の入力文字が「ン」、出力文字がε(空文字)で受理状態(5)にいたる。他の用語のボーリングとイアリングに対しても同様に、図4に示す用語WFSTが作成される。
図4において、各用語の文字列が初期状態(0)直後の状態遷移に記載されているが、同一用語中の何れの状態遷移に記載しても等価な用語WFSTとなる。各用語に識別ID(図3(b))を付与した場合、各用語に替えて識別IDが初期状態(0)直後の状態遷移に記載される。
確率値を重みとして扱うと、重みの積算は乗算で行われる。その場合は重みを全て1としておく。対数確率を重みとして扱うと重みの積算は加算で行われる。その場合は重みを全て0とすればよい。
〔ゆらぎWFST〕
図5に、用語のゆらぎ確率2の例を示す。原表記「バ」に対する揺らぎ表記としては、例えば「バ」と「ヴァ」の2つが存在し、その出現確率が0.7と0.3である。この出現確率は、人が与えてもよいし、機械的に求めてもよい(例えば参考文献:特許第4084515号)。
図6に、用語のゆらぎ確率(図5)をゆらぎモデルであるゆらぎWFSTに変換した例を示す。ゆらぎWFSTは、揺らぎ表記を原表記に書き換える変換器(トランスデューサ)であり、初期状態(0)から受理状態(4)まで遷移した時の重みの積算が、図5に示す確率値となる。ゆらぎWFST変換部20が行う用語のゆらぎ確率からゆらぎWFSTへの変換は、揺らぎ表記を文字単位で区切り、各文字列を1文字ずつ入力文字に持つ状態遷移を設定することで行う。
揺らぎ表記「バ」の入力文字に対して、出力文字「バ」を出力する重みが0.7の状態遷移(バ:バ/0.7)で、初期状態(0)→受理状態(4)で遷移する。また、揺らぎ表記「ヴァ」の入力文字に対して、出力文字「バ」を出力する重みが0.3で、初期状態(0)→受理状態(4)に遷移する状態遷移が並列に設けられている。同様に、揺らぎ表記「ア」に対して出力文字「ア」を出力する重みが0.9の状態遷移(ア:ア/0.9)、状態遷移(ヤ:ア/0.1)等が並列に設けられている。受理状態(4)→初期状態(1)には、入力なしで自動的に戻る(ε:ε)。
図7に、アルファベット文字の音訳のゆらぎ確率3の例を示す。原表記「バ」に対する音訳の揺らぎ表記としては、例えば「ba」と「va」の2つが存在し、その出現確率が0.7と0.3である。図8に、音訳のゆらぎ確率(図7)をゆらぎWFSTに変換した例を示す。音訳のゆらぎWFSTも、用語ゆらぎの場合と同様に、揺らぎ表記を文字単位で区切り、各文字列を1文字ずつ入力文字に持つ状態遷移を設定することで行う。アルファベット文字の入力文字列に対して、音訳ゆらぎのゆらぎWFSTが使われる。
〔合成WFST〕
図9に、図4の用語WFSTと図5のゆらぎWFST(用語)を合成した合成WFSTの例を示す。合成(Composition)とは、WFSTの代表的な演算の一つであり、2つのWFSTを1つのWFSTにすることである。合成演算については、例えば参考文献:著者「Fernando C.N.Pereira, Michael Riley」タイトル「Speech Recognition by Composition of Weighted Finite Automata」出典「In Emmanuel Roche and Yves Schabes, editors, Finite-State Devices for Natural Language Processing, chapter 15,pp.431-453.MIT Press, Cambridge, Massachusetts,1997.」に記載されている。
図9の状態(14)は、用語WFST(図4)の状態(0)から状態(1)への遷移に、ゆらぎWFST(図6)の状態(0)から入力文字「ヴ」で遷移する遷移確率0.3の状態遷移((0)→(1)→(4))が、合成された結果追加された状態である。また、図9の状態(6)から状態(7)へ追加された状態遷移(ウ:ε/0.2)は、ゆらぎWFST(図6)の状態遷移((0)→(3)→(4))が合成された結果である。
このように用語WFSTとゆらぎWFSTとが合成された合成WFSTは、WFST記憶部40に記憶される。音訳のゆらぎWFSTについても、用語のゆらぎと同様に合成された合成WFSTが、WFST記憶部40に記憶される。
〔WFST復号部〕
WFST復号部50は、入力文字列に対して累積重みが最大になる遷移系列の文字列が出力できるものであればどのようなものでも構わない。例えば、図10に示す処理をWFST符号部50が行う。
ここでは、入力文字列として、単語単位で入力される例で説明する。
まず、初期状態をキュー(Queue)に入れる(ステップS51)。状態とは、(文字位置、状態番号、出力文字列、累積重み)で構成されるデータである。キューは単純なスタックやFIFOでも構わない。最尤解を一つだけ求める場合には優先度付きキューを用いる。初期状態とは、(文字列の先頭、開始状態番号、空文字列、初期重み)である。初期重みとは、重み積算が乗算であれば1、加算であれば0である。
次にキューから1状態候補を取得する(ステップS52)。そして、取得した状態の文字位置に該当する文字を入力文字列から取得して次文字とする(ステップS54)。
取得した次文字が入力文字と合致する全ての遷移を、WFST記憶部40を参照して取得する(ステップS55)。合わせて入力文字が空文字(ε)である遷移と、現在の状態番号が受理状態番号かどうかもWFST記憶部40から取得する。
現在の状態番号が受理状態番号であれば、その受理状態を結果リストに登録する(ステップS57)。例えば、優先度付きキューを用いた場合で、最尤解を1つだけ求めれば良い場合は、ここで終了する(ステップS58のYes)。
受理判定(ステップS56)では、入力文字列と前方一致する用語を抽出することになる。もしも、完全一致する用語のみを抽出したければ、文字位置が入力文字列の終端にあるかどうかを合わせて判定すればよい。
次に、得られた遷移先状態を全てキューに追加する(ステップS59)。遷移先の状態のうち、次文字位置は、入力文字が空文字(ε)であれば現文字位置と同一、そうでなければ1文字進めた位置である。次状態番号はWFST記憶部40から取得した遷移先状態番号である。出力文字列は、現出力文字列とWFST記憶部40から取得した出力文字列を連結したものである。累積重みは、現累積重みとWFST記憶部40から取得した累積重みを積算したものである。
ステップS52〜S59の処理を、状態候補が取得できなくなるまで繰り返す(ステップS53のNo)。状態候補が取得できなくなった時点の結果リストに蓄えられた文字列が、WFST復号部50の出力となる(ステップS53のYes)。この例のように、入力文字列として単語単位で入力される場合は、用語抽出というよりは用語照合といった方が実態と合う。このような用語照合方法は、例えば検索エンジンのキーワード入力のフィルタとして利用可能である。
〔用語抽出装置〕
図12、この発明の用語抽出装置200の機能構成例を示す。その動作フローを図13に示す。用語抽出装置200は、図1に示したWFST記憶部40と、WFST復号部50とで構成される。
WFST復号部50は、前方一致するものを出力するように構成しておく。抽出した用語は結果リストに蓄えられる。同一の用語の複数回の抽出を禁止する場合は、最初に抽出した時点でその用語についての抽出を終了するようにすればよい。
WFST復号部50は、テキスト全体を構成する文字列を取り込む(ステップS201)。そして、WFST復号部50は、取り込んだ入力文字の先頭の文字から、入力文字を更新しながら入力文字列の終端まで、上記したWFST復号過程を実行する(ステップS50,S202,S203)。そのWFST復号過程において、受理状態番号が検出される度に抽出された用語が結果リストに出力される(ステップS50)。
用語抽出装置200は、ゆらぎWFSTと、用語リストの各用語から作成した用語WFSTとを合成することで得られた合成WFSTを用いて用語を抽出するので、高速に、且つ、表記ゆらぎや異表記を含む用語を抽出することができる。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。また、各装置の機能構成部は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしても良い。

Claims (7)

  1. 外部から入力される用語リストの各用語から、その各用語を文字毎に区切り各文字を入力文字としたWFST表現された用語リストである用語WFSTを作成する用語WFST作成過程と、
    用語のゆらぎ確率若しくは音訳のゆらぎ確率をゆらぎモデルであるゆらぎWFSTに変換するゆらぎWFST変換過程と、
    上記用語WFSTと上記ゆらぎWFSTを合成し、合成WFSTを出力する変換器合成過程と、
    上記合成WFSTをWFST記憶部に記憶するWFST記憶過程と、
    上記WFST記憶部を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号し、状態番号が受理状態番号であれば当該受理状態を結果リストに登録するWFST復号過程と、
    を含む用語抽出方法。
  2. 外部から入力される用語リストの各用語から、その各用語を文字毎に区切り各文字を入力文字としたWFST表現された用語リストである用語WFSTを作成する用語WFST作成過程と、
    外来語を表記する際のカタカナ表記のゆらぎ確率をゆらぎモデルであるゆらぎWFSTに変換するゆらぎWFST変換過程と、
    上記用語WFSTと上記ゆらぎWFSTを合成し、合成WFSTを出力する変換器合成過程と、
    上記合成WFSTをWFST記憶部に記憶するWFST記憶過程と、
    上記WFST記憶部を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号するWFST復号過程と、
    を含む用語抽出方法。
  3. 外部から入力される用語リストの各用語から、その各用語を文字毎に区切り各文字を入力文字としたWFST表現された用語リストである用語WFSTを作成する用語WFST作成過程と、
    カタカナ表記に対するアルファベット表記のゆらぎ確率をゆらぎモデルであるゆらぎWFSTに変換するゆらぎWFST変換過程と、
    上記用語WFSTと上記ゆらぎWFSTを合成し、合成WFSTを出力する変換器合成過程と、
    上記合成WFSTをWFST記憶部に記憶するWFST記憶過程と、
    上記WFST記憶部を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号するWFST復号過程と、
    を含む用語抽出方法。
  4. 用語リストの各用語から作成された各文字を入力文字としてWFST表現された用語リストである用語WFSTと、用語のゆらぎ確率若しくは音訳のゆらぎ確率であるゆらぎWFSTと、を合成した合成WFSTを記憶したWFST記憶部と、
    上記WFST記憶部を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号し、状態番号が受理状態番号であれば当該受理状態を結果リストに登録するWFST復号部と、
    を具備する用語抽出装置。
  5. 請求項4に記載した用語抽出装置において、
    上記ゆらぎWFSTは、外来語を表記する際のカタカナ表記のゆらぎ確率をモデル化したものであることを特徴とする用語抽出装置。
  6. 請求項4に記載した用語抽出装置において、
    上記ゆらぎWFSTは、カタカナ表記に対するアルファベット表記のゆらぎ確率をモデル化したものであることを特徴とする用語抽出装置。
  7. 請求項1乃至3の何れかに記載した用語抽出方法を、コンピュータで処理するためのプログラム。
JP2010044964A 2010-03-02 2010-03-02 用語抽出方法とその装置と、プログラム Active JP5113863B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010044964A JP5113863B2 (ja) 2010-03-02 2010-03-02 用語抽出方法とその装置と、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010044964A JP5113863B2 (ja) 2010-03-02 2010-03-02 用語抽出方法とその装置と、プログラム

Publications (2)

Publication Number Publication Date
JP2011180862A JP2011180862A (ja) 2011-09-15
JP5113863B2 true JP5113863B2 (ja) 2013-01-09

Family

ID=44692295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010044964A Active JP5113863B2 (ja) 2010-03-02 2010-03-02 用語抽出方法とその装置と、プログラム

Country Status (1)

Country Link
JP (1) JP5113863B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8407047B2 (en) 2008-06-25 2013-03-26 Fujitsu Limited Guidance information display device, guidance information display method and recording medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631018B (zh) * 2015-12-29 2018-12-18 上海交通大学 基于主题模型的文章特征抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312294A (ja) * 2000-05-02 2001-11-09 Atr Onsei Gengo Tsushin Kenkyusho:Kk 入力記号列を出力記号列に変換するトランスデューサの学習方法およびトランスデューサの学習プログラムを記憶したコンピュータ読み取り可能な記録媒体
JP5094486B2 (ja) * 2008-03-14 2012-12-12 日本電信電話株式会社 同義性判定装置、その方法、プログラム及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8407047B2 (en) 2008-06-25 2013-03-26 Fujitsu Limited Guidance information display device, guidance information display method and recording medium

Also Published As

Publication number Publication date
JP2011180862A (ja) 2011-09-15

Similar Documents

Publication Publication Date Title
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP6404564B2 (ja) デコーダ、デコード方法およびプログラム
US8200490B2 (en) Method and apparatus for searching multimedia data using speech recognition in mobile device
CN112825249B (zh) 语音处理方法和设备
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
US20070156404A1 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
US20120046935A1 (en) Finite state transducer determinizing device and finite state transducer determinizing method
JP6551968B2 (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
JP6599219B2 (ja) 読み付与装置、読み付与方法、およびプログラム
US20110320464A1 (en) Retrieval device
US12437150B2 (en) System and method of performing data training on morpheme processing rules
JP4289715B2 (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
JP7028198B2 (ja) 要約生成装置、方法、プログラム、及び記憶媒体
JP2017058804A (ja) 検出装置、方法およびプログラム
WO2020110815A1 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
JP5113863B2 (ja) 用語抽出方法とその装置と、プログラム
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP5590549B2 (ja) 音声検索装置および音声検索方法
KR102067973B1 (ko) 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
JP2005122444A (ja) 形態素解析システム、形態素解析方法及びプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121012

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5113863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350