JP5113863B2 - 用語抽出方法とその装置と、プログラム - Google Patents
用語抽出方法とその装置と、プログラム Download PDFInfo
- Publication number
- JP5113863B2 JP5113863B2 JP2010044964A JP2010044964A JP5113863B2 JP 5113863 B2 JP5113863 B2 JP 5113863B2 JP 2010044964 A JP2010044964 A JP 2010044964A JP 2010044964 A JP2010044964 A JP 2010044964A JP 5113863 B2 JP5113863 B2 JP 5113863B2
- Authority
- JP
- Japan
- Prior art keywords
- wfst
- term
- fluctuation
- character
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以上、説明した用語抽出方法によれば、入力文字列の中から特定の用語を、高速に、且つ、表記ゆらぎを考慮して抽出することができる。以降、用語WFSTや、ゆらぎWFSTの具体例を示して更に詳しくこの発明の動作を説明する。
図3に用語リスト1の例を示す。図3(a)に具体例として、「バイオリン」、「イアリング」、「ボーリング」を示す。図3(b)に示すように各用語に識別IDを付与してもよい。
初期状態(0)において入力文字「バ」が与えられると、状態(0)→状態(1)に状態遷移する。その時の状態遷移が、入力文字「バ」、出力文字「バイオリン」、重み1.0である。状態(1)→状態(2)の状態遷移の入力文字が「イ」、出力文字がε(空文字)、状態(2)→状態(3)の状態遷移の入力文字が「オ」、出力文字がε(空文字)、状態(3)→状態(4)の状態遷移の入力文字が「リ」、出力文字がε(空文字)、状態(4)→状態(5)の状態遷移の入力文字が「ン」、出力文字がε(空文字)で受理状態(5)にいたる。他の用語のボーリングとイアリングに対しても同様に、図4に示す用語WFSTが作成される。
確率値を重みとして扱うと、重みの積算は乗算で行われる。その場合は重みを全て1としておく。対数確率を重みとして扱うと重みの積算は加算で行われる。その場合は重みを全て0とすればよい。
図5に、用語のゆらぎ確率2の例を示す。原表記「バ」に対する揺らぎ表記としては、例えば「バ」と「ヴァ」の2つが存在し、その出現確率が0.7と0.3である。この出現確率は、人が与えてもよいし、機械的に求めてもよい(例えば参考文献:特許第4084515号)。
図9に、図4の用語WFSTと図5のゆらぎWFST(用語)を合成した合成WFSTの例を示す。合成(Composition)とは、WFSTの代表的な演算の一つであり、2つのWFSTを1つのWFSTにすることである。合成演算については、例えば参考文献:著者「Fernando C.N.Pereira, Michael Riley」タイトル「Speech Recognition by Composition of Weighted Finite Automata」出典「In Emmanuel Roche and Yves Schabes, editors, Finite-State Devices for Natural Language Processing, chapter 15,pp.431-453.MIT Press, Cambridge, Massachusetts,1997.」に記載されている。
図9の状態(14)は、用語WFST(図4)の状態(0)から状態(1)への遷移に、ゆらぎWFST(図6)の状態(0)から入力文字「ヴ」で遷移する遷移確率0.3の状態遷移((0)→(1)→(4))が、合成された結果追加された状態である。また、図9の状態(6)から状態(7)へ追加された状態遷移(ウ:ε/0.2)は、ゆらぎWFST(図6)の状態遷移((0)→(3)→(4))が合成された結果である。
WFST復号部50は、入力文字列に対して累積重みが最大になる遷移系列の文字列が出力できるものであればどのようなものでも構わない。例えば、図10に示す処理をWFST符号部50が行う。
ここでは、入力文字列として、単語単位で入力される例で説明する。
受理判定(ステップS56)では、入力文字列と前方一致する用語を抽出することになる。もしも、完全一致する用語のみを抽出したければ、文字位置が入力文字列の終端にあるかどうかを合わせて判定すればよい。
図12、この発明の用語抽出装置200の機能構成例を示す。その動作フローを図13に示す。用語抽出装置200は、図1に示したWFST記憶部40と、WFST復号部50とで構成される。
WFST復号部50は、前方一致するものを出力するように構成しておく。抽出した用語は結果リストに蓄えられる。同一の用語の複数回の抽出を禁止する場合は、最初に抽出した時点でその用語についての抽出を終了するようにすればよい。
Claims (7)
- 外部から入力される用語リストの各用語から、その各用語を文字毎に区切り各文字を入力文字としたWFST表現された用語リストである用語WFSTを作成する用語WFST作成過程と、
用語のゆらぎ確率若しくは音訳のゆらぎ確率をゆらぎモデルであるゆらぎWFSTに変換するゆらぎWFST変換過程と、
上記用語WFSTと上記ゆらぎWFSTを合成し、合成WFSTを出力する変換器合成過程と、
上記合成WFSTをWFST記憶部に記憶するWFST記憶過程と、
上記WFST記憶部を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号し、状態番号が受理状態番号であれば当該受理状態を結果リストに登録するWFST復号過程と、
を含む用語抽出方法。 - 外部から入力される用語リストの各用語から、その各用語を文字毎に区切り各文字を入力文字としたWFST表現された用語リストである用語WFSTを作成する用語WFST作成過程と、
外来語を表記する際のカタカナ表記のゆらぎ確率をゆらぎモデルであるゆらぎWFSTに変換するゆらぎWFST変換過程と、
上記用語WFSTと上記ゆらぎWFSTを合成し、合成WFSTを出力する変換器合成過程と、
上記合成WFSTをWFST記憶部に記憶するWFST記憶過程と、
上記WFST記憶部を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号するWFST復号過程と、
を含む用語抽出方法。 - 外部から入力される用語リストの各用語から、その各用語を文字毎に区切り各文字を入力文字としたWFST表現された用語リストである用語WFSTを作成する用語WFST作成過程と、
カタカナ表記に対するアルファベット表記のゆらぎ確率をゆらぎモデルであるゆらぎWFSTに変換するゆらぎWFST変換過程と、
上記用語WFSTと上記ゆらぎWFSTを合成し、合成WFSTを出力する変換器合成過程と、
上記合成WFSTをWFST記憶部に記憶するWFST記憶過程と、
上記WFST記憶部を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号するWFST復号過程と、
を含む用語抽出方法。 - 用語リストの各用語から作成された各文字を入力文字としてWFST表現された用語リストである用語WFSTと、用語のゆらぎ確率若しくは音訳のゆらぎ確率であるゆらぎWFSTと、を合成した合成WFSTを記憶したWFST記憶部と、
上記WFST記憶部を参照して入力文字列に対する累積重みが最大になる遷移系列の文字列を復号し、状態番号が受理状態番号であれば当該受理状態を結果リストに登録するWFST復号部と、
を具備する用語抽出装置。 - 請求項4に記載した用語抽出装置において、
上記ゆらぎWFSTは、外来語を表記する際のカタカナ表記のゆらぎ確率をモデル化したものであることを特徴とする用語抽出装置。 - 請求項4に記載した用語抽出装置において、
上記ゆらぎWFSTは、カタカナ表記に対するアルファベット表記のゆらぎ確率をモデル化したものであることを特徴とする用語抽出装置。 - 請求項1乃至3の何れかに記載した用語抽出方法を、コンピュータで処理するためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010044964A JP5113863B2 (ja) | 2010-03-02 | 2010-03-02 | 用語抽出方法とその装置と、プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010044964A JP5113863B2 (ja) | 2010-03-02 | 2010-03-02 | 用語抽出方法とその装置と、プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011180862A JP2011180862A (ja) | 2011-09-15 |
| JP5113863B2 true JP5113863B2 (ja) | 2013-01-09 |
Family
ID=44692295
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010044964A Active JP5113863B2 (ja) | 2010-03-02 | 2010-03-02 | 用語抽出方法とその装置と、プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5113863B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8407047B2 (en) | 2008-06-25 | 2013-03-26 | Fujitsu Limited | Guidance information display device, guidance information display method and recording medium |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105631018B (zh) * | 2015-12-29 | 2018-12-18 | 上海交通大学 | 基于主题模型的文章特征抽取方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001312294A (ja) * | 2000-05-02 | 2001-11-09 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 入力記号列を出力記号列に変換するトランスデューサの学習方法およびトランスデューサの学習プログラムを記憶したコンピュータ読み取り可能な記録媒体 |
| JP5094486B2 (ja) * | 2008-03-14 | 2012-12-12 | 日本電信電話株式会社 | 同義性判定装置、その方法、プログラム及び記録媒体 |
-
2010
- 2010-03-02 JP JP2010044964A patent/JP5113863B2/ja active Active
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8407047B2 (en) | 2008-06-25 | 2013-03-26 | Fujitsu Limited | Guidance information display device, guidance information display method and recording medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011180862A (ja) | 2011-09-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
| JP6404564B2 (ja) | デコーダ、デコード方法およびプログラム | |
| US8200490B2 (en) | Method and apparatus for searching multimedia data using speech recognition in mobile device | |
| CN112825249B (zh) | 语音处理方法和设备 | |
| JP6310150B2 (ja) | 意図理解装置、方法およびプログラム | |
| US20070156404A1 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
| JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
| US20120046935A1 (en) | Finite state transducer determinizing device and finite state transducer determinizing method | |
| JP6551968B2 (ja) | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム | |
| JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
| JP6599219B2 (ja) | 読み付与装置、読み付与方法、およびプログラム | |
| US20110320464A1 (en) | Retrieval device | |
| US12437150B2 (en) | System and method of performing data training on morpheme processing rules | |
| JP4289715B2 (ja) | 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 | |
| JP7028198B2 (ja) | 要約生成装置、方法、プログラム、及び記憶媒体 | |
| JP2017058804A (ja) | 検出装置、方法およびプログラム | |
| WO2020110815A1 (ja) | キーワード抽出装置、キーワード抽出方法、およびプログラム | |
| JPWO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
| JP5355483B2 (ja) | 略語完全語復元装置とその方法と、プログラム | |
| JP5113863B2 (ja) | 用語抽出方法とその装置と、プログラム | |
| JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
| JP5590549B2 (ja) | 音声検索装置および音声検索方法 | |
| KR102067973B1 (ko) | 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법 | |
| CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
| JP2005122444A (ja) | 形態素解析システム、形態素解析方法及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110701 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120629 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120710 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120906 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121002 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121012 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5113863 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |