JP3974412B2 - Audio converter - Google Patents
Audio converter Download PDFInfo
- Publication number
- JP3974412B2 JP3974412B2 JP2002014834A JP2002014834A JP3974412B2 JP 3974412 B2 JP3974412 B2 JP 3974412B2 JP 2002014834 A JP2002014834 A JP 2002014834A JP 2002014834 A JP2002014834 A JP 2002014834A JP 3974412 B2 JP3974412 B2 JP 3974412B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- word
- voice
- language
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、例えば、音声入力された原言語の発声を目的言語に変換して音声出力する音声変換装置に関するものである。
【0002】
【従来の技術】
音声通訳技術は、高性能なワークステーションやパーソナルコンピュータによる使用を前提としたソフトウェアとして開発され、仮に、旅行会話などに会話の範囲を限定した場合、その性能は実用的なレベルまで到達している。しかし、音声通訳装置として、一般のユーザが日常的に使用するためには、海外旅行等に簡単に携行できる程度の大きさのハードウェアと、簡単に操作ができるユーザインタフェースを設計し、同等の機能のソフトウェアをそのハードウェアに移植する必要がある。
【0003】
従来は、B5サイズ程度のノート型パーソナルコンピュータに対して音声通訳ソフトウェアを移植する作業が進められてきた。
【0004】
一方、近年のハードウェア技術の進歩によって、携帯可能な小型の情報機器を用いて、主に海外旅行で使用する会話を対象として、音声入力による翻訳機能が実現できるようになった。この様な他の従来技術としての翻訳機能は双方向であり、例えば日本語から英語への変換機能と、英語から日本語への変換機能の両方を備える。
【0005】
この様な他の従来技術の発明としては、外国語翻訳装置(特開平8−77176号公報参照)や音声入力翻訳装置(特開平8−278972号公報参照)がある。これらの発明では、言語の異なる2人が1台の機器を対面形式で使用して対話ができるように、機器の形状や表示部の配置、その内容が決定されている。
【0006】
【発明が解決しようとする課題】
しかしながら、B5サイズ程度のノート型パーソナルコンピュータは、ユーザが簡単に携行して様々な場所で利用できる大きさではない。また、普通のキーボードやマウスで操作しなければならないために、ユーザインタフェースとしても使い易い形態ではない。さらに音声認識に必要とされるCPU性能やワーキングメモリの容量といった計算資源の量は、一般に認識対象語彙の大きさに比例する。
【0007】
小型のハードウェアでは計算資源が限られるので、音声通訳装置として必要十分な単語を認識対象語彙として実装することが困難であり、音声通訳装置としての利用価値が低くなるという課題があった。以上が上記従来技術についての課題である(第1の課題)。
【0008】
次に、上記他の従来技術についての課題を説明する(第2の課題)。
【0009】
即ち、上記他の従来技術の翻訳装置において、衣服のポケットに入るような小型の情報機器で、その表示領域の解像度が小さい場合には、2人の利用者に必要な情報をすべて表示することはできない。そのため、翻訳装置としての使い勝手が低下するという課題があった。また、複数の表示部を実装すると消費電力が増加して翻訳装置の稼働時間が短くなるという課題もあった。また、翻訳装置は2人の利用者の発声を排他的に扱わないので、発声が重なると音声認識の認識率が低下して翻訳装置としての性能が低下するという課題もあった。
【0010】
本発明は、上記従来の音声通訳装置のこの様な第1の課題を考慮し、従来に比べてより一層小型化が可能であり、操作も簡単に出来得る音声変換装置を提供することを目的とする。
【0011】
又、本発明に関連する技術の他の発明は、上記従来の翻訳装置のこの様な第2の課題を考慮し、従来に比べて表示内容についての使用性の向上を図る事が出来る音声変換装置、音声変換方法、プログラム、及び媒体を提供することを目的とする。
【0012】
【課題を解決するための手段】
第1の本発明(請求項1記載の本発明に対応)は、第1の言語の音声を入力するための音声入力手段と、
前記入力された音声を音声認識するための音声認識手段と、
前記第1の言語の用例と、前記用例を構成する単語の内の所定の単語間の依存関係とを予め格納する用例テ゛ータベースと、
前記音声の認識結果に前記所定の単語が含まれる場合、前記含まれる所定の単語の前記依存関係を利用して、前記用例データベースに格納されている前記第1の言語の用例の中から、前記音声に対応した用例を抽出し、前記用例を構成する一つまたは複数の単語列を表示する第1の抽出・表示手段と、
前記表示された前記第1の言語の用例を構成する単語列から、第2の言語への変換対象となる予定の何れかの単語列を選定するための変換対象選定手段と、
前記用例に含まれる単語を予めクラス化して、前記クラス化された前記単語と置き換え可能な単語を予め格納する単語クラス辞書と、
前記選定された単語列の中の前記クラス化された単語が特定された際、その特定された前記クラス化された単語と同じクラスの単語を前記単語クラス辞書から前記置き換えの候補として抽出し、表示する第2の抽出・表示手段と、
前記表示された前記同じクラスの単語の候補から何れかの候補を選定するための候補選定手段と、
前記選定された前記第1の言語の用例を構成する単語列と、前記選定された前記同じクラスの単語の候補とに基づいて、前記第2の言語への変換対象を決定し、その決定された変換対象を前記第2の言語の音声言語に変換する変換手段と、
を備えた音声変換装置である。
【0013】
又、第2の本発明(請求項2記載の本発明に対応)は、前記第1の抽出・表示手段は、前記選定の対象となる複数の単語列と、前記選定された単語列とを、それぞれ予め定められた領域に表示するための表示画面を備えた表示部を有しており、
前記第2の抽出・表示手段は、前記用語の候補を、前記表示画面の一部の領域にウインドウ状に重ねて表示する手段である上記第1の本発明の音声変換装置である。
【0014】
又、第3の本発明(請求項3記載の本発明に対応)は、前記第1の抽出・表示手段は、前記選定された単語列を前記表示画面上に表示する際、前記単語列の一部に対して、前記対応する用語の候補の表示が可能である旨の情報をも付加して表示する手段である上記第2の本発明の音声変換装置である。
【0015】
又、第4の本発明(請求項4記載の本発明に対応)は、前記付加された情報が表示されている前記単語列の一部を、前記表示画面上で特定するための画面表示特定手段を備えた上記第3の本発明の音声変換装置である。
【0016】
又、第5の本発明(請求項5記載の本発明に対応)は、前記変換手段は、前記単語列の内、前記特定された前記一部を、前記選定された候補の用語に置き換えた結果を、前記変換対象として決定する上記第1の本発明の音声変換装置である。
【0017】
尚、本発明に関連する技術の発明は、入力される第1の言語の音声を、第2の言語の音声言語に変換する音声変換装置の音声変換方法であって、
前記第1の言語の音声を入力するための音声入力ステップと、
前記入力された音声を音声認識するための音声認識ステップと、
前記第1の言語の用例と、前記用例を構成する単語の内の所定の単語間の依存関係とを予め格納する前記音声変換装置の用例データベースに格納されている前記第1の言語の用例の中から、前記音声の認識結果に前記所定の単語が含まれる場合、前記含まれる所定の単語の前記依存関係を利用して、前記音声に対応した用例を抽出し、前記用例を構成する一つまたは複数の単語列を表示する第1の抽出・表示ステップと、
前記表示された前記第1の言語の用例を構成する単語列から、第2の言語への変換対象となる予定の何れかの単語列を選定するための変換対象選定ステップと、
前記選定された単語列の中のクラス化された単語が特定された際、その特定された前記クラス化された単語と同じクラスの単語を、前記用例に含まれる単語を予めクラス化して、前記クラス化された前記単語と置き換え可能な単語を予め格納する前記音声変換装置の単語クラス辞書から前記置き換えの候補として抽出し、表示する第2の抽出・表示ステップと、
前記表示された前記同じクラスの単語の候補から何れかの候補を選定するための候補選定ステップと、
前記選定された前記第1の言語の用例を構成する単語列と、前記選定された前記同じクラスの単語の候補とに基づいて、前記第2の言語への変換対象を決定し、その決定された変換対象を前記第2の言語の音声言語に変換する変換ステップと、
を備えた音声変換装置の音声変換方法である。
【0019】
又、本発明に関連する技術の発明は、上記音声変換装置の音声変換方法の、前記入力された音声を音声認識するための音声認識ステップと、
前記第1の言語の用例と、前記用例を構成する単語の内の所定の単語間の依存関係とを予め格納する前記音声変換装置の用例データベースに格納されている前記第1の言語の用例の中から、前記音声の認識結果に前記所定の単語が含まれる場合、前記含まれる所定の単語の前記依存関係を利用して、前記音声に対応した用例を抽出し、前記用例を構成する一つまたは複数の単語列を表示する第1の抽出・表示ステップと、
前記表示された前記第1の言語の用例を構成する単語列から、第2の言語への変換対象となる予定の何れかの単語列を選定するための変換対象選定ステップと、
前記選定された単語列の中のクラス化された単語が特定された際、その特定された前記クラス化された単語と同じクラスの単語を、前記用例に含まれる単語を予めクラス化して、前記クラス化された前記単語と置き換え可能な単語を予め格納する前記音声変換装置の単語クラス辞書から前記置き換えの候補として抽出し、表示する第2の抽出・表示ステップと、
前記表示された前記同じクラスの単語の候補から何れかの候補を選定するための候補選定ステップと、
前記選定された前記第1の言語の用例を構成する単語列と、前記選定された前記同じクラスの単語の候補とに基づいて、前記第2の言語への変換対象を決定し、その決定された変換対象を前記第2の言語の音声言語に変換する変換ステップと、
をコンピュータに実行させるためのプログラムを記録した記録媒体であって、コンピュータにより処理可能な記録媒体である。
【0022】
以上の構成により、上記本発明では、例えば、ユーザが片手で持ってボタンやタッチパネルで簡単に操作できる小型のハードウェアを提供することが可能である。そして、例えば、音声通訳すべき用例文中に含まれる単語をクラス化して保持し、クラスを代表する少数の単語のみ認識対象語彙として音声認識部に実装することが可能である。クラスを代表する単語を含む文が発声されると、その単語を含む用例を検索してユーザに提示することが可能である。通常、ユーザは所望の用例を選択して翻訳音声を出力させる。しかし必要があれば、ユーザはその単語をクラス内の他の単語に置換して翻訳音声を出力させればよい。例えば、日本語で「アスピリンはありますか」と入力したい場合には、単語「アスピリン」が属するクラスを代表する単語「薬」に置き換えて、日本語で「何か薬はありますか」と発声し、その後「薬」の部分を「アスピリン」に置き換えればよい。このような段階的な操作によって、大規模な認識対象語彙を実装することなく、音声通訳装置としての利用価値は維持される。
【0023】
尚、上記従来技術における第2の課題を解決するための、本発明に関連する技術の第1〜第14の他の発明について以下に述べる。
第1の他の発明は、第1又は第2の言語の音声を入力するための入力部と、
(1)前記入力部から前記第1の言語の音声を受け取った場合、それを音声認識し、且つ、所定の制御指示に基づいて、(1−a)前記音声認識された前記第1の言語の表記データを出力する、又は(1−b)前記音声認識された認識結果に基づいて決定される変換対象を前記第2の言語に変換し、その変換後の言語の少なくとも表記データを出力し、(2)前記入力部から前記第2の言語の音声を受け取った場合、それを音声認識し、且つ、所定の制御指示に基づいて、(2−a)前記音声認識された前記第2の言語の表記データを出力する、又は(2−b)前記音声認識された認識結果に基づいて決定される変換対象を前記第1の言語に変換し、その変換後の言語の少なくとも表記データを出力する翻訳部と、
前記翻訳部の前記変換対象の決定を支援するための支援部と、
前記翻訳部から出力される前記変換後の言語の前記表記データを、前記所定の制御指示に基づいて表示するための表示部と、
前記所定の制御指示を、少なくとも前記翻訳部及び前記表示部に対して行う制御部と、を備えた音声変換装置である。
【0024】
又、第2の他の発明は、前記第1の言語を使用する利用者と、前記第2の言語を使用する他の利用者との対話の際に前記入力部により入力された音声に基づいた前記表記データを逐次保持して、履歴情報として前記表示部に出力するための対話履歴管理部を備えた上記第1の本発明の音声変換装置である。
【0025】
又、第3の他の発明は、前記第1の言語から第2の言語、又は前記第2の言語から第1の言語への何れの翻訳が前記音声翻訳部により行われるべきかの翻訳方向を決定するための情報を検出する言語変換方向検出部を備え、
前記制御部は、前記検出結果に基づいて、前記音声翻訳部に対して前記翻訳方向を指定し、かつ、前記入力部を制御する上記第1の他の発明の音声変換装置である。
【0026】
又、第4の他の発明は、前記制御部の前記入力部に対する制御とは、前記入力部が複数の音声入力部によって構成される場合に、発声する利用者の音声を最も良く集音する前記音声入力部を選択することである上記第3の他の発明の音声変換装置である。
【0027】
又、第5の他の発明は、前記制御部は、前記翻訳方向に応じて、前記表示部の表示内容を、その表示部の表示画面を基準として実質上180度回転するように制御することを特徴とする上記第3の他の発明の音声変換装置である。
【0028】
又、第6の他の発明は、前記言語変換方向検出部は、ボタンスイッチで構成されており、発声する利用者が前記ボタンスイッチを押して翻訳方向を選択する構成である上記第3の他の発明の音声変換装置である。
【0029】
又、第7の他の発明は、前記言語変換方向検出部は、可動式のマイクの音響的指向性の最も良い方向を検出する角度センサーで構成されており、発声する利用者がマイクの方向を変えて前記翻訳方向を選択する上記第3の他の発明の音声入力翻訳装置である。
【0030】
又、第8の他の発明は、前記言語変換方向検出部は、前記音声変換装置の内部に設置されたジャイロセンサーで構成されており、発声する利用者が前記音声変換装置を手に持つ位置で前記翻訳方向を選択する上記第3の他の発明の音声変換装置である。
【0031】
又、第9の他の発明は、前記言語変換方向検出部は、マイクアレーユニットで構成される入力部の、音源方向検出装置によって構成されており、発声する利用者の前記マイクアレーユニットに対する発声位置で翻訳方向を選択する上記第3の他の発明の音声変換装置である。
【0032】
又、第10の他の発明は、第1又は第2の言語の音声を入力し、出力する音声入力ステップと、
(1)前記音声入力ステップにより出力された前記第1の言語の音声を受け取った場合、それを音声認識し、且つ、所定の制御指示に基づいて、(1−a)前記音声認識された前記第1の言語の表記データを出力する、又は(1−b)前記音声認識された認識結果に基づいて決定される変換対象を前記第2の言語に変換し、その変換後の言語の少なくとも表記データを出力し、(2)前記音声入力ステップにより出力された前記第2の言語の音声を受け取った場合、それを音声認識し、且つ、所定の制御指示に基づいて、(2−a)前記音声認識された前記第2の言語の表記データを出力する、又は(2−b)前記音声認識された認識結果に基づいて決定される変換対象を前記第1の言語に変換し、その変換後の言語の少なくとも表記データを出力する翻訳ステップと、
前記翻訳ステップでの前記変換対象の決定を支援するための支援ステップと、
前記翻訳ステップにより出力される前記変換後の言語の前記表記データを、前記所定の制御指示に基づいて表示するための表示ステップと、
前記所定の制御指示を、少なくとも前記翻訳ステップ及び前記表示ステップに対して行う制御ステップと、を備えた音声変換方法である。
【0033】
又、第11の他の発明は、上記第1〜9の何れか一つの他の発明の音声変換装置の、前記翻訳部と、前記支援部と、前記表示部と、前記対話履歴管理部との全部又は一部としてコンピュータを機能させるためのプログラムである。
【0034】
又、第12の他の発明は、上記第10の他の発明の音声変換方法の、前記翻訳ステップと、前記支援ステップと、前記表示ステップと、前記対話履歴管ステップとの全部又は一部をコンピュータに実行させるためのプログラムである。
【0035】
又、第13の他の発明は、上記第11の他の発明のプログラムを担持した媒体であって、コンピュータにより処理可能なことを特徴とする媒体である。
【0036】
又、第14の他の発明は、上記第12の他の発明のプログラムを担持した媒体であって、コンピュータにより処理可能なことを特徴とする媒体である。
【0037】
上記本発明に関連する技術の他の発明の構成によれば、例えば、音声変換装置としてユーザが片手で持ってボタンやタッチパネルで簡単に操作できるものを用いる。そして、対面する2人の使用者(一方の使用者が、第1の言語を使用し、他方の使用者が第2の言語を使用する)が、操作権限を手動で獲得する手段、あるいは、操作権限を手動で相手に与える手段、あるいは、自動的に獲得する手段を追加して、どちらに操作権限があるかを明示的に示し、かつ、その使用者が操作しやすい表示と入力手段を提供する。これにより、例えば、表示電力を増加させることなく、従来に比べて表示内容についての使用性の向上を図る事が出来る。
【0038】
【発明の実施の形態】
以下に、本発明の音声変換装置の一実施の形態の音声通訳装置の構成及び動作について、図面を参照しながら述べるとともに、本発明に関連する技術の発明の音声変換方法の動作も同時に説明する。
【0039】
図1は、本実施の形態の音声通訳装置のハードウェア構成を示すブロック図である。
【0040】
音声入出力装置102はユーザの原言語による発声を受け取り、目的言語に通訳された音声を出力する。画像出力装置103は、本通訳装置が通訳すべき原言語の用例を表示する。画像指示装置105およびボタン106は、画像出力装置103に表示された用例をユーザに選択させるため使用する。演算制御装置101は、音声入出力装置102と画像指示装置105とボタン106から入力される原言語に関するデータを目的言語に関するデータへ音声言語的に変換し、音声入出力装置102と画像出力装置103に出力する。外部大容量不揮発性記憶装置104は、演算制御装置101に処理の手順を指示するプログラムとデータを保持する。また、外部データ入出力端子107は、演算制御装置101が外部機器とプログラムやデータを交換するために使用する。電源装置108は、演算制御装置101を駆動するために必要な電源を供給する。
【0041】
ここで、本発明の音声入力手段は、音声入力装置102に対応し、本発明の第1の抽出・表示手段、及び第2の抽出・表示手段は、画像出力装置103と演算制御装置101等を含む構成部分に対応する。又、本発明の画面表示特定手段は、画像指示装置105及びボタン106に対応する。又、本発明の第1の言語が、本実施の形態での原言語に対応し、本発明の第2の言語が、本実施の形態での目的言語に対応する。
【0042】
演算制御装置101に、PC/AT互換のマザーボードを使用した具体的な構成例を図2に示す。音声入出力装置203はマザーボード201のUSB端子を利用して接続する。画像出力装置204はマザーボード201のデジタルRGBインタフェース端子を利用して接続する。外部大容量不揮発性記憶装置104には2.5インチのハードディスクドライブ202を使用し、マザーボード201とIDEインタフェースで接続する。このハードディスクドライブの替わりにフラッシュメモリディスクを使用してもよい。また、電源装置108にはLi-ion2次電池208を使用し、+5Vおよび+12Vの電圧をマザーボード201に供給する。マザーボード201の入出力端子の中で、アナログディスプレイ出力端子、ローカルエリアネットワーク端子、キーボード接続端子を引き出し、外部データ入出力端子207を構成する。
【0043】
画像出力装置204の詳細な構成を図3に示す。冷陰極線管のバックライトが背面に実装された表示面積が4インチ、解像度がVGAのLCDユニット301に対し、マザーボード302のデジタルRGBインタフェースの中から18ビットを使用して接続する。また、映像の同期信号とバックライトの制御信号も接続する。
【0044】
画像指示装置205およびボタン206の詳細な構成を図4に示す。3.8インチの感圧式タッチパネル402をタッチパネルコントローラ401に接続し、指示位置のX座標とY座標をRS232C規格のシリアルデータに変換してマザーボード405のシリアル端子COM1に接続する。ボタン403とボタン404は、それぞれタッチパネルコントローラ401に接続され、ボタンのONまたはOFFの情報は指示位置の情報に付加される。マザーボード405に実装されるタッチパネルコントローラ401のデバイスドライバ・ソフトウェアによって受信されたシリアルデータは解読され、ボタン403はマザーボード405にマウスを接続したときの左ボタンに、ボタン404は右ボタンに相当するようにマウスクリックイベントが発生する。
【0045】
音声入出力装置203の詳細な構成を図5に示す。USBオーディオインタフェース504は入力されるアナログ音声をデジタルデータに変換してマザーボード505に送信し、マザーボード505(図2の201に対応)から送信されるデジタルデータをアナログ音声に変換する。デジタルデータの送受信にはUSBインタフェースを使用する。アナログ音声の収集にはマイク503を使用する。また、USBインタフェース504の出力はオーディオアンプ502によって増幅し、スピーカ501から出力する。なお、USBオーディオインタフェース504の替わりに、マザーボード505に実装されているオーディオインタフェースを使用してもよい。
【0046】
図2の構成を、ユーザが片手で持つことが可能な筐体に実装した例の斜視図を図6、および、その三面図を図7(a)〜図7(c)に示す。主筐体601には、画像指示装置205と画像表示装置204とボタン205が実装されている。603および604はそれぞれ、ボタン403およびボタン404に相当する。副筐体602には、音声入出力装置203が実装されている。本通訳装置を利用しない場合は、画像表示装置204の表示面を副筐体602が覆って保護する。
【0047】
本通訳装置を利用する場合は、図8のように副筐体802を音声入出力装置203(マイク803)の指向性の方向がユーザの顔を向く所定の位置まで移動させてから利用する。その三面図を図9(a)〜図9(c)に示す。すなわち副筐体802に実装されたスピーカ804がユーザ方向を向くまで持ち上げ、さらにマイク803も同じく持ち上げる。この状態でタッチパネル付LCD805が使用可能になる。
【0048】
図10(a)〜図10(c)に主筐体601に対する実装の様子を示す。4インチVGALCDユニット301とタッチパネル402は重ねられ、タッチパネル付LCD1005として実装される。図11(a)〜図11(c)に副筐体602に対する実装の様子を示す。
【0049】
図12に本発明のプログラムとデータの実施の形態であるソフトウェア構成図を示す。図12において、1201は各構成要素に指示を行い、各構成要素からのデータの流れを制御する制御部、1202は制御部1201からの情報の表示や、ユーザからの入力を制御部1201に送るGUI(Graphical User Interface)部、1203は制御部1201からの指示によりユーザの音声を収録する音声入力部、1204は音声入力部から送られるユーザの音声を連続音声認識する音声認識部、1205は原言語と目的言語の用例の対応を保持する用例データベース、1206は用例データベース1205において、クラス化されている単語を保持する単語クラス辞書、1207は制御部1201から送られてくる音声認識結果から、用例データベース1205を参照して用例の選択を行う用例選択部、1208は制御部1201からの指示に従って、用例選択部1207により選択された用例の中からクラス化された単語の選択を行う単語選択部、1209は制御部1201により指定されたクラス化された単語に変わることが可能である単語を単語クラス辞書1206を参照することにより、代替単語を選択する代替単語選択部、1210は制御部1201により指定された用例を用例データベース1205および単語クラス辞書1206を参照することにより目的言語に変換する言語変換部、1211は制御部より指定された目的言語による用例文を音声合成して出力する音声合成部で構成する。尚、ここで、用例データベース1205〜言語変換部1210をまとめて翻訳部1220と呼ぶ。
【0050】
ここで、本発明の音声認識手段は、音声認識部1204に対応し、本発明の変換対象選定手段は、用例選択部1207等に対応する。又、本発明の画面表示特定手段は、単語選択部1208等に対応し、本発明の候補選定手段は、代替単語選択部1209等に対応する。又、本発明の変換手段は、言語変換部1210と音声合成部1211などを含む構成部分に対応する。
【0051】
図14に、用例データベース1205の具体例を示す。用例は対話の1文に対応しており、各用例において予め定められた情報(原言語の構成要素、構成要素の依存関係)とともに、原言語と目的言語の対応を保持している。<>で囲まれた原言語の単語は、クラス化された単語であることを示す。クラス化された単語は、同じクラスの単語と置き換えることが可能であることを示す。
【0052】
図15に単語クラス辞書1206の具体例を示す。ここで、クラスとは「果物」のように抽象度の高い単語のことであり、クラスに属する単語とは、「りんご」や「みかん」のようにクラスの具体的な実体を表現する単語である。なお、クラス化の抽象度は、音声認識部1204の性能に応じて変更することにより、効率的に用例選択を行うことが可能である。また、クラスを階層化して単語クラス辞書1206を構成してもよい。
【0053】
図16にタッチパネル付LCD805に表示されたGUI部1202の詳細を示す。1601は翻訳の方向を指定する翻訳方向指定部、1603は音声認識部1204により認識された音声認識結果を表示する音声認識結果表示部、1604は用例選択部1207により、選択された用例文を表示する用例候補表示部、1605はユーザにより指定された用例を表示する用例選択結果表示部、1606は言語変換部が目的言語に変換した用例を表示する翻訳結果表示部、1607、1608はそれぞれボタン806、ボタン807に相当し、ユーザによる入力を行う。また、タッチパネル付LCD805に対して、ユーザはポインティング入力を行うことが可能である。
【0054】
図13は本発明のソフトウェアのフローチャートである。1301は翻訳の方向を選択するステップ、1302はマイク803で音声を入力し音声認識を行うステップ、1303は音声認識結果に基づいて用例データベース1205から用例を検索するステップ、1304は検索した用例からユーザが用例の選択を行うステップ、1305はステップ1304で選択した用例を修正するか、または翻訳を行うかを決定するステップ、1306はステップ1304で選択した用例において修正する単語を選択するステップ、1307はステップ1306で選択した修正する単語に置き換え可能な単語の一覧を出力するステップ、1308はステップ1307で出力した単語の一覧からユーザが希望する単語を選択するステップ、1309はステップ1308により変更した単語に用例を置き換えるステップ。1310はステップ1305により決定された用例文を目的言語に変換するステップ、1311は、ステップ1309により目的言語に変換された用例を音声合成し、スピーカ804から出力するステップである。
【0055】
以下、本発明のソフトウェアの動作を図13のフローチャートと、図17から図25のタッチパネル付LCD805に表示されるGUI部1202の表示内容を参照しながら説明する。一例として、ユーザが「アスピリンはありますか」という文を翻訳したい場合について説明する。具体的には、ユーザは「薬はありますか」と入力してから、「薬」の部分を「アスピリン」に置き換える操作を行う。本発明では、タッチパネルとボタンを利用して2種類の入力操作が可能であるので、以下ではタッチパネル入力、ボタン入力の順で説明する。
【0056】
タッチパネル入力の場合のステップ1301からステップ1303までのGUI部1202の表示内容を図17に示す。ステップ1301では、ユーザは翻訳方向指定部1701をタッチパネル入力によりクリックし日英方向の翻訳を指定する。この時、GUI部1202は翻訳方向を制御部1201に送信し、制御部1201は音声入力部1203に音声入力を指示する。ユーザはマイク803を用いて「何か薬はありますか」と発声する。音声入力部1203は、入力された音声を音声認識部1204に送信する。ステップ1302では、音声認識部1204が指定された翻訳方向に対応する音声認識を行い、誤認識を含んだ認識結果「7日薬はありますか」を制御部1201に送信したとする。制御部1201は、音声認識結果をGUI部1202、および用例選択部1207に送信する。GUI部1202は送信された音声認識結果を認識結果表示部1702に表示する。一方、ステップ1303では、用例選択部1207が音声認識結果に基づき、以下の方法で用例を検索し、検索された用例を制御部1201に送信する。
【0057】
用例選択部1207は、「7日薬はありますか」という音声認識結果から、用例データベース1205で定義されている重要語の集合として、「7日」,「薬」,「あり」を抽出する。
【0058】
ここで、「7日」はクラス化された単語<日数>に帰属し、「薬」はクラス化された単語<薬>に帰属する。「あり」はいかなるクラス化された単語にも帰属しない。
【0059】
用例選択部1207は、図14の構成要素の依存関係を順次確認し、依存関係が1つ以上成立する用例の中で、成立数が多い用例から順に選択する。例えば、用例番号1の用例については、重要語の上記集合の中に「かかり」が存在しないので依存関係の成立数は0である。用例番号2の用例については、重要語の上記集合の中に「何か」が存在しないので、構成要素の依存関係の中で、(1→2)は成立しないが、(2→3)は成立する(図14参照)。したがって、依存関係の成立数は1である。
【0060】
用例選択部1207が、依存関係の成立数が1以上の用例を用例データベース1205の中から選択するように設計すると、図14で用例番号1の用例は選択されず、用例番号2の用例は選択される。重要語の集合の中に「何か」が存在しないので、選択された用例番号2の用例については、
・「薬はありますか」
という表記を出力する。
【0061】
以下の説明では、用例データベース1205の中の他の用例、
・「薬ですか」
・「薬です」
が上記と同様に選択されたとして説明する。
【0062】
制御部1201は、用例選択部1207から送信された用例文をGUI部1202に送信する。GUI部1202は、選択された用例文を用例候補表示部1703に表示する。
【0063】
ステップ1304のGUI部1202の表示内容を図18に示す。ステップ1304では、用例候補表示部1703に表示されている用例候補の中からタッチパネル入力で1801をクリックすることにより、ユーザは自分が発声した文章を同じ文意の用例「薬はありますか」を選択する。この時、GUI部1202は選択された用例文を制御部1201に送信する。
【0064】
ステップ1305のGUI部1202の表示内容を図19に示す。ステップ1305では、GUI部1202は用例結果表示部1901に選択された用例文を表示し、用例候補表示部1902をクリアする。その後、用例を決定し翻訳を行うか、用例を修正してクラス化された単語を代替可能な単語で置き換えるかを選択する。この時、ユーザは用例結果表示部1901をタッチパネルでクリックすることにより、用例を決定することが可能である。決定された用例は制御部1201に送信される。また、ユーザは用例結果表示部1901をタッチパネルでダブルクリックすることにより、用例中の単語を置き換えるモードに移行することが可能である。
【0065】
ステップ1305で用例を決定した場合のGUI部1202の表示内容を図20に示す。ステップ1310で、制御部1201は、ユーザが決定した用例「薬はありますか」を言語変換部1210に送信する。言語変換部1210は、用例データベース1205を用いて目的言語「Any medicine」に変換し、変換結果を制御部1201に送信する。制御部1201では、変換結果をGUI部1202、および音声合成部1211に送信する。ステップ1311では、GUI部1202は、変換結果を通訳結果表示部2001に表示する。一方、音声合成部1211は、変換結果を音声合成してスピーカ804から出力する。
【0066】
ステップ1306のGUI部1202の表示内容を図21に示す。ステップ1306では、ユーザがステップ1305で、単語選択モードを選択した場合に、変更する単語を選択する。この時、制御部1201は、単語選択部1208に単語選択を指示する。単語選択部1208は、用例の中からクラス化されている単語「薬」を抽出し、制御部1201に送信する。制御部1201は、GUI部1202に単語を送信し、GUI部1202は、用例結果表示部2101に表示されている「薬」に下線を引きユーザに変更可能な単語であることを表示する。ユーザはタッチパネル入力で、修正したい単語「薬」をクリックする。GUI部1202は、選択された単語を制御部1201に送信する。
【0067】
ステップ1307のGUI部1202の表示内容を図22に示す。ステップ1307では、ステップ1306によりユーザに指定された単語「薬」の代替単語の一覧を表示する。制御部1201はユーザが指定した単語「薬」を代替単語選択部1209に送信する。代替単語選択部1209は、図15に示す単語クラス辞書1206を参照し、ユーザが指定した単語「薬」と同じクラスの単語
・「アスピリン」
・「かぜ薬」
・「トローチ」
・「胃腸薬」
を抽出し、制御部1201に送信する。制御部1201は、GUI部1202に代替単語の一覧を送信し、GUI部1202は、リストウィンドウ2201に代替単語の一覧を表示する。
【0068】
ステップ1308のGUI部1202の表示内容を図23に示す。ステップ1308は、リストウィンドウ2201に示された代替単語一覧の中から希望する単語を選択する。この時、GUI部1202はユーザのタッチパネル入力によりユーザの希望する代替単語2301をクリックすることにより代替単語「アスピリン」を取得し、制御部1201に送信する。
【0069】
ステップ1309のGUI部1202の表示内容を図24に示す。ステップ1309は、指定された代替単語「アスピリン」により用例を「アスピリンはありますか」に変更する。その後、GUI部1202は、用例結果表示部2401に表示されている用例を「アスピリンはありますか」に変更して表示する。そして、ステップ1305に戻る。
【0070】
図25は、ステップ1305からステップ1308を繰り返し、ユーザがステップ1305で用例決定を選択し、「アスピリンはありますか」を目的言語「Any aspirin」に変換し、合成音声を出力するときのGUI部1202の表示内容である。
【0071】
次に、ボタン入力の場合の場合について説明する。以下の説明では、SW1はボタン806、SW2はボタン807にそれぞれ物理的に相当する。
【0072】
ステップ1301からステップ1303までのGUI部1202の表示内容を図17に示す。ステップ1301では、SW1をクリックことにより日英方向の翻訳を指定し、SW2をクリックすることにより英日方向の翻訳を指定する。この場合SW1をクリックすることにより日英方向の翻訳を指定する。この時、GUI部1202は翻訳方向を制御部1201に送信し、制御部1201は音声入力部1203に音声入力を指示する。ユーザはマイクロホン803を用いて「何か薬はありますか」と発声する。音声入力部1203は、入力された音声を音声認識部1204に送信する。ステップ1302では、音声認識部1204が指定された翻訳方向に対応する音声認識を行い、誤認識を含んだ認識結果「7日薬はありますか」を制御部1201に送信したとする。制御部1201は、音声認識結果をGUI部1202、および用例選択部1207に送信する。GUI部1202は送信された音声認識結果を認識結果表示部1702に表示する。一方、ステップ1303では、用例選択部1207が音声認識結果に基づいて、用例を制御部1201に送信する。
【0073】
用例選択部1207は、「7日薬はありますか」という音声認識結果から、用例データベース1205で定義されている重要語の集合として、「7日」,「薬」,「あり」を抽出する。
【0074】
ここで、「7日」はクラス化された単語<日数>に帰属し、「薬」はクラス化された単語<薬>に帰属する。「あり」はいかなるクラス化された単語にも帰属しない。
【0075】
用例選択部1207は、図14の構成要素の依存関係を順次確認し、依存関係が1つ以上成立する用例の中で、成立数が多い用例から順に選択する。例えば、用例番号1の用例については、重要語の上記集合の中に「かかり」が存在しないので依存関係の成立数は0である。用例番号2の用例については、重要語の上記集合の中に「何か」が存在しないので、構成要素の依存関係の中で、(1→2)は成立しないが、(2→3)は成立する(図14参照)。したがって、依存関係の成立数は1である。
【0076】
用例選択部1207が、依存関係の成立数が1以上の用例を用例データベース1205の中から選択するように設計すると、図14で用例番号1の用例は選択されず、用例番号2の用例は選択される。重要語の集合の中に「何か」が存在しないので、選択された用例番号2の用例については、
・「薬はありますか」
という表記を出力する。
【0077】
以下の説明では、用例データベース1205の中の他の用例、
・「薬ですか」
・「薬です」
が上記と同様に選択されたとして説明する。
【0078】
制御部1201は、用例選択部1207から送信された用例文をGUI部1202に送信する。GUI部1202は、選択された用例文を用例候補表示部1703に表示する。
【0079】
ステップ1304のGUI部1202の表示内容を図18に示す。ステップ1304では、用例候補表示部1604に表示されている用例候補の中からボタン入力により、ユーザは自分が発声した文章を同じ文意の用例「薬はありますか」を選択する。選択方法は、SW1をクリックすることにより指定される行が一行上に移動し、またSW2をクリックすることにより、指定される行が一行下に移動する。用例を選択する場合には、SW1をダブルクリックすることにより選択する。この時、GUI部1202は選択された用例文を制御部1201に送信する。
【0080】
ステップ1305のGUI部1202の表示内容を図19に示す。ステップ1305では、GUI部1202は用例結果表示部1901に選択された用例文を表示し、用例候補表示部1902をクリアする。その後、用例を決定し翻訳を行うか、用例を修正してクラス化された単語を代替可能な単語で置き換えるかを選択する。この時、ユーザはボタン入力でSW2をクリックすることにより、用例を決定することが可能である。決定された用例は制御部1201に送信される。また、ボタン入力でSW1をクリックすることにより、用例中の単語の置き換えモードに移行することが可能であり、制御部1201に送信される。
【0081】
ステップ1305で用例を決定した場合のGUI部1202の表示内容を図20に示す。ステップ1310で、制御部1201は、ユーザが決定した用例「薬はありますか」を言語変換部1210に送信する。言語変換部1210は、用例データベース1205を用いて目的言語「Any medicine」に変換し、変換結果を制御部1201に送信する。制御部1201では、変換結果をGUI部1202、および音声合成部1211に送信する。ステップ1311では、GUI部1202は、変換結果を通訳結果表示部2001に表示する。一方、音声合成部1211は、変換結果を音声合成してスピーカ804から出力する。
【0082】
ステップ1306のGUI部1202の表示内容を図21に示す。ステップ1306では、ユーザがステップ1305で、単語選択モードを選択した場合に、変更する単語を選択する。この時、制御部1201は、単語選択部1208に単語選択を指示する。単語選択部1208は、用例の中からクラス化されている単語「薬」を抽出し、制御部1201に送信する。制御部1201は、GUI部1202に単語を送信し、GUI部1202は、用例結果表示部2101に表示されている「薬」に下線を引きユーザに変更可能な単語であることを表示する。ユーザはボタン入力で、修正したい単語「薬」を選択する。すなわち、SW1をクリックすることにより1単語左に移動し、SW2をクリックすることにより1単語右に移動する。また、SW1をダブルクリックすることにより修正単語を選択することが可能である。GUI部1202は、選択された単語を制御部1201に送信する。
【0083】
ステップ1307のGUI部1202の表示内容を図22に示す。ステップ1307では、ステップ1306によりユーザに指定された単語「薬」の代替単語の一覧を表示する。制御部1201はユーザが指定した単語「薬」を代替単語選択部1209に送信する。代替単語選択部1209は、図15に示す単語クラス辞書1206を参照し、ユーザが指定した単語「薬」と同一クラスの単語
・「アスピリン」
・「かぜ薬」
・「トローチ」
・「胃腸薬」
を抽出し、制御部1201に送信する。制御部1201は、GUI部1202に代替単語の一覧を送信し、GUI部1202は、リストウィンドウ2201に代替単語の一覧を表示する。
【0084】
ステップ1308のGUI部1202の表示内容を図23に示す。ステップ1308は、リストウィンドウ2201に示された代替単語一覧の中から希望する単語を選択する。この時、GUI部1202はユーザのボタン入力によりユーザの希望する代替単語「アスピリン」を取得し、制御部1201に送信する。入力方法は、SW1をクリックすることにより、1単語上の単語にカーソルが移動し、SW2をクリックすることにより、1単語下の単語にカーソルが移動する。単語を選択するときは、SW1をダブルクリックすることにより選択することが可能である。
【0085】
ステップ1309のGUI部1202の表示内容を図24に示す。ステップ1309は、指定された代替単語「アスピリン」により用例を「アスピリンはありますか」に変更する。その後、GUI部1202は、用例結果表示部2401に表示されている用例を「アスピリンはありますか」に変更して表示する。そして、ステップ1305に戻る。
【0086】
図25は、ステップ1305からステップ1308を繰り返し、ユーザがステップ1305で、用例決定を選択し、「アスピリンはありますか」を目的言語「Any aspirin」に変換し、合成音声を出力するときのGUI部1202の表示内容である。
【0087】
なお、以上の説明では、GUI部1202に対するユーザの入力をタッチパネル入力、ボタン入力のそれぞれに限定して説明したが、音声認識処理を用いて音声で単語や用例を選択決定することも可能である。また、タッチパネル、ボタン、音声の各入力モダリティを組み合わせて操作することも可能である。また、一例として日本語と英語を取り上げたが、中国語など他の言語についても同様に実施可能であり、本発明は言語に依存しない。
【0088】
又、本発明の単語列は、上記実施の形態では、複数の単語から構成された文章の場合を例にして説明したが、これに限らず例えば、「こんにちは」の様に一つの単語から構成されていても良い。
【0089】
又、本発明の第1の抽出・表示手段と、第2の抽出・表示手段は、上記実施の形態では、同一の表示装置により実現する場合について説明したが、これに限らず例えば、それぞれ独立した表示装置により実現する構成としても良い。
【0090】
以上説明した様に、本発明の一例である音声通訳装置は、音声による入力に基づいて用例を選択し、翻訳を行う音声通訳装置であって、前記音声通訳装置のハードウェアが、音声のモダリティとして音声入出力装置を備え、画像のモダリティとして画像出力装置を備え、接触モダリティとして1個以上のボタンと画像指示装置を備え、ユーザによって前記音声入出力装置と前記画像指示装置と前記ボタンから入力される原言語に関するデータを目的言語に関するデータへ音声言語的に変換し、前記音声入出力装置と前記画像出力装置に前記出力データを出力する演算制御装置と、前記演算制御装置に前記処理の手順を指示するプログラムとデータを保持する外部大容量不揮発性記憶装置と、前記演算制御装置が外部機器と前記プログラムとデータを交換するための外部データ入出力端子と、前記演算制御装置を駆動するために必要な電源を供給する電源装置によって構成されることを特徴とする音声通訳装置である。
【0091】
又、他の一例は、上記演算制御装置としてPC/AT互換のマザーボードを使用することを特徴とする上記音声通訳装置である。
【0092】
又、他の一例は、上記の外部大容量不揮発性記憶装置として、2.5インチ以下のハードディスクドライブを使用することを特徴とする上記音声通訳装置である。
【0093】
又、他の一例は、上記外部大容量不揮発性記憶装置として、フラッシュメモリディスクを使用することを特徴とする上記音声通訳装置である。
【0094】
又、他の一例は、上記画像出力装置として、解像度の縦方向が240ドット以上、かつ、横方向が240ドット以上の液晶表示装置を使用することを特徴とする上記音声通訳装置である。
【0095】
又、他の一例は、上記ボタンとしては、2個の機械式ボタンを使用し、上記マザーボードにマウスを接続したときのマウスボタンに機能的に相当させることを特徴とする上記音声通訳装置である。
【0096】
又、他の一例は、上記画像指示装置としては、上記液晶表示装置の表示面と同等の大きさ、もしくは前期表示面を包含する大きさのタッチパネルを使用することを特徴とする上記音声通訳装置である。
【0097】
又、他の一例は、上記外部データ入出力端子は、上記マザーボードの入出力端子の中の、キーボード接続端子、アナログディスプレイ出力端子、ローカルエリアネットワーク端子を利用することを特徴とする上記音声通訳装置である。
【0098】
又、他の一例は、上記音声入出力装置は、上記マザーボードのUSB端子を通じてアナログ音声データとデジタル音声データを入出力するUSBオーディオインタフェースと、ユーザの発声を収集して前記USBオーディオインタフェースに与えるマイクと、前記USBオーディオインタフェースの出力を増幅するオーディオアンプと、前記オーディオアンプに接続されるスピーカによって構成することを特徴とする上記音声通訳装置である。
【0099】
又、他の一例は、上記音声入出力装置は、上記マザーボードのオーディオインタフェースと、ユーザの発声を収集して前記オーディオインタフェースに与えるマイクと、前記オーディオインタフェースの出力を増幅するオーディオアンプと、前記オーディオアンプに接続されるスピーカによって構成することを特徴とする上記音声通訳装置である。
【0100】
又、他の一例は、上記電源装置は、リチウムイオン2次電池によって構成されることを特徴とする上記音声通訳装置である。
【0101】
又、他の一例は、上記音声通訳装置は、ユーザが片手に持つことが可能で、かつ、前記片手の親指によってボタンを容易に操作することが可能で、かつ、他方の手で画像指示装置を操作することが可能で、かつ、画像表示装置の表示面の法線の方向と、音声入出力装置の指向性の方向が前記ユーザの顔に容易に向くようにデザインされていることを特徴とする上記音声通訳装置である。
【0102】
又、他の一例は、上記音声通訳装置は、ボタンと画像指示装置と画像表示装置が実装される主筐体と、音声入出力装置が実装される副筐体によって構成され、前記音声通訳装置を利用しない場合は前記画像表示装置の表示面を前記副筐体が覆って保護し、かつ、前記音声通訳装置を利用する場合は前記副筐体を前記音声入出力装置の指向性の方向がユーザの顔を向く所定の位置まで移動させてから利用することを特徴とする上記音声通訳装置である。
【0103】
又、本発明の一例は、音声による入力に基づいて用例を選択し、翻訳を行う音声通訳装置において、前記音声通訳装置のソフトウェアが、ユーザとの入出力を行うGUI部と、音声を入力して音声認識を行う原言語入力部と、前記原言語入力部から入力された原言語から目的言語への翻訳を行う翻訳部と、前記翻訳部により翻訳された目的言語を音声合成して出力する音声合成部と、前記原言語入力部と前記GUI部と前記翻訳部と前記音声合成部を制御する制御部で構成されることを特徴とする音声通訳装置である。
【0104】
又、他の一例は、上記用例としては、対話における1文を単位とすることを特徴とする上記音声通訳装置である。
【0105】
又、他の一例は、上記用例としては、旅行会話において使用される頻度が高い文型を保持することを特徴とする上記音声通訳装置である。
【0106】
又、他の一例は、上記用例に含まれる単語は、前記単語を置き換えることが可能な関連のある単語と共にクラス化されていることを特徴とする上記音声通訳装置である。
【0107】
又、他の一例は、上記原言語入力部は、制御部からの指示により音声入力を行う音声入力部と、前記音声入力部から入力される音声に対して連続音声認識を行って単語列に変換する音声認識部で構成されることを特徴とする上記音声通訳装置である。
【0108】
又、他の一例は、上記翻訳部は、原言語と目的言語の用例の対応を保持する用例データベースと、前記用例データベースに含まれる単語のクラス情報を保持する単語クラス辞書と、原言語入力部からの入力に基づいて、前記用例データベースから該当する用例を選択する用例選択部と、前記用例選択部により選択された用例の中から修正する単語を選択する単語選択部と、前記単語選択部により選択された単語と置き換えることが可能な単語を前記単語クラス辞書から選択する代替単語選択部と、決定された用例に基づいて前記用例データベースにより目的言語に変換する言語変換部によって構成することを特徴とする上記音声通訳装置である。
【0109】
又、他の一例は、上記GUI部は、表示部に翻訳の方向を指定する翻訳方向指定部と、原言語入力部により出力される音声認識結果を表示する音声認識結果表示部と、前記用例選択部により用例データベースから選択された用例を表示する用例候補表示部と、ユーザにより選択された用例を表示する用例結果表示部と、言語変換部により出力される目的言語の用例を出力する通訳結果表示部で構成されることを特徴とする上記音声通訳装置である。
【0110】
又、他の一例は、上記GUI部は、ユーザが用例を用例候補表示部に表示された用例の中から選択する場合に、希望する前記用例をタッチパネル操作またはボタン操作によって選択すること特徴とする上記音声通訳装置である。
【0111】
又、他の一例は、上記単語選択部は、1個以上の修正可能な単語をユーザに提示する場合に、GUI部の用例結果表示部の修正可能な単語に印を付加することを特徴とする上記音声通訳装置である。
【0112】
又、他の一例は、上記修正可能な単語の印は、前記単語に下線を引く、または、前記単語を反転表示する、または、前記単語を太字にする、または、前記単語を点滅表示することを特徴とする上記音声通訳装置である。
【0113】
又、他の一例は、上記単語選択部は、ユーザが修正単語を選択するときに、GUI部をタッチパネル操作、または、ボタン操作、または、音声認識による音声操作で決定することを特徴とする上記音声通訳装置である。
【0114】
又、他の一例は、上記代替単語選択部は、代替単語を選択する場合に、前記代替単語選択部が単語クラス辞書を用いて代替候補一覧を取得し、GUI部によって前記代替候補一覧をリスト状に並べて表示することを特徴とする上記音声通訳装置である。
【0115】
又、他の一例は、上記代替候補一覧から代替候補を選択する場合は、GUI部のタッチパネル操作、または、ボタン操作、または、音声認識による音声操作によって前記代替候補を選択することを特徴とする上記音声通訳装置である。
【0116】
又、他の一例は、上記GUI部は、ユーザが希望する用例に変更することができた場合、タッチパネル操作、または、ボタン操作によって用例を決定し、上記言語変換部によって目的言語に翻訳を行い、上記音声合成部によって前記用例の合成音声を出力することを特徴とする上記音声通訳装置である。
【0117】
以上述べたところから明らかなように、小型のハードウェアは音声通訳装置として、ユーザが海外旅行に出かけるときに無理なく携行することができる。また、そのユーザインタフェースは片手で簡単に操作することができるのでショッピングやレストランなど、様々なシーンで容易に利用することができる。さらに、クラスを代表する単語を用いて音声を入力し、用例を確定した後、同じクラスの関連する単語と置き換えることができるので、少ない認識対象語彙でも音声通訳装置としての利用価値が低下しない。
【0118】
次に、上記従来技術における上記第2の課題を解決するための、本願発明に関連する技術の他の発明である音声変換装置の一実施の形態の音声入力翻訳装置について、図面を参照しながら説明する。
【0119】
本実施の形態の構成を図26に示す。
【0120】
同図に示す様に、音声入力部4101、翻訳支援部4108、音声翻訳部4102、表示部4103、音声出力部4107によって基本的な音声翻訳機能を実現する。
【0121】
ここで、本実施の形態の装置内部の構成については、上記実施の形態において既に説明済みであるので、ここでは詳細な説明は省略する。
【0122】
尚、本実施の形態の構成(図26参照)と、例えば図12に示した構成との対応関係は次の通りである。図26の音声入力部4101は、図12の音声入力部1203と対応し、音声翻訳部4102は翻訳部1220及び音声認識部1204等に対応する。又、翻訳支援部4108及び表示部4103はGUI部1202等に対応し、音声出力部4107は音声合成部1211等に対応する。
【0123】
次に、本実施の形態の特有の構成部分について述べる。
【0124】
図26において、言語変換方向制御部4105は2人の利用者の、どちらに翻訳装置の操作権限があるかを決定し、音声入力部4101の入力形態を制御し、音声翻訳部4102に対して翻訳方向を指定し、表示部4103の表示内容を指示する。ここで、2人の利用者の内、一方は日本語(本発明に関連する技術の他の発明の第1の言語に対応)を使用し、他方は英語(本発明に関連する技術の他の発明の第2の言語に対応)を使用するものとする。
【0125】
言語変換方向検出部4104は、言語変換方向制御部4105が操作権限のある利用者を決定するために必要な情報を収集する。対話管理部4106は、表示部4103に表示される翻訳対を逐次保持し、それを用いて、利用者の間で交わされた対話の履歴として、何れか一方の言語で表示部4103に表示する(図29参照)。
【0126】
以下の例では、図27等を参照しながら、日本語と英語についての翻訳装置の動作について説明するとともに、本発明に関連する技術の他の発明の音声変換方法の一実施の形態についても同時に述べる。
【0127】
ここで、例えば、図27に示す様に、翻訳装置を挟んで、図中の下方側に日本語の利用者、上方側に英語の利用者が互いに向き合っているものとする。
【0128】
図27の音声入力翻訳装置は、言語変換方向検出部4104がボタンである音声入力翻訳装置である。初期状態として言語変換方向制御部4105は日本語から英語への変換方向を指示していると仮定する。入力部4101はマイク4202とマイク4206で構成されるが、日本語の入力をするためにマイク4206の入力は遮断される。利用者は音声入力ボタン4201を押してから入力部4101のマイク4202に向かって発声する(例えば「くすりはありませんか」)。発声した音声は音声翻訳部4102で翻訳される。
【0129】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0130】
音声翻訳部4102は、音声入力部4101から日本語の音声を受け取った場合、それを音声認識し、その認識結果に対応する、日本語の一つ又は複数の単語列を抽出し、表示部4103に用例候補として表示する。
【0131】
即ち、表示部4103の用例候補選択ウィンドウ4203に用例候補が表示されて(例えば、「薬ですか」、「薬はありますか」、「薬です」の3個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ4204に選択された用例が表示されて(例えば「薬はありますか」)、用例を翻訳した英語のテキストが音声出力部4107から発声される(例えば"Do you have medicine?")。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「薬はありますか」, "Do you have medicine?")という翻訳対)。相手の答えを求めるために、相手に翻訳装置の操作を促す場合は、言語変換方向検出部4104であるボタン4205を押す。
【0132】
言語変換方向制御部4105は言語変換方向検出部4104からの情報に基づき、音声翻訳部4102と表示部4103に対して英語から日本語への変換方向を指示する。表示部4103の表示内容は、対面の英語の利用者が使いやすいように図28のように180°回転して、英語の表示になる。入力部4101は、英語の入力をするためにマイク4307の入力が遮断され、マイク4303が有効になる。対話履歴ウィンドウ4301には、対話管理部4106から翻訳対の英語の方が表示される。具体的には、翻訳対として、例えば、「薬はありますか」と "Do you have medicine?"とからなる翻訳対と、「はい」と"Yes, I do."とからなる翻訳対が対話管理部4106に保持されている場合、図29に示す対話履ウィンドウ4401には、(日):「薬はありますか?」、(英):「はい」が表示される。利用者は音声入力ボタン4302を押してから入力部4101のマイク4303に向かって発声する(例えば"Yes, certainly")。発声した音声は音声翻訳部4102で翻訳される。
【0133】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0134】
音声翻訳部4102は、音声入力部4101から英語の音声を受け取った場合、それを音声認識し、その認識結果に対応する、英語の一つ又は複数の単語列を抽出し、表示部4103に用例候補として表示する。
【0135】
即ち、表示部4103の用例候補選択ウィンドウ4304に候補が表示されて(例えば、"Yes, I do."、"Surely."、"Certainly."の3個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ4305に選択された用例が表示されて(例えば"Yes, I do.")、用例を翻訳した日本語のテキストが音声出力部4107から発声される(例えば「はい。」)。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「はい」, "Yes, I do.")という翻訳対)。相手の答えを求めるために、相手に翻訳装置の操作を促す場合は、言語変換方向検出部4104であるボタン4306を押す。
【0136】
言語変換方向制御部4105は言語変換方向検出部4104からの情報に基づき、音声翻訳部4102と表示部4103に対して日本語から英語への変換方向を指示する。表示部4103の表示内容は、対面の日本語の利用者が使いやすいように図29のように180°回転して、日本語の表示になる。入力部4101は、日本語の入力をするためにマイク4405の入力が遮断され、マイク4403が有効になる。対話履歴ウィンドウ4401には、対話管理部4106から翻訳対の日本語の方が表示される。利用者は音声入力ボタン4402を押してから入力部4101のマイク4403に向かって発声する(例えば「ありがとうございます」)。発声した音声は音声翻訳部4102で翻訳される。
【0137】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0138】
即ち、表示部4103の用例候補選択ウィンドウ4413に候補が表示されて(例えば、「ありがとう。」の1個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ4414に選択された用例が表示されて(例えば「ありがとう。」)、用例を翻訳した日本語のテキストが音声出力部4107から発声される(例えば"Thank you.")。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「ありがとう」, "Thank you.")という翻訳対)。さらに相手の答えを求めるために、相手に翻訳装置の操作を促す場合は、言語変換方向検出部4104であるボタン4404を押す。
【0139】
図30の音声入力翻訳装置は、言語変換方向検出部4104がマイク4501の傾斜角度センサー4502である音声入力翻訳装置である。すなわち、マイク4501が日本語の利用者の方に傾斜しているか、英語の利用者の方に傾斜しているかを判断するために角度センサー4502を用いている。図30の状態では言語変換方向制御部4105は日本語から英語への変換方向を指示している。利用者は音声入力ボタン4503を押してから入力部4101のマイク4501に向かって発声する(例えば「くすりはありませんか」)。発声した音声は音声翻訳部4102で翻訳される。
【0140】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0141】
即ち、表示部4103の用例候補選択ウィンドウ4504に候補が表示されて(例えば、「薬ですか」「薬はありますか」「薬です」の3個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ4505に選択された用例が表示されて(例えば「薬はありますか」)、用例を翻訳した英語のテキストが音声出力部4107から発声される(例えば"Do you have medicine?")。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「薬はありますか」, "Do you have medicine?")という翻訳対)。相手の答えを求めるために、相手に翻訳装置の操作を促す場合は、マイク4501を英語の利用者の方に向ける。
【0142】
言語変換方向制御部4105は言語変換方向検出部4104からの情報に基づき、音声翻訳部4102と表示部4103に対して英語から日本語への変換方向を指示する。表示部4103の表示内容は、対面の英語の利用者が使いやすいように図31のように180°回転して、英語の表示になる。対話履歴ウィンドウ4601には、対話管理部4106から翻訳対の英語の方が表示される。利用者は音声入力ボタン4602を押してから入力部4101のマイク4603に向かって発声する(例えば"Yes, certainly")。発声した音声は音声翻訳部4102で翻訳される。
【0143】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0144】
即ち、表示部4103の用例候補選択ウィンドウ4604に候補が表示されて(例えば、"Yes, I do."、"Surely."、"Certainly."の3個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ4605に選択された用例が表示されて(例えば"Yes, I do.")、用例を翻訳した日本語のテキストが音声出力部4107から発声される(例えば「はい。」)。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「はい」, "Yes, I do.")という翻訳対)。相手の答えを求めるために、マイク4603を日本語の利用者の方へ向ける。
【0145】
言語変換方向制御部4105は言語変換方向検出部4104からの情報に基づき、音声翻訳部4102と表示部4103に対して日本語から英語への変換方向を指示する。表示部4103の表示内容は、対面の日本語の利用者が使いやすいように図32のように180°回転して、日本語の表示になる。対話履歴ウィンドウ4701には、対話管理部4106から翻訳対の日本語の方が表示される。利用者は音声入力ボタン4702を押してから入力部4101のマイク4703に向かって発声する(例えば「ありがとうございます」)。発声した音声は音声翻訳部4102で翻訳される。
【0146】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0147】
即ち、表示部4103の用例候補選択ウィンドウ4704に候補が表示されて(例えば、「ありがとう。」の1個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ4705に選択された用例が表示されて(例えば「ありがとう。」)、用例を翻訳した日本語のテキストが音声出力部4107から発声される(例えば"Thank you.")。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「ありがとう」, "Thank you.")という翻訳対)。さらに相手の答えを求めるために、相手に翻訳装置の操作を促す場合は、マイク4703を英語の利用者の方に向ける。
【0148】
図33の音声入力翻訳装置は、言語変換方向検出部4104が本体の傾きを検出するジャイロセンサー4801である音声入力翻訳装置である。ジャイロセンサーの状態で言語変換方向制御部4105は日本語から英語への変換方向を指示していると仮定する。入力部4101はマイク4802とマイク4803で構成されるが、日本語の入力をするためにマイク4803の入力は遮断される。利用者は音声入力ボタン4804を押してから入力部4101のマイク4802に向かって発声する(例えば「くすりはありませんか」)。発声した音声は音声翻訳部4102で翻訳される。
【0149】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0150】
即ち、表示部4103の用例候補選択ウィンドウ4805に候補が表示されて(例えば、「薬ですか」「薬はありますか」「薬です」の3個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ4806に選択された用例が表示されて(例えば「薬はありますか」)、用例を翻訳した英語のテキストが音声出力部4107から発声される(例えば"Do you have medicine?")。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「薬はありますか」, "Do you have medicine?")という翻訳対)。相手の答えを求めるために、相手に翻訳装置の操作を促す場合は、音声翻訳装置を相手に差し出してさかさまになるように相手に手に持ってもらう。
【0151】
言語変換方向制御部4105はジャイロセンサー4901からの情報に基づき、音声翻訳部4102と表示部4103に対して英語から日本語への変換方向を指示する。表示部4103の表示内容は、対面の英語の利用者が使いやすいように図34のように180°回転して、英語の表示になる。入力部4101は、英語の入力をするためにマイク4902の入力が遮断され、マイク4903が有効になる。対話履歴ウィンドウ4904には、対話管理部4106から翻訳対の英語の方が表示される。利用者は音声入力ボタン4905を押してから入力部4101のマイク4903に向かって発声する(例えば"Yes, certainly")。発声した音声は音声翻訳部4102で翻訳される。
【0152】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0153】
即ち、表示部4103の用例候補選択ウィンドウ4906に候補が表示されて(例えば、"Yes, I do."、"Surely."、"Certainly."の3個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ4907に選択された用例が表示されて(例えば"Yes, I do.")、用例を翻訳した日本語のテキストが音声出力部4107から発声される(例えば「はい。」)。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「はい」, "Yes, I do.")という翻訳対)。相手の答えを求めるために、相手に翻訳装置の操作を促す場合は、音声翻訳装置を相手に差し出してさかさまになるように相手に手に持ってもらう。
【0154】
言語変換方向制御部4105はジャイロセンサー5001からの情報に基づき、音声翻訳部4102と表示部4103に対して日本語から英語への変換方向を指示する。表示部4103の表示内容は、対面の日本語の利用者が使いやすいように図35のように180°回転して、日本語の表示になる。入力部4101は、日本語の入力をするためにマイク5002の入力が遮断され、マイク5003が有効になる。対話履歴ウィンドウ5004には、対話管理部4106から翻訳対の日本語の方が表示される。利用者は音声入力ボタン5005を押してから入力部4101のマイク5003に向かって発声する(例えば「ありがとうございます」)。発声した音声は音声翻訳部4102で翻訳される。
【0155】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0156】
即ち、表示部4103の用例候補選択ウィンドウ5006に候補が表示されて(例えば、「ありがとう。」の1個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ5007に選択された用例が表示されて(例えば「ありがとう。」)、用例を翻訳した日本語のテキストが音声出力部4107から発声される(例えば"Thank you.")。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「ありがとう」, "Thank you.")という翻訳対)。さらに相手の答えを求めるために、相手に翻訳装置の操作を促す場合は、音声翻訳装置を相手に差し出してさかさまになるように相手に手に持ってもらう。
【0157】
図36の音声入力翻訳装置は、入力部4101と言語変換方向検出部4104が音源の方向を検出可能なマイクアレーユニット5101である音声入力翻訳装置である。マイクアレーユニット5101は、音源の方向を特定してから、指向性の鋭い集音を行う機能を持つものであり、一般的に幾何学的に配置される複数のマイクユニットと各マイクユニットからの出力をデジタル信号処理して1つの出力に変換する演算装置によって構成される。
【0158】
日本語の利用者が発声を開始すると(例えば「あの、」)、マイクアレーユニット5101は発声者の音声の方向を検出し、発声可能状態となる。発声可能状態でない間は表示部4103の背景色が利用者に注意を促す色で(例えば赤色)、発生可能状態になると許可を与えられた色になる(例えば緑色)。マイクアレーユニット5101の情報に基づき言語変換方向制御部4105は日本語から英語への変換方向を指示する。発生可能状態で、利用者が発声すると(例えば「くすりはありませんか」)、発声した音声は音声翻訳部4102で翻訳される。
【0159】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0160】
即ち、表示部4103の用例候補選択ウィンドウ5102に候補が表示されて(例えば、「薬ですか」「薬はありますか」「薬です」の3個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ5103に選択された用例が表示されて(例えば「薬はありますか」)、用例を翻訳した英語のテキストが音声出力部4107から発声される(例えば"Do you have medicine?")。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「薬はありますか」, "Do you have medicine?")という翻訳対)。
【0161】
相手が答えるために発声を開始すると(例えば"Hmm,")、マイクアレーユニット5201は発声者の音声の方向を検出し、発声可能状態となる。言語変換方向制御部4105はマイクアレーユニット5201からの情報に基づき、音声翻訳部4102と表示部4103に対して英語から日本語への変換方向を指示する。表示部4103の表示内容は、対面の英語の利用者が使いやすいように図37のように180°回転して、英語の表示になる。対話履歴ウィンドウ5202には、対話管理部4106から翻訳対の英語の方が表示される。発声可能状態で、英語の利用者が発声すると(例えば"Yes, certainly")、発声した音声は音声翻訳部4102で翻訳される。
【0162】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0163】
即ち、表示部4103の用例候補選択ウィンドウ5203に候補が表示されて(例えば、"Yes, I do."、"Surely."、"Certainly."の3個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ5204に選択された用例が表示されて(例えば"Yes, I do.")、用例を翻訳した日本語のテキストが音声出力部4107から発声される(例えば「はい。」)。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「はい」, "Yes, I do.")という翻訳対)。
【0164】
相手が答えるために発声を開始すると(例えば「あ、」)、マイクアレーユニット5301は発声者の音声の方向を検出し、発声可能状態となる。言語変換方向制御部4105はマイクアレーユニット5301からの情報に基づき、音声翻訳部4102と表示部4103に対して日本語から英語への変換方向を指示する。表示部4103の表示内容は、対面の日本語の利用者が使いやすいように図38のように180°回転して、日本語の表示になる。対話履歴ウィンドウ5302には、対話管理部4106から翻訳対の日本語の方が表示される。発生可能状態で、利用者が発声すると(例えば「ありがとう」)、発声した音声は音声翻訳部4102で翻訳される。
【0165】
尚、翻訳部4102における翻訳の動作は、上記実施の形態において図14等を参照して説明しているので、ここでは、詳細な説明は省略するが、概要は以下の通りである。
【0166】
即ち、表示部4103の用例候補選択ウィンドウ5303に候補が表示されて(例えば、「ありがとう。」の1個の用例)、翻訳支援部4108を用いて利用者がその中から1つを選択すると(例えばタッチパネルで選択)、用例結果ウィンドウ5304に選択された用例が表示されて(例えば「ありがとう。」)、用例を翻訳した日本語のテキストが音声出力部4107から発声される(例えば"Thank you.")。表示部4103から対話管理部4106に翻訳対が送られる(例えば、(「ありがとう」, "Thank you.")という翻訳対)。
【0167】
なお、タッチパネル、ボタン、音声の各入力モダリティを組み合わせたり、ボタンをタッチパネルで置換して操作することも可能である。また、一例として日本語と英語を取り上げたが、中国語など他の言語についても同様に実施可能であり、本発明に関連する技術の他の発明は言語に依存しない。
【0168】
以上述べたことから明らかなように、上記構成によれば、表示部に一方の言語の操作画面が全面に表示されるので、小さい表示部であっても翻訳装置の使い勝手が維持される。また、画面の内容から操作権限がどちらにあるのかが理解しやすく、2人の発声が重なることがない。したがって、音声認識の認識率が低下せず、翻訳装置としての性能が低下しない。
【0169】
尚、上記実施の形態では、第2の言語については、翻訳結果の表示とともに、音声出力も行う場合について説明したが、これに限らず例えば、翻訳結果の表示のみの構成でも良い。
【0170】
又、上記実施の形態では、2人の利用者が、翻訳装置を挟んで対面する形で同装置を使用する場合について説明したが、これに限らず例えば、2人が並んで同装置を使用する構成としても良い。
【0171】
具体的には、図39、図40に示す構成となる。これらの図に示す通り、第1の言語(例えば、日本語)の利用者は、音声入力ボタン4201aを使用し、第2の言語(例えば、英語)の利用者は、音声入力ボタン4201bを使用する。この構成では、マイク5501が装置の上部中央に一つ設けられている。この場合にも上記構成と同様の効果を発揮する。
【0172】
又、上記実施の形態では、例えば、図27、図28に示す様に用例結果を翻訳対象とする場合について説明したが、これに限らず例えば、用例結果ウィンドウ4204に表示された単語列の中から、ユーザにより指定された単語の代替単語の一覧を表示して、その代替単語の中から、所望の単語を選択し、その選択結果を反映したものを翻訳対象とする構成でも良い。即ち、この場合の構成は、図21〜図24で述べた構成を、図27等に示す構成に適用したものである。
【0173】
具体的には、図41〜図44に示す構成となる。即ち、用例結果ウィンドウ4204aに表示された単語列の中から、ユーザにより指定(図41)された単語の代替単語の一覧を表示して(図42)、その代替単語の中から、所望の単語として例えば、アスピリンの単語2301を選択し(図43)、その選択結果を反映した用例結果を用例結果ウィンドウ4204aに表示して(図44)、それを翻訳対象とするものである。その後の翻訳動作等は、図28等に示した内容と同じである。これにより翻訳対象の幅がより広がり使用性が向上する。
【0174】
本発明に関連する技術の発明は、上述した音声変換装置の全部又は一部の手段(又は、素子、回路、部等)の機能をコンピュータにより実行させるためのプログラムであって、コンピュータと協働して動作するプログラムである。
【0175】
又、本発明に関連する技術の発明は、上述した音声変換方法の全部又は一部のステップ(又は、工程、動作、作用等)の動作をコンピュータにより実行させるためのプログラムであって、コンピュータと協働して動作するプログラムである。
【0176】
又、本発明に関連する技術の発明は、上述した音声変換装置の音声変換方法の全部又は一部のステップの全部又は一部の動作をコンピュータにより実行させるためのプログラムを担持した記録媒体であり、コンピュータにより読み取り可能且つ、読み取られた前記プログラムが前記コンピュータと協動して前記動作を実行する記録媒体である。
【0177】
又、本発明に関連する技術の発明は、上述した音声変換装置の全部又は一部の手段の全部又は一部の機能をコンピュータにより実行させるためのプログラムを担持した媒体であり、コンピュータにより読み取り可能且つ、読み取られた前記プログラムが前記コンピュータと協動して前記機能を実行する媒体である。
【0178】
又、本発明に関連する技術の発明の音声変換装置の音声変換方法の一部のステップ(又は、工程、動作、作用等)とは、それらの複数のステップの内の、幾つかの手段又はステップを意味し、あるいは、一つの手段又はステップの内の、一部の機能又は一部の動作を意味するものである。
【0179】
又、本発明に関連する技術の発明の一部の装置(又は、素子、回路、部等)とは、それらの複数の装置の内の、幾つかの装置を意味し、あるいは、一つの装置の内の、一部の手段(又は、素子、回路、部等)を意味し、あるいは、一つの手段の内の、一部の機能を意味するものである。
【0180】
又、本発明に関連する技術の発明のプログラムの一利用形態は、コンピュータにより読み取り可能な記録媒体に記録され、コンピュータと協働して動作する態様であっても良い。
【0181】
又、本発明に関連する技術の発明のプログラムの一利用形態は、伝送媒体中を伝送し、コンピュータにより読みとられ、コンピュータと協働して動作する態様であっても良い。
【0183】
又、記録媒体としては、ROM等が含まれ、伝送媒体としては、インターネット等の伝送媒体、光・電波・音波等が含まれる。
【0184】
又、上述した本発明のコンピュータは、CPU等の純然たるハードウェアに限らず、ファームウェアや、OS、更に周辺機器を含むものであっても良い。
【0185】
尚、以上説明した様に、本発明の構成は、ソフトウェア的に実現しても良いし、ハードウェア的に実現しても良い。
【0186】
【発明の効果】
以上述べたことから明らかなように本発明は、従来に比べてより一層小型化が可能であり、操作も簡単に出来得るという長所を有する。
【図面の簡単な説明】
【図1】本発明の一実施の形態の音声通訳装置のハードウェア構成を示すブロック図
【図2】 PC/AT互換のマザーボードを使用した場合の図1の詳細なブロック図
【図3】画像出力装置204の詳細なブロック図
【図4】画像指示装置205およびボタン206の詳細なブロック図
【図5】音声入出力装置203の詳細なブロック図
【図6】音声通訳装置を利用しないときの筐体の全体図
【図7】(a)は図6に示す音声通訳装置の詳細な構造を示す正面図
(b)は図6に示す音声通訳装置の詳細な構造を示す側面図
(c)は図6に示す音声通訳装置の詳細な構造を示す平面図
【図8】音声通訳装置を利用するときの筐体の全体図
【図9】(a)は図8に示す音声通訳装置の詳細な構造を示す正面図
(b)は図8に示す音声通訳装置の詳細な構造を示す側面図
(c)は図8に示す音声通訳装置の詳細な構造を示す平面図
【図10】(a)は主筐体801に図2の各構成要素を実装する方法を示すための正面図(b)は主筐体801に図2の各構成要素を実装する方法を示すための側面図(c)は主筐体801に図2の各構成要素を実装する方法を示すための平面図
【図11】(a)は副筐体802に図2の各構成要素を実装する方法を示すための正面図(b)は副筐体802に図2の各構成要素を実装する方法を示すための側面図(c)は副筐体802に図2の各構成要素を実装する方法を示すための平面図
【図12】本発明の一実施の形態の音声通訳装置のソフトウェアの構成を示すブロック図
【図13】ソフトウェアの処理の流れを示すフローチャート
【図14】用例データベース1205の内容の一例を示す図
【図15】単語クラス辞書1206の内容の一例を示す図
【図16】 GUI部1202の表示内容を示す図
【図17】ステップ1301から1303までのGUI部1202の表示内容を示す図
【図18】ステップ1304の処理におけるGUI部1202の表示内容を示す図
【図19】ステップ1305の処理におけるGUI部1202の表示内容を示す図
【図20】ステップ1310から1311までの処理におけるGUI部1202の表示内容を示す図
【図21】ステップ1306の処理におけるGUI部1202の表示内容を示す図
【図22】ステップ1307の処理におけるGUI部1202の表示内容を示す図
【図23】ステップ1308の処理におけるGUI部1202の表示内容を示す図
【図24】ステップ1309の処理におけるGUI部1202の表示内容を示す図
【図25】ステップ1310から1311までの処理におけるGUI部1202の表示内容を示す図
【図26】 本発明に関連する技術の他の発明の一実施の形態の音声入力翻訳装置の構成を示すブロック図
【図27】言語変換方向検出部4104がボタンである音声翻訳装置の日本語の利用を示す図
【図28】言語変換方向検出部4104がボタンである音声翻訳装置の英語の利用を示す図
【図29】言語変換方向検出部4104がボタンである音声翻訳装置の日本語の利用を示す図
【図30】言語変換方向検出部4104がマイク軸の角度センサーである音声翻訳装置の日本語の利用を示す図
【図31】言語変換方向検出部4104がマイク軸の角度センサーである音声翻訳装置の英語の利用を示す図
【図32】言語変換方向検出部4104がマイク軸の角度センサーである音声翻訳装置の日本語の利用を示す図
【図33】言語変換方向検出部4104がジャイロセンサーである音声翻訳装置の日本語の利用を示す図
【図34】言語変換方向検出部4104がジャイロセンサーである音声翻訳装置の英語の利用を示す図
【図35】言語変換方向検出部4104がジャイロセンサーである音声翻訳装置の日本語の利用を示す図
【図36】入力部4101と言語変換方向検出部4104がマイクアレーユニットである音声翻訳装置の日本語の利用を示す図
【図37】入力部4101と言語変換方向検出部4104がマイクアレーユニットである音声翻訳装置の英語の利用を示す図
【図38】入力部4101と言語変換方向検出部4104がマイクアレーユニットである音声翻訳装置の日本語の利用を示す図
【図39】 本発明に関連する技術の他の発明の別の実施の形態の音声翻訳装置の日本語の利用を説明するための図
【図40】 本発明に関連する技術の他の発明の別の実施の形態の音声翻訳装置の英語の利用を説明するための図
【図41】 本発明に関連する技術の他の発明の更に別の実施の形態の音声翻訳装置の日本語の利用における代替単語の機能を説明するための図
【図42】 本発明に関連する技術の他の発明の更に別の実施の形態の音声翻訳装置の日本語の利用における代替単語の機能を説明するための図
【図43】 本発明に関連する技術の他の発明の更に別の実施の形態の音声翻訳装置の日本語の利用における代替単語の機能を説明するための図
【図44】 本発明に関連する技術の他の発明の更に別の実施の形態の音声翻訳装置の日本語の利用における代替単語の機能を説明するための図
【符号の説明】
101 演算制御装置
102 音声入出力装置
103 画像出力装置
104 外部大容量不揮発性記憶装置
105 画像指示装置
106 ボタン
107 外部データ入出力端子
108 電源装置
201 マザーボード
202 2.5インチハードディスクドライブ
203 音声入出力装置
204 画像出力装置
205 画像指示装置
206 ボタン
207 外部データ出力端子
208 Li-ion2次電池
301 バックライト付4インチVGALCDユニット
302 マザーボード
401 タッチパネルコントローラ
402 3.8インチ感圧式タッチパネル
403 ボタン
404 ボタン
405 マザーボード
501 スピーカ
502 オーディオアンプ
503 マイク
504 USBオーディオデバイス
505 マザーボード
601 主筐体
602 副筐体
603 ボタン
604 ボタン
701 正面図
702 右側面図
703 上面図
801 主筐体
802 副筐体
803 マイク
804 スピーカ
805 タッチパネル付LCD
901 正面図
902 右側面図
903 上面図
1001 正面図
1002 右側面図
1003 上面図
1004 マザーボード
1005 タッチパネル付LCD
1006 2.5インチハードディスクドライブ
1007 ボタン
1008 ボタン
1101 正面図
1102 右側面図
1103 上面図
1104 マイク
1105 スピーカ
1106 USBオーディオデバイス
1107 オーディオアンプ
1201 制御部
1202 GUI部
1203 音声入力部
1204 音声認識部
1205 用例データベース
1206 単語クラス辞書
1207 用例選択部
1208 単語選択部
1209 代替単語選択部
1210 言語変換部
1211 音声合成部
1301 翻訳の方向を決定するステップ
1302 音声認識を行うステップ
1303 用例データベースから用例を検索するステップ
1304 用例を選択するステップ
1305 用例を決定するか修正するかを判断するステップ
1306 修正する単語を決定するステップ
1307 代替単語一覧を取得するステップ
1308 代替単語を決定するステップ
1309 用例を修正するステップ
1310 言語変換を行うステップ
1311 音声合成部を行うステップ
1601 翻訳方向指定部
1602 翻訳方向指定部
1603 認識結果表示部
1604 用例候補表示部
1605 用例結果表示部
1606 通訳結果表示部
1607 ボタンSW1
1608 ボタンSW2
1701 翻訳方向指定部
1702 認識結果表示部
1703 用例候補表示部
1801 選択された用例
1901 用例結果表示部
1902 用例候補表示部
2001 通訳結果表示部
2101 用例結果表示部
2201 リストウィンドウ
2301 選択された代替単語
2401 用例結果表示部
4105 言語変換方向制御部
4106 対話履歴管理部
4104 言語変換方向検出部[0001]
BACKGROUND OF THE INVENTION
The present invention provides, for example, a voice conversion device that converts a voice input in a source language into a target language and outputs the voice.In placeIt is related.
[0002]
[Prior art]
Voice interpretation technology was developed as software premised on the use of high-performance workstations and personal computers. If the scope of conversation is limited to travel conversations, the performance has reached a practical level. . However, as a voice interpreting device, for ordinary users to use on a daily basis, hardware that is large enough to be easily carried on overseas trips, etc. and a user interface that can be easily operated are designed to be equivalent. Functional software needs to be ported to the hardware.
[0003]
Conventionally, the work of porting voice interpretation software to a B5 size notebook personal computer has been promoted.
[0004]
On the other hand, recent advances in hardware technology have made it possible to implement a translation function by voice input mainly for conversations used on overseas trips using portable information devices. Such other conventional translation functions are bidirectional, for example, having both a Japanese-to-English conversion function and an English-to-Japanese conversion function.
[0005]
Such other prior art inventions include a foreign language translation device (see Japanese Patent Laid-Open No. 8-77176) and a speech input translation device (see Japanese Patent Laid-Open No. 8-278972). In these inventions, the shape of the device, the arrangement of the display unit, and the contents thereof are determined so that two people having different languages can interact using one device in a face-to-face format.
[0006]
[Problems to be solved by the invention]
However, notebook personal computers of about B5 size are not large enough for users to carry around and use in various places. Moreover, since it must be operated with a normal keyboard or mouse, it is not easy to use as a user interface. Furthermore, the amount of computational resources such as CPU performance and working memory capacity required for speech recognition is generally proportional to the size of the recognition target vocabulary.
[0007]
Since the computational resources are limited in small hardware, it is difficult to implement words necessary and sufficient as a speech interpretation device as a recognition target vocabulary, and there is a problem that the utility value as a speech interpretation device is lowered. The above is the subject concerning the above prior art (first subject).
[0008]
Next, a problem with the other prior art will be described (second problem).
[0009]
That is, in the above-described other prior art translation device, if the resolution of the display area is small with a small information device that fits in the pocket of clothes, all necessary information for two users is displayed. I can't. Therefore, there has been a problem that usability as a translation device is reduced. In addition, when a plurality of display units are mounted, there is a problem that power consumption increases and the operation time of the translation apparatus is shortened. In addition, since the translation device does not handle the utterances of two users exclusively, there is a problem that when the utterances overlap, the recognition rate of speech recognition is lowered and the performance as the translation device is lowered.
[0010]
In consideration of the first problem of the conventional speech interpreting apparatus, the present invention is capable of further downsizing compared to the conventional speech conversion apparatus that can be easily operated.PlaceThe purpose is to provide.
[0011]
Also, the present inventionOther inventions related to technologyIn consideration of the second problem of the above-mentioned conventional translation apparatus, a speech conversion apparatus, a speech conversion method, a program, and a medium capable of improving the usability of display contents compared to the conventional one are provided. The purpose is to do.
[0012]
[Means for Solving the Problems]
According to a first aspect of the present invention (corresponding to the first aspect of the present invention), voice input means for inputting voice in a first language;
Voice recognition means for voice recognition of the input voice;
An example database for storing in advance an example of the first language and a dependency relationship between predetermined words of words constituting the example;
In the speech recognition resultWhen the predetermined word is included, an example corresponding to the voice is selected from the examples of the first language stored in the example database by using the dependency relationship of the included predetermined word.Extract andOne or more word strings constituting the exampleFirst extracting / displaying means for displaying;
The displayedConfigure an example of the first languageA conversion target selection means for selecting any word string to be converted from the word string to the second language;
A word class dictionary that pre-classifies the words included in the example and stores in advance words that can be replaced with the classified words;
In the selected word stringThe classified wordWas identified, it was identifiedWords of the same class as the classified wordTheThe replacement from the word class dictionary.CandidateAsSecond extracting / displaying means for extracting and displaying;
The displayed saidOf the same classCandidate selection means for selecting any candidate from the candidates,
SelectedConfigure an example of the first languageWord string and the selectedOf the same class of wordsConversion means for determining a conversion target to the second language based on the candidate, and converting the determined conversion target to the speech language of the second language;
Is a voice conversion device.
[0013]
In the second invention (corresponding to the invention described in claim 2), the first extraction / display means includes a plurality of word strings to be selected and the selected word string. , Each having a display unit with a display screen for displaying in a predetermined area,
The second extraction / display unit is the speech conversion apparatus according to the first aspect of the present invention, which is a unit that displays the term candidates on a partial area of the display screen in a window shape.
[0014]
Further, according to a third aspect of the present invention (corresponding to the present invention described in claim 3), when the first extraction / display unit displays the selected word string on the display screen, The speech conversion apparatus according to the second aspect of the present invention, which is a means for displaying a part of the corresponding term candidate added with information indicating that the corresponding term candidate can be displayed.
[0015]
According to a fourth aspect of the present invention (corresponding to the present invention of claim 4), a screen display specification for specifying a part of the word string on which the added information is displayed on the display screen. A voice conversion device according to the third aspect of the present invention provided with means.
[0016]
According to a fifth aspect of the present invention (corresponding to the present invention described in claim 5), the conversion means replaces the identified part of the word string with the selected candidate term. In the speech conversion apparatus according to the first aspect of the present invention, the result is determined as the conversion target.
[0017]
The invention of the technology related to the present invention isA speech conversion method of a speech conversion device that converts input speech of a first language into a speech language of a second language,
A voice input step for inputting voice in the first language;
A voice recognition step for voice recognition of the input voice;
The example of the first language stored in the example database of the speech conversion apparatus that stores in advance the example of the first language and the dependency relationship between the predetermined words of the words constituting the example. When the predetermined word is included in the speech recognition result, an example corresponding to the voice is extracted using the dependency relationship of the predetermined word included, and the example is configured Or a first extraction / display step for displaying a plurality of word strings;
A conversion target selection step for selecting any word string that is to be converted into a second language from the displayed word string that constitutes the example of the first language;
When a classified word in the selected word string is identified, a word of the same class as the identified classified word is pre-classified as a word included in the example, A second extraction / display step for extracting and displaying as a candidate for replacement from the word class dictionary of the speech conversion apparatus that stores in advance a word that can be replaced with the classified word;
A candidate selection step for selecting any candidate from the displayed candidate words of the same class;
The conversion target to the second language is determined based on the word string constituting the selected example of the first language and the selected candidate words of the same class, and the determination is made. A conversion step of converting the converted object into the speech language of the second language;
Is a voice conversion method of a voice conversion device comprising:
[0019]
or,Inventions related to the present inventionOnWritingA voice recognition step for voice recognition of the input voice of the voice conversion method of the voice converter;
The example of the first language stored in the example database of the speech conversion apparatus that stores in advance the example of the first language and the dependency relationship between the predetermined words of the words constituting the example. When the predetermined word is included in the speech recognition result, an example corresponding to the voice is extracted using the dependency relationship of the predetermined word included, and the example is configured Or a first extraction / display step for displaying a plurality of word strings;
A conversion target selection step for selecting any word string that is to be converted into a second language from the displayed word string that constitutes the example of the first language;
When a classified word in the selected word string is identified, a word of the same class as the identified classified word is pre-classified as a word included in the example, A second extraction / display step for extracting and displaying as a candidate for replacement from the word class dictionary of the speech conversion apparatus that stores in advance a word that can be replaced with the classified word;
A candidate selection step for selecting any candidate from the displayed candidate words of the same class;
The conversion target to the second language is determined based on the word string constituting the selected example of the first language and the selected candidate words of the same class, and the determination is made. A conversion step of converting the converted object into the speech language of the second language;
Is a recording medium on which a program for causing a computer to execute is recorded, and can be processed by the computer.
[0022]
With the above configuration, in the present invention, for example, it is possible to provide small hardware that the user can hold with one hand and easily operate with buttons and a touch panel. For example, it is possible to classify and hold words included in an example sentence to be speech-interpreted, and to implement only a small number of words representing the class as a recognition target vocabulary in the speech recognition unit. When a sentence including a word representing a class is spoken, an example including the word can be searched and presented to the user. Normally, the user selects a desired example and outputs a translated speech. However, if necessary, the user can replace the word with another word in the class and output the translated speech. For example, if you want to enter “Do you have aspirin” in Japanese, replace it with the word “medicine” representing the class to which the word “aspirin” belongs, and say “Do you have any medicine” in Japanese. Then, the “medicine” part can be replaced with “aspirin”. Through such stepwise operations, the utility value as a speech interpreting apparatus is maintained without implementing a large-scale recognition target vocabulary.
[0023]
The first to fourteenth inventions related to the present invention for solving the second problem in the prior art will be described below.
The first other invention isAn input unit for inputting voice in the first or second language;
(1) When the voice of the first language is received from the input unit, the voice is recognized and, based on a predetermined control instruction, (1-a) the voice-recognized first language Or (1-b) converting the conversion target determined based on the recognition result recognized as speech into the second language, and outputting at least the notation data of the converted language. (2) When the second language voice is received from the input unit, it is voice-recognized, and based on a predetermined control instruction, (2-a) the second voice-recognized second Output language notation data, or (2-b) convert the conversion target determined based on the speech recognition result into the first language, and output at least notation data of the converted language A translation department,
A support unit for supporting the determination of the conversion target of the translation unit;
A display unit for displaying the notation data in the converted language output from the translation unit based on the predetermined control instruction;
And a control unit that performs the predetermined control instruction on at least the translation unit and the display unit.
[0024]
or,The second other invention isThe notation data based on the voice input by the input unit during the conversation between the user who uses the first language and another user who uses the second language is sequentially held. The speech conversion apparatus according to the first aspect of the present invention includes a dialogue history management unit for outputting history information to the display unit.
[0025]
or,The third other invention is, Detecting information for determining a translation direction of which translation from the first language to the second language or from the second language to the first language should be performed by the speech translation unit A language conversion direction detector,
The control unit is the speech conversion apparatus according to the first other aspect of the invention, which specifies the translation direction for the speech translation unit and controls the input unit based on the detection result.
[0026]
or,The fourth other invention isThe control of the control unit with respect to the input unit is to select the voice input unit that best collects the voice of the user who speaks when the input unit includes a plurality of voice input units. It is a voice conversion device according to the third other invention.
[0027]
or,The fifth other invention isThe control unit controls the display content of the display unit to rotate substantially 180 degrees with reference to the display screen of the display unit according to the translation direction. This is a voice conversion device according to the invention.
[0028]
or,The sixth other invention isThe language conversion direction detection unit is constituted by a button switch, and the speech conversion device according to the third other aspect of the invention is configured such that a user who speaks selects the translation direction by pressing the button switch.
[0029]
or,The seventh other invention isThe language conversion direction detection unit includes an angle sensor that detects a direction with the best acoustic directivity of the movable microphone, and a user who speaks changes the direction of the microphone and selects the translation direction. A speech input translation apparatus according to the third other aspect of the invention.
[0030]
or,The eighth other invention isThe language conversion direction detection unit includes a gyro sensor installed inside the speech conversion device, and the user who speaks selects the translation direction at a position where the speech conversion device is held. 3 is a voice conversion device according to another invention.
[0031]
or,The ninth other invention isThe language conversion direction detection unit is configured by a sound source direction detection device of an input unit configured by a microphone array unit, and selects the translation direction based on the utterance position of the uttering user with respect to the microphone array unit. 3 is a voice conversion device according to another invention.
[0032]
or,The tenth other invention isA voice input step for inputting and outputting voice in the first or second language;
(1) When the voice in the first language output by the voice input step is received, the voice is recognized, and based on a predetermined control instruction, (1-a) the voice recognized Output notation data of the first language, or (1-b) convert the conversion target determined based on the recognition result of the speech recognition into the second language, and at least the notation of the language after the conversion (2) When the second language voice output by the voice input step is received, the voice is recognized, and based on a predetermined control instruction, (2-a) Output the notation data of the second language that has been speech-recognized, or (2-b) convert the conversion target determined based on the recognition result of the speech recognition to the first language, and after the conversion At least notation data in other languages And translation step of outputting,
A support step for supporting the determination of the conversion target in the translation step;
A display step for displaying the notation data of the converted language output by the translation step based on the predetermined control instruction;
And a control step for performing the predetermined control instruction on at least the translation step and the display step.
[0033]
or,The eleventh other invention is,the aboveAny other one of the first to ninthThis is a program for causing a computer to function as all or part of the translation unit, the support unit, the display unit, and the dialogue history management unit of a clear speech conversion apparatus.
[0034]
or,The twelfth other invention is,the above10th other inventionThis is a program for causing a computer to execute all or part of the translation step, the support step, the display step, and the dialog history tube step.
[0035]
or,The thirteenth other invention is,the aboveEleventh other inventionIt is a medium carrying the above program and is characterized in that it can be processed by a computer.
[0036]
or,The fourteenth other invention is,the above12th other inventionIt is a medium carrying the above program and is characterized in that it can be processed by a computer.
[0037]
The present inventionOther inventions related to technologyAccording to this configuration, for example, a voice conversion device that is held by a user with one hand and can be easily operated with buttons or a touch panel is used. And two means of facing users (one user uses the first language and the other user uses the second language), the means for acquiring the operating authority manually, or A means for manually giving the operation authority to the other party, or a means for automatically acquiring it, explicitly indicating which one has the operation authority, and providing a display and input means that the user can easily operate. provide. Thereby, for example, it is possible to improve the usability of the display contents as compared with the conventional case without increasing the display power.
[0038]
DETAILED DESCRIPTION OF THE INVENTION
In the following, the configuration and operation of the speech interpretation apparatus according to an embodiment of the speech conversion apparatus of the present invention will be described with reference to the drawings.Inventions related to technologyThe operation of the voice conversion method will be described simultaneously.
[0039]
FIG. 1 is a block diagram showing a hardware configuration of the speech interpretation apparatus according to the present embodiment.
[0040]
The voice input /
[0041]
Here, the voice input means of the present invention corresponds to the
[0042]
A specific configuration example in which a PC / AT compatible motherboard is used for the arithmetic and
[0043]
A detailed configuration of the
[0044]
A detailed configuration of the
[0045]
The detailed configuration of the voice input /
[0046]
FIG. 6 shows a perspective view of an example in which the configuration of FIG. 2 is mounted on a housing that the user can hold with one hand, and FIGS. 7A to 7C show three views thereof. An
[0047]
When using this interpreting apparatus, the sub-housing 802 is used after being moved to a predetermined position where the directivity direction of the voice input / output apparatus 203 (microphone 803) faces the user's face as shown in FIG. The three views are shown in FIGS. 9 (a) to 9 (c). That is, the
[0048]
10A to 10C show how the
[0049]
FIG. 12 shows a software configuration diagram as an embodiment of the program and data of the present invention. In FIG. 12, 1201 instructs each component, and a control unit that controls the flow of data from each component, 1202 displays information from the
[0050]
Here, the speech recognition unit of the present invention corresponds to the
[0051]
FIG. 14 shows a specific example of the
[0052]
FIG. 15 shows a specific example of the
[0053]
FIG. 16 shows details of the
[0054]
FIG. 13 is a flowchart of the software of the present invention. 1301 is a step of selecting a direction of translation, 1302 is a step of inputting voice by the
[0055]
Hereinafter, the operation of the software of the present invention will be described with reference to the flowchart of FIG. 13 and the display contents of the
[0056]
FIG. 17 shows display contents of the
[0057]
The
[0058]
Here, “7 days” belongs to the classified word <days>, and “drug” belongs to the classified word <drug>. “Yes” does not belong to any classified word.
[0059]
The
[0060]
If the
・ Is there any medicine?
Is output.
[0061]
In the following description, other examples in the
・ "Is it a medicine"
・ "It is a drug"
Will be described as being selected in the same manner as described above.
[0062]
The
[0063]
The display content of the
[0064]
The display contents of the
[0065]
The display content of the
[0066]
The display content of the
[0067]
The display content of the
·"aspirin"
・ Cold medicine
・ Troach
·"Gastrointestinal drug"
Is extracted and transmitted to the
[0068]
The display content of the
[0069]
The display content of the
[0070]
In FIG. 25, the user repeats
[0071]
Next, the case of button input will be described. In the following description, SW1 physically corresponds to the
[0072]
The display contents of the
[0073]
The
[0074]
Here, “7 days” belongs to the classified word <days>, and “drug” belongs to the classified word <drug>. “Yes” does not belong to any classified word.
[0075]
The
[0076]
If the
・ Is there any medicine?
Is output.
[0077]
In the following description, other examples in the
・ "Is it a medicine"
・ "It is a drug"
Is assumed to be selected in the same manner as described above.
[0078]
The
[0079]
The display content of the
[0080]
The display contents of the
[0081]
The display content of the
[0082]
The display content of the
[0083]
The display contents of the
·"aspirin"
・ Cold medicine
・ Troach
·"Gastrointestinal drug"
Is extracted and transmitted to the
[0084]
The display content of the
[0085]
The display content of the
[0086]
FIG. 25 shows the GUI section when the user repeats
[0087]
In the above description, the user input to the
[0088]
Also, word sequence of the present invention, in the above embodiment has been described with the case of a sentence including a plurality of words, for example not limited to this, composed of a single word as a "Hello" May be.
[0089]
In the above embodiment, the first extraction / display unit and the second extraction / display unit of the present invention have been described as being realized by the same display device. A configuration realized by the display device described above may be used.
[0090]
As described above, the speech interpreting apparatus as an example of the present invention is a speech interpreting apparatus that selects an example based on input by speech and performs translation, and the hardware of the speech interpreting apparatus has a speech modality. A voice input / output device, an image output device as an image modality, one or more buttons and an image instruction device as a contact modality, and input by the user from the voice input / output device, the image instruction device, and the button And a processing control unit that converts the data related to the source language into data related to the target language in a linguistic manner and outputs the output data to the voice input / output device and the image output device. An external large-capacity non-volatile storage device that holds a program for instructing data and data, and the arithmetic and control unit And the external data input and output terminals for exchanging data, a voice interpreting device characterized by being constituted by a power supply for supplying power necessary for driving the arithmetic and control unit.
[0091]
Another example is the above-described speech interpreting apparatus using a PC / AT compatible motherboard as the arithmetic and control unit.
[0092]
Another example is the above-described speech interpreting apparatus using a hard disk drive of 2.5 inches or less as the external large-capacity nonvolatile storage device.
[0093]
Another example is the above-described speech interpreting apparatus using a flash memory disk as the external large-capacity nonvolatile storage device.
[0094]
Another example is the above-mentioned speech interpreting apparatus using a liquid crystal display device having a resolution of 240 dots or more in the vertical direction and 240 dots or more in the horizontal direction as the image output apparatus.
[0095]
Another example is the voice interpreting apparatus characterized in that two buttons are used as the buttons and functionally correspond to mouse buttons when a mouse is connected to the motherboard. .
[0096]
In another example, the voice interpreting apparatus is characterized in that a touch panel having a size equivalent to the display surface of the liquid crystal display device or a size including the previous display surface is used as the image instruction device. It is.
[0097]
In another example, the external data input / output terminal uses a keyboard connection terminal, an analog display output terminal, and a local area network terminal among the input / output terminals of the motherboard. It is.
[0098]
In another example, the audio input / output device includes a USB audio interface that inputs and outputs analog audio data and digital audio data through the USB terminal of the motherboard, and a microphone that collects user's utterances and supplies the audio to the USB audio interface. And an audio amplifier that amplifies the output of the USB audio interface, and a speaker connected to the audio amplifier.
[0099]
In another example, the audio input / output device includes an audio interface of the motherboard, a microphone that collects a user's utterance and applies it to the audio interface, an audio amplifier that amplifies the output of the audio interface, and the audio The voice interpreting apparatus is constituted by a speaker connected to an amplifier.
[0100]
In another example, the voice interpreting device is characterized in that the power supply device is constituted by a lithium ion secondary battery.
[0101]
As another example, the voice interpreting device can be held by one user in one hand, the button can be easily operated by the thumb of the one hand, and the image pointing device can be operated by the other hand. And the direction of the normal line of the display surface of the image display device and the directionality of the voice input / output device are designed to be easily directed to the user's face. The above-mentioned voice interpretation device.
[0102]
As another example, the voice interpreting device is constituted by a main housing in which buttons, an image instruction device and an image display device are mounted, and a sub-housing in which a voice input / output device is mounted. If the voice interpreter is not used, the display surface of the image display device is covered and protected by the sub-housing, and if the voice interpreting device is used, the sub-housing has a directivity direction of the voice input / output device. The speech interpretation apparatus is used after being moved to a predetermined position facing the user's face.
[0103]
An example of the present invention is an audio interpreting apparatus that selects an example based on input by voice and performs translation. In the audio interpreting apparatus, the software of the audio interpreting apparatus inputs a voice and a GUI unit that inputs and outputs with a user. A speech input unit for performing speech recognition, a translation unit for translating the source language input from the source language input unit to the target language, and synthesizing and outputting the target language translated by the translation unit A speech interpreting apparatus comprising: a speech synthesis unit; the source language input unit; the GUI unit; the translation unit; and a control unit that controls the speech synthesis unit.
[0104]
Another example is the above-described speech interpreting apparatus characterized in that, as the above-mentioned example, one sentence in a dialogue is a unit.
[0105]
Another example is the above-described speech interpreting apparatus characterized in that, as the above-described example, a sentence pattern frequently used in travel conversation is held.
[0106]
Another example is the above-described speech interpretation apparatus, wherein the words included in the above examples are classified together with related words that can replace the words.
[0107]
In another example, the source language input unit includes a voice input unit that performs voice input according to an instruction from the control unit, and performs continuous voice recognition on the voice input from the voice input unit to generate a word string. The speech interpreting apparatus is configured by a speech recognition unit for conversion.
[0108]
In another example, the translation unit includes an example database that holds correspondence between source language and target language examples, a word class dictionary that holds class information of words included in the example database, and a source language input unit. Based on the input from the example database, an example selection unit that selects a corresponding example from the example database, a word selection unit that selects a word to be corrected from the examples selected by the example selection unit, and the word selection unit An alternative word selection unit that selects from the word class dictionary a word that can be replaced with the selected word, and a language conversion unit that converts the target word into a target language based on the determined example. The above-mentioned voice interpretation device.
[0109]
In another example, the GUI unit includes a translation direction designating unit that designates a translation direction on the display unit, a speech recognition result display unit that displays a speech recognition result output from the source language input unit, and the example. An example candidate display unit for displaying an example selected from the example database by the selection unit, an example result display unit for displaying the example selected by the user, and an interpretation result for outputting an example of the target language output by the language conversion unit It is the above-mentioned speech interpretation apparatus characterized by comprising a display unit.
[0110]
In another example, the GUI unit selects a desired example by touch panel operation or button operation when the user selects an example from examples displayed on the example candidate display unit. The voice interpreting apparatus.
[0111]
In another example, the word selection unit adds a mark to the correctable word in the example result display unit of the GUI unit when one or more correctable words are presented to the user. The voice interpreting device.
[0112]
In another example, the mark of the correctable word is underlining the word, highlighting the word, bolding the word, or blinking the word. The above-mentioned speech interpreting apparatus.
[0113]
In another example, the word selection unit determines the GUI unit by touch panel operation, button operation, or voice operation by voice recognition when the user selects a correction word. It is a voice interpreting device.
[0114]
In another example, when the alternative word selection unit selects an alternative word, the alternative word selection unit obtains an alternative candidate list using a word class dictionary, and the GUI unit lists the alternative candidate list. The voice interpreting apparatus is characterized by being displayed in a line.
[0115]
In another example, when selecting an alternative candidate from the alternative candidate list, the alternative candidate is selected by a touch panel operation of the GUI unit, a button operation, or a voice operation by voice recognition. The voice interpreting apparatus.
[0116]
In another example, when the GUI unit can be changed to an example desired by the user, the example is determined by a touch panel operation or a button operation, and the language conversion unit translates the target language. The speech interpreting apparatus, wherein the speech synthesizer outputs the synthesized speech of the example.
[0117]
As is clear from the above description, the small hardware can be easily carried as a voice interpreting device when the user goes abroad. Further, since the user interface can be easily operated with one hand, it can be easily used in various scenes such as shopping and restaurants. Furthermore, since a voice is input using a word representative of a class and an example is confirmed, it can be replaced with a related word of the same class, so that even a small recognition target vocabulary does not reduce the utility value as a speech interpreter.
[0118]
Next, the present invention for solving the second problem in the prior art.It is another invention of the technology related toA speech input translation device according to an embodiment of a speech conversion device will be described with reference to the drawings.
[0119]
The configuration of the present embodiment is shown in FIG.
[0120]
As shown in the figure, a basic speech translation function is realized by a
[0121]
Here, since the internal configuration of the apparatus according to the present embodiment has already been described in the above embodiment, a detailed description thereof is omitted here.
[0122]
The correspondence between the configuration of the present embodiment (see FIG. 26) and the configuration shown in FIG. 12, for example, is as follows. 26 corresponds to the
[0123]
Next, the characteristic components of this embodiment will be described.
[0124]
In FIG. 26, the language conversion
[0125]
The language conversion
[0126]
In the following example, the operation of the translation apparatus for Japanese and English will be described with reference to FIG.Other inventions related to technologyAn embodiment of the voice conversion method will be described simultaneously.
[0127]
Here, for example, as shown in FIG. 27, it is assumed that a Japanese user is facing the lower side and an English user is facing the upper side in the figure with the translation device in between.
[0128]
The speech input translation device in FIG. 27 is a speech input translation device in which the language conversion
[0129]
Note that the translation operation in the
[0130]
When the
[0131]
That is, the example candidates are displayed in the example
[0132]
Based on the information from the language conversion
[0133]
Note that the translation operation in the
[0134]
When the
[0135]
That is, candidates are displayed in the example
[0136]
Based on information from the language conversion
[0137]
Note that the translation operation in the
[0138]
That is, candidates are displayed in the example
[0139]
The speech input translation device of FIG. 30 is a speech input translation device in which the language conversion
[0140]
Note that the translation operation in the
[0141]
That is, candidates are displayed in the example
[0142]
Based on the information from the language conversion
[0143]
Note that the translation operation in the
[0144]
That is, candidates are displayed in the example
[0145]
Based on information from the language conversion
[0146]
Note that the translation operation in the
[0147]
That is, a candidate is displayed in the example
[0148]
The speech input translation device of FIG. 33 is a speech input translation device that is a
[0149]
Note that the translation operation in the
[0150]
That is, candidates are displayed in the example
[0151]
Based on the information from the
[0152]
Note that the translation operation in the
[0153]
In other words, candidates are displayed in the example
[0154]
Based on information from the
[0155]
Note that the translation operation in the
[0156]
That is, candidates are displayed in the example
[0157]
The speech input translation device of FIG. 36 is a speech input translation device that is a
[0158]
When a Japanese user starts to speak (for example, “no,”), the
[0159]
Note that the translation operation in the
[0160]
That is, candidates are displayed in the example
[0161]
When the other party starts speaking to answer (for example, “Hmm,”), the
[0162]
Note that the translation operation in the
[0163]
That is, candidates are displayed in the example
[0164]
When the other party starts speaking to answer (for example, “Ah,”), the
[0165]
Note that the translation operation in the
[0166]
That is, candidates are displayed in the example
[0167]
The touch panel, buttons, and voice input modalities can be combined, or the buttons can be replaced with the touch panel. In addition, although Japanese and English are taken as an example, the present invention can be similarly applied to other languages such as Chinese.Other inventions related to technologyIs language independent.
[0168]
As is clear from the above description, according to the above configuration, since the operation screen of one language is displayed on the entire surface of the display unit, the usability of the translation apparatus is maintained even with a small display unit. In addition, it is easy to understand which operation authority is in accordance with the contents of the screen, so that the two utterances do not overlap. Therefore, the recognition rate of voice recognition does not decrease, and the performance as a translation device does not decrease.
[0169]
In the above-described embodiment, the second language has been described with respect to the case where the voice output is performed together with the display of the translation result. However, the present invention is not limited to this.
[0170]
In the above embodiment, a case has been described in which two users use the device in a form facing each other with the translation device interposed therebetween. However, the present invention is not limited to this. For example, two people use the device side by side. It is good also as composition to do.
[0171]
Specifically, the configuration is as shown in FIGS. 39 and 40. As shown in these figures, a user in the first language (for example, Japanese) uses the
[0172]
In the above-described embodiment, for example, as shown in FIGS. 27 and 28, the case where the example result is to be translated has been described. However, the present invention is not limited to this. For example, in the word string displayed in the
[0173]
Specifically, the configuration shown in FIGS. That is, a list of alternative words for the word specified by the user (FIG. 41) is displayed from the word string displayed in the
[0174]
The present inventionInventions related to technologyIs described aboveSoundA program for causing a computer to execute the functions of all or part of the voice conversion device (or elements, circuits, units, etc.), and a program that operates in cooperation with the computer.
[0175]
Also, the present inventionInventions related to technologyIs described aboveSoundA program for causing a computer to execute all or some of the steps (or processes, operations, actions, etc.) of the voice conversion method, and a program that operates in cooperation with the computer.
[0176]
Also, the present inventionInventions related to technologyIs described aboveSoundA recording medium carrying a program for causing a computer to execute all or some of the operations of all or some of the steps of the voice conversion method of the voice conversion device, wherein the program is readable and read by the computer. A recording medium that performs the above-described operation in cooperation with a computer.
[0177]
Also, the present inventionInventions related to technologyIs described aboveSoundA medium carrying a program for causing a computer to execute all or some of the functions of all or some of the means of the voice conversion device, which can be read by the computer, and the read program cooperates with the computer A medium for executing the function.
[0178]
Also, the present inventionSpeech conversion method for speech conversion apparatus of invention related to the inventionA part of step (or process, operation, action, etc.) means several means or steps of the plurality of steps, or a part of one means or step. This means a function or a part of the operation.
[0179]
Also, the present inventionInventions related to technologyA device (or an element, a circuit, a part, etc.) means a number of devices in the plurality of devices, or a means (or a device) in one device. , Element, circuit, part, etc.) or a part of functions of one means.
[0180]
Also, the present inventionInventions related to technologyOne usage form of the program may be recorded on a computer-readable recording medium and operate in cooperation with the computer.
[0181]
Also, the present inventionInventions related to technologyOne usage form of the program may be a mode in which the program is transmitted through a transmission medium, read by a computer, and operated in cooperation with the computer.
[0183]
The recording medium includes a ROM and the like, and the transmission medium includes a transmission medium such as the Internet, light, radio waves, sound waves, and the like.
[0184]
The computer of the present invention described above is not limited to pure hardware such as a CPU, but may include firmware, an OS, and peripheral devices.
[0185]
As described above, the configuration of the present invention may be realized by software or hardware.
[0186]
【The invention's effect】
As is apparent from the above description, the present invention has advantages in that it can be further reduced in size and can be easily operated.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a hardware configuration of a speech interpretation apparatus according to an embodiment of the present invention.
2 is a detailed block diagram of FIG. 1 when using a PC / AT compatible motherboard.
FIG. 3 is a detailed block diagram of the
4 is a detailed block diagram of an
FIG. 5 is a detailed block diagram of the voice input /
FIG. 6 is an overall view of the housing when the voice interpreting device is not used.
7A is a front view showing a detailed structure of the speech interpretation apparatus shown in FIG.
(B) is a side view showing the detailed structure of the speech interpretation apparatus shown in FIG.
(C) is a plan view showing the detailed structure of the speech interpretation apparatus shown in FIG.
FIG. 8 is an overall view of a housing when using an audio interpretation device.
9A is a front view showing a detailed structure of the speech interpretation apparatus shown in FIG.
(B) is a side view showing the detailed structure of the speech interpretation apparatus shown in FIG.
(C) is a plan view showing the detailed structure of the speech interpretation apparatus shown in FIG.
10A is a front view for illustrating a method of mounting each component of FIG. 2 on the
11A is a front view for illustrating a method of mounting each component of FIG. 2 on the sub-housing 802. FIG. 11B is a method of mounting each component of FIG. 2 on the sub-housing 802. FIG. 2C is a plan view for illustrating a method of mounting each component shown in FIG.
FIG. 12 is a block diagram showing a software configuration of the speech interpretation apparatus according to the embodiment of the present invention.
FIG. 13 is a flowchart showing the flow of software processing;
FIG. 14 is a diagram showing an example of the contents of an
FIG. 15 is a diagram showing an example of the contents of a
FIG. 16 is a diagram showing display contents of the
FIG. 17 is a diagram showing display contents of the
FIG. 18 is a diagram showing display contents of the
FIG. 19 is a diagram showing display contents of the
FIG. 20 is a diagram showing display contents of the
FIG. 21 is a diagram showing the display contents of the
FIG. 22 is a diagram showing display contents of the
FIG. 23 is a diagram showing display contents of the
FIG. 24 is a view showing the display content of the
FIG. 25 is a diagram showing display contents of the
FIG. 26 shows the present invention.Other inventions related to technologyThe block diagram which shows the structure of the speech input translation apparatus of one embodiment
FIG. 27 is a diagram showing the use of Japanese in the speech translation apparatus in which the language conversion
FIG. 28 is a diagram showing the use of English in the speech translation apparatus in which the language conversion
FIG. 29 is a diagram showing the use of Japanese in the speech translation device in which the language conversion
FIG. 30 is a diagram illustrating Japanese usage of the speech translation apparatus in which the language conversion
FIG. 31 is a diagram showing the use of English by a speech translation apparatus in which the language conversion
FIG. 32 is a diagram showing Japanese usage of the speech translation apparatus in which the language conversion
FIG. 33 is a diagram showing Japanese usage of the speech translation device in which the language conversion
FIG. 34 is a diagram showing the use of English in a speech translation apparatus in which the language conversion
FIG. 35 is a diagram showing Japanese usage of a speech translation apparatus in which the language conversion
FIG. 36 is a diagram showing Japanese usage of the speech translation apparatus in which the
FIG. 37 is a diagram illustrating the use of English in a speech translation apparatus in which the
FIG. 38 is a diagram showing Japanese usage of the speech translation apparatus in which the
FIG. 39 shows the present invention.Other inventions related to technologyThe figure for demonstrating utilization of the Japanese of the speech translation apparatus of another embodiment of
FIG. 40Other inventions related to technologyThe figure for demonstrating utilization of English of the speech translation apparatus of another embodiment of
FIG. 41Other inventions related to technologyThe figure for demonstrating the function of an alternative word in utilization of the Japanese of the speech translation apparatus of further another embodiment of this
FIG. 42Other inventions related to technologyThe figure for demonstrating the function of an alternative word in utilization of the Japanese of the speech translation apparatus of further another embodiment of this
FIG. 43Other inventions related to technologyThe figure for demonstrating the function of an alternative word in utilization of the Japanese of the speech translation apparatus of further another embodiment of this
FIG. 44Other inventions related to technologyThe figure for demonstrating the function of an alternative word in utilization of the Japanese of the speech translation apparatus of further another embodiment of this
[Explanation of symbols]
101 arithmetic and control unit
102 Voice input / output device
103 Image output device
104 External large-capacity nonvolatile memory device
105 Image instruction device
106 buttons
107 External data input / output terminal
108 Power supply
201 Motherboard
202 2.5 inch hard disk drive
203 Voice input / output device
204 Image output device
205 Image instruction device
206 buttons
207 External data output terminal
208 Li-ion secondary battery
301 4 inch VGALCD unit with backlight
302 Motherboard
401 Touch panel controller
402 3.8-inch pressure-sensitive touch panel
403 button
404 button
405 Motherboard
501 Speaker
502 audio amplifier
503 microphone
504 USB audio device
505 Motherboard
601 Main housing
602 Sub housing
603 button
604 button
701 Front view
702 Right side view
703 Top view
801 Main housing
802 Sub housing
803 microphone
804 speaker
805 LCD with touch panel
901 Front view
902 Right side view
903 Top view
1001 Front view
1002 Right side view
1003 Top view
1004 Motherboard
1005 LCD with touch panel
1006 2.5 inch hard disk drive
1007 button
1008 button
1101 Front view
1102 Right side view
1103 Top view
1104 Microphone
1105 Speaker
1106 USB audio device
1107 Audio amplifier
1201 Control unit
1202 GUI part
1203 Voice input unit
1204 Speech recognition unit
1205 Example database
1206 Word Class Dictionary
1207 Example selection unit
1208 Word selection part
1209 Alternative word selector
1210 Language converter
1211 Speech synthesis unit
1301 Determining the direction of translation
1302 Performing speech recognition
1303 Step for retrieving an example from an example database
1304 Selecting an Example
1305 determining whether to determine or modify an example
1306: determining a word to correct
1307: acquiring an alternative word list
1308: determining alternative words
1309 Steps to modify the example
1310 Steps to perform language conversion
Step of performing a voice synthesizer in 1311
1601 Translation direction designation part
1602 Translation direction designation part
1603 Recognition result display section
1604 Example candidate display area
1605 Example result display section
1606 Interpretation result display
1607 Button SW1
1608 Button SW2
1701 Translation direction designation part
1702 Recognition result display section
1703 Example candidate display area
1801 Selected examples
1901 Example result display area
1902 Example candidate display area
2001 Interpretation result display section
2101 Example result display area
2201 List window
2301 Selected alternative words
2401 Example result display area
4105 Language conversion direction control unit
4106 Dialog history management unit
4104 Language conversion direction detector
Claims (5)
前記入力された音声を音声認識するための音声認識手段と、
前記第1の言語の用例と、前記用例を構成する単語の内の所定の単語間の依存関係とを予め格納する用例データベースと、
前記音声の認識結果に前記所定の単語が含まれる場合、前記含まれる所定の単語の前記依存関係を利用して、前記用例データベースに格納されている前記第1の言語の用例の中から、前記音声に対応した用例を抽出し、前記用例を構成する一つまたは複数の単語列を表示する第1の抽出・表示手段と、
前記表示された前記第1の言語の用例を構成する単語列から、第2の言語への変換対象となる予定の何れかの単語列を選定するための変換対象選定手段と、
前記用例に含まれる単語を予めクラス化して、前記クラス化された前記単語と置き換え可能な単語を予め格納する単語クラス辞書と、
前記選定された単語列の中の前記クラス化された単語が特定された際、その特定された前記クラス化された単語と同じクラスの単語を前記単語クラス辞書から前記置き換えの候補として抽出し、表示する第2の抽出・表示手段と、
前記表示された前記同じクラスの単語の候補から何れかの候補を選定するための候補選定手段と、
前記選定された前記第1の言語の用例を構成する単語列と、前記選定された前記同じクラスの単語の候補とに基づいて、前記第2の言語への変換対象を決定し、その決定された変換対象を前記第2の言語の音声言語に変換する変換手段と、
を備えた音声変換装置。Voice input means for inputting voice in a first language;
Voice recognition means for voice recognition of the input voice;
An example database for storing in advance an example of the first language and a dependency relationship between predetermined words of words constituting the example;
When the predetermined word is included in the speech recognition result, using the dependency relationship of the predetermined word included, the example of the first language stored in the example database, the A first extraction / display unit for extracting an example corresponding to speech and displaying one or a plurality of word strings constituting the example;
A conversion target selecting means for selecting any word string to be converted into a second language from a word string constituting the displayed example of the first language;
A word class dictionary that pre-classifies the words included in the example and stores in advance words that can be replaced with the classified words;
When the classified word in the selected word string is identified, a word of the same class as the identified classified word is extracted as the replacement candidate from the word class dictionary, A second extraction / display means for displaying;
Candidate selection means for selecting any candidate from the displayed candidates for the same class of words;
The conversion target to the second language is determined based on the word string constituting the selected example of the first language and the selected candidate words of the same class, and the determination is made. Conversion means for converting the converted object into the speech language of the second language;
A voice conversion device comprising:
前記第2の抽出・表示手段は、前記用語の候補を、前記表示画面の一部の領域にウインドウ状に重ねて表示する手段である請求項1記載の音声変換装置。The first extraction / display unit includes a display unit including a display screen for displaying the plurality of word strings to be selected and the selected word string in a predetermined area. Have
2. The speech conversion apparatus according to claim 1, wherein the second extraction / display unit is a unit that displays the candidate candidates on a partial area of the display screen in a window shape.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002014834A JP3974412B2 (en) | 2001-01-24 | 2002-01-23 | Audio converter |
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001-15383 | 2001-01-24 | ||
| JP2001015383 | 2001-01-24 | ||
| JP2002-12931 | 2002-01-22 | ||
| JP2002012931 | 2002-01-22 | ||
| JP2002014834A JP3974412B2 (en) | 2001-01-24 | 2002-01-23 | Audio converter |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004329646A Division JP3926365B2 (en) | 2001-01-24 | 2004-11-12 | Audio converter |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2003288339A JP2003288339A (en) | 2003-10-10 |
| JP2003288339A5 JP2003288339A5 (en) | 2005-07-14 |
| JP3974412B2 true JP3974412B2 (en) | 2007-09-12 |
Family
ID=29255015
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002014834A Expired - Lifetime JP3974412B2 (en) | 2001-01-24 | 2002-01-23 | Audio converter |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3974412B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106409285A (en) * | 2016-11-16 | 2017-02-15 | 杭州联络互动信息科技股份有限公司 | Method and apparatus for intelligent terminal device to identify language type according to voice data |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3962763B2 (en) | 2004-04-12 | 2007-08-22 | 松下電器産業株式会社 | Dialogue support device |
| JP2007272260A (en) * | 2004-06-23 | 2007-10-18 | Matsushita Electric Ind Co Ltd | Automatic translation device |
| JP4041104B2 (en) * | 2004-08-18 | 2008-01-30 | 松下電器産業株式会社 | Translation device |
| WO2006040971A1 (en) * | 2004-10-08 | 2006-04-20 | Matsushita Electric Industrial Co., Ltd. | Dialog support device |
| CN1842788B (en) | 2004-10-08 | 2012-04-04 | 松下电器产业株式会社 | Dialog supporting apparatus, system and method |
| CN101052964B (en) | 2005-07-06 | 2010-05-19 | 松下电器产业株式会社 | dialog support device |
| CN101052965A (en) | 2005-07-13 | 2007-10-10 | 松下电器产业株式会社 | Dialog supporting device |
| US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
| US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
| US9128926B2 (en) | 2006-10-26 | 2015-09-08 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
| KR101269883B1 (en) | 2010-12-20 | 2013-06-07 | 하인크코리아(주) | Method for learning word and apparatus thereof |
| JP6737141B2 (en) * | 2016-11-17 | 2020-08-05 | 富士通株式会社 | Audio processing method, audio processing device, and audio processing program |
| JP7429107B2 (en) * | 2019-03-25 | 2024-02-07 | パナソニックホールディングス株式会社 | Speech translation device, speech translation method and its program |
-
2002
- 2002-01-23 JP JP2002014834A patent/JP3974412B2/en not_active Expired - Lifetime
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106409285A (en) * | 2016-11-16 | 2017-02-15 | 杭州联络互动信息科技股份有限公司 | Method and apparatus for intelligent terminal device to identify language type according to voice data |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2003288339A (en) | 2003-10-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN1369834B (en) | voice conversion device | |
| JP3974412B2 (en) | Audio converter | |
| CN104380375B (en) | Devices for extracting information from conversations | |
| JP4829901B2 (en) | Method and apparatus for confirming manually entered indeterminate text input using speech input | |
| KR101462932B1 (en) | Mobile terminal and method for correcting text thereof | |
| CN101313276B (en) | Combine voice and alternative input modalities into mobile devices | |
| JP2011141906A (en) | Integrated keypad system | |
| US20140081619A1 (en) | Photography Recognition Translation | |
| JP2009205579A (en) | Speech translation device and program | |
| JP2013042512A (en) | Mobile device | |
| KR20080045142A (en) | Method and computer readable medium for entering text into a computing system via a navigation interface | |
| US20020065662A1 (en) | Voice recognition peripheral device | |
| JP2000200275A (en) | Translator, recording medium | |
| US20100088096A1 (en) | Hand held speech recognition device | |
| CN102414994A (en) | Input processing method of mobile terminal and device for performing same | |
| JP3926365B2 (en) | Audio converter | |
| US20140372123A1 (en) | Electronic device and method for conversion between audio and text | |
| CN101002455A (en) | Systems for Enhanced Data Entry in Mobile and Stationary Environments | |
| US20050268231A1 (en) | Method and device for inputting Chinese phrases | |
| CN115312039B (en) | Method, device and storage medium for determining lyrics time | |
| JP2002116797A (en) | Voice processor and method for voice recognition and storage medium | |
| US20140180698A1 (en) | Information processing apparatus, information processing method and storage medium | |
| CN100517186C (en) | Text input method and device based on keys and voice recognition | |
| JP7109498B2 (en) | voice input device | |
| JP6310950B2 (en) | Speech translation device, speech translation method, and speech translation program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041006 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041112 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061205 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070202 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070220 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070316 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070510 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070522 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070614 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3974412 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100622 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100622 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110622 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120622 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120622 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130622 Year of fee payment: 6 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| EXPY | Cancellation because of completion of term |