JP7143579B2 - voice input device - Google Patents
voice input device Download PDFInfo
- Publication number
- JP7143579B2 JP7143579B2 JP2017212581A JP2017212581A JP7143579B2 JP 7143579 B2 JP7143579 B2 JP 7143579B2 JP 2017212581 A JP2017212581 A JP 2017212581A JP 2017212581 A JP2017212581 A JP 2017212581A JP 7143579 B2 JP7143579 B2 JP 7143579B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- signal
- user
- input device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Details Of Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Description
この発明は、携帯電話機等における音声入力に好適な音声入力装置に関する。 The present invention relates to a voice input device suitable for voice input in a mobile phone or the like.
声帯のない人に音声を発音させるための技術的手段として、電気式人工喉頭がある(例えば特許文献1参照)。この電気式人工喉頭は、人の喉に振動を与え、声帯が振動することにより生じる空気振動に類似した空気振動を口腔内に作り出す装置である。利用者は、この電気式人工喉頭による振動を喉に与え、口形状を変化させることにより、口から音声を発音することができる。声帯のない人は、この電気式人工喉頭を利用することにより、通常の会話を行う他、電話機を利用した通話を行うことも可能である。 As a technical means for making a person who does not have vocal cords produce sound, there is an electric artificial larynx (see, for example, Patent Document 1). This electric artificial larynx is a device that vibrates the human throat and creates air vibrations in the oral cavity that are similar to air vibrations caused by the vibration of the vocal cords. The user can produce sounds from the mouth by vibrating the throat with the electric artificial larynx and changing the shape of the mouth. People who do not have vocal cords can use this electrolarynx to have normal conversations as well as make calls using telephones.
ところで、電話機では、マイクロホンにより収音した音声信号をそのまま送信する。従って、収音した音声信号が聴き取り辛い音声信号である場合、通話相手が聴く音声信号も聴き取り辛いものとなる。このような事態が発生する状況の一例として、電車内において周囲の人に聴こえないような小声で携帯電話機による通話を行う場合が挙げられる。ここで、携帯電話機の利用者が小声で発音した場合、携帯電話機のマイクロホンにより得られる音声信号は、レベルが極めて小さく、かつ、その音声信号波形は通常の音量での発音時の音声信号波形に比べて歪んだものとなる。従って、マイクロホンにより得られた音声信号を通話相手に送ったとしても、通話相手は携帯電話機の利用者が何を話しているのか認識するのが困難である。これは、声帯のない人が電気式人工喉頭を利用して小声で通話を行う場合、健常者が小声で通話を行う場合の両方において生じる問題である。 By the way, in a telephone, an audio signal picked up by a microphone is transmitted as it is. Therefore, if the picked-up audio signal is difficult to hear, the audio signal heard by the other party is also difficult to hear. As an example of a situation in which such a situation occurs, there is a case in which a person speaks on a mobile phone in a low voice that cannot be heard by people around him or her on a train. Here, when the user of the mobile phone speaks in a low voice, the voice signal obtained by the microphone of the mobile phone has an extremely low level, and the voice signal waveform is similar to that of the voice signal at normal volume. distorted in comparison. Therefore, even if the voice signal obtained by the microphone is sent to the called party, it is difficult for the called party to recognize what the mobile phone user is saying. This is a problem that occurs both when a person without vocal cords speaks in a low voice using an electrolarynx and when a healthy person speaks in a low voice.
この発明は以上のような事情に鑑みてなされたものであり、小声での発音が行われる場合においてもその発音された音声を適切に伝達することを可能にする技術的手段を提供することを目的とする。 SUMMARY OF THE INVENTION The present invention has been made in view of the circumstances described above, and aims to provide a technical means capable of appropriately transmitting the pronounced voice even when the voice is uttered in a low voice. aim.
この発明は、利用者の喉に与えた振動に応じて前記利用者の口から発音される音声を示す音声信号を取得する音声取得手段と、前記音声信号に認識を容易にする音声変換処理を施す音声変換手段とを具備することを特徴とする音声入力装置を提供する。 The present invention comprises a voice acquiring means for acquiring a voice signal representing a voice pronounced from the user's mouth in response to vibration applied to the user's throat, and voice conversion processing for facilitating recognition of the voice signal. A voice input device characterized by comprising a voice conversion means for applying a voice.
この発明によれば、音声取得手段により取得される音声信号の音量が周囲の人に聴こえない程度の小音量であったとしても、音声変換手段により、その音声信号が認識の容易な情報に変換される。従って、小声での発音が行われる場合においてもその発音された音声を適切に伝達することができる。 According to the present invention, even if the volume of the audio signal acquired by the audio acquisition means is too low to be heard by surrounding people, the audio signal is converted into easily recognizable information by the audio conversion means. be done. Therefore, even when the voice is uttered in a low voice, the uttered voice can be properly transmitted.
以下、図面を参照し、この発明の実施形態について説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、この発明の一実施形態である音声入力装置100を含む携帯電話機1000の構成を示すブロック図である。図1には、音声入力装置100の他、携帯電話機1000の送信部201および受信部202と、携帯電話機1000の利用者の頭部10が図示されている。なお、携帯電話機1000は、アンテナ等、通常の携帯電話機と同様な各種の装置を有しているが、図1では、その図示は省略されている。
FIG. 1 is a block diagram showing the configuration of a
音声入力装置100において、遮音フード132とその内部に収められたアクチュエータ131は、ベルト133により利用者の首に固定される。ここで、アクチュエータ131は、その振動面を利用者の喉に接触させ、利用者の喉に振動を与える手段として機能する。遮音フード132は、アクチュエータ131の振動音が周囲に漏れないように遮蔽する手段である。
In the
傾きセンサ151は、耳掛け式のセンサであり、携帯電話機1000の利用者の耳に装着され、利用者の頭部の傾きを検出する。
The
発音開始ボタン134は、発音の開始を指示する押しボタンである。携帯電話機1000の利用者は、この発音開始ボタン134の設けられた操作子を手に持ち、発音を開始するときに発音開始ボタン134をONにする。この発音開始ボタン134は、押圧されている期間のみONになるボタンスイッチでもよく、押圧される都度、OFFからONへ、ONからOFFへ反転するボタンスイッチでもよい。
The
制御部110は、音声入力装置100の制御中枢として機能し、かつ、携帯電話機1000全体の制御中枢としても機能する。
The
操作表示部120は、例えばタッチパネルであり、利用者に各種の情報を表示するとともに、利用者の操作を受け付ける装置である。
The
駆動制御部130は、制御部110による制御の下、周期的な駆動パルス波形をアクチュエータ131に与え、これにより利用者の喉に与える振動を生成する駆動制御手段である。より具体的には、制御部110は、発音開始ボタン134がONになることにより、駆動制御部130に駆動パルス波形の出力を開始させる。
The
アクチュエータ131から喉に振動が与えられている間、利用者は、口腔1の形状を変化させつつ口の開閉を行うことにより所望の音声を発音することが可能である。マイクロホン140は、通常の携帯電話機に設けられているものと同様、利用者の音声を収音する手段であるが、本実施形態では、これに加えて、利用者の喉に与えた振動に応じて利用者の口から発音される音声を示す音声信号を取得する音声取得手段として機能する。
While the
本実施形態では、アクチュエータ131を利用した発音において、発音の音量を制御することが可能である。さらに詳述すると、本実施形態において、利用者は、操作表示部120の操作により、駆動制御部130がアクチュエータ131に与える駆動パルス波形のパルス幅を設定することが可能である。ここで、駆動パルス波形のパルス幅を長くすると、利用者の口から発音される音声の音量は大きくなる。また、駆動パルス波形のパルス幅を短くすると、利用者の口から発音される音声の音量は小さくなる。そして、駆動パルス波形のパルス幅を所定長より短くすると、利用者の口から発音される音声の音量を周囲の人に聴こえない小音量に設定することができる。通常、電気式人工喉頭を会話に用いる場合は、発音音声の音量を確保するため、電気式人工喉頭を大振幅で駆動する。しかしながら、電車内において携帯電話機1000による通話を行う場合には、アクチュエータ131を小振幅で駆動し、利用者の口から発音される音声の音量を周囲の人に聴こえない小音量にする。
In this embodiment, it is possible to control the volume of pronunciation when using the
また、本実施形態における音声入力装置100は、アクチュエータ131の振動を利用して発音を行う利用者の口から発音される音声に対し、利用者の頭部の傾きの変化に応じたイントネーション、すなわち、ピッチの変化を与える機能を有している。
In addition, the
さらに詳述すると、傾きセンサ151の出力信号は制御部110に供給される。制御部110は、傾きセンサ151の出力信号に基づいて、利用者が発音する音声についてのピッチ変換比を示すイントネーション情報を生成する。このピッチ変換比は、ピッチ変換後の音声のピッチのピッチ変換前のピッチに対する比である。
More specifically, the output signal of the
ここで、利用者の頭部前面が正面を向いた状態の傾き角を0°とする。そして、頭部前面が上方を向くと傾き角が0°から正方向に変化し、頭部前面が下方を向くと傾き角が0°から負方向に変化するものとする。 Here, it is assumed that the inclination angle when the front surface of the user's head faces the front is 0°. When the front surface of the head faces upward, the tilt angle changes from 0° to the positive direction, and when the front surface of the head faces downward, the tilt angle changes from 0° to the negative direction.
この場合、傾き角が0°から正方向に変化すると、制御部110はイントネーション情報が示すピッチ変換比を1から増加させ、傾き角が0°から負方向に変化すると、制御部110はイントネーション情報が示すピッチ変換比を1から減少させる。
In this case, when the tilt angle changes from 0° to the positive direction, the
駆動制御部130は、制御部110が出力するイントネーション情報に基づいて、アクチュエータ131に与える駆動パルス波形の周期を制御する。イントネーション情報が示すピッチ変換比が1である場合、駆動制御部130は、標準的な周期の駆動パルス波形をアクチュエータ131に与える。これにより利用者の口から標準的なピッチの音声が発音される。イントネーション情報が示すピッチ変換比が1から増加すると、駆動制御部130は、そのピッチ変換比の増加に応じてアクチュエータ131に与える駆動パルス波形の周期を短くする。これにより利用者の口から発音される音声のピッチが標準的なピッチから上昇する。また、イントネーション情報が示すピッチ変換比が1から減少すると、駆動制御部130は、そのピッチ変換比の減少に応じてアクチュエータ131に与える駆動パルス波形の周期を長くする。これにより利用者の口から発音される音声のピッチが標準的なピッチから低下する。
The
音声変換部150は、マイクロホン140から出力された音声信号に認識を容易にする音声変換処理を施す手段である。この音声変換処理に関しては、音声/文字変換モード、音声/音声変換モードおよび音声加工モードの3種類のモードが用意されている。ここで、音声/文字変換モードは、マイクロホン140から出力された音声信号について音声認識処理を実行し、文字情報を出力するモードである。また、音声/音声変換モードは、マイクロホン140から出力された音声信号について音声認識処理を実行し、この結果得られる文字情報に基づいて音声信号を合成するモードである。また、音声加工モードは、マイクロホン140から出力される音声信号について音声認識処理を実行し、この音声認識処理結果に基づいて、マイクロホン140から出力された音声信号を認識の容易な音声信号に加工するモードである。本実施形態において、携帯電話機1000の利用者は、操作表示部120を操作することにより、3種類のモードの中から所望のモードを選択し、音声変換部150に実行させることができる。
The
図2は音声変換部150の構成を示すブロック図である。図2に示すように、音声変換部150は、音声認識部151と、音声合成部152と、音声加工部153と、スイッチ154とを有する。
FIG. 2 is a block diagram showing the configuration of the
音声認識部151は、マイクロホン140から出力される音声信号の音声認識を行い、文字情報を出力する手段である。ここで、アクチュエータ131に与えられる駆動パルス波形のパルス幅が短く設定され、利用者の口から発音される音声が周囲の人に聴こえない程度の小音量である場合、マイクロホン140から出力される音声信号の母音区間のレベルは非常に小さく、子音区間のレベルはさらに小さい。この場合、音声信号における母音の認識は可能であるが、子音の認識は困難である。
The
そこで、本実施形態における音声認識部151は、音声信号のイントネーション(ピッチ変化)に基づいて音声信号における単語の区切りを判定して、音声認識を実行する。具体的には、音声認識部151は、会話に使用される各種の単語について測定された音声のピッチ変化パターンのデータベースを記憶している。そして、音声認識部151は、マイクロホン140から出力される音声信号にデータベース中のいずれかのピッチ変化パターンと合致するピッチ変化パターンが現れた場合に、そのピッチ変化パターンに対応した音声信号の区間を一語として取り扱い、音声認識を実行する。
Therefore, the
また、本実施形態における音声認識部151は、音声認識処理を実行しつつ、現時点までに得られた音声認識結果を参照し、認識が完了していない区間(種類の不明な音韻が存在する区間)の音声認識を実行する。例えば音声認識処理において、音声信号のある区間の子音の種類が不明であったとする。この場合に、音声認識処理では、その区間の前後の区間の音声認識処理結果である文字が示す文脈から当該子音の種類を推定する。具体的には、子音の種類が不明な区間の音声信号に基づいて、幾つかの子音の候補を選択する。そして、子音の候補の中から子音を1つずつ選択して当該区間に当てはめ、当該区間とその前後の区間とからなる区間内の文字が意味のある文を構成するか否かを判定する。そして、意味のある文を構成することとなる子音を音声認識結果として選択するのである。
In addition, the
音声合成部152は、音声認識部151から出力される文字情報に基づいて音声信号を合成する手段である。具体的には、音声合成部152は、子音や母音等の各種の音声素片の音声波形のデータベースを記憶しており、文字情報が示す子音や母音の音声素片の音声波形をデータベースから読み出し、時間軸上において繋ぎ合わせることにより音声信号を合成する。
The
好ましい態様では、ハスキーな男性音声、透明感の高い女性音声等、各種の音声に対応した音声素片の音声波形のデータベースが音声合成部152に記憶されている。利用者は、操作表示部120の操作により、所望の種類のデータベースを選択し、音声合成に使用することができる。
In a preferred embodiment, the
本実施形態における音声合成部152は、合成した音声信号のピッチをイントネーション情報に基づいて制御する手段を有している。ここで、イントネーション情報は、制御部110が傾きセンサ151の出力信号に基づいて生成する情報であり、利用者の口から発音される音声のピッチの変化を示している。従って、音声合成部152から出力される音声信号は、利用者の口から発音される音声が有するピッチ変化と同様なピッチ変化を有する音声信号となる。
The
音声加工部153は、音声認識部151の音声認識処理結果に基づいて、マイクロホン140から出力された音声信号を認識が容易な音声信号に加工する手段である。上述したように、利用者がアクチュエータ131を利用して周囲の人に聴こえない程度の小音量で発音する場合、マイクロホン140から出力される音声信号の特に子音区間の音量は極めて小さく認識が困難である。そこで、本実施形態では、各種の子音を表す音声信号波形のデータベースを音声加工部153に予め記憶させる。そして、音声加工部153は、マイクロホン140から出力された音声信号において、音声認識部151の音声認識処理により子音と判定された区間の音声信号波形をデータベース中の当該子音に対応した適切な音声信号波形に置き換える。また、音声加工部153は、この子音の音声信号波形の置き換え後の音声信号を聴き取りが容易な適切なレベルに増幅して出力する。
The
スイッチ154は、音声認識部151が出力する文字情報、音声合成部152が出力する音声信号、音声加工部153が出力する音声信号のいずれかを選択し、図1に示す送信部201に出力する手段である。音声変換部150が音声/文字変換モードに設定されている場合、音声認識部151が起動され、音声認識部151が出力する文字情報がスイッチ154を介して送信部201に供給される。音声変換部150が音声/音声変換モードに設定されている場合、音声認識部151および音声合成部152が起動され、音声合成部152が出力する音声信号がスイッチ154を介して送信部201に供給される。音声変換部150が音声加工モードに設定されている場合、音声認識部151および音声加工部153が起動され、音声加工部153が出力する音声信号がスイッチ154を介して送信部201に供給される。
The
図1において、送信部201は、通話相手に対して音声信号または文字情報を送信する手段である。音声変換部150が音声/文字変換モードに設定されている場合、送信部201は、音声変換部150から出力される文字情報を携帯電話機1000の利用者の通話相手の電話機に送信する。音声変換部150が音声/音声変換モードまたは音声加工モードに設定されている場合、送信部201は、音声変換部150から出力される音声信号を携帯電話機1000の利用者の通話相手の電話機に送信する。携帯電話機1000は、通話相手の電話機との通話を開始する際に、通話相手の電話機との間でネゴシエーションを行う。その際、携帯電話機1000は、送信部201から送信するのが文字情報であるか音声信号であるかを示す情報を通話相手の電話機に送信する。これにより通話相手の電話機は、文字情報が送られてきた場合にはその表示を行い、音声信号が送られてきた場合にはその放音を行うという対応が可能になる。
In FIG. 1, a
受信部202は、通話相手の電話機から音声信号を受信する手段である。受信部202により受信された音声信号は、加算器163を介してスピーカ170に送られ、スピーカ170によって放音される。
The receiving
本実施形態において、携帯電話機1000の利用者は、操作表示部120の操作を行うことにより、音声変換部150の処理結果のモニタリングを行うことができる。例えば音声/文字変換モードが設定されている状態において、利用者は、操作表示部120の操作によりスイッチ162をONにすることができる。この結果、音声変換部150の音声認識部151が出力する文字情報がスイッチ162を介して操作表示部120に送られ、操作表示部120に表示される。また、音声/音声変換モードまたは音声加工モードが設定されている状態において、利用者は、操作表示部120の操作によりスイッチ161をONにすることができる。この結果、音声変換部150の音声合成部152または音声加工部153が出力する音声信号がスイッチ161および加算器163を介してスピーカ170に送られ、スピーカ170から放音される。
以上が本実施形態における携帯電話機1000の詳細である。
In this embodiment, the user of the
The details of the
本実施形態において、携帯電話機1000の利用者は、例えば電車内において携帯電話機1000による通話を行う場合、操作表示部120の操作により、アクチュエータ131に与える駆動パルス波形のパルス幅を最低値に設定する。そして、利用者は、発音開始ボタン134をONにして、口腔1の形状を変化させる。これにより利用者の口から周囲の人に聴こえない程度の音量で音声が発音され、この音声を示す音声信号がマイクロホン140から出力される。その際、利用者は、頭部を傾けることによりイントネーション情報を変化させ、利用者の口から発音される音声にイントネーション、すなわち、ピッチの変化を与えることができる。
In this embodiment, the user of the
音声/文字変換モードが設定されている場合、音声変換部150の音声認識部151がマイクロホン140から出力される音声信号の音声認識を行い、文字情報を出力する。ここで、マイクロホン140から出力される音声信号はレベルが小さく、特に子音の認識が困難である。そこで、音声認識部151は、音声信号に現れるピッチ変化に基づいて、音声信号における単語の区切りを判定し、かつ、音声認識処理において子音の前後の文字が示す文脈に基づいて子音を推定することにより、音声信号から文字情報を生成する。この音声認識部151から出力される文字情報は、送信部201により通話相手の電話機に送られ、その電話機により表示される。
When the voice/text conversion mode is set, the
また、音声/音声変換モードが設定されている場合、音声変換部150の音声認識部151がマイクロホン140から出力される音声信号の音声認識処理を行い、文字情報を出力する。そして、音声合成部152がこの文字情報から音声信号を合成し、イントネーション情報に基づいて音声信号のピッチを制御して出力する。そして、この音声合成部152から出力される音声信号が送信部201により通話相手の電話機に送られ、その電話機のスピーカから放音される。
When the voice/voice conversion mode is set, the
また、音声加工モードが設定されている場合、音声変換部150の音声認識部151がマイクロホン140から出力される音声信号の音声認識処理を行う。そして、音声加工部153は、この音声認識処理結果に基づいて、マイクロホン140から出力された音声信号における子音期間の音声信号波形を適切な子音の音声信号波形に置き換え、かつ、この置き換え後の音声信号を適切なレベルに増幅して出力する。そして、この音声加工部153から出力される音声信号が送信部201により通話相手の電話機に送られ、その電話機のスピーカから放音される。
Also, when the voice processing mode is set, the
以上のように、本実施形態によれば、携帯電話機1000の利用者は、アクチュエータ131の振動を利用して、周囲の人に聴こえない程度の小音量での発音を行い、携帯電話機1000の音声入力装置100に音声を入力することができる。そして、このように小声での音声の入力を行った場合でも、音声入力装置100では、音声変換部150が、マイクロホン140により得られた音声信号に認識を容易にする音声変換処理を施し、送信部201が通話相手に送信する。従って、利用者は、小声での発音を行ったとしても、所望の情報を適切に通話相手に伝達することができる。
As described above, according to the present embodiment, the user of the
また、本実施形態では、音声/文字変換モードにおいて、マイクロホン140により得られた音声信号を文字情報に変換して通話相手に送信することができる。従って、利用者は所望の情報を正確に通話相手に伝達することができる。
Further, in this embodiment, in the voice/text conversion mode, the voice signal obtained by the
また、本実施形態では、音声/音声変換モードにおいて、マイクロホン140により得られた音声信号を文字情報に変換し、この文字情報から音声信号を合成して通話相手に送信することができる。従って、利用者は通常の通話に近い形態で所望の情報を通話相手に伝達することができる。
Further, in the present embodiment, in the speech/speech conversion mode, the speech signal obtained by the
また、本実施形態では、音声加工モードにおいて、マイクロホン140により得られた音声信号の子音区間の音声信号波形のみを適切な子音の音声信号波形に置き換えて通話相手に送信することができる。従って、利用者は、本人が発音する音声に近い音声を通話相手に伝達することができる。本人の音声を通話相手に届けたい利用者に好適である。
In addition, in the present embodiment, in the voice processing mode, only the voice signal waveform of the consonant section of the voice signal obtained by the
また、本実施形態における音声入力装置100は、声帯のある健常者も利用可能である。従って、声帯のない人と、声帯のある健常者の両方が、音声入力装置100を備えた携帯電話機1000を利用し、周囲の人に聴こえない小声での通話を行うこととなる。このように声帯のない人が、声帯のある健常者と同じ形態で通話を行うこととなるので、声帯のない人に対し、携帯電話機1000による通話を行う意欲を与えることができる。
Also, the
<他の実施形態>
以上、この発明の各実施形態について説明したが、この発明には他にも実施形態が考えられる。例えば次の通りである。
<Other embodiments>
Although the embodiments of the present invention have been described above, other embodiments of the present invention are conceivable. For example:
(1)上記実施形態では、傾きセンサ151の出力信号から得られるイントネーション情報によりアクチュエータ131に与える駆動パルス波形の周期を制御したが、この周期の制御を行わなくてもよい。この場合、音声認識部151では、イントネーション情報が示すピッチ変化に基づいて、マイクロホン140から出力される音声信号における単語の区切りを判定すればよい。
(1) In the above embodiment, the period of the drive pulse waveform given to the
(2)上記実施形態では、利用者の頭部に装着される傾きセンサ151によりイントネーション情報を生成した。しかし、傾きセンサ以外のセンサによりイントネーション情報を生成してもよい。例えば加速度センサ等を利用者の身体の部位に装着し、このセンサによりイントネーション情報を生成してもよい。また、イントネーション情報を生成するためのセンサは、利用者の頭部以外の部位に装着してもよい。また、スライドスイッチ等の操作子を利用者に操作させ、イントネーション情報を生成してもよい。
(2) In the above embodiment, the intonation information is generated by the
(3)上記実施形態の音声/文字変換モードにおいて、音声認識部151が出力する文字情報に同期させてイントネーション情報を通話相手の電話機に送信するようにしてもよい。この場合において、通話相手の電話機では、受信される文字情報から音声信号を合成し、この文字情報から得られる音声信号のピッチを当該文字情報と同期して受信されるイントネーション情報に基づいて制御してもよい。
(3) In the speech/text conversion mode of the above embodiment, the intonation information may be transmitted to the other party's phone in synchronization with the text information output by the
(4)上記実施形態の音声/音声変換モードにおいて、傾きセンサ151の出力信号から得られるイントネーション情報を使用する代わりに、マイクロホン140から出力される音声信号のピッチの標準的なピッチに対するピッチ比を示すイントネーション情報を生成し、音声合成部152により合成された音声信号のピッチをこのイントネーション情報に基づいて制御してもよい。
(4) In the speech/speech conversion mode of the above embodiment, instead of using the intonation information obtained from the output signal of the
(5)語頭の発音タイミングを指示する操作子を設け、音声認識部151が、この操作子の操作に基づいて、音声信号における語頭のタイミングを検知し、音声認識を行うようにしてもよい。あるいは上記実施形態における発音開始ボタン134をこの語頭の発音タイミングを指示する操作子として利用してもよい。
(5) An operator may be provided to indicate the pronunciation timing of the beginning of a word, and the
(6)音声/音声変換モードでは、音声認識処理により得られた文字情報から音声信号を合成したが、音声認識処理の過程において得られる結果、例えばフォルマント情報等から音声信号を合成してもよい。 (6) In the speech/speech conversion mode, a speech signal is synthesized from character information obtained by speech recognition processing, but a speech signal may be synthesized from results obtained in the process of speech recognition processing, such as formant information. .
(7)音声加工モードにおいて、音声認識処理を利用しない単なる波形変換処理により音声信号の加工を行ってもよい。例えばマイクロホン140から得られる音声信号のレベルや周波数に基づいて音声信号における子音区間を検出し、検出した子音区間だけレベル変換処理や子音強調処理を行う。このような音声加工処理を行うことにより、音声信号を通常の音声の音声信号に近づけることができる。
(7) In the voice processing mode, the voice signal may be processed by simple waveform conversion processing without using voice recognition processing. For example, a consonant segment in the voice signal is detected based on the level and frequency of the voice signal obtained from the
(8)マイクロホン140から得られる音声信号を音声入力装置100がネットワークを介してサーバに送信し、サーバに音声変換部150の処理を実行させ、その実行結果である音声信号や文字情報をサーバから受け取り、送信部201により通話相手に送信するようにしてもよい。この態様によれば、携帯電話機1000に音声変換部150を設ける必要がないので、携帯電話機1000のコストの増加を回避することができる。この発明の目的を達成するためには、利用者の喉に与えた振動に応じて前記利用者の口から発音される音声を示す音声信号を取得する音声取得処理と、前記音声信号に認識を容易にする音声変換処理とを何等かの装置が実行すればよい。音声取得処理を実行する装置と、音声変換処理を実行する装置をどのような装置とし、どのように配置するかは任意である。
(8) The
(9)上記実施形態では、この発明による音声入力装置を電話に用いたが、この発明による音声入力装置の用途はこれに限定されるものではない。この発明による音声入力装置は、例えば音声を用いたテキスト入力装置等を含む音声入力装置全般に適用可能である。 (9) In the above embodiments, the voice input device according to the present invention was used for telephones, but the application of the voice input device according to the present invention is not limited to this. The voice input device according to the present invention can be applied to voice input devices in general including, for example, text input devices using voice.
1000……携帯電話機、201……送信部、202……受信部、100……音声入力装置、110……制御部、120……操作表示部、130……駆動制御部、131……アクチュエータ、132……遮音フード、133……ベルト、140……マイクロホン、150……音声変換部、161,163,154……スイッチ、163……加算器、151……音声認識部、152……音声合成部、153……音声加工部、10……頭部、1……口腔。
DESCRIPTION OF
Claims (6)
身体の動きを検出するセンサと、
前記音声信号に音声変換処理を施す音声変換手段と、を具備し、
前記音声変換手段は、少なくとも前記センサにより検出された身体の動きに応じてピッチ制御を行うことを特徴とする音声入力装置。 a voice acquisition means for acquiring a voice signal representing a voice pronounced from the user's mouth in response to vibration applied to the user's throat;
a sensor that detects body movement;
and audio conversion means for performing audio conversion processing on the audio signal,
The voice input device, wherein the voice converting means performs pitch control according to at least body movements detected by the sensor.
前記音声変換手段は、前記音声信号のピッチ変化に基づいて、前記音声信号を時間軸上において区切り、前記音声認識処理を行うことを特徴とする請求項4に記載の音声入力装置。5. The voice input device according to claim 4, wherein said voice converting means divides said voice signal on the time axis based on a pitch change of said voice signal, and performs said voice recognition processing.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017212581A JP7143579B2 (en) | 2017-11-02 | 2017-11-02 | voice input device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017212581A JP7143579B2 (en) | 2017-11-02 | 2017-11-02 | voice input device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019087798A JP2019087798A (en) | 2019-06-06 |
| JP7143579B2 true JP7143579B2 (en) | 2022-09-29 |
Family
ID=66763475
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017212581A Active JP7143579B2 (en) | 2017-11-02 | 2017-11-02 | voice input device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7143579B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6931175B2 (en) * | 2019-12-26 | 2021-09-01 | 富士通クライアントコンピューティング株式会社 | Information processing equipment, information processing systems, and programs |
| CN120544536B (en) * | 2025-07-25 | 2025-09-30 | 深圳市富联芯微科技有限公司 | Voice generation method and system based on throat vibration signal analysis |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003157096A (en) | 2001-07-30 | 2003-05-30 | Fukuoka Institute Of Technology | Method and apparatus for converting between media representations |
| JP2004287209A (en) | 2003-03-24 | 2004-10-14 | Hokkaido Technology Licence Office Co Ltd | Device for supporting speech handicapped person's conversation, method for preparing conversion rule, method for supporting speech handicapped person's conversation, conversion rule preparing program and speech handicapped person's conversation supporting program |
| JP2005057737A (en) | 2003-07-18 | 2005-03-03 | Yuji Hosoi | Speech input device |
| JP2009162879A (en) | 2007-12-28 | 2009-07-23 | Hiroshima Industrial Promotion Organization | Speech support method |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58111993A (en) * | 1981-12-25 | 1983-07-04 | 富士通株式会社 | Paragraph unit voice recognition processing system |
| JPS63259600A (en) * | 1987-04-16 | 1988-10-26 | 富士通株式会社 | Continuous voice recognition system |
| US4821326A (en) * | 1987-11-16 | 1989-04-11 | Macrowave Technology Corporation | Non-audible speech generation method and apparatus |
| EP1013247B1 (en) * | 1997-09-08 | 2005-11-16 | Densei Inc. | Electric artificial larynx |
-
2017
- 2017-11-02 JP JP2017212581A patent/JP7143579B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003157096A (en) | 2001-07-30 | 2003-05-30 | Fukuoka Institute Of Technology | Method and apparatus for converting between media representations |
| JP2004287209A (en) | 2003-03-24 | 2004-10-14 | Hokkaido Technology Licence Office Co Ltd | Device for supporting speech handicapped person's conversation, method for preparing conversion rule, method for supporting speech handicapped person's conversation, conversion rule preparing program and speech handicapped person's conversation supporting program |
| JP2005057737A (en) | 2003-07-18 | 2005-03-03 | Yuji Hosoi | Speech input device |
| JP2009162879A (en) | 2007-12-28 | 2009-07-23 | Hiroshima Industrial Promotion Organization | Speech support method |
Non-Patent Citations (2)
| Title |
|---|
| 中村圭吾 他,"喉頭摘出者を想定して微弱な音源信号を用いて収録された肉伝導音声の声質変換",電子情報通信学会技術研究報告,2006年05月12日,Vol.106,No.57,pp.65-70 |
| 中村圭吾 他,"外部音源を用いた発声補助システムにおける統計的声質変換の評価",電子情報通信学会技術研究報告,2009年10月22日,Vol.109,No.260,pp.49-53 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2019087798A (en) | 2019-06-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20240221718A1 (en) | Systems and methods for providing low latency user feedback associated with a user speaking silently | |
| CN107798055B (en) | Voice interactive device and automatic interaction method using voice interactive device | |
| CN110097875B (en) | Microphone signal based voice interaction wake-up electronic device, method, and medium | |
| CN110223711B (en) | Microphone-based voice interaction wake-up electronic device, method and medium | |
| JP7420385B2 (en) | Robot and voice generation program | |
| CN1742321B (en) | Rhythmic imitation synthesis method and device | |
| US20050049856A1 (en) | Method and means for creating prosody in speech regeneration for laryngectomees | |
| KR20170071585A (en) | Systems, methods, and devices for intelligent speech recognition and processing | |
| CN118235174A (en) | Silent speech detection | |
| JPWO2008007616A1 (en) | Non-voice utterance input warning device, method and program | |
| JP2023106649A (en) | Information processing device, information processing method, and computer program | |
| CN115148185B (en) | Speech synthesis method and device, electronic device and storage medium | |
| CN113287117B (en) | Interactive system and method | |
| JP7143579B2 (en) | voice input device | |
| CN112840397A (en) | Information processing device and information processing method | |
| EP4207805A1 (en) | Electronic device and control method thereof | |
| US20220148570A1 (en) | Speech interpretation device and system | |
| CN120164448A (en) | A sound generating device, method and storage medium based on ultrasonic recognition | |
| JP6604912B2 (en) | Utterance motion presentation device, method and program | |
| KR20240038532A (en) | Method for operating singing mode and electronic device performing the same | |
| KR20120034395A (en) | Artificial larynx apparatus | |
| JP2018007723A (en) | Swallowing information presentation device | |
| JP7740384B2 (en) | Call system, call device, call method, program, and server | |
| KR102564985B1 (en) | Apparatus for converting key input into voice signal and method thereof | |
| JP3248490U (en) | Speech information recognition device for the hearing-blind |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200918 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210721 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210810 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211005 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220408 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220816 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220829 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 7143579 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |