JP5244663B2 - Speech recognition processing method and system for inputting text by speech - Google Patents
Speech recognition processing method and system for inputting text by speech Download PDFInfo
- Publication number
- JP5244663B2 JP5244663B2 JP2009065542A JP2009065542A JP5244663B2 JP 5244663 B2 JP5244663 B2 JP 5244663B2 JP 2009065542 A JP2009065542 A JP 2009065542A JP 2009065542 A JP2009065542 A JP 2009065542A JP 5244663 B2 JP5244663 B2 JP 5244663B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- text data
- voice recognition
- data
- session
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音声によってテキストを入力する音声認識処理方法及びシステムに関する。 The present invention relates to a speech recognition processing method and system for inputting text by speech.
パーソナルコンピュータのように比較的処理能力が高い端末を用いて、利用者が発声した音声を、テキストデータに変換するソフトウェアがある。端末は、マイクによって利用者が発声した音声を取得する。その音声は、音声データに符号化される。そして、その音声データは、音声認識処理によってテキストデータに変換される。 There is software that converts a voice uttered by a user into text data using a terminal having a relatively high processing capability such as a personal computer. The terminal acquires the voice uttered by the user through the microphone. The voice is encoded into voice data. The voice data is converted into text data by voice recognition processing.
また、携帯端末のように比較的処理能力が低い端末の場合、数千語彙程度のキーワードを音声認識することはできる。しかしながら、処理能力の観点から、ディクテーションのように数万語以上の大語彙に対応する文章を、音声認識することはできない。 In addition, in the case of a terminal having a relatively low processing capability such as a portable terminal, it is possible to recognize a voice of about several thousand vocabulary keywords. However, from the viewpoint of processing capability, a sentence corresponding to a large vocabulary of more than tens of thousands of words such as dictation cannot be recognized as speech.
そのために、携帯端末が、ネットワークを介して音声認識サーバに接続することによって、音声認識処理を実行する技術がある。この技術によれば、携帯端末は、符号化された音声データを、HTTP(HyperText Transfer Protocol)によって音声認識サーバへ一括して送信する。音声認識サーバは、音声認識処理によって音声データをテキストデータへ変換する。変換されたテキストデータは、携帯端末へ返信される。これにより、音声認識処理の中で負荷が大きい処理を、サーバで実行することができる。即ち、処理能力の低い携帯端末であっても、大語彙の高精度な音声認識を実行することができる。 For this purpose, there is a technique for executing a voice recognition process by connecting a portable terminal to a voice recognition server via a network. According to this technology, the portable terminal transmits the encoded voice data to the voice recognition server in a batch by HTTP (HyperText Transfer Protocol). The voice recognition server converts voice data into text data by voice recognition processing. The converted text data is returned to the mobile terminal. Thereby, a process with a heavy load in the voice recognition process can be executed by the server. That is, even a portable terminal with low processing capability can perform high-accuracy speech recognition of a large vocabulary.
従来技術によれば、携帯端末は、音声認識サーバへ、HTTPリクエストを用いて音声データを一括して送信する。これに対し、音声認識サーバも、音声データを一括してテキストデータに変換する。そして、全てのテキストデータを、HTTPレスポンスによって一括して返信する。HTTPのリクエスト及びレスポンスのシーケンスを用いることによって、複数の携帯端末から1つの音声認識サーバへのアクセスも可能とする。 According to the prior art, the portable terminal transmits voice data to the voice recognition server in a batch using an HTTP request. On the other hand, the voice recognition server also converts the voice data into text data at once. Then, all the text data is returned in a batch with an HTTP response. By using an HTTP request and response sequence, it is possible to access a single voice recognition server from a plurality of portable terminals.
しかしながら、利用者は、マイクへ発声しながら、ディスプレイでテキストデータを視認することができない。特に、入力される文章が長くなるほど、テキストデータの表示までに遅延が発生し、利便性に欠ける。また、HTTPの場合、下位プロトコルにTCP(Transmission Control Protocol)を用いるために、エラーフリーである反面、オーバヘッドが大きく且つネットワークへの負荷が大きい。 However, the user cannot visually recognize the text data on the display while speaking to the microphone. In particular, the longer the input text is, the more delay occurs until the text data is displayed, resulting in less convenience. In addition, in the case of HTTP, since TCP (Transmission Control Protocol) is used as a lower protocol, it is error free but has a large overhead and a heavy load on the network.
そこで、本発明は、リアルタイムに音声データが認識され、且つ、ネットワークの負荷をできる限り小さくすることができる音声認識方法及びシステムを提供することを目的とする。 Accordingly, an object of the present invention is to provide a voice recognition method and system that can recognize voice data in real time and can reduce the load on the network as much as possible.
本発明によれば、
セッション制御サーバと、
セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
セッション制御サーバに対する呼接続手段と、音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
端末が、テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、端末の呼接続手段が、コーデック情報及び音声認識種別を含む音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバによって、コーデック情報に基づいて復号処理が実行されると共に、音声認識種別を用いて辞書が切り替えられ、端末が、音声認識サーバから呼接続受付応答を受信した後、音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する第1のステップと、
端末が、利用者によって発声された所定単位の音声データを、第1のセッションを介して音声認識サーバへ送信する第2のステップと、
音声認識サーバが、音声認識処理手段を用いて変換した1次候補テキストデータを、第2のセッションを介して端末へ送信する第3のステップと、
端末及び音声認識サーバが、利用者による音声入力が終了するまで、第2のステップ及び第3のステップを連続的に繰り返す第4のステップと、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補テキストデータ以外の他候補テキストデータが存在する場合、1次候補テキストデータに対応させた1つ以上の他候補テキストデータを、端末へ送信する第5のステップと
を有し、
端末が、当該1次候補テキストデータの部分について、当該1次候補テキストデータか又はいずれの他候補テキストデータであるかを利用者に選択させて確定することを特徴とする。
According to the present invention,
A session control server;
A terminal that activates call connection means for the session control server, text processing application, and voice input interface means for inputting voice data from the user;
A speech recognition processing method in a system having a call connection means for a session control server and a speech recognition server having speech recognition processing means for converting speech data into text data,
When the terminal activates the voice input interface means for the text processing application, the call connection means of the terminal recognizes the call connection request including the voice recognition parameters including the codec information and the voice recognition type through the session control server. After being transmitted to the server and decoded by the voice recognition server based on the codec information, the dictionary is switched using the voice recognition type, and the terminal receives the call connection acceptance response from the voice recognition server. Establishing a first session for speech data and a second session for text data with a speech recognition server;
A second step in which the terminal transmits voice data of a predetermined unit uttered by the user to the voice recognition server via the first session;
A third step in which the speech recognition server transmits the primary candidate text data converted using the speech recognition processing means to the terminal via the second session;
A fourth step in which the terminal and the voice recognition server continuously repeat the second step and the third step until the voice input by the user is completed;
When there is other candidate text data other than the primary candidate text data already transmitted by the voice recognition server when the voice input is finished by the user, one or more other candidates associated with the primary candidate text data text data, possess a fifth step of transmitting to the terminal,
The terminal is characterized in that the user selects and determines whether the primary candidate text data is the primary candidate text data or any other candidate text data .
本発明の音声認識処理方法における他の実施形態によれば、第1のステップについて、音声データ用の第1のセッションは、RTP(Realtime Transport Protocol)によって確立されており、テキストデータ用の第2のセッションは、TCP(Transmission Control Protocol)によって確立されていることも好ましい。 According to another embodiment of the speech recognition processing method of the present invention, for the first step, the first session for speech data is established by RTP (Realtime Transport Protocol) and the second for text data. The session is preferably established by TCP (Transmission Control Protocol).
本発明によれば、
端末と音声認識サーバとが、セッション制御サーバによって呼接続されるシステムにおいて、
端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、コーデック情報及び音声認識種別を含む音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバから呼接続受付応答を受信した後、音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する呼接続手段と、
音声入力インタフェース手段によって取得された所定単位の音声データを、第1のセッションを介して音声認識サーバへ送信する音声データ送信手段と
を有し、
音声認識サーバは、
セッション制御サーバに対する呼接続手段と、
コーデック情報に基づいて復号処理を実行すると共に、音声認識種別を用いて辞書を切り替えて、音声データをテキストデータに変換する音声認識処理手段と、
1次候補テキストデータを第2のセッションを介して端末へ送信するテキストデータ送信手段と、
利用者による音声入力が終了するまで、音声認識処理手段及びテキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補テキストデータ以外の他候補テキストデータが存在する場合、1次候補テキストデータに対応させた1つ以上の他候補テキストデータを、端末へ送信する他候補蓄積手段と
を有し、
端末が、当該1次候補テキストデータの部分について、当該1次候補テキストデータか又はいずれの他候補テキストデータであるかを利用者に選択させて確定することを特徴とする。
According to the present invention,
In a system in which a terminal and a voice recognition server are call-connected by a session control server,
The terminal
A text processing application;
Voice input interface means for inputting voice data from a user;
When the voice input interface means for the text processing application is activated, a call connection request including a voice recognition parameter including codec information and a voice recognition type is transmitted to the voice recognition server via the session control server, and the call is received from the voice recognition server. Call connection means for establishing a first session for voice data and a second session for text data with the voice recognition server after receiving the connection acceptance response ;
Voice data transmitting means for transmitting voice data of a predetermined unit acquired by the voice input interface means to the voice recognition server via the first session;
The speech recognition server
Call connection means to the session control server;
Voice recognition processing means for performing decoding processing based on the codec information, switching a dictionary using a voice recognition type, and converting voice data into text data;
Text data transmitting means for transmitting the primary candidate text data to the terminal via the second session;
Voice recognition control means for continuously repeating the voice recognition processing means and the text data transmission means until the voice input by the user is completed;
When there is other candidate text data other than the primary candidate text data already transmitted by the voice recognition server when the voice input is finished by the user, one or more other candidates associated with the primary candidate text data text data, possess the other candidate storing means for transmitting to the terminal,
The terminal is characterized in that the user selects and determines whether the primary candidate text data is the primary candidate text data or any other candidate text data .
本発明のシステムにおける他の実施形態によれば、音声データ用の第1のセッションは、RTPによって確立されており、テキストデータ用の第2のセッションは、TCPによって確立されていることも好ましい。 According to another embodiment of the system of the present invention, it is also preferable that the first session for voice data is established by RTP and the second session for text data is established by TCP.
本発明の音声認識方法及びシステムによれば、携帯端末は、所定単位の音声データをRTPのデータストリームで送信すると共に、音声認識によって変換されたテキストデータをTCPのデータストリームで受信する。これにより、音声データとテキストデータとを一括して送受信するHTTPの場合に比べて、ネットワークの負荷をできる限り小さくすることができる。 According to the voice recognition method and system of the present invention, the mobile terminal transmits a predetermined unit of voice data as an RTP data stream and receives text data converted by voice recognition as a TCP data stream. As a result, the load on the network can be reduced as much as possible compared to the case of HTTP in which voice data and text data are transmitted and received in a batch.
また、携帯端末は、音声入力中には、音声データを逐次的に変換した第1候補テキストデータをディスプレイに表示すると共に、音声入力終了後に、他候補テキストデータをディスプレイに表示する。これにより、利用者から見て、音声入力中に、リアルタイムに音声データが認識されると共に、音声入力終了後に、最適なテキストデータを選択することができる。 In addition, during the voice input, the mobile terminal displays the first candidate text data obtained by sequentially converting the voice data on the display, and displays the other candidate text data on the display after the voice input is completed. As a result, the voice data is recognized in real time during the voice input from the viewpoint of the user, and the optimum text data can be selected after the voice input is completed.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明における第1のシステム構成図である。 FIG. 1 is a first system configuration diagram according to the present invention.
図1によれば、端末1は、セッション制御サーバ3を介して、音声認識サーバ2と呼接続する。端末1は、例えば携帯電話機のような比較的処理能力が低い携帯端末である。セッション制御サーバ3は、呼制御プロトコルとしてのSIP(Session Initiation Protocol)サーバであって、例えばIMS/MMD(IP Multimedia Subsystem / Multimedia Domain)網のコントロールネットワークに接続される。携帯端末1は、例えば携帯電話網のようなアクセスネットワークを介して、IMS/MMD網に接続する。
According to FIG. 1, the
図1によれば、携帯端末1は、テキスト処理アプリケーションとして、例えばメールソフトウェアを起動する。ここで、利用者は、携帯端末1のマイクに向かって発声することによって、メールソフトウェアのエディタにテキストを入力することができる。
According to FIG. 1, the
音声認識サーバ2は、SIPサーバ3を介して、携帯端末1から呼接続される。音声認識サーバ2は、携帯端末1から受信した音声データを、音声認識処理によってテキストデータに変換する。変換されたテキストデータは、携帯端末1へ返信させる。
The
携帯端末1と音声認識サーバ2との間では、音声データ用のRTPのセッションと、認識候補となるテキストデータ用のTCPのセッションとが確立される。RTPは、音声又は動画等のデータをストリーミングで伝送するためのプロトコルである。TCPは、ファイル等のデータをエラーフリーで伝送するためのプロトコルである。
Between the
RTPは、下位プロトコルにUDP(User Datagram Protocol)が用いられる。そのために、RTPパケットに、FEC(Forward Error Correction:前方誤り訂正)やMFT(Missing Feature Theory:ミッシングフィーチャー理論)の誤り訂正符号を付加することも好ましい。これによって、パケットロスによる認識性能への影響が軽減される。 RTP uses UDP (User Datagram Protocol) as a lower protocol. Therefore, it is also preferable to add an error correction code of FEC (Forward Error Correction) or MFT (Missing Feature Theory) to the RTP packet. Thereby, the influence on the recognition performance due to the packet loss is reduced.
図2は、本発明における端末及び音声認識サーバの機能構成図である。 FIG. 2 is a functional configuration diagram of the terminal and the voice recognition server in the present invention.
携帯端末1は、ハードウェアとして、通信インタフェース部101と、利用者によって発声された音声を取得するマイク102と、テキストデータを表示するディスプレイ103と、操作及びテキストを選択するキー操作部104とを有する。
The
また、携帯端末1は、ソフトウェアとして、呼接続部111と、トランスポートインタフェース部112と、テキスト処理アプリケーション113と、音声入力インタフェース部114と、音声データ送信部121と、テキストデータ受信部122と、他候補選択部123とを有する。これら機能構成部は、携帯端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
The
テキスト処理アプリケーション113は、テキストエディタ機能を有し、例えばメールアプリケーションであってもよい。テキスト処理アプリケーション113は、音声認識パラメータを引数として音声入力インタフェース部114を起動する。音声認識パラメータは、少なくとも、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とである。音声入力終了後、テキスト処理アプリケーション113は、音声入力インタフェース部114から、テキストデータを取得する。
The
音声入力インタフェース部114は、ユーザインタフェースとして機能する。音声入力インタフェース部114は、利用者が発声した音声をマイク102から取得し、AMR(Adaptive Multi-Rate)やEVRC(Enhanced Variable Rate Codec)等によって音声データに符号化する。又は、信号処理によって特徴抽出した音声データに変換するものであってもよい。音声入力インタフェース部114は、音声入力が終了した際に、呼接続部111へ、音声入力終了を通知する。
The voice
尚、音声入力インタフェース部114は、テキスト処理アプリケーション113と重畳的に機能する。即ち、音声入力インタフェース部114は、種々のアプリケーションから共通に利用可能なミドルウェアとして実装される。そのため、テキスト処理アプリケーション113を設計する際に、音声認識処理を考慮する必要がない。また、
Note that the voice
呼接続部111は、SIPサーバ3に対してクライアントとして機能する。呼接続部111は、音声入力インタフェース部114が起動された際に、音声認識パラメータを含むINVITEメッセージ(呼接続要求)を、SIPサーバ3を介して音声認識サーバ2へ送信する。また、呼接続部111は、音声入力インタフェース部114の指示に応じて、音声入力開始又は終了の制御情報を含むINFOメッセージを、SIPサーバ3を介して音声認識サーバ2へ送信する。
The
トランスポートインタフェース部112は、音声認識サーバ2との間で、音声データ用のRTPのデータストリームと、テキストデータ用のTCPのデータストリームとを確立する。
The
音声データ送信部121は、音声入力インタフェース部114によって取得された所定単位の音声データを、RTPのデータストリームを介して音声認識サーバ2へ送信する。
The voice
テキストデータ受信部122は、音声認識サーバ2から、音声認識によって得られたテキストデータを受信する。音声入力中には、逐次的に1次候補テキストデータを受信する。また、音声入力終了後には、1次候補テキストデータと、1つ以上の他候補テキストデータとの組み合わせを受信する。受信されたテキストデータは、テキスト処理アプリケーション113へ出力される。
The text
他候補選択部123は、利用者によって他候補テキストデータを選択させる。音声入力終了後、テキスト処理アプリケーションは、既にディスプレイに表示しているテキストデータの中から、他候補テキストデータに対応する1次候補テキストデータを検索する。一致した1次候補テキストデータについて、他候補テキストデータをディスプレイに表示し、利用者に選択させる。
The other
音声認識サーバ2は、通信インタフェース部201と、呼接続部211と、トランスポートインタフェース部212と、音声認識処理部221と、テキストデータ送信部222と、他候補蓄積部223と、音声認識制御部224とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行させることによって実現される。
The
呼接続部211は、SIPサーバ3に対してクライアントとして機能する。呼接続部211は、受信したINVITEメッセージから、音声認識パラメータを取得する。その音声認識パラメータは、音声認識処理部221へ出力される。
The
トランスポートインタフェース部212は、携帯端末1との間で、音声データ用のRTPのデータストリームと、テキストデータ用のTCPのデータストリームとを確立する。
The
音声認識処理部221は、RTPのデータストリームを介して音声データを受信し、音声認識によってその音声データをテキストデータに変換する。ここで、音声認識処理部221は、発声途中の暫定的な1次候補テキストデータをテキストデータ送信部222へ出力し、他の候補テキストデータを他候補蓄積部223へ出力する。
The voice
音声認識処理部221は、辞書及び言語モデルを参照し、音声データをテキストデータに変換する。音声認識処理部221には、例えば、文章の「てにをは」を含めて認識するNグラムモデルがある。Nグラムモデルは、サンプルデータから統計的に確率を計算する言語モデルである。N=3(トライグラム)として、与えられた単語列w1w2・・・wnの出現確率P(w1w2・・・wn)の推定をする場合に、P(w1w2・・・wn)=ΠP(wi|wi-2、wi-1)×P(w1w2)のように近似する。右辺のP(wi|wi-2、wi-1)は、単語wi-2、wi-1と来たときに、次にwiが来る条件付確率を表す。P(wi|wi-2、wi-1)の全ての積を計算し、P(w1w2・・・wn)が最も大きな値を取る単語列の組み合わせを認識結果として決定する。
The voice
Nグラムモデルでは、発話中のある部分の音声認識に、前後の単語との相関を用いる。このため、ある部分の音声認識結果を得るために、その後の部分の発話が必要となる。当該部分の発話よりも数単語先までの発話を得てから音声認識結果が確定する。つまり、音声認識結果が確定するのは、当該部分の発話がなされてから数単語分遅れることになる。 In the N-gram model, correlation with words before and after is used for speech recognition of a certain part during speech. For this reason, in order to obtain the speech recognition result of a certain part, the subsequent part of speech is required. The speech recognition result is determined after obtaining an utterance up to several words ahead of the utterance of the part. In other words, the voice recognition result is confirmed by a delay of several words after the portion is uttered.
そこで、音声認識処理部221は、Nグラムモデルにおける1次候補テキストデータを、テキストデータ送信部222へ出力する。また、音声認識処理部221は、1次候補テキストデータと、その1次候補テキストデータから数単語先で確定した他候補テキストデータとの組み合わせを、他候補蓄積部223へ出力する。
Therefore, the speech
テキストデータ送信部222は、発声途中の暫定的な1次候補テキストデータを、TCPのデータストリームを介して、携帯端末1へ送信する。
The text
音声認識制御部224は、利用者による音声入力が終了するまで、音声認識処理部221及びテキストデータ送信部222を繰り返し機能させる。
The voice
他候補蓄積部223は、利用者による音声入力が終了した際に、1次候補テキストデータと、1つ以上の他候補テキストデータとの組み合わせを、携帯端末1へ送信する。
The other
図3は、本発明におけるフローチャートである。図3のシーケンスに対応して、図4は、本発明における端末の第1の表示画面例である。また、図5は、本発明における端末の第2の表示画面例である。 FIG. 3 is a flowchart in the present invention. Corresponding to the sequence of FIG. 3, FIG. 4 is a first display screen example of the terminal in the present invention. FIG. 5 is a second display screen example of the terminal according to the present invention.
(S301)音声認識サーバ2は、REGISTERメソッドを用いて、当該サーバの位置情報(AOR(Address-Of-Record)、コンタクトアドレス)を、SIPサーバ3へ登録する。
(S301) The
(S302)図4(a)によれば、テキスト処理アプリケーションは、メールソフトウェアであって、利用者がメールの「本文」にテキストを入力しようとしている。 (S302) According to FIG. 4A, the text processing application is mail software, and the user is going to input text into the “body” of the mail.
(S303)図4(b)によれば、携帯端末1について、メールソフトウェアのエディタが起動している。そして、利用者は、項目「認識開始」を選択する。
(S303) According to FIG. 4B, the mail software editor is activated for the
(S304)図4(c)によれば、携帯端末1は、利用者へ、マイクに向かって発声するべく指示する。このとき、テキスト処理アプリケーションは、音声入力インタフェース部へ、音声認識パラメータを引き渡す。これにより、音声入力インタフェース部が起動する。
(S304) According to FIG. 4C, the
(S305)携帯端末1は、REGISTERメソッドを用いて、当該端末の位置情報(AOR、コンタクトアドレス)を、SIPサーバ3へ登録する。AORは、SIPにおける端末のロケーションを表す論理的なアドレスである。ここで、AORは、音声認識サーバのアドレスを表す。コンタクトアドレスは、携帯端末の実アドレスであり、AORと紐付けされる。これにより、AORからコンタクトアドレスを検索することができる。尚、AORとコンタクトアドレスとは、必ずしも1対1とは限らない。1つのAORに対して複数のコンタクトアドレスを割り当てることにより、複数の音声認識サーバに対して同時に発信することもできる。
(S305) The
(S311)携帯端末1は、呼接続要求(INVITE)を、SIPサーバ3を介して音声認識サーバ2へ送信する。ここで、INVITEリクエストのSDP(Specification Description Protocol)には、携帯端末1と音声認識サーバ2との間で、音声データ用のRTPのデータストリームと、テキストデータ用のTCPのデータストリームとを確立するべく記述される。
(S311) The
図6は、INVITEリクエストのSDPの記述例である。 FIG. 6 is a description example of the SDP of the INVITE request.
"m"は、データストリーム種別を表し、"a"は、そのデータストリームに対するパラメータを表す。本発明のSDPには、音声データストリーム(m=audio)と、テキストデータストリーム(m=message)とが記述される。また、ペイロードタイプとコーデック/フォーマットとがマッピングされる。更に、音声認識パラメータが設定される。音声認識パラメータとしては、例えば、音声認識種別、パケットサイズ、転送間隔、及びテキストデータの出力候補数が設定されている。 “m” represents a data stream type, and “a” represents a parameter for the data stream. In the SDP of the present invention, an audio data stream (m = audio) and a text data stream (m = message) are described. Also, the payload type and codec / format are mapped. Furthermore, voice recognition parameters are set. As the speech recognition parameters, for example, a speech recognition type, a packet size, a transfer interval, and the number of text data output candidates are set.
図6によれば、種々のパラメータも設定されている。例えば"gps"によれば、携帯端末の位置情報に基づいて音声認識の辞書を切り替えることもできる。また、例えば"user"によれば、個人識別情報又は個人履歴情報に基づいて音声認識の辞書を切り替えることもできる。 According to FIG. 6, various parameters are also set. For example, according to “gps”, a dictionary for voice recognition can be switched based on position information of a mobile terminal. Further, for example, according to “user”, the dictionary for voice recognition can be switched based on personal identification information or personal history information.
音声認識サーバ2は、INVITEリクエストを受信した際に、音声認識パラメータを判定する。音声認識サーバ2は、その音声認識パラメータを許容できる場合、INVITEレスポンスを返信する。
The
図7は、INVITEレスポンスのSDPの記述例である。 FIG. 7 is a description example of the SDP of the INVITE response.
INVITEレスポンスには、データストリーム毎に、音声認識サーバ側のポート番号が記述される。 In the INVITE response, the port number on the voice recognition server side is described for each data stream.
(S312)携帯端末1と音声認識サーバ2との間で、音声データ用のRTPのデータストリームと、テキストデータ用のTCPのデータストリームとが確立される。
(S312) An RTP data stream for voice data and a TCP data stream for text data are established between the
音声入力開始時に、音声認識サーバ2とのセッションが既に確立されている場合、REGISTERメソッド(S305)及びINVITEメソッド(S311)は省略する。
If a session with the
(S321)携帯端末1は、音声入力開始の制御情報を含むINFOメッセージを、SIPサーバ3を介して音声認識サーバ2へ送信する。INFOメソッドは、音声認識パラメータの設定変更、及び音声認識処理の制御情報(開始・終了・中止、エラー等)の通知に用いられる。
(S321) The
(S322)携帯端末1は、利用者によって発声された所定単位の音声データを、RTPのデータストリームを介して音声認識サーバ2へ送信する。これに対し、音声認識サーバ2は、音声認識処理によってテキストデータに変換し、発声途中の暫定的な1次候補テキストデータを、TCPのデータストリームを介して携帯端末1へ返信する。ここで、逐次的に返信されるテキストデータは、音声認識処理による1次候補のものである。携帯端末1は、TCPのデータストリームを介してテキストデータを受信すると同時に、利用者に視認させるべくディスプレイに表示する。
(S322) The
音声データにおける所定単位は、パラメータで指定した転送サイズであって、ネットワーク状態に応じたバッファリングサイズ等によって可変に制御されるものであってもよい。 The predetermined unit in the audio data may be a transfer size designated by a parameter, and may be variably controlled by a buffering size or the like according to the network state.
図4(d)によれば、利用者の発声から認識された「おはようございます」が表示されている。
図4(e)によれば、利用者の発声から認識された「今日の」が表示されている。
図4(f)によれば、利用者の発声から認識された「回避は」が表示されている。実は、利用者は、「会議は」の意味で発声しているにも関わらず、音声認識処理によって1次候補として「回避は」と認識された。
図5(a)によれば、利用者の発声から認識された「午後3次より」が表示されている。実は、利用者は、「午後3時より」の意味で発声しているにも関わらず、音声認識処理によって1次候補として「午後3次より」と認識された。
図5(b)によれば、利用者の発声から認識された「いつもの場所ではじめます」が表示されている。
According to FIG. 4D, “Good morning” recognized from the user's utterance is displayed.
According to FIG. 4E, “today” recognized from the user's utterance is displayed.
According to FIG. 4 (f), “avoidance” recognized from the user's utterance is displayed. In fact, although the user uttered in the meaning of “meeting”, it was recognized as “avoidance” as the primary candidate by the voice recognition processing.
According to FIG. 5 (a), “From 3rd PM” recognized from the user's utterance is displayed. In fact, the user was recognized as “primary from the afternoon” as the primary candidate by the voice recognition process, even though the user uttered in the meaning of “from 3 pm”.
According to FIG. 5B, “Start at the usual place” recognized from the user's utterance is displayed.
(S323)携帯端末1は、利用者による音声入力が終了すると、音声入力終了の制御情報を含むINFOメッセージを、SIPサーバ3を介して音声認識サーバ2へ送信する。
(S323) When the voice input by the user is completed, the
音声入力終了のINFOメッセージを受信した音声認識サーバ2は、既に送信した1次候補以外の他候補テキストデータが存在する場合、他候補テキストデータを、携帯端末1へ送信する。
The
図5(c)によれば、携帯端末1は、1次候補テキストデータ「回避は」に対して、他候補テキストデータ「会費は」「会議は」を受信する。このとき、既にディスプレイに表示された1次候補テキストデータ「回避は」を検索し、その位置にアンカーを表示する。そして、「回避は」「会費は」「会議は」の中で、いずれが正しいテキストデータであるかを、利用者に選択させる。ここでは、「会議は」が選択されている。
According to FIG. 5C, the
図5(d)によれば、携帯端末1は、1次候補テキストデータ「3次」に対して、他候補テキストデータ「賛辞」「3次」を受信する。このとき、既にディスプレイに表示された1次候補テキストデータ「3次」を検索し、その位置にアンカーを表示する。そして、「3次」「賛辞」「3時」の中で、いずれが正しいテキストデータであるかを、利用者に選択させる。ここでは、「3時」が選択されている。
According to FIG. 5 (d), the
(S324)携帯端末1は、利用者によるテキストデータの選択が終了すると、テキスト処理アプリケーションへテキストデータを引き渡す。これによって、テキスト処理アプリケーションに対するテキストデータの入力が終了する。
(S324) When the user finishes selecting text data, the
(S325)携帯端末1は、BYEメソッドで音声認識サーバ2と接続を切断し、セッションを終了する。
(S325) The
(S326)最後に、携帯端末1は、REGISTERメソッドを用いて、当該携帯端末の位置登録を削除する。
(S326) Finally, the
図8は、本発明における第2のシステム構成図である。 FIG. 8 is a second system configuration diagram according to the present invention.
図8のシステムは、IP電話又は電話会議システムへの適用例である。例えば、利用者自身又は相手方の発声を音声認識し、テキストデータを得る。そのテキストデータは、メモや議事録として保存され、又は、メールで第三者に転送されることもできる。 The system shown in FIG. 8 is an application example to an IP telephone or a telephone conference system. For example, the user's own or the other party's utterance is recognized as speech to obtain text data. The text data can be stored as a memo or minutes, or transferred to a third party by e-mail.
図9は、本発明における第3のシステム構成図である。 FIG. 9 is a third system configuration diagram in the present invention.
図9のシステムは、テレビ字幕システムへの適用例である。例えば、IPテレビ受信端末によって、放送番組又はビデオストリーミング番組を視聴する場合、放送内容の音声を認識し、テキストデータとして携帯端末で字幕表示する。 The system of FIG. 9 is an example applied to a television caption system. For example, when a broadcast program or a video streaming program is viewed by an IP television receiving terminal, the sound of the broadcast content is recognized and captions are displayed as text data on a portable terminal.
以上、詳細に説明したように、本発明の音声認識方法及びシステムによれば、携帯端末は、所定単位の音声データをRTPのデータストリームで送信すると共に、音声認識によって変換されたテキストデータをTCPのデータストリームで受信する。これにより、音声データとテキストデータとを一括して送受信するHTTPの場合に比べて、ネットワークの負荷をできる限り小さくすることができる。 As described above in detail, according to the speech recognition method and system of the present invention, the mobile terminal transmits a predetermined unit of speech data as an RTP data stream, and transmits text data converted by speech recognition to the TCP. Received in the data stream. As a result, the load on the network can be reduced as much as possible compared to the case of HTTP in which voice data and text data are transmitted and received in a batch.
また、携帯端末は、音声入力中には、音声データを逐次的に変換した第1候補テキストデータをディスプレイに表示すると共に、音声入力終了後に、他候補テキストデータをディスプレイに表示する。これにより、利用者から見て、音声入力中に、リアルタイムに音声データが認識されると共に、音声入力終了後に、最適なテキストデータを選択することができる。 In addition, during the voice input, the mobile terminal displays the first candidate text data obtained by sequentially converting the voice data on the display, and displays the other candidate text data on the display after the voice input is completed. As a result, the voice data is recognized in real time during the voice input from the viewpoint of the user, and the optimum text data can be selected after the voice input is completed.
前述した本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 In the various embodiments of the present invention described above, various changes, modifications, and omissions in the scope of the technical idea and the viewpoint of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 携帯端末、端末、携帯電話機
101 通信インタフェース部
102 マイク
103 ディスプレイ
104 キー操作部
111 呼接続部
112 トランスポートインタフェース部
113 テキスト処理アプリケーション
114 音声入力インタフェース部
121 音声データ送信部
122 テキストデータ受信部
123 他候補選択部
2 音声認識サーバ
201 通信インタフェース部
211 呼接続部
212 トランスポートインタフェース部
221 音声認識処理部
222 テキストデータ送信部
223 他候補蓄積部
224 音声認識制御部
3 SIPサーバ、セッション制御サーバ
DESCRIPTION OF
Claims (4)
前記セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
前記セッション制御サーバに対する呼接続手段と、前記音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
前記端末が、前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、前記端末の前記呼接続手段が、コーデック情報及び音声認識種別を含む音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバによって、前記コーデック情報に基づいて復号処理が実行されると共に、前記音声認識種別を用いて辞書が切り替えられ、前記端末が、前記音声認識サーバから呼接続受付応答を受信した後、前記音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する第1のステップと、
前記端末が、利用者によって発声された所定単位の音声データを、第1のセッションを介して前記音声認識サーバへ送信する第2のステップと、
前記音声認識サーバが、前記音声認識処理手段を用いて変換した1次候補テキストデータを、第2のセッションを介して前記端末へ送信する第3のステップと、
前記端末及び前記音声認識サーバが、前記利用者による音声入力が終了するまで、第2のステップ及び第3のステップを連続的に繰り返す第4のステップと、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した1次候補テキストデータ以外の他候補テキストデータが存在する場合、1次候補テキストデータに対応させた1つ以上の他候補テキストデータを、前記端末へ送信する第5のステップと
を有し、
前記端末が、当該1次候補テキストデータの部分について、当該1次候補テキストデータか又はいずれの他候補テキストデータであるかを利用者に選択させて確定することを特徴とする音声認識処理方法。 A session control server;
A terminal that activates call connection means for the session control server, a text processing application, and voice input interface means for inputting voice data from a user;
A speech recognition processing method in a system comprising: a call connection means for the session control server; and a speech recognition server having speech recognition processing means for converting the speech data into text data,
When the terminal activates the voice input interface means for the text processing application, the call connection means of the terminal sends the call connection request including a voice recognition parameter including codec information and a voice recognition type to the session. The voice recognition server transmits to the voice recognition server, the voice recognition server performs a decoding process based on the codec information, and the dictionary is switched using the voice recognition type. A first step of establishing a first session for voice data and a second session for text data with the voice recognition server after receiving a call connection acceptance response from the voice recognition server ;
A second step in which the terminal transmits voice data of a predetermined unit uttered by a user to the voice recognition server via a first session;
A third step in which the voice recognition server transmits the primary candidate text data converted by using the voice recognition processing means to the terminal via a second session;
A fourth step in which the terminal and the voice recognition server continuously repeat the second step and the third step until voice input by the user is completed;
When speech input by the user is completed, if there is other candidate text data other than the primary candidate text data that the speech recognition server has already transmitted , one or more corresponding to the primary candidate text data other candidate text data, have a a fifth step of transmitting to said terminal,
A speech recognition processing method, characterized in that the terminal makes a user select and determine whether the primary candidate text data is the primary candidate text data or which other candidate text data .
前記端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、コーデック情報及び音声認識種別を含む音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバから呼接続受付応答を受信した後、前記音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する呼接続手段と、
前記音声入力インタフェース手段によって取得された所定単位の音声データを、第1のセッションを介して前記音声認識サーバへ送信する音声データ送信手段と
を有し、
前記音声認識サーバは、
前記セッション制御サーバに対する呼接続手段と、
前記コーデック情報に基づいて復号処理を実行すると共に、前記音声認識種別を用いて辞書を切り替えて、前記音声データをテキストデータに変換する音声認識処理手段と、
1次候補テキストデータを第2のセッションを介して前記端末へ送信するテキストデータ送信手段と、
前記利用者による音声入力が終了するまで、前記音声認識処理手段及び前記テキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した1次候補テキストデータ以外の他候補テキストデータが存在する場合、1次候補テキストデータに対応させた1つ以上の他候補テキストデータを、前記端末へ送信する他候補蓄積手段と
を有し、
前記端末が、当該1次候補テキストデータの部分について、当該1次候補テキストデータか又はいずれの他候補テキストデータであるかを利用者に選択させて確定することを特徴とするシステム。 In a system in which a terminal and a voice recognition server are call-connected by a session control server,
The terminal
A text processing application;
Voice input interface means for inputting voice data from a user;
When the voice input interface means for the text processing application is activated, the call connection request including a voice recognition parameter including codec information and a voice recognition type is transmitted to the voice recognition server via the session control server, Call connection means for establishing a first session for voice data and a second session for text data with the voice recognition server after receiving a call connection acceptance response from the voice recognition server ;
Voice data transmitting means for transmitting voice data of a predetermined unit acquired by the voice input interface means to the voice recognition server via a first session;
The voice recognition server
Call connection means for the session control server;
Voice decoding processing means for performing decoding processing based on the codec information, switching a dictionary using the voice recognition type, and converting the voice data into text data;
Text data transmitting means for transmitting primary candidate text data to the terminal via a second session;
Voice recognition control means for continuously repeating the voice recognition processing means and the text data transmission means until the voice input by the user is completed;
When speech input by the user is completed, if there is other candidate text data other than the primary candidate text data that the speech recognition server has already transmitted , one or more corresponding to the primary candidate text data other candidate text data, possess the other candidate storing means for transmitting to said terminal,
The system wherein the terminal determines and confirms whether the primary candidate text data portion is the primary candidate text data or which other candidate text data .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009065542A JP5244663B2 (en) | 2009-03-18 | 2009-03-18 | Speech recognition processing method and system for inputting text by speech |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009065542A JP5244663B2 (en) | 2009-03-18 | 2009-03-18 | Speech recognition processing method and system for inputting text by speech |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010217628A JP2010217628A (en) | 2010-09-30 |
| JP5244663B2 true JP5244663B2 (en) | 2013-07-24 |
Family
ID=42976540
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009065542A Expired - Fee Related JP5244663B2 (en) | 2009-03-18 | 2009-03-18 | Speech recognition processing method and system for inputting text by speech |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5244663B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2629097B2 (en) | 1991-10-23 | 1997-07-09 | 日立プラント建設株式会社 | Magnetic separator |
| US11341963B2 (en) | 2017-12-06 | 2022-05-24 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling same |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101165906B1 (en) * | 2010-10-05 | 2012-07-13 | 주식회사 엘지유플러스 | Voice-text converting relay apparatus and control method thereof |
| KR101233561B1 (en) | 2011-05-12 | 2013-02-14 | 엔에이치엔(주) | Speech recognition system and method based on word-level candidate generation |
| EP3047481A4 (en) * | 2013-09-20 | 2017-03-01 | Amazon Technologies Inc. | Local and remote speech processing |
| US20170069309A1 (en) | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
| JP6756211B2 (en) * | 2016-09-16 | 2020-09-16 | 株式会社リコー | Communication terminals, voice conversion methods, and programs |
| JP6677614B2 (en) * | 2016-09-16 | 2020-04-08 | 株式会社東芝 | Conference support system, conference support method and program |
| CN108346429B (en) * | 2017-01-22 | 2022-07-08 | 腾讯科技(深圳)有限公司 | Data transmission method and device based on voice recognition |
| KR102519635B1 (en) * | 2018-01-05 | 2023-04-10 | 삼성전자주식회사 | Method for displaying an electronic document for processing a voice command and electronic device thereof |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
| JP2001142488A (en) * | 1999-11-17 | 2001-05-25 | Oki Electric Ind Co Ltd | Voice recognition communication system |
| JP2003044091A (en) * | 2001-07-31 | 2003-02-14 | Ntt Docomo Inc | Voice recognition system, portable information terminal, voice information processing device, voice information processing method, and voice information processing program |
| JP2005049713A (en) * | 2003-07-30 | 2005-02-24 | Hitoshi Kimura | Character entry system by single voice |
| JP3965141B2 (en) * | 2003-08-15 | 2007-08-29 | 株式会社国際電気通信基礎技術研究所 | Voice recognition device |
| JP4731174B2 (en) * | 2005-02-04 | 2011-07-20 | Kddi株式会社 | Speech recognition apparatus, speech recognition system, and computer program |
| JP2008015209A (en) * | 2006-07-05 | 2008-01-24 | Kddi Corp | Speech recognition apparatus, recognition dictionary updating method thereof, program, and storage medium |
| JP4932530B2 (en) * | 2007-02-23 | 2012-05-16 | 三菱電機株式会社 | Acoustic processing device, acoustic processing method, acoustic processing program, verification processing device, verification processing method, and verification processing program |
-
2009
- 2009-03-18 JP JP2009065542A patent/JP5244663B2/en not_active Expired - Fee Related
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2629097B2 (en) | 1991-10-23 | 1997-07-09 | 日立プラント建設株式会社 | Magnetic separator |
| US11341963B2 (en) | 2017-12-06 | 2022-05-24 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling same |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010217628A (en) | 2010-09-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5244663B2 (en) | Speech recognition processing method and system for inputting text by speech | |
| US8239204B2 (en) | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges | |
| US9761241B2 (en) | System and method for providing network coordinated conversational services | |
| US6934756B2 (en) | Conversational networking via transport, coding and control conversational protocols | |
| CA2345660C (en) | System and method for providing network coordinated conversational services | |
| US6970935B1 (en) | Conversational networking via transport, coding and control conversational protocols | |
| US10643036B2 (en) | Language translation device and language translation method | |
| US8824641B2 (en) | Real time automatic caller speech profiling | |
| US7848314B2 (en) | VOIP barge-in support for half-duplex DSR client on a full-duplex network | |
| US8880405B2 (en) | Application text entry in a mobile environment using a speech processing facility | |
| JP4902617B2 (en) | Speech recognition system, speech recognition method, speech recognition client, and program | |
| US20110067059A1 (en) | Media control | |
| CN108028044A (en) | Speech Recognition System Using Multiple Recognizers to Reduce Latency | |
| CN116052664B (en) | Real-time semantic understanding method and system for spoken dialog and electronic equipment | |
| JP6787269B2 (en) | Speech recognition system and speech recognition method | |
| CN104517609A (en) | Voice recognition method and device | |
| CN105206273A (en) | Voice transmission control method and system | |
| CN113129865A (en) | Method and device for processing communication voice transcription AI connector intermediate element | |
| JP2008066866A (en) | Telephone system, call assistance method and program | |
| US20060168297A1 (en) | Real-time multimedia transcoding apparatus and method using personal characteristic information | |
| JP2011139303A (en) | Communication system, control device, communication control method, and program | |
| JP2016148943A (en) | Interpretive service providing system, interpretive support method, and interpretive support program | |
| JP2005173215A (en) | Voice recognition system | |
| Maes | Requirements, Design points and Recommendations for Conversational Distributed Protocols and Conversational Engine Remote Control |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110816 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120816 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120920 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130311 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130408 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |