JP5224966B2 - Voice transcription server - Google Patents
Voice transcription server Download PDFInfo
- Publication number
- JP5224966B2 JP5224966B2 JP2008200756A JP2008200756A JP5224966B2 JP 5224966 B2 JP5224966 B2 JP 5224966B2 JP 2008200756 A JP2008200756 A JP 2008200756A JP 2008200756 A JP2008200756 A JP 2008200756A JP 5224966 B2 JP5224966 B2 JP 5224966B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- speaker
- character
- checksum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
本発明は、音声通話している複数の通話者に対して、同時的に通話音声を文字化してデータ配信を行う音声文字化サーバー及び音声文字化方法に関する。 The present invention relates to a voice characterizing server and a voice characterizing method for simultaneously characterizing a call voice and distributing data to a plurality of callers who have a voice call.
例えば、自動認識機能などを備えた装置が備え付けのマイクロフォンで収集した音声を文字化することが行われている。更に、通信手段から受信した受話音声を文字化して、自身の音声と受話音声とを文字化して出力したり、受信者側の携帯電話機から送信者側の音声をそのまま送信したり文字化して送信したりする選択を可能とする通信ホスト装置が提案されている。 For example, voice collected by a microphone provided in an apparatus having an automatic recognition function or the like is converted into text. Furthermore, the received voice received from the communication means is converted into text, and the own voice and the received voice are converted into text and output, or the sender's voice is transmitted as it is from the receiver's mobile phone or converted into text and transmitted. There has been proposed a communication host device that enables selection to be performed.
また、ユーザ端末から送信されたユーザが発声する単音ごとの音声データをユーザ毎の単音声辞書データで管理して、ユーザ端末において音声入力され送信された音声データを単音ごとに分離することにより音声認識の精度を改善することが提案されている。また、データ検索を改善するために、検索キーとしてのファイリングキーコードと索引コードのチェックサムとが一致した場合に従来のファイリングキーコードによる検索を行うことなどが提案されている。
上記通話中の音声を文字化する従来の技術では、各通信ホスト装置に音声認識機能を備えなければならず、また音声ごとに音声認識を行わなければならないため、通信ホスト装置に対する負荷が増大する。また、音声データの蓄積や会話の類似性によって精度を改善する仕組みがないため音声認識の精度改善を実現できない。 In the conventional technology for converting the voice during the call to a character, each communication host device must be provided with a voice recognition function, and voice recognition must be performed for each voice, which increases the load on the communication host device. . Further, since there is no mechanism for improving accuracy by storing voice data or similarity of conversation, it is impossible to improve the accuracy of speech recognition.
また、単音ごとに音声を登録する従来の方法では、HHM(Hidden Markov Mode)による音声認識方法によって収集した音声の文字化の精度を改善しているが、登録した特定の装置に対して会話内容を送信しなければならず、日常的な自然な通話から音声データを収集することができない。 In addition, in the conventional method of registering a voice for each single tone, the accuracy of voice conversion collected by a voice recognition method using HHM (Hidden Markov Mode) is improved. Voice data cannot be collected from everyday natural calls.
更に、従来の検索技術では、予め所定の規則で管理された文字列を管理されたファイルから文字検索を行うための技術であり、文字データに比べ容量の大きい音声データの検索には不向きである。 Furthermore, the conventional search technique is a technique for performing a character search from a file in which a character string previously managed according to a predetermined rule is managed, and is not suitable for searching voice data having a larger capacity than character data. .
発音やアクセントなどの音声の特性は個人々で異なり、音声認識を完全に行うことは困難な場合が多く、更に、雑音のある環境での音声認識は更に困難となる。また、音声認識後の文字データへの変換時に言語解析などが必要となるが、例えば日本語独自の構文解析及び漢字変換の処理でも完全で正確な変換を行うことは困難である。 Speech characteristics such as pronunciation and accent differ among individuals, and it is often difficult to perform speech recognition completely, and further, speech recognition in a noisy environment becomes even more difficult. In addition, language analysis or the like is required at the time of conversion to character data after speech recognition. For example, it is difficult to perform complete and accurate conversion even with Japanese original syntax analysis and kanji conversion processing.
音声及び言語の解析率を高めるには音声データ及び文字データの蓄積が必要であるが、特定の環境及び限られた時間に制限され、通常の日常的な会話を蓄積することが困難である場合が多い。従って、変換した文字データを活用しようとしても、文字データを取りだして提供する環境が制限されているなどの問題があった。 In order to increase the analysis rate of speech and language, it is necessary to accumulate speech data and text data, but it is limited to a specific environment and limited time, and it is difficult to accumulate ordinary daily conversation There are many. Therefore, even if the converted character data is used, there is a problem that the environment for extracting and providing the character data is limited.
よって、本発明の目的は、音声通話している複数の発声者に対して、同時的に通話音声を文字化してデータ配信を行うことである。 Therefore, an object of the present invention is to perform data distribution by simultaneously converting a call voice to a plurality of speakers who are making a voice call.
上記課題を解決するため、音声文字化サーバーは、通話中の発声者の音声データを通信回線を介して受信する音声データ受信手段と、前記音声データ受信手段が受信した発声者の音声データが、該音声データのチェックサムと該音声データから変換された文字データとを対応させた音声データベースに登録されているか否かを、該音声データのチェックサムの一致で判断する音声登録判断手段と、前記チェックサムの一致した音声データに対応する文字データを前記発声者に配信する配信手段と、前記音声データベースに前記チェックサムの一致する音声データが存在しない場合、該音声データを文字データに変換する音声文字変換手段と、前記音声データのチェックサムと、前記音声文字変換手段によって該音声データから変換した文字データとを対応させて前記音声データベースに格納することによって、該音声データを登録する音声登録手段とを有するように構成される。 In order to solve the above-mentioned problem, the phonetic transcription server includes voice data receiving means for receiving voice data of a speaker who is talking through a communication line, and voice data of the speaker who is received by the voice data receiving means . Voice registration determination means for determining whether or not a checksum of the voice data is registered in a voice database in which the checksum of the voice data and character data converted from the voice data are associated with each other; and Distribution means for distributing character data corresponding to voice data with a matching checksum to the speaker , and voice for converting the voice data into character data when there is no voice data with the matching checksum in the voice database a character conversion unit, and a checksum of the audio data, character de converted from voice data by the voice character converting means By storing in the speech database and data in correspondence, configured with a voice registration means for registering the voice data.
携帯電話機を用いた会話を音声を文字化し、同時的に通話中の発声者の指定する送信先に変換された文字データを配信することができる。 It is possible to convert the voice of a conversation using a mobile phone into text and simultaneously deliver the converted character data to a destination specified by the speaker who is talking.
以下、本発明の実施の形態を図面に基づいて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、全体処理の概要を説明するための図である。図1に示す音声文字化システム100は、電話回線網で接続された2以上の局交換機11、12・・・と、これら局交換機11、12・・・の各々から送信される通話中の音声を文字に変換する音声文字化サーバー5とで構成される。携帯端末31、32・・・と、音声認識を必要とするサービス提供会社に設置される通話着信可能な端末50とは、所定の電波塔21、22・・・を介してこの音声文字化システム100を利用し、PC(Personal Computer)6はネットワーク網を介して音声文字化サーバー5と接続し音声文字化サーバー5が提供するサービスを受ける。音声文字化サーバー5は、CPUによって制御されるコンピュータ装置であり、主記憶装置、補助記憶装置などの記憶領域と、ネットワーク網に接続するための通信装置と、入出力装置と、表示装置とを有する。
FIG. 1 is a diagram for explaining the outline of the overall processing. 1 includes two or
図1において、発声者Aと発声者Bとが各自で所有する携帯電話機31と32とを用いて互いに通話する場合で全体処理の概要を説明する。以下、本実施例において、「発声者」は、携帯電話機などを利用して通話相手と通話する場合には「通話者」を意味し、インターネットなどを介して音声文字化サーバー5が提供するサービスを利用する場合には「利用者」を意味する。
In FIG. 1, an outline of the entire process will be described in the case where the speaker A and the speaker B talk to each other using the mobile phones 31 and 32 that they own. Hereinafter, in the present embodiment, “speaker” means “caller” when talking to the other party using a mobile phone or the like, and is a service provided by the
例えば、発声者Aが相手側として携帯電話機31から発声者Bにダイヤル発信すると、携帯電話機31の位置をエリア内とする電波塔21を介して局交換機11で受信され、更に電話回線網を介して発声者B側の局交換機12で所定の通信手順を経て着呼する。局交換機12は、発声者Bの携帯電話機32の位置がエリア内となる電波塔22を介して携帯電話機32で着信する。発声者Bの携帯電話機31で発声者Aによるダイヤル発信を着信することによって音声通話が開始される。
For example, when the speaker A dials to the speaker B from the mobile phone 31 as the other party, it is received by the
発声者A側の局交換機11は、回線が切断されるまで通信を継続させると共に、開始された音声通話のうち発声者Aの音声を、通信回線を介して音声データを収集して文字データに変換する音声文字化サーバー5へ送信する。同様に、発声者B側の局交換機12からも発声者Bの音声が音声文字化サーバー5へと送信される。以下、発声者Aに係る音声データに対する処理で説明するが、発声者Bに係る音声データに対しても同様の処理がなされる。
The
音声文字化サーバー5は、発声者Aが音声処理のために、音声データ、発声者名、日時、場所、及び前後文脈などの付加情報を発声者情報として蓄積することに同意しているか否かを含めて、発声者DB(データベース)41を用いて発声者Aの認証を行う(ステップS1)。
Whether or not the
発声者Aが認証され、かつ同意していることが確認された場合のみ以下の処理が継続して行われる。発声者Aの認証が失敗した場合、又は認証は成功したものの同意していない場合は、以下の処理を実行することなく発声者Aの音声データに係る処理を終了する。音声文字化サーバー5は、同意・否同意を含む認証結果を局交換機11に対して通知するようにする。認証され同意確認された場合のみ局交換機11と音声文字化サーバー5との間で発声者Aに係る1つのセッションが成立し、局交換機11から発声者Aの音声をデジタル化した音声データが音声文字化サーバー5に送信されることにより音声処理が実行される。このような認証により、プライバシー問題を考慮したうえでの音声処理の実行することができる。なお、発声者Aの携帯電話を他の人が利用する場合、音声収集を行いたくない通話である場合などに対応するために、通話の前に音声収集を行わない設定を可能とするようにしてもよい。通話の前に音声収集を行わない設定がなされた場合は、認証時に上述した同意が確認された場合であっても音声収集を行わない。つまり、否同意を示す認証結果を局交換機11に対して通知すればよい。
Only when it is confirmed that the speaker A is authenticated and agrees, the following processing is continuously performed. If the authentication of the speaker A fails, or if the authentication is successful but not agreed, the processing related to the voice data of the speaker A is terminated without executing the following processing. The
音声文字化サーバー5は、局交換機11から音声データを受信すると、音声アナログ信号の大きさを二進の数値データとして表現されたデジタル信号に変換して、音声が無い部分を区切りにした発声音節ごとのフレーム単位に分割した音声データを音声データファイル42に保存する。音声が無い部分とは、デジタル値で表わされる音声の強度のうち所定の強度以下となる部分で定義される。その際、音声文字化サーバー5は、音声データファイル42毎に保存された音声デジタル信号を全て加算した数値をチェックサムとして計算して音声データファイル42に付加する(ステップS2)。
When the
そして、音声文字化サーバー5は、算出したチェックサムと発声者名などの付加情報とが一致する音声データが音声DB43に登録されているか否かを、音声DB43を検索することによって確認する(ステップS3)。チェックサムを利用することによって、音声デジタル信号による一致検索に比べ、より高速に検索処理を行うことができる。
Then, the
ステップS3において、音声データが音声DB43に登録されていない場合、後述される所定の区切り方法で音声データを分割し、分割した音声データ毎にチェックサムを算出して、同様に、算出したチェックサムと発声者名などの付加情報とが一致する音声データが音声DB43に登録されているか否かを、音声DB43を検索することによって確認する。
In step S3, if the audio data is not registered in the
そして、音声文字化サーバー5は、検索により登録されていたかを判断する(ステップS4)。音声データが分割された場合、分割した音声データ毎に登録の判断処理を行う。音声文字化サーバー5は、音声DB43を検索して読み出した文字データを発声者Aの発声者IDと共に送信待機DB47に保存する(ステップS5)。
Then, the
音声文字化サーバー5は、発声者DB41に発声者Aの発声者情報に保存されている文字データへの変換結果を送信するための変換結果送信タイミングの条件が成立するまで、送信待機DB47に保存しておく。変換結果送信タイミングの条件が成立したら、音声文字化サーバー5は、発声者DB41から発声者Aの発声者情報に保存されている発信方法に従って文字データを送信する(ステップS6)。
The
一方、音声データを分割しても音声DB43から対応する文字データを検索できなかった場合、つまり音声データが未登録の場合、音声文字化サーバー5は、音声認識機能及び言語解析機能を使って音声データを文字データに変換し、音声データと、文字データと、付加情報とを発声者Aの発声者IDに対応させて音声DB43に登録する(ステップS7)。音声データファイル42に格納されている音声データのうち、音声DB43から検索できなかった音声データのみが文字データに変換される。付加情報として、チェックサムなどの項目が含まれる。音声DB43のデータ構成については後述される。
On the other hand, if the corresponding character data cannot be retrieved from the
そして、音声文字化サーバー5は、音声認識の精度や発声者Aの契約条件に基づく発声者DB41のオペレータ校正フラグの状態からオペレータによる校正を行うか否かを判断する(ステップS8及びS9)。オペレータ校正フラグがON(値「1」)の場合、音声文字化サーバー5は、発声者Aの発声者ID、音声データ、変換した文字データ、付加情報などを含む校正依頼情報を校正依頼キュー49に保存する(ステップS10)。一人又は複数のオペレータによって必要に応じて校正を行ったうえで音声DB43に登録し、校正依頼キュー49から登録済みの校正依頼情報を削除する(ステップS11)。
Then, the
また、オペレータは、発声者Aの契約条件において既に音声DB43に登録されている音声データに基づく文字データの校正が指定されている場合、所定のタイミングで音声DB43に保存されている文字データを校正するようにしてもよい。音声DB43に保存されている文字データを校正により修正する際には、オペレータによる校正パターンを蓄積しておいてもよい。また、音声DB43の検索効率を高める目的などで古いデータを削除する場合もある。校正作業においては、オペレータが変換精度を上げるために、音声認識機能および言語解析機能に対するオプションをカスタマイズすることができるようにする方法も含まれる。
In addition, when the operator specifies the calibration of the character data based on the voice data already registered in the
音声認識機能と言語解析機能の解析能力が完全でないために、音声データを音声認識機能と言語解析機能の相互補完によって変換したうえで、オペレータなどの人間による校正作業及び校正パターンという情報を加えることにより、次回の音声処理時にフィードバッグさせ、音声認識及び言語解析率を高めるようにすることができる。結果として、例えば、音声データが音声認識機能によって「すいぞっかんいゆく」と認識された場合でも、「すいぞくかんにいく」と認識された場合でも同様に「水族館に行く」に変換するようにできる。 Since the speech recognition function and the language analysis function are not completely capable of analysis, the speech data is converted by mutual complementation of the speech recognition function and the language analysis function, and information such as calibration work and calibration patterns by humans such as operators is added. Thus, it is possible to feed back at the time of the next voice processing and increase the voice recognition and language analysis rate. As a result, for example, even if the voice data is recognized as “Suizokaniku” by the voice recognition function, it will be converted to “Go to the aquarium” in the same way even if it is recognized as “Going to Saizokan”. Can be.
また、発声者Aが自身の携帯電話31やPC6などから認証後に音声DB43に保存されている自分の音声データから変換された文字データを確認するインタフェースを設け、既に変換されている文字データを校正するようにしてもよい。
In addition, an interface is provided for the speaker A to check the character data converted from his / her voice data stored in the
ステップS11にてオペレータによって校正された文字データは、発声者Aの発声者IDと共に送信待機DB47に保存され、発声者DB41に発声者Aの発声者情報に保存されている送信タイミングの条件が成立した時に、音声文字化サーバー5によって、発声者DB41から発声者Aの発声者情報に保存されている発信方法に従って文字データが送信される(ステップS12)。
The character data corrected by the operator in step S11 is stored in the
送信待機DB47に発声者Aの発声者IDに対応させて蓄積されている文字データは、発声者Aが文字データを提供するサービスを要求して認証された場合に、発声者Aの発声者情報に保存されている送信タイミングと発信方法とに基づいて文字データを提供する。送信タイミングとして、リアルタイム、n文字単位、通話完了後などが指定される。発信方法として、Webでの情報提供、電子メールでの提供方法などが指定される。発声者Aによる通話が完了後に、発声者A宛に電子メールによって通話による音声データから変換された文字データが送信される。発声者Aが発声者Bの電子メールを指定しておいて、発声者Bにも文字データを送信するようにもできる。
The character data stored in the
上述では、発声者Aの音声データに対する処理を説明したが、通話相手の発声者Bの音声データに対しても同様である。また、発声者A又はBが音声認識を必要とするサービス提供会社の着信機能を備えた装置33へダイヤルする場合においても同様の処理が行われる。 In the above description, the processing for the voice data of the speaker A has been described, but the same applies to the voice data of the speaker B who is the other party. The same processing is also performed when the speaker A or B dials the device 33 having an incoming function of a service provider that requires voice recognition.
また、携帯電話機31及び32を用いて音声データが収集される例を説明したが、公衆電話機やホーム電話機のようなネットワークを介さない所定位置に設置される設置型電話機、ネットワークを用いたIP電話機なども適応可能である。 Moreover, although the example which collects audio | voice data using the mobile telephones 31 and 32 was demonstrated, the installation-type telephone installed in the predetermined position which does not go through a network like a public telephone and a home telephone, IP telephone using a network Etc. are also applicable.
図2は、音声データを文字データに変換して登録する音声登録処理を説明するためのフローチャート図である。図2において、音声文字化サーバー5は、発信者と受信者の電話番号或いは利用者IDを取得する(ステップS51)。例えば、発声者Aと発声者Bとが通話する場合、音声文字化サーバー5は、発声者Aの電話番号と発声者Bの電話番号とを夫々の側の局交換機11及び12から取得する。一方、発声者として登録済みの利用者が、変換された文字データの提供を受けるために音声文字化サーバー5にアクセスした場合、音声文字化サーバー5は利用者から発声者IDを取得する。
FIG. 2 is a flowchart for explaining a voice registration process in which voice data is converted into character data and registered. In FIG. 2, the
音声文字化サーバー5は、ステップS51で取得した電話番号又は発声者IDを用いて発声者DB41から発声者情報を検索して取得する(ステップS52)。音声文字化サーバー5は、発声者情報を取得でき、かつ音声データから文字データへの変換サービスの利用を希望しているか否かを判断する(ステップS53)。発声者情報を取得できなかった場合、又は取得できたが音声データから文字データへの変換サービスの利用を希望してない場合、音声文字化サーバー5は、発声者(又は利用者)が未登録であると判断して、この音声登録処理が終了する。
The
一方、発声者情報を取得できた場合、音声文字化サーバー5は、発声者(又は利用者)が登録済みであると判断して、通話状態であるか否かを判断する(ステップS54)。通話状態の判断は、例えば、ステップS51にて取得した情報が電話番号であった場合に、対応する局交換機11又は12から通話終了の通知を受けているならば、ステップS54−2へと進む。
On the other hand, when the speaker information can be acquired, the
一方、通話終了の通知を受けていないならば通話中であると判断し、音声データを取り込んで(ステップS55)、アナログの音声データをデジタルの音声データに変換(A/D変換)する(ステップS56)。局交換機11又は12から受信した音声データがデジタルで提供される場合には、ステップS56は省略される。
On the other hand, if the call end notification has not been received, it is determined that the call is in progress, audio data is taken in (step S55), and analog audio data is converted to digital audio data (A / D conversion) (step S55). S56). If the voice data received from the
音声文字化サーバー5は、音声データを解析して、音声がない部分を区切りとしてフレーム単位に分割して、フレーム毎に音声データファイル42を作成する(ステップS57)。音声文字化サーバー5は、音声データファイル42毎に音声データのデジタル値を合算してチェックサムを算出し、音声データファイル42に設定しておく(ステップS58)。そして、音声文字化サーバー5は、音声データファイル42毎に、ステップS52で取得した発声者情報の発声者IDとステップS58で算出したチェックサムとを用いて同じ音声データが音声DB43に登録されているか否かを、音声DB43を検索して確認する(ステップS59及びS60)。
The
全ての音声データファイル42について音声データが音声DB43に登録されていることを確認した場合、ステップS60−2へ進み、図5に示す文字データキューイング処理を行った後、ステップS54へ戻って上述同様の処理を繰り返す。
When it is confirmed that the voice data is registered in the
一方、音声データファイル42のうち音声データの登録の確認ができなかったファイルがあった場合、音声文字化サーバー5は、その音声データファイル42の音声データが細分割済みのファイルであるか否かを判断する(ステップS61)。細分割済みのファイルである場合、ステップS62へ進む。一方、細分割されていない音声データが保存された音声データファイル42である場合、音声文字化サーバー5は、保存されている1フレームに相当する音声データを所定の区切り方法で細分割して音声データファイル42を作成する(ステップS61−2)。この場合、音声データファイル42の所定記憶領域に細分割を示すフラグを設定しておけばよい。所定の区切り方法として、例えば、予め定められた時間軸又はバイト数、或いは文字単位で区切る方法がある。その後、音声文字化サーバー5は、ステップS58へ戻り、細分割による音声データファイル42に対して上述した方法でチェックサムを算出するなど、上記同様の処理を繰り返す。
On the other hand, when there is a file in which the voice data registration could not be confirmed in the voice data file 42, the
細分割しても音声データの登録の確認ができなかった場合、音声文字化サーバー5は、既存の音声認識機能を使用して文字に変換して音声データから文字データを作成し(ステップS62)、発声者IDと対応付けて音声DB43に登録する(ステップS63)。
If the registration of the voice data cannot be confirmed even after the subdivision, the
そして、音声文字化サーバー5は、文字データを解析して音声認識が不完全であるか否かを判断し、また、ステップS52で取得した発声者情報のオペレータ校正フラグをチェックして校正サービスを希望しているか否かを判断する(ステップS64)。音声認識が不完全で、かつ校正サービスを希望している場合に、音声文字化サーバー5は、発声者ID、音声データ、変換した文字データ、付加情報などを含む校正依頼情報を校正依頼キュー49に保存して(ステップS65)、文字データキューイング処理を実行した後(ステップS65−2)、ステップS54へと戻って上記同様の処理を繰り返す。音声認識が完全に行われた場合や、音声認識が不完全であっても校正サービスを希望していない場合には、音声文字化サーバー5は、ステップS65を行わず、文字データキューイング処理を実行した後(ステップS65−2)、ステップS54へと戻って上記同様の処理を繰り返す。
Then, the
図3は、アナログの音声データを量子化する方法例を示す図である。図3(A)において、アナログ音声の波形2pを時間の関数F(t)とし、次に時間軸に沿って時間点列T0、T1、T2、・・・Tnをとり、各店での波高値F(tk)を読み取る標本化(サンプリング)を行う。標本の結果得られる値を標本値という。次に、図3(B)において、標本値としての波高値は連続量(アナログ)であるため一般に小数点以下の値が存在するが、その値に最も近い整数値で近似してそれを波高値とみなす整数化を行う。これを量子化という。 FIG. 3 is a diagram illustrating an example of a method for quantizing analog audio data. In FIG. 3A, the analog audio waveform 2p is set as a function of time F (t), and then time point sequences T0, T1, T2,... Tn are taken along the time axis, and the peak values at each store are taken. Sampling for reading F (tk) is performed. A value obtained as a result of the sample is called a sample value. Next, in FIG. 3B, since the crest value as the sample value is a continuous quantity (analog), there is generally a value after the decimal point. However, the crest value is approximated by an integer value closest to the crest value. Integer conversion is performed. This is called quantization.
例えば、アナログ音声の波形2pは、時間間隔Wiごとの時間T0、T1、T2、・・・Tnにおいて波高値1、9、13、13、10、6、6、6、7、5、1の値でデジタル化される。 For example, the waveform 2p of the analog voice has a peak value of 1, 9, 13, 13, 10, 6, 6, 6, 7, 5, 1 at times T0, T1, T2,. Digitized by value.
上述したような標本化と量子化とによって元のアナログ音声の波形2pは適当な整数値の集合として表現でき、この整数値を電気パルス列に置き換えてA/D変換を行うことにより、元のアナログ音声の波形が対応する電気パルスの集まったデジタルの音声データとして扱えるようになる。 By sampling and quantizing as described above, the original analog speech waveform 2p can be expressed as a set of appropriate integer values. By replacing the integer values with an electric pulse train and performing A / D conversion, the original analog speech waveform 2p can be expressed. The voice waveform can be handled as digital voice data in which corresponding electrical pulses are collected.
図4は、音声データを分割する処理を説明するための図である。図4(A)に示す音声データの例において、図4(B)に示すように、音声がない部分を区切りにしてフレーム毎に音声データを分割する。音声データを分割して得られたフレームA1からAnは、各々の音声データファイル42に保存される。例えば、「おはよう」、「吉岡です」・・・などが各々音声データファイル42に保存される。音声がない部分の判断は、図3(B)に示すように量子化されたデジタル値が所定値以下である場合に区切るようにすればよい。 FIG. 4 is a diagram for explaining a process of dividing audio data. In the example of the audio data shown in FIG. 4A, as shown in FIG. 4B, the audio data is divided for each frame with a portion where there is no audio as a delimiter. The frames A1 to An obtained by dividing the audio data are stored in the respective audio data files 42. For example, “Good morning”, “It is Yoshioka”, etc. are stored in the audio data file 42, respectively. The determination of the portion without sound may be made when the quantized digital value is equal to or smaller than a predetermined value as shown in FIG.
得られたフレームA1からAn毎に量子化されたデジタル値を合算したチェックサムを、各々の音声データファイル42に設定するようにする。
A checksum obtained by adding the digital values quantized for each frame A1 to An is set in each
次に、文字データを送信する処理について図5及び図6で説明する。図5は、図2に示す音声登録処理から呼び出される文字データキューイング処理を説明するためのフローチャート図である。図5において、音声文字化サーバー5は、発声者IDを用いて発声者DB41から発声者情報を取得する(ステップS71)。そして、音声文字化サーバー5は、文字データの送信要求があったか否かを判断する(ステップS72)。文字データの送信要求がなかった場合、音声文字化サーバー5は、この文字データキューイング処理を終了し、音声登録処理(図2)へ戻る。一方、文字データの送信要求があった場合、音声文字化サーバー5は、発声者情報で指定される送信タイミングを解析する(ステップS73)。
Next, processing for transmitting character data will be described with reference to FIGS. FIG. 5 is a flowchart for explaining the character data queuing process called from the voice registration process shown in FIG. In FIG. 5, the
送信タイミングが「(a)発声から規定時間後に送信」である場合、音声文字化サーバー5は、現時間に設定した時間を加算して、送信時間を決定する(ステップS74)。送信タイミングが「(b)すぐに送信」である場合、音声文字化サーバー5は、送信時間を現時間に設定する(ステップS75)。送信タイミングが「(c)通話終了後」である場合、音声文字化サーバー5は、通話が終了した場合は、送信時間の設定を現在時間に設定し、終了していない場合はNULLに設定する(ステップS76)。送信タイミングが「(d)規定文字数に到達した時」である場合、音声文字化サーバー5は、送信する文字数と送信待機DB47に設定されている文字数の合計が、利用者が事前に設定した文字数に達していれば、送信時間を現時間に設定する(ステップS77)。
When the transmission timing is “(a) transmission after a specified time from the utterance”, the
送信時間を設定した後、音声文字化サーバー5は、発声者情報を参照して、完全認識できない文字をフィードバックするか否かを判断する(ステップS78)。発声者情報でフィードバックが指定されていない場合、音声文字化サーバー5は、ステップS80へ進む。一方、フィードバックが指定されている場合、音声文字化サーバー5は、認識できない文字を認識できた文字とは異なる書体もしくは色に変更して目立つようにハイライト表示にする(ステップS89)。また、音声文字化サーバー5は、必要であればその部分の音声データも送信する。
After setting the transmission time, the
更に、音声文字化サーバー5は、発声者情報を参照して、暗号化の指定があるか否かを判断する(ステップS80)。暗号化の指定がない場合、音声文字化サーバー5は、ステップS82へと進む。一方、暗号化の指定がある場合、音声文字化サーバー5は、文字データを所定の方法で暗号化する(ステップS81)。
Furthermore, the
その後、音声文字化サーバー5は、送信待機DB47に文字データと、送信時間と、発声者情報とを含む送信情報を格納することによりキューイングし(ステップS82)、音声登録処理からの実行されるこの文字データキューイング処理を終了して、呼び出し元の音声登録処理へと戻る。
Thereafter, the
図6は、文字データ送信処理を説明するためのフローチャート図である。図6に示す文字データ送信処理は、所定の間隔で音声文字化サーバー5が停止されるまで繰り返して行われる。音声文字化サーバー5は、送信待機DB47にキューイングされている文字データに係る送信情報のうち送信時間が現時間と同じか又は経過している送信情報を検索する(ステップS91)。音声文字化サーバー5は、検索された送信情報毎に発声者情報で指定される送信方法を特定する(ステップS92)。
FIG. 6 is a flowchart for explaining the character data transmission process. The character data transmission process shown in FIG. 6 is repeated until the
送信方法が「(a)文字データをファイルに保存」を示す場合、音声文字化サーバー5は、文字データをファイルに保存して発声者情報で指定される宛先に送信する(ステップS93)。送信方法が「電子メール」を示す場合、音声文字化サーバー5は、電子メールで通話内容を文字にして送信する。送信方法が「(c)RSS(Rich Site Summary)」を示す場合、音声文字化サーバー5は、RSSで文字を送信する(ステップS95)。この場合、音声文字化サーバー5は画面表示設定を行うようにしてもよい。送信方法が「(d)電子掲示板、CHATなど」を示す場合、音声文字化サーバー5は、ある特定のサーバーに文字データを送信する(ステップS96)。この場合、特定のサーバーにてアクセス可能な有資格者がリアルタイムに参照することができる。
When the transmission method indicates “(a) save character data in file”, the
特定した送信方法にて文字データを提供した後、音声文字化サーバー5は、ステップS91へ戻り、音声文字化サーバー5が停止されるまで上述した処理を繰り返す。
After providing the character data by the specified transmission method, the
次に、発声者として登録されている利用者による文字データの校正処理について説明する。この場合、音声文字化サーバー5はWebサーバーとして動作し、利用者が文字データを更新するためのサービスを提供する。図7は、利用者による音声DBに保存されている文字データの校正処理を説明するためのフローチャート図である。図7において、発声者として登録された利用者が、使用しているPCのブラウザから音声文字化サーバー5が提供する文字データの校正処理を行うサービスにアクセスすると(ステップS101)、音声文字化サーバー5は、利用者に発声者ID及びパスワードを要求し、利用者から取得した発声者ID及びパスワードで発声者DB41を用いてユーザ認証を行う(ステップS102)。
Next, character data proofreading processing by a user registered as a speaker will be described. In this case, the
次に、音声文字化サーバー5は、発声者IDを用いて、音声DB43から過去に登録された文字データを検索し(ステップS103)、利用者が指定した順番でブラウザに一覧8aを表示する(ステップS104)。一覧8aを表示する順番として、例えば、音声DB43への登録が新しい順、最近使われた文字データの順、音声認識が不完全であった文字データの順などである。文字データに例えば「**」などの特殊文字が含まれる場合、音声認識が不完全であったことを示す。ブラウザに一覧を表示した画面から順番を指定できるようにしてもよいし、ユーザ認証後に予め利用者から所望の順番を取得しておいてもよい。
Next, using the speaker ID, the
ブラウザの一覧8aを表示する画面から、利用者は音声認識によって変換された文字と対になっている再生アイコンをクリックして音声を再生し、それと認識された文字とを照らし合わせて、必要があれば校正した文字を校正後文字蘭に入力する(ステップS105)。そして、利用者は、校正後文字による更新で良ければ、更新ボタン8bをクリックする(ステップS106)。 From the screen displaying the browser list 8a, the user clicks the play icon that is paired with the character converted by the voice recognition to play the voice, and compares it with the recognized character. If there is, the proofread character is input to the proofread character string (step S105). If the user can update the text after proofreading, the user clicks the update button 8b (step S106).
利用者によるこれら操作に応じて、ブラウザから校正された文字データが音声文字化サーバー5に送信され、音声文字化サーバー5は、利用者によって入力された文字列による文字データで音声DB43を更新する。
In response to these operations by the user, the character data calibrated from the browser is transmitted to the
図8は、校正依頼キューに登録された自動認識後の文字データのオペレータによる校正処理を説明するためのフローチャート図である。図8において、音声文字化サーバー5は、校正依頼キュー49に校正したい文字データが登録されると、複数のオペレータ端末のうち待機状態のオペレータ端末を検索する(ステップS201)。音声文字化サーバー5は、検索により待機状態のオペレータ端末があったか否かを判断する(ステップS202)。待機状態のオペレータ端末がない場合、音声文字化サーバー5はステップS201へ戻り、校正依頼キュー49に新たに文字データが登録されるのを待つ。
FIG. 8 is a flowchart for explaining the proofreading process by the operator of character data after automatic recognition registered in the proofreading request queue. 8, when the character data to be proofread is registered in the
一方、音声文字化サーバー5は、待機状態のオペレータ端末がある場合、待機状態のオペレータ端末の何れか1台を選択し、その端末を使用状態に定義する(ステップS203)。そして、音声文字化サーバー5は、オペレータ端末に注意を促すアラームを出力して、校正すべき音声がオペレータのヘッドセットで再生されると、更に音声に対する1以上の文字変換候補をオペレータ端末に表示する(ステップS204)。
On the other hand, when there is an operator terminal in the standby state, the
音声文字化サーバー5は、利用者によって変換候補から1つ選択されたか否かを判断する(ステップS205)。利用者が変換候補を選択した場合、音声文字化サーバー5は、選択された変換候補で音声DB43を更新するためにステップS207へ進む。一方、利用者が変換候補を選択しなかった場合、音声文字化サーバー5は、変換候補の選択の代わりに、オペレータ端末のキーボードから文字入力を受け付けるか、音声認識機能及び言語解析機能を用いてオペレータが発音し直した音声を文字列に変換する(ステップS206)。
The
音声文字化サーバー5は、オペレータ端末から取得した選択又は入力などによって校正された文字列を文字データとして音声DB43を更新し(ステップS207)、オペレータ端末を待機状態に定義して(ステップS208)、ステップS201へ戻って上述した同様の処理を繰り返す。
The
図9は、利用者として登録する発声者DBのテーブル構成例を示す図である。図9において、発声者DB41は、発声者ID、発声者パスワード、発声者登録日時、住所、電話番号、携帯電話番号、PC識別コード、音声→文字変換サービス利用フラグ、オペレータ校正フラグ、暗号化対応フラグ、送信タイミングフラグ、送信タイミングの規定数、送信方法、送信先、フィードバックフラグなどの項目を有する。
FIG. 9 is a diagram illustrating a table configuration example of a speaker DB registered as a user. In FIG. 9, a
発声者IDは、音声文字化サーバー5によるサービスを利用する利用者としての発声者を識別するためのIDであり、例えば「0800010001」などの発声者の携帯電話番号が設定される。発声者パスワードは、音声文字化サーバー5に利用登録する際に利用者によって設定された認証用の文字列である。発声者登録日時は、例えば「0803281030」のように登録した年月日時間を示す。発声者指名は、利用者としての発声者の名前が例えば「富士通太郎」のように登録時に設定される。住所は、例えば「山中湖のほとり」などのように発声者によって登録時に設定される。電話番号及び携帯電話番号は、例えば「042xxxxxxx」及び「0800010001」のように登録時に設定される。PC識別コードは、例えば「01.109.xx.xx」などのIPアドレス、又はMACアドレスが設定される。
The speaker ID is an ID for identifying a speaker as a user who uses the service provided by the
音声→文字変換サービス利用フラグには、音声データから文字データへの変換サービスを利用する場合には「1」が設定され、利用しない場合には「0」などの「1」以外の値が設定される。オペレータ校正フラグには、オペレータによる校正サービスを利用する場合には「1」が設定され、利用しない場合には「0」などの「1」以外の値が設定される。暗号化対応フラグには、文字データを暗号化する場合には「1」が設定され、暗号化しない場合には「0」などの「1」以外の値が設定される。 In the voice-to-character conversion service use flag, “1” is set when using the conversion service from voice data to character data, and a value other than “1” such as “0” is set when not using. Is done. In the operator calibration flag, “1” is set when the calibration service by the operator is used, and a value other than “1” such as “0” is set when the service is not used. In the encryption correspondence flag, “1” is set when the character data is encrypted, and a value other than “1” such as “0” is set when the character data is not encrypted.
送信タイミングフラグには、発声から規定時間後に送信する場合には「1」が設定され、すぐに送信する場合には「2」が設定され、通話終了後に送信する場合には「3」が設定され、所定文字数に達したら送信する場合には「4」が設定される。送信タイミングの規定数に設定される値は、送信タイミングフラグが「1」の場合には規定時間を示し、「4」の場合には文字数が示す。 The transmission timing flag is set to “1” when transmitting a specified time after the utterance, set to “2” when transmitting immediately, and set to “3” when transmitting after the call ends. When the predetermined number of characters is reached, “4” is set when transmitting. The value set as the specified number of transmission timings indicates the specified time when the transmission timing flag is “1”, and indicates the number of characters when “4”.
送信方法は、「FILE」、「MAIL」、「RSS」、「SERVER」のいずれかで指定される。更に、ファクスなどの送信手段を設定することも可能である。送信先は、送信方法に応じた宛先が設定され、例えば、送信方法が「MAIL」である場合は1つ以上の電子メールアドレスが指定される。自身と通話相手の電子メールアドレスなど複数の送信先を設定してもよい。フィードバッグフラグは、音声認識が完全に出来なかった場合にフィードバッグを行うときは「1」が設定され、フィードバッグを行わないときは「0」など「1」以外の値が設定される。 The transmission method is designated by any one of “FILE”, “MAIL”, “RSS”, and “SERVER”. Further, it is possible to set a transmission means such as a fax. As the transmission destination, a destination corresponding to the transmission method is set. For example, when the transmission method is “MAIL”, one or more e-mail addresses are designated. A plurality of transmission destinations such as the e-mail addresses of the caller and the other party may be set. The feedback flag is set to “1” when performing feedback when speech recognition is not completely completed, and is set to a value other than “1” such as “0” when not performing feedback.
電話番号、携帯電話番号、PC識別コードは、発声者が利用する装置を特定するための装置特定情報である。 The telephone number, the mobile phone number, and the PC identification code are device specifying information for specifying the device used by the speaker.
図10は、音声データから変換された文字データを保存する音声DBのテーブル構成例を示す図である。図10において、音声DB43は、発声者ID、チェックサム、音声データ情報、認識文字、校正後文字、最新の参照日時、参照回数、音声データ登録日時、校正日時などの項目を有する。
FIG. 10 is a diagram illustrating a table configuration example of a voice DB that stores character data converted from voice data. In FIG. 10, the
発声者IDは、利用者として発声者DB41に登録した発声者IDである。発声者DB41に携帯電話番号を発声者IDとして登録した場合、その携帯電話番号が設定される。チェックサムには、音声データのデジタル値の合計値が設定される。音声データ情報には、デジタル化された音声データの保存先を示す情報が設定される。ファイルに保存されている場合にはファイル名が設定される。
The speaker ID is a speaker ID registered in the
認識文字には、音声データから自動認識された文字列が文字データとして設定される。校正後文字には、オペレータ又は発声者として登録されている利用者によって校正された文字列が文字データとして設定され、校正されていない場合は空白となる。発声者IDとチェックサムとによって音声データの登録が検索された場合、校正後文字に設定された文字データを認識文字に設定された文字データよりも優先的に使用し、校正後文字が空白の場合に認識文字の文字データを使用する。 A character string automatically recognized from voice data is set as character data in the recognized character. In the post-proofreading character, a character string proofread by a user registered as an operator or a speaker is set as character data, and is blank when not proofreading. When registration of voice data is retrieved by the speaker ID and checksum, the character data set in the proofread character is used preferentially over the character data set in the recognized character, and the proofread character is blank. Use the character data of the recognized character.
最新の参照日時は、音声データ情報の保存先に保存されている音声データから認識又は校正された文字データが利用された最後の日時を示す。参照回数は、この文字データが利用された回数を示す。音声データ登録日時は、この音声データを文字データに変換し登録した日時を示す。校正日時は、認識文字に保存される文字データをオペレータ又は利用者が校正した日時を示す。 The latest reference date / time indicates the last date / time when the character data recognized or calibrated from the voice data stored in the storage destination of the voice data information is used. The reference count indicates the number of times this character data is used. The voice data registration date and time indicates the date and time when the voice data was converted into character data and registered. The calibration date and time indicates the date and time when the operator or user calibrated the character data stored in the recognized character.
次に、上述したような音声文字化サーバー5が適用される利用形態について説明する。図11は、携帯電話機で通話する利用形態での適用例を示す図である。図11において、発声者A及びBが携帯電話機2a及び2bを用いた通話による各音声信号は、各々の携帯基地局3a及び3bで受信され、電話回線網7aを介して各々の中継交換局4a及び4bによって双方の携帯電話機2a及び2bに送信される。中継交換局4a及び4bは、通信可能なデータ回線網によって音声文字化サーバー5に接続されており、音声文字化サーバー5により携帯電話番号などで認証確認後、更に音声→文字変換サービス利用フラグによりサービスの利用を確認後、音声データと自動認識によって変換された文字データとを音声文字化サーバー5に蓄積する。音声文字化サーバー5は、所定の送信タイミングで指定された送信先へ文字データを送信する。
Next, a usage form to which the above-described
図12は、IP電話機で通話する利用形態での適用例を示す図である。図12において、発声者A及びBがIP電話機2c及び2dを用いた通話による各音声信号は、光ファイバー又はデジタル専用回線などに接続される無線アンテナ3c及び3eによってIP網7cを介して送受信される。IP網7cに接続される音声文字化サーバー5は、IP網7cを形成するルーターから転送されるIP電話機2c及び2dを夫々識別するIPアドレスによって認証確認し、更に音声→文字変換サービス利用フラグによりサービスの利用を確認後、IP電話機2c及び2d夫々からの音声データと自動認識によって変換された文字データとを音声文字化サーバー5に蓄積する。
FIG. 12 is a diagram showing an application example in a usage mode in which a telephone call is made with an IP telephone. In FIG. 12, the voice signals of the voice calls made by the speakers A and B using the
発声者A又はBが公衆電話ボックスやコンビニなどに設置されるIP電話機から通話する場合においても同様である。このような利用形態では、図9に示される発声者DB42のPC識別コードを用いて認証などを行えばよい。
The same applies when the speaker A or B makes a call from an IP telephone set in a public telephone box or a convenience store. In such a usage mode, authentication or the like may be performed using the PC identification code of the
図13は、P2Pネットワークを介してIP電話により通話する利用形態での適用例を示す図である。図13において、一般のノードとなるPC端末62は、インターネット68を介して音声文字化サーバー5で認証後、複数のスーパーノード61で構成されるP2Pネットワーク67に接続され、スーパーノード61を介して相手方のPC端末62に接続され、IP電話による通話が開始される。
FIG. 13 is a diagram illustrating an application example in a usage mode in which a telephone call is made by an IP phone via a P2P network. In FIG. 13, a
通話開始後、各PC端末62が通話中の音声データを音声文字化サーバー5へ転送することにより、音声データと自動認識によって変換された文字データとを音声文字化サーバー5に蓄積する。
After the call is started, each
図14は、音声文字化サーバーの機能構成例を示す図である。図14において、音声文字化サーバー5は、CPU、メモリ、記憶装置、表示ユニット、出力ユニット、入力ユニット、通信ユニット、外部記憶装置I/Fなどを備えたコンピュータ装置であり、CPUがプログラムを実行することによって実現される音声データ受信処理部501と、ユーザ認証及びサービス利用確認部502と、音声データA/D変換部503と、フレーム分割部504と、音声データ登録確認部505と、文字データ変換部506と、オペレータ校正部509と、利用者校正部510と、文字データ配信部511と、表示処理部521と、入出力処理部522と、通信制御部523と、インストーラ524とを有する。また、発声者DB41と、音声データファイル42と、音声DB43と、送信待機DB47とは記憶装置に保持される。音声データファイル42は、音声データが音声DB43に登録されるデータファイルである。
FIG. 14 is a diagram illustrating a functional configuration example of the phonetic transcription server. In FIG. 14, the
表示処理部521は、表示ユニットへのデータの表示を制御する。入出力処理部522は、入力ユニット及び出力ユニットへのデータの入出力を制御する。通信制御部523は、ネットワークを介して行われるデータ通信を制御する。インストーラ524は、本発明に係るプログラムを記録した記録媒体520から外部記憶装置I/Fを介して該プログラムをインストールする。記録媒体520は、コンピュータが読み取り可能な媒体であればよい。
The
音声データ受信処理部501は、図2のステップS51及びS52に相当し、通信制御部523によって音声データが受信されると、音声データと共に送信される電話番号を用いて発声者DB41を検索して発声者情報を取得して、音声データと発声者情報とを作業用の記憶領域に格納する。認証後は、格納しておいた音声データが取り込まれ必要に応じてA/D変換されて、文字データへの変換が行われる。また、音声データ受信処理部501は、通信制御部523から発声者IDが通知された場合には、発声者IDを用いて発声者DB41を検索して発声者情報を取得し、発声者情報を作業用の記憶領域に格納する。
The voice data
ユーザ認証及びサービス利用確認部502は、図2のステップS53からS54に相当し、音声データ受信処理部501によって取得した発声者情報を用いて、通話中の発声者又はインターネットを介してアクセスする利用者に対するユーザ認証を行うと共に、発声者情報の音声→文字変換サービス利用フラグを参照することによって、音声データから文字データへの変換サービスの利用を確認する。
The user authentication and service
音声データA/D変換部503は、図2のステップS56に相当し、アナログの音声データを図3に示す所定のアルゴリズムに従ってデジタルの音声データに変換する。フレーム分割部504は、図2のステップS57に相当し、デジタルに変換された音声データをフレームに分割し、分割したフレーム毎にデジタル値を合算してチェックサムを算出する。
The audio data A /
音声データ登録確認部505は、図2のステップS58からS60に相当し、フレーム分割部504によって算出されたチェックサムを用いて音声データの登録を確認する。音声データが音声DB43に登録されている場合、変換された文字データが音声DB43に登録されていることを意味する。
The audio data
文字データ変換部506は、図2のステップS62及びS63に相当し、音声認識機能507及び言語解析機能508を用いて文字データに変換したのち音声DB63に登録する。
The character
オペレータ校正部509は、図8のステップS201からS208に相当し、発声者情報のオペレータ校正フラグを参照することによってオペレータによる校正を希望していると判断した場合に実行される。
The
利用者校正部510は、図7のステップS101からS107に相当し、ネットワークを介してアクセスする利用者がユーザ認証及びサービス利用確認部502によって認証された場合に、音声DB42に登録されている音声データを視聴可能とし、変換された文字データの校正を許可し、利用者によって確認された文字データで音声DB42の更新を行う。
The
文字データ配信部511は、図5のステップS71からS82と図6のステップS91から96とに相当し、発声者情報の送信タイミングフラグ、送信タイミングの規定数、送信方法、送信先などを参照して、変換された文字データを送信する。
The character
上述したように、音声文字化サーバー5を利用することによって、例えば、騒音又は難聴により通話がはっきりしない場合であっても、変換された文字の提供によって通話が理解し易くなる。
As described above, by using the phonetic
音声文字化サーバー5では、文字データを変換する前段階における受信した音声データのチェックサムで音声DB43を検索して音声データの音声DB43の登録確認をするため、登録済みの場合は、既に音声データに対応させて格納されている文字データを提供することができ、より高速に音声データから文字データへの変換を行うことができる。また、発声者IDで関連付けられるチェックサムの値で検索するため、文字データに変換するための個々の発声者の音声の特性を詳細に解析する必要がない。
The
通話中の音声データに対するオペレータによる文字データの校正を可能にすることで、タイムリーにより精度の高い文字データを提供することができる。また、通話後に発声者によって直接文字データを校正することを可能とすることで、更に精度の高い文字データを提供することができる。 By allowing the operator to calibrate the character data with respect to the voice data during a call, it is possible to provide character data with higher accuracy in a timely manner. In addition, since it is possible to calibrate the character data directly by the speaker after the call, it is possible to provide more accurate character data.
また、音声文字化サーバー5によって、電話中の通話が文字データに変換可能であるため、発声者は通常の電話機又は自身の携帯電話機を利用するのみで音声認識機能や言語解析機能などを備えた特別な装置を別途備える必要がなく、また、そのような特別な装置が設置されている場所に制限されることがない。
In addition, since the
実施例において、日本語に変換する例で説明したが、日本語に限定されることなく、英語やその他の言語でも可能である。 In the embodiment, the example of conversion into Japanese has been described, but the present invention is not limited to Japanese, and English and other languages are also possible.
以上の説明に関し、更に以下の項を開示する。
(付記1)
通話中の発声者の音声データを通信回線を介して受信する音声データ受信手段と、
前記音声データを文字データに変換する音声文字変換手段と、
前記文字データを前記発声者に配信する配信手段とを有する音声文字化サーバー。
(付記2)
音声データのチェックサムと該音声データから変換された文字データとを対応させて音声データベースに格納することによって、該音声データを登録する音声登録手段と、
前記音声データ受信手段が受信した発声者の音声データが前記音声データベースに登録されているか否かを該音声データのチェックサムの一致で判断する音声登録判断手段とを有し、
前記配信手段は、前記チェックサムの一致した音声データに対応する文字データを前記発声者に配信する付記1記載の音声文字化サーバー。
(付記3)
前記音声データ受信手段によって受信した音声データを発生音節毎のフレーム単位に分割するフレーム単位分割手段と、
前記フレーム単位にチェックサムを算出するチェックサム算出手段とを有し、
前記音声登録判断手段は、前記フレーム単位に算出された前記チェックサムを用いて前記音声データベースへの前記音声データの登録を判断する付記2記載の音声文字化サーバー。
(付記4)
前記音声登録判断手段によって前記音声データが未登録であると判断した場合、前記フレーム単位の音声データを所定の区切り方法で細分割し、前記チェックサム算出手段により該細分割された音声データに対してチェックサムを算出させ、前記音声登録判断手段により該チェックサムの一致する音声データが登録されているか否かを判断させるようにする付記3記載の音声文字化サーバー。
(付記5)
前記音声文字変換手段は、前記音声データが前記音声データベースに登録されていない場合、音声認識機能を用いて該音声データを文字データに変換し、
前記音声認識機能による変換誤りをオペレータ又は前記発声者によって校正可能とする校正手段と、
前記変換誤りが修正された文字データで前記音声データベースを更新手段とを有する付記2乃至4のいずれか一項記載の音声文字化サーバー。
(付記6)
前記配信手段は、所定の送信タイミングによって前記発声者の音声データから変換された文字データを送信する際に、前記音声認識機能によって認識できた文字データと認識できなかった文字データとを区別可能なようにフィードバックする付記5記載の音声文字化サーバー。
(付記7)
前記音声データと共に受信する通話装置を特定する装置特定情報を用いて前記発声者を認証する発声者認証手段を有し、
前記発声者認証手段によって認証が成功した場合に前記音声文字変換手段と前記配信手段とを有効にする付記1乃至6のいずれか一項記載の音声文字化サーバー。
(付記8)
前記発声者を識別する発声者IDに対応づけて、前記装置特定情報と前記文字データの送信方法とを含む発声者情報を発声者データベースに格納して管理する発声者情報管理手段と、
前記配信手段は、前記送信方法で指定される手段によって前記文字データを配信する付記7記載の音声文字化サーバー。
(付記9)
音声文字化サーバーとして機能するコンピュータが、
通話中の発声者の音声データを通信回線を介して受信する音声データ受信手順と、
前記音声データ受信手順によって受信した音声データを発生音節毎のフレーム単位に分割するフレーム単位分割手順と、
前記音声データを前記フレーム単位で文字データに変換する音声文字変換手順と、
前記文字データを前記発声者に配信する配信手順と実行する音声文字化方法。
Regarding the above description, the following items are further disclosed.
(Appendix 1)
Voice data receiving means for receiving voice data of a speaker during a call via a communication line;
A voice character conversion means for converting the voice data into character data;
A voice characterizing server having distribution means for distributing the character data to the speaker;
(Appendix 2)
Voice registration means for registering the voice data by storing the checksum of the voice data and the character data converted from the voice data in the voice database in association with each other;
Voice registration judging means for judging whether or not the voice data of the speaker received by the voice data receiving means is registered in the voice database by matching the checksum of the voice data;
The voice characterizing server according to
(Appendix 3)
A frame unit dividing unit that divides the audio data received by the audio data receiving unit into frames for each generated syllable;
Checksum calculation means for calculating a checksum for each frame,
The phonetic transcription server according to
(Appendix 4)
When the audio registration determining means determines that the audio data is unregistered, the frame-by-frame audio data is subdivided by a predetermined dividing method, and the checksum calculating means The voice characterizing server according to
(Appendix 5)
When the voice data is not registered in the voice database, the voice character conversion means converts the voice data into character data using a voice recognition function,
Calibration means for enabling conversion error due to the voice recognition function to be calibrated by an operator or the speaker.
The phonetic transcription server according to any one of
(Appendix 6)
The distribution means can distinguish character data recognized by the voice recognition function from character data that could not be recognized when transmitting character data converted from the voice data of the speaker at a predetermined transmission timing. The phonetic transcription server according to
(Appendix 7)
A speaker authentication means for authenticating the speaker using device specifying information for specifying a communication device to be received together with the voice data;
The phonetic transcription server according to any one of
(Appendix 8)
Speaker information management means for storing and managing speaker information including the device specifying information and the character data transmission method in a speaker database in association with a speaker ID for identifying the speaker;
The phonetic transcription server according to
(Appendix 9)
A computer that functions as a phonetic transcription server
A voice data reception procedure for receiving voice data of a speaker during a call via a communication line;
A frame unit dividing procedure for dividing the audio data received by the audio data receiving procedure into frames for each generated syllable;
A voice character conversion procedure for converting the voice data into character data in units of frames;
A distribution procedure for distributing the character data to the speaker and a voice conversion method to be executed.
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。 The present invention is not limited to the specifically disclosed embodiments, and various modifications and changes can be made without departing from the scope of the claims.
5 音声文字化サーバー
6 PC
11、12 局交換機
21、22 電波塔
31、32 携帯電話機
41 発声者DB
42 音声データファイル
43 音声DB
47 送信待機DB
100 音声文字化システム
5
11, 12
42 Voice data file 43 Voice DB
47 Transmission standby DB
100 Speech transcription system
Claims (3)
前記音声データ受信手段が受信した発声者の音声データが、該音声データのチェックサムと該音声データから変換された文字データとを対応させた音声データベースに登録されているか否かを、該音声データのチェックサムの一致で判断する音声登録判断手段と、
前記チェックサムの一致した音声データに対応する文字データを前記発声者に配信する配信手段と、
前記音声データベースに前記チェックサムの一致する音声データが存在しない場合、該音声データを文字データに変換する音声文字変換手段と、
前記音声データのチェックサムと、前記音声文字変換手段によって該音声データから変換した文字データとを対応させて前記音声データベースに格納することによって、該音声データを登録する音声登録手段と、
を有する音声文字化サーバー。 Voice data receiving means for receiving voice data of a speaker during a call via a communication line;
Whether the voice data of the speaker received by the voice data receiving means is registered in a voice database in which a checksum of the voice data is associated with character data converted from the voice data. Voice registration judgment means for judging by the checksum match,
Distribution means for distributing character data corresponding to the voice data with the matched checksum to the speaker;
When there is no voice data having the same checksum in the voice database, voice character conversion means for converting the voice data into character data;
Voice registration means for registering the voice data by storing the checksum of the voice data and the character data converted from the voice data by the voice character conversion means in correspondence with each other in the voice database;
A phonetic transcription server.
前記フレーム単位にチェックサムを算出するチェックサム算出手段とを有し、
前記音声登録判断手段は、前記フレーム単位に算出された前記チェックサムを用いて前記音声データベースへの前記音声データの登録を判断する請求項1記載の音声文字化サーバー。 A frame unit dividing unit that divides the audio data received by the audio data receiving unit into frames for each generated syllable;
Checksum calculation means for calculating a checksum for each frame,
The voice registration determination means, the speech text of the server according to claim 1, wherein for determining the registration of the voice data to the voice database by using the checksum calculated in the frame.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008200756A JP5224966B2 (en) | 2008-08-04 | 2008-08-04 | Voice transcription server |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008200756A JP5224966B2 (en) | 2008-08-04 | 2008-08-04 | Voice transcription server |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010041301A JP2010041301A (en) | 2010-02-18 |
| JP5224966B2 true JP5224966B2 (en) | 2013-07-03 |
Family
ID=42013387
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008200756A Expired - Fee Related JP5224966B2 (en) | 2008-08-04 | 2008-08-04 | Voice transcription server |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5224966B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5503821B2 (en) * | 2010-04-14 | 2014-05-28 | Kddi株式会社 | Display system, display method and program |
| JP2015170923A (en) * | 2014-03-05 | 2015-09-28 | 株式会社アイセック・ジャパン | Conversation assist program, communication apparatus, and provision method for electronic character information |
| WO2015178715A1 (en) | 2014-05-23 | 2015-11-26 | Samsung Electronics Co., Ltd. | System and method of providing voice-message call service |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05257496A (en) * | 1992-03-12 | 1993-10-08 | Sekisui Chem Co Ltd | Word recognizing system |
| JPH06162096A (en) * | 1992-11-18 | 1994-06-10 | Casio Comput Co Ltd | Record retrieval method |
| JP2001202679A (en) * | 2000-01-17 | 2001-07-27 | Aiwa Co Ltd | Voice reporducing device |
| JP2001309044A (en) * | 2000-04-17 | 2001-11-02 | Nec Wireless Networks Ltd | Data communication system |
| CN101023658A (en) * | 2004-08-31 | 2007-08-22 | 椎名一博 | Push information communication system accompanied by telephone communication |
| JP4545552B2 (en) * | 2004-11-04 | 2010-09-15 | 三菱電機株式会社 | Voluntary participation relay device |
-
2008
- 2008-08-04 JP JP2008200756A patent/JP5224966B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010041301A (en) | 2010-02-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3868423B2 (en) | Automatic voice connection service method using personal telephone directory database constructed through voice recognition | |
| US8085929B2 (en) | Method and apparatus for providing customized ringbacks | |
| US8208609B2 (en) | System and method for voice activated dialing from a home phone | |
| US6505161B1 (en) | Speech recognition that adjusts automatically to input devices | |
| US8374864B2 (en) | Correlation of transcribed text with corresponding audio | |
| US9406296B2 (en) | Two way automatic universal transcription telephone | |
| US7650168B2 (en) | Voice activated dialing for wireless headsets | |
| US8391445B2 (en) | Caller identification using voice recognition | |
| US20130279665A1 (en) | Methods and apparatus for generating, updating and distributing speech recognition models | |
| US20130297309A1 (en) | Performing speech recognition over a network and using speech recognition results | |
| US8290126B2 (en) | System and method for a visual voicemail interface | |
| US8401846B1 (en) | Performing speech recognition over a network and using speech recognition results | |
| WO2001063861A1 (en) | Internet phone switching method and internet phone switching system | |
| JP5224966B2 (en) | Voice transcription server | |
| JP2008252849A (en) | Information communication terminal and information communication system | |
| US8233592B2 (en) | Personal home voice portal | |
| WO2007091462A1 (en) | Voice recognizing apparatus, voice recognizing method and program for recognizing voice | |
| JPWO2015083741A1 (en) | Relay device, display device, and communication system | |
| KR20040039586A (en) | Ststem and method for extracting from ars-information using speech recognition | |
| JP5139748B2 (en) | Information provision system using speech recognition | |
| JP2006146732A (en) | Automatic translation method, automatic translation server device, and automatic translation method used for the same | |
| KR20090032053A (en) | Construction method of personal phone book database using voice recognition, automatic telephone connection service method and system using same | |
| JP2009188658A (en) | Call recording system, call recording method | |
| KR20020022188A (en) | Keyphone System Using Precinct Network, Call processing and Data Transmission Method Using the Keyphone System | |
| US7929671B2 (en) | System and method for voice activated signaling |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110225 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120919 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121203 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130312 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5224966 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |