JP5224966B2

JP5224966B2 - 音声文字化サーバー

Info

Publication number: JP5224966B2
Application number: JP2008200756A
Authority: JP
Inventors: 弘貴吉岡; 隆行湊
Original assignee: Fujitsu Ltd; Fujitsu Semiconductor Ltd
Current assignee: Fujitsu Ltd; Fujitsu Semiconductor Ltd
Priority date: 2008-08-04
Filing date: 2008-08-04
Publication date: 2013-07-03
Anticipated expiration: 2028-08-04
Also published as: JP2010041301A

Description

本発明は、音声通話している複数の通話者に対して、同時的に通話音声を文字化してデータ配信を行う音声文字化サーバー及び音声文字化方法に関する。

例えば、自動認識機能などを備えた装置が備え付けのマイクロフォンで収集した音声を文字化することが行われている。更に、通信手段から受信した受話音声を文字化して、自身の音声と受話音声とを文字化して出力したり、受信者側の携帯電話機から送信者側の音声をそのまま送信したり文字化して送信したりする選択を可能とする通信ホスト装置が提案されている。

また、ユーザ端末から送信されたユーザが発声する単音ごとの音声データをユーザ毎の単音声辞書データで管理して、ユーザ端末において音声入力され送信された音声データを単音ごとに分離することにより音声認識の精度を改善することが提案されている。また、データ検索を改善するために、検索キーとしてのファイリングキーコードと索引コードのチェックサムとが一致した場合に従来のファイリングキーコードによる検索を行うことなどが提案されている。
特開２０００−２４４６８３号公報特開２００６−３９８０５号公報特開２００５−４９７１３号公報特開平６−１６２０９６号公報

上記通話中の音声を文字化する従来の技術では、各通信ホスト装置に音声認識機能を備えなければならず、また音声ごとに音声認識を行わなければならないため、通信ホスト装置に対する負荷が増大する。また、音声データの蓄積や会話の類似性によって精度を改善する仕組みがないため音声認識の精度改善を実現できない。

また、単音ごとに音声を登録する従来の方法では、ＨＨＭ（Hidden Markov Mode）による音声認識方法によって収集した音声の文字化の精度を改善しているが、登録した特定の装置に対して会話内容を送信しなければならず、日常的な自然な通話から音声データを収集することができない。

更に、従来の検索技術では、予め所定の規則で管理された文字列を管理されたファイルから文字検索を行うための技術であり、文字データに比べ容量の大きい音声データの検索には不向きである。

発音やアクセントなどの音声の特性は個人々で異なり、音声認識を完全に行うことは困難な場合が多く、更に、雑音のある環境での音声認識は更に困難となる。また、音声認識後の文字データへの変換時に言語解析などが必要となるが、例えば日本語独自の構文解析及び漢字変換の処理でも完全で正確な変換を行うことは困難である。

音声及び言語の解析率を高めるには音声データ及び文字データの蓄積が必要であるが、特定の環境及び限られた時間に制限され、通常の日常的な会話を蓄積することが困難である場合が多い。従って、変換した文字データを活用しようとしても、文字データを取りだして提供する環境が制限されているなどの問題があった。

よって、本発明の目的は、音声通話している複数の発声者に対して、同時的に通話音声を文字化してデータ配信を行うことである。

上記課題を解決するため、音声文字化サーバーは、通話中の発声者の音声データを通信回線を介して受信する音声データ受信手段と、前記音声データ受信手段が受信した発声者の音声データが、該音声データのチェックサムと該音声データから変換された文字データとを対応させた音声データベースに登録されているか否かを、該音声データのチェックサムの一致で判断する音声登録判断手段と、前記チェックサムの一致した音声データに対応する文字データを前記発声者に配信する配信手段と、前記音声データベースに前記チェックサムの一致する音声データが存在しない場合、該音声データを文字データに変換する音声文字変換手段と、前記音声データのチェックサムと、前記音声文字変換手段によって該音声データから変換した文字データとを対応させて前記音声データベースに格納することによって、該音声データを登録する音声登録手段とを有するように構成される。

携帯電話機を用いた会話を音声を文字化し、同時的に通話中の発声者の指定する送信先に変換された文字データを配信することができる。

以下、本発明の実施の形態を図面に基づいて説明する。

図１は、全体処理の概要を説明するための図である。図１に示す音声文字化システム１００は、電話回線網で接続された２以上の局交換機１１、１２・・・と、これら局交換機１１、１２・・・の各々から送信される通話中の音声を文字に変換する音声文字化サーバー５とで構成される。携帯端末３１、３２・・・と、音声認識を必要とするサービス提供会社に設置される通話着信可能な端末５０とは、所定の電波塔２１、２２・・・を介してこの音声文字化システム１００を利用し、ＰＣ（Personal Computer）６はネットワーク網を介して音声文字化サーバー５と接続し音声文字化サーバー５が提供するサービスを受ける。音声文字化サーバー５は、ＣＰＵによって制御されるコンピュータ装置であり、主記憶装置、補助記憶装置などの記憶領域と、ネットワーク網に接続するための通信装置と、入出力装置と、表示装置とを有する。

図１において、発声者Ａと発声者Ｂとが各自で所有する携帯電話機３１と３２とを用いて互いに通話する場合で全体処理の概要を説明する。以下、本実施例において、「発声者」は、携帯電話機などを利用して通話相手と通話する場合には「通話者」を意味し、インターネットなどを介して音声文字化サーバー５が提供するサービスを利用する場合には「利用者」を意味する。

例えば、発声者Ａが相手側として携帯電話機３１から発声者Ｂにダイヤル発信すると、携帯電話機３１の位置をエリア内とする電波塔２１を介して局交換機１１で受信され、更に電話回線網を介して発声者Ｂ側の局交換機１２で所定の通信手順を経て着呼する。局交換機１２は、発声者Ｂの携帯電話機３２の位置がエリア内となる電波塔２２を介して携帯電話機３２で着信する。発声者Ｂの携帯電話機３１で発声者Ａによるダイヤル発信を着信することによって音声通話が開始される。

発声者Ａ側の局交換機１１は、回線が切断されるまで通信を継続させると共に、開始された音声通話のうち発声者Ａの音声を、通信回線を介して音声データを収集して文字データに変換する音声文字化サーバー５へ送信する。同様に、発声者Ｂ側の局交換機１２からも発声者Ｂの音声が音声文字化サーバー５へと送信される。以下、発声者Ａに係る音声データに対する処理で説明するが、発声者Ｂに係る音声データに対しても同様の処理がなされる。

音声文字化サーバー５は、発声者Ａが音声処理のために、音声データ、発声者名、日時、場所、及び前後文脈などの付加情報を発声者情報として蓄積することに同意しているか否かを含めて、発声者ＤＢ（データベース）４１を用いて発声者Ａの認証を行う（ステップＳ１）。

発声者Ａが認証され、かつ同意していることが確認された場合のみ以下の処理が継続して行われる。発声者Ａの認証が失敗した場合、又は認証は成功したものの同意していない場合は、以下の処理を実行することなく発声者Ａの音声データに係る処理を終了する。音声文字化サーバー５は、同意・否同意を含む認証結果を局交換機１１に対して通知するようにする。認証され同意確認された場合のみ局交換機１１と音声文字化サーバー５との間で発声者Ａに係る１つのセッションが成立し、局交換機１１から発声者Ａの音声をデジタル化した音声データが音声文字化サーバー５に送信されることにより音声処理が実行される。このような認証により、プライバシー問題を考慮したうえでの音声処理の実行することができる。なお、発声者Ａの携帯電話を他の人が利用する場合、音声収集を行いたくない通話である場合などに対応するために、通話の前に音声収集を行わない設定を可能とするようにしてもよい。通話の前に音声収集を行わない設定がなされた場合は、認証時に上述した同意が確認された場合であっても音声収集を行わない。つまり、否同意を示す認証結果を局交換機１１に対して通知すればよい。

音声文字化サーバー５は、局交換機１１から音声データを受信すると、音声アナログ信号の大きさを二進の数値データとして表現されたデジタル信号に変換して、音声が無い部分を区切りにした発声音節ごとのフレーム単位に分割した音声データを音声データファイル４２に保存する。音声が無い部分とは、デジタル値で表わされる音声の強度のうち所定の強度以下となる部分で定義される。その際、音声文字化サーバー５は、音声データファイル４２毎に保存された音声デジタル信号を全て加算した数値をチェックサムとして計算して音声データファイル４２に付加する（ステップＳ２）。

そして、音声文字化サーバー５は、算出したチェックサムと発声者名などの付加情報とが一致する音声データが音声ＤＢ４３に登録されているか否かを、音声ＤＢ４３を検索することによって確認する（ステップＳ３）。チェックサムを利用することによって、音声デジタル信号による一致検索に比べ、より高速に検索処理を行うことができる。

ステップＳ３において、音声データが音声ＤＢ４３に登録されていない場合、後述される所定の区切り方法で音声データを分割し、分割した音声データ毎にチェックサムを算出して、同様に、算出したチェックサムと発声者名などの付加情報とが一致する音声データが音声ＤＢ４３に登録されているか否かを、音声ＤＢ４３を検索することによって確認する。

そして、音声文字化サーバー５は、検索により登録されていたかを判断する（ステップＳ４）。音声データが分割された場合、分割した音声データ毎に登録の判断処理を行う。音声文字化サーバー５は、音声ＤＢ４３を検索して読み出した文字データを発声者Ａの発声者ＩＤと共に送信待機ＤＢ４７に保存する（ステップＳ５）。

音声文字化サーバー５は、発声者ＤＢ４１に発声者Ａの発声者情報に保存されている文字データへの変換結果を送信するための変換結果送信タイミングの条件が成立するまで、送信待機ＤＢ４７に保存しておく。変換結果送信タイミングの条件が成立したら、音声文字化サーバー５は、発声者ＤＢ４１から発声者Ａの発声者情報に保存されている発信方法に従って文字データを送信する（ステップＳ６）。

一方、音声データを分割しても音声ＤＢ４３から対応する文字データを検索できなかった場合、つまり音声データが未登録の場合、音声文字化サーバー５は、音声認識機能及び言語解析機能を使って音声データを文字データに変換し、音声データと、文字データと、付加情報とを発声者Ａの発声者ＩＤに対応させて音声ＤＢ４３に登録する（ステップＳ７）。音声データファイル４２に格納されている音声データのうち、音声ＤＢ４３から検索できなかった音声データのみが文字データに変換される。付加情報として、チェックサムなどの項目が含まれる。音声ＤＢ４３のデータ構成については後述される。

そして、音声文字化サーバー５は、音声認識の精度や発声者Ａの契約条件に基づく発声者ＤＢ４１のオペレータ校正フラグの状態からオペレータによる校正を行うか否かを判断する（ステップＳ８及びＳ９）。オペレータ校正フラグがＯＮ（値「１」）の場合、音声文字化サーバー５は、発声者Ａの発声者ＩＤ、音声データ、変換した文字データ、付加情報などを含む校正依頼情報を校正依頼キュー４９に保存する（ステップＳ１０）。一人又は複数のオペレータによって必要に応じて校正を行ったうえで音声ＤＢ４３に登録し、校正依頼キュー４９から登録済みの校正依頼情報を削除する（ステップＳ１１）。

また、オペレータは、発声者Ａの契約条件において既に音声ＤＢ４３に登録されている音声データに基づく文字データの校正が指定されている場合、所定のタイミングで音声ＤＢ４３に保存されている文字データを校正するようにしてもよい。音声ＤＢ４３に保存されている文字データを校正により修正する際には、オペレータによる校正パターンを蓄積しておいてもよい。また、音声ＤＢ４３の検索効率を高める目的などで古いデータを削除する場合もある。校正作業においては、オペレータが変換精度を上げるために、音声認識機能および言語解析機能に対するオプションをカスタマイズすることができるようにする方法も含まれる。

音声認識機能と言語解析機能の解析能力が完全でないために、音声データを音声認識機能と言語解析機能の相互補完によって変換したうえで、オペレータなどの人間による校正作業及び校正パターンという情報を加えることにより、次回の音声処理時にフィードバッグさせ、音声認識及び言語解析率を高めるようにすることができる。結果として、例えば、音声データが音声認識機能によって「すいぞっかんいゆく」と認識された場合でも、「すいぞくかんにいく」と認識された場合でも同様に「水族館に行く」に変換するようにできる。

また、発声者Ａが自身の携帯電話３１やＰＣ６などから認証後に音声ＤＢ４３に保存されている自分の音声データから変換された文字データを確認するインタフェースを設け、既に変換されている文字データを校正するようにしてもよい。

ステップＳ１１にてオペレータによって校正された文字データは、発声者Ａの発声者ＩＤと共に送信待機ＤＢ４７に保存され、発声者ＤＢ４１に発声者Ａの発声者情報に保存されている送信タイミングの条件が成立した時に、音声文字化サーバー５によって、発声者ＤＢ４１から発声者Ａの発声者情報に保存されている発信方法に従って文字データが送信される（ステップＳ１２）。

送信待機ＤＢ４７に発声者Ａの発声者ＩＤに対応させて蓄積されている文字データは、発声者Ａが文字データを提供するサービスを要求して認証された場合に、発声者Ａの発声者情報に保存されている送信タイミングと発信方法とに基づいて文字データを提供する。送信タイミングとして、リアルタイム、ｎ文字単位、通話完了後などが指定される。発信方法として、Ｗｅｂでの情報提供、電子メールでの提供方法などが指定される。発声者Ａによる通話が完了後に、発声者Ａ宛に電子メールによって通話による音声データから変換された文字データが送信される。発声者Ａが発声者Ｂの電子メールを指定しておいて、発声者Ｂにも文字データを送信するようにもできる。

上述では、発声者Ａの音声データに対する処理を説明したが、通話相手の発声者Ｂの音声データに対しても同様である。また、発声者Ａ又はＢが音声認識を必要とするサービス提供会社の着信機能を備えた装置３３へダイヤルする場合においても同様の処理が行われる。

また、携帯電話機３１及び３２を用いて音声データが収集される例を説明したが、公衆電話機やホーム電話機のようなネットワークを介さない所定位置に設置される設置型電話機、ネットワークを用いたＩＰ電話機なども適応可能である。

図２は、音声データを文字データに変換して登録する音声登録処理を説明するためのフローチャート図である。図２において、音声文字化サーバー５は、発信者と受信者の電話番号或いは利用者ＩＤを取得する（ステップＳ５１）。例えば、発声者Ａと発声者Ｂとが通話する場合、音声文字化サーバー５は、発声者Ａの電話番号と発声者Ｂの電話番号とを夫々の側の局交換機１１及び１２から取得する。一方、発声者として登録済みの利用者が、変換された文字データの提供を受けるために音声文字化サーバー５にアクセスした場合、音声文字化サーバー５は利用者から発声者ＩＤを取得する。

音声文字化サーバー５は、ステップＳ５１で取得した電話番号又は発声者ＩＤを用いて発声者ＤＢ４１から発声者情報を検索して取得する（ステップＳ５２）。音声文字化サーバー５は、発声者情報を取得でき、かつ音声データから文字データへの変換サービスの利用を希望しているか否かを判断する（ステップＳ５３）。発声者情報を取得できなかった場合、又は取得できたが音声データから文字データへの変換サービスの利用を希望してない場合、音声文字化サーバー５は、発声者（又は利用者）が未登録であると判断して、この音声登録処理が終了する。

一方、発声者情報を取得できた場合、音声文字化サーバー５は、発声者（又は利用者）が登録済みであると判断して、通話状態であるか否かを判断する（ステップＳ５４）。通話状態の判断は、例えば、ステップＳ５１にて取得した情報が電話番号であった場合に、対応する局交換機１１又は１２から通話終了の通知を受けているならば、ステップＳ５４−２へと進む。

一方、通話終了の通知を受けていないならば通話中であると判断し、音声データを取り込んで（ステップＳ５５）、アナログの音声データをデジタルの音声データに変換（Ａ／Ｄ変換）する（ステップＳ５６）。局交換機１１又は１２から受信した音声データがデジタルで提供される場合には、ステップＳ５６は省略される。

音声文字化サーバー５は、音声データを解析して、音声がない部分を区切りとしてフレーム単位に分割して、フレーム毎に音声データファイル４２を作成する（ステップＳ５７）。音声文字化サーバー５は、音声データファイル４２毎に音声データのデジタル値を合算してチェックサムを算出し、音声データファイル４２に設定しておく（ステップＳ５８）。そして、音声文字化サーバー５は、音声データファイル４２毎に、ステップＳ５２で取得した発声者情報の発声者ＩＤとステップＳ５８で算出したチェックサムとを用いて同じ音声データが音声ＤＢ４３に登録されているか否かを、音声ＤＢ４３を検索して確認する（ステップＳ５９及びＳ６０）。

全ての音声データファイル４２について音声データが音声ＤＢ４３に登録されていることを確認した場合、ステップＳ６０−２へ進み、図５に示す文字データキューイング処理を行った後、ステップＳ５４へ戻って上述同様の処理を繰り返す。

一方、音声データファイル４２のうち音声データの登録の確認ができなかったファイルがあった場合、音声文字化サーバー５は、その音声データファイル４２の音声データが細分割済みのファイルであるか否かを判断する（ステップＳ６１）。細分割済みのファイルである場合、ステップＳ６２へ進む。一方、細分割されていない音声データが保存された音声データファイル４２である場合、音声文字化サーバー５は、保存されている１フレームに相当する音声データを所定の区切り方法で細分割して音声データファイル４２を作成する（ステップＳ６１−２）。この場合、音声データファイル４２の所定記憶領域に細分割を示すフラグを設定しておけばよい。所定の区切り方法として、例えば、予め定められた時間軸又はバイト数、或いは文字単位で区切る方法がある。その後、音声文字化サーバー５は、ステップＳ５８へ戻り、細分割による音声データファイル４２に対して上述した方法でチェックサムを算出するなど、上記同様の処理を繰り返す。

細分割しても音声データの登録の確認ができなかった場合、音声文字化サーバー５は、既存の音声認識機能を使用して文字に変換して音声データから文字データを作成し（ステップＳ６２）、発声者ＩＤと対応付けて音声ＤＢ４３に登録する（ステップＳ６３）。

そして、音声文字化サーバー５は、文字データを解析して音声認識が不完全であるか否かを判断し、また、ステップＳ５２で取得した発声者情報のオペレータ校正フラグをチェックして校正サービスを希望しているか否かを判断する（ステップＳ６４）。音声認識が不完全で、かつ校正サービスを希望している場合に、音声文字化サーバー５は、発声者ＩＤ、音声データ、変換した文字データ、付加情報などを含む校正依頼情報を校正依頼キュー４９に保存して（ステップＳ６５）、文字データキューイング処理を実行した後（ステップＳ６５−２）、ステップＳ５４へと戻って上記同様の処理を繰り返す。音声認識が完全に行われた場合や、音声認識が不完全であっても校正サービスを希望していない場合には、音声文字化サーバー５は、ステップＳ６５を行わず、文字データキューイング処理を実行した後（ステップＳ６５−２）、ステップＳ５４へと戻って上記同様の処理を繰り返す。

図３は、アナログの音声データを量子化する方法例を示す図である。図３（Ａ）において、アナログ音声の波形２ｐを時間の関数Ｆ（ｔ）とし、次に時間軸に沿って時間点列Ｔ０、Ｔ１、Ｔ２、・・・Ｔｎをとり、各店での波高値Ｆ（ｔｋ）を読み取る標本化（サンプリング）を行う。標本の結果得られる値を標本値という。次に、図３（Ｂ）において、標本値としての波高値は連続量（アナログ）であるため一般に小数点以下の値が存在するが、その値に最も近い整数値で近似してそれを波高値とみなす整数化を行う。これを量子化という。

例えば、アナログ音声の波形２ｐは、時間間隔Ｗｉごとの時間Ｔ０、Ｔ１、Ｔ２、・・・Ｔｎにおいて波高値１、９、１３、１３、１０、６、６、６、７、５、１の値でデジタル化される。

上述したような標本化と量子化とによって元のアナログ音声の波形２ｐは適当な整数値の集合として表現でき、この整数値を電気パルス列に置き換えてＡ／Ｄ変換を行うことにより、元のアナログ音声の波形が対応する電気パルスの集まったデジタルの音声データとして扱えるようになる。

図４は、音声データを分割する処理を説明するための図である。図４（Ａ）に示す音声データの例において、図４（Ｂ）に示すように、音声がない部分を区切りにしてフレーム毎に音声データを分割する。音声データを分割して得られたフレームＡ１からＡｎは、各々の音声データファイル４２に保存される。例えば、「おはよう」、「吉岡です」・・・などが各々音声データファイル４２に保存される。音声がない部分の判断は、図３（Ｂ）に示すように量子化されたデジタル値が所定値以下である場合に区切るようにすればよい。

得られたフレームＡ１からＡｎ毎に量子化されたデジタル値を合算したチェックサムを、各々の音声データファイル４２に設定するようにする。

次に、文字データを送信する処理について図５及び図６で説明する。図５は、図２に示す音声登録処理から呼び出される文字データキューイング処理を説明するためのフローチャート図である。図５において、音声文字化サーバー５は、発声者ＩＤを用いて発声者ＤＢ４１から発声者情報を取得する（ステップＳ７１）。そして、音声文字化サーバー５は、文字データの送信要求があったか否かを判断する（ステップＳ７２）。文字データの送信要求がなかった場合、音声文字化サーバー５は、この文字データキューイング処理を終了し、音声登録処理（図２）へ戻る。一方、文字データの送信要求があった場合、音声文字化サーバー５は、発声者情報で指定される送信タイミングを解析する（ステップＳ７３）。

送信タイミングが「（ａ）発声から規定時間後に送信」である場合、音声文字化サーバー５は、現時間に設定した時間を加算して、送信時間を決定する（ステップＳ７４）。送信タイミングが「（ｂ）すぐに送信」である場合、音声文字化サーバー５は、送信時間を現時間に設定する（ステップＳ７５）。送信タイミングが「（ｃ）通話終了後」である場合、音声文字化サーバー５は、通話が終了した場合は、送信時間の設定を現在時間に設定し、終了していない場合はＮＵＬＬに設定する（ステップＳ７６）。送信タイミングが「（ｄ）規定文字数に到達した時」である場合、音声文字化サーバー５は、送信する文字数と送信待機ＤＢ４７に設定されている文字数の合計が、利用者が事前に設定した文字数に達していれば、送信時間を現時間に設定する（ステップＳ７７）。

送信時間を設定した後、音声文字化サーバー５は、発声者情報を参照して、完全認識できない文字をフィードバックするか否かを判断する（ステップＳ７８）。発声者情報でフィードバックが指定されていない場合、音声文字化サーバー５は、ステップＳ８０へ進む。一方、フィードバックが指定されている場合、音声文字化サーバー５は、認識できない文字を認識できた文字とは異なる書体もしくは色に変更して目立つようにハイライト表示にする（ステップＳ８９）。また、音声文字化サーバー５は、必要であればその部分の音声データも送信する。

更に、音声文字化サーバー５は、発声者情報を参照して、暗号化の指定があるか否かを判断する（ステップＳ８０）。暗号化の指定がない場合、音声文字化サーバー５は、ステップＳ８２へと進む。一方、暗号化の指定がある場合、音声文字化サーバー５は、文字データを所定の方法で暗号化する（ステップＳ８１）。

その後、音声文字化サーバー５は、送信待機ＤＢ４７に文字データと、送信時間と、発声者情報とを含む送信情報を格納することによりキューイングし（ステップＳ８２）、音声登録処理からの実行されるこの文字データキューイング処理を終了して、呼び出し元の音声登録処理へと戻る。

図６は、文字データ送信処理を説明するためのフローチャート図である。図６に示す文字データ送信処理は、所定の間隔で音声文字化サーバー５が停止されるまで繰り返して行われる。音声文字化サーバー５は、送信待機ＤＢ４７にキューイングされている文字データに係る送信情報のうち送信時間が現時間と同じか又は経過している送信情報を検索する（ステップＳ９１）。音声文字化サーバー５は、検索された送信情報毎に発声者情報で指定される送信方法を特定する（ステップＳ９２）。

送信方法が「（ａ）文字データをファイルに保存」を示す場合、音声文字化サーバー５は、文字データをファイルに保存して発声者情報で指定される宛先に送信する（ステップＳ９３）。送信方法が「電子メール」を示す場合、音声文字化サーバー５は、電子メールで通話内容を文字にして送信する。送信方法が「（ｃ）ＲＳＳ（Rich Site Summary）」を示す場合、音声文字化サーバー５は、ＲＳＳで文字を送信する（ステップＳ９５）。この場合、音声文字化サーバー５は画面表示設定を行うようにしてもよい。送信方法が「（ｄ）電子掲示板、ＣＨＡＴなど」を示す場合、音声文字化サーバー５は、ある特定のサーバーに文字データを送信する（ステップＳ９６）。この場合、特定のサーバーにてアクセス可能な有資格者がリアルタイムに参照することができる。

特定した送信方法にて文字データを提供した後、音声文字化サーバー５は、ステップＳ９１へ戻り、音声文字化サーバー５が停止されるまで上述した処理を繰り返す。

次に、発声者として登録されている利用者による文字データの校正処理について説明する。この場合、音声文字化サーバー５はＷｅｂサーバーとして動作し、利用者が文字データを更新するためのサービスを提供する。図７は、利用者による音声ＤＢに保存されている文字データの校正処理を説明するためのフローチャート図である。図７において、発声者として登録された利用者が、使用しているＰＣのブラウザから音声文字化サーバー５が提供する文字データの校正処理を行うサービスにアクセスすると（ステップＳ１０１）、音声文字化サーバー５は、利用者に発声者ＩＤ及びパスワードを要求し、利用者から取得した発声者ＩＤ及びパスワードで発声者ＤＢ４１を用いてユーザ認証を行う（ステップＳ１０２）。

次に、音声文字化サーバー５は、発声者ＩＤを用いて、音声ＤＢ４３から過去に登録された文字データを検索し（ステップＳ１０３）、利用者が指定した順番でブラウザに一覧８ａを表示する（ステップＳ１０４）。一覧８ａを表示する順番として、例えば、音声ＤＢ４３への登録が新しい順、最近使われた文字データの順、音声認識が不完全であった文字データの順などである。文字データに例えば「＊＊」などの特殊文字が含まれる場合、音声認識が不完全であったことを示す。ブラウザに一覧を表示した画面から順番を指定できるようにしてもよいし、ユーザ認証後に予め利用者から所望の順番を取得しておいてもよい。

ブラウザの一覧８ａを表示する画面から、利用者は音声認識によって変換された文字と対になっている再生アイコンをクリックして音声を再生し、それと認識された文字とを照らし合わせて、必要があれば校正した文字を校正後文字蘭に入力する（ステップＳ１０５）。そして、利用者は、校正後文字による更新で良ければ、更新ボタン８ｂをクリックする（ステップＳ１０６）。

利用者によるこれら操作に応じて、ブラウザから校正された文字データが音声文字化サーバー５に送信され、音声文字化サーバー５は、利用者によって入力された文字列による文字データで音声ＤＢ４３を更新する。

図８は、校正依頼キューに登録された自動認識後の文字データのオペレータによる校正処理を説明するためのフローチャート図である。図８において、音声文字化サーバー５は、校正依頼キュー４９に校正したい文字データが登録されると、複数のオペレータ端末のうち待機状態のオペレータ端末を検索する（ステップＳ２０１）。音声文字化サーバー５は、検索により待機状態のオペレータ端末があったか否かを判断する（ステップＳ２０２）。待機状態のオペレータ端末がない場合、音声文字化サーバー５はステップＳ２０１へ戻り、校正依頼キュー４９に新たに文字データが登録されるのを待つ。

一方、音声文字化サーバー５は、待機状態のオペレータ端末がある場合、待機状態のオペレータ端末の何れか１台を選択し、その端末を使用状態に定義する（ステップＳ２０３）。そして、音声文字化サーバー５は、オペレータ端末に注意を促すアラームを出力して、校正すべき音声がオペレータのヘッドセットで再生されると、更に音声に対する１以上の文字変換候補をオペレータ端末に表示する（ステップＳ２０４）。

音声文字化サーバー５は、利用者によって変換候補から１つ選択されたか否かを判断する（ステップＳ２０５）。利用者が変換候補を選択した場合、音声文字化サーバー５は、選択された変換候補で音声ＤＢ４３を更新するためにステップＳ２０７へ進む。一方、利用者が変換候補を選択しなかった場合、音声文字化サーバー５は、変換候補の選択の代わりに、オペレータ端末のキーボードから文字入力を受け付けるか、音声認識機能及び言語解析機能を用いてオペレータが発音し直した音声を文字列に変換する（ステップＳ２０６）。

音声文字化サーバー５は、オペレータ端末から取得した選択又は入力などによって校正された文字列を文字データとして音声ＤＢ４３を更新し（ステップＳ２０７）、オペレータ端末を待機状態に定義して（ステップＳ２０８）、ステップＳ２０１へ戻って上述した同様の処理を繰り返す。

図９は、利用者として登録する発声者ＤＢのテーブル構成例を示す図である。図９において、発声者ＤＢ４１は、発声者ＩＤ、発声者パスワード、発声者登録日時、住所、電話番号、携帯電話番号、ＰＣ識別コード、音声→文字変換サービス利用フラグ、オペレータ校正フラグ、暗号化対応フラグ、送信タイミングフラグ、送信タイミングの規定数、送信方法、送信先、フィードバックフラグなどの項目を有する。

発声者ＩＤは、音声文字化サーバー５によるサービスを利用する利用者としての発声者を識別するためのＩＤであり、例えば「０８０００１０００１」などの発声者の携帯電話番号が設定される。発声者パスワードは、音声文字化サーバー５に利用登録する際に利用者によって設定された認証用の文字列である。発声者登録日時は、例えば「０８０３２８１０３０」のように登録した年月日時間を示す。発声者指名は、利用者としての発声者の名前が例えば「富士通太郎」のように登録時に設定される。住所は、例えば「山中湖のほとり」などのように発声者によって登録時に設定される。電話番号及び携帯電話番号は、例えば「０４２ｘｘｘｘｘｘｘ」及び「０８０００１０００１」のように登録時に設定される。ＰＣ識別コードは、例えば「０１．１０９．ｘｘ．ｘｘ」などのＩＰアドレス、又はＭＡＣアドレスが設定される。

音声→文字変換サービス利用フラグには、音声データから文字データへの変換サービスを利用する場合には「１」が設定され、利用しない場合には「０」などの「１」以外の値が設定される。オペレータ校正フラグには、オペレータによる校正サービスを利用する場合には「１」が設定され、利用しない場合には「０」などの「１」以外の値が設定される。暗号化対応フラグには、文字データを暗号化する場合には「１」が設定され、暗号化しない場合には「０」などの「１」以外の値が設定される。

送信タイミングフラグには、発声から規定時間後に送信する場合には「１」が設定され、すぐに送信する場合には「２」が設定され、通話終了後に送信する場合には「３」が設定され、所定文字数に達したら送信する場合には「４」が設定される。送信タイミングの規定数に設定される値は、送信タイミングフラグが「１」の場合には規定時間を示し、「４」の場合には文字数が示す。

送信方法は、「ＦＩＬＥ」、「ＭＡＩＬ」、「ＲＳＳ」、「ＳＥＲＶＥＲ」のいずれかで指定される。更に、ファクスなどの送信手段を設定することも可能である。送信先は、送信方法に応じた宛先が設定され、例えば、送信方法が「ＭＡＩＬ」である場合は１つ以上の電子メールアドレスが指定される。自身と通話相手の電子メールアドレスなど複数の送信先を設定してもよい。フィードバッグフラグは、音声認識が完全に出来なかった場合にフィードバッグを行うときは「１」が設定され、フィードバッグを行わないときは「０」など「１」以外の値が設定される。

電話番号、携帯電話番号、ＰＣ識別コードは、発声者が利用する装置を特定するための装置特定情報である。

図１０は、音声データから変換された文字データを保存する音声ＤＢのテーブル構成例を示す図である。図１０において、音声ＤＢ４３は、発声者ＩＤ、チェックサム、音声データ情報、認識文字、校正後文字、最新の参照日時、参照回数、音声データ登録日時、校正日時などの項目を有する。

発声者ＩＤは、利用者として発声者ＤＢ４１に登録した発声者ＩＤである。発声者ＤＢ４１に携帯電話番号を発声者ＩＤとして登録した場合、その携帯電話番号が設定される。チェックサムには、音声データのデジタル値の合計値が設定される。音声データ情報には、デジタル化された音声データの保存先を示す情報が設定される。ファイルに保存されている場合にはファイル名が設定される。

認識文字には、音声データから自動認識された文字列が文字データとして設定される。校正後文字には、オペレータ又は発声者として登録されている利用者によって校正された文字列が文字データとして設定され、校正されていない場合は空白となる。発声者ＩＤとチェックサムとによって音声データの登録が検索された場合、校正後文字に設定された文字データを認識文字に設定された文字データよりも優先的に使用し、校正後文字が空白の場合に認識文字の文字データを使用する。

最新の参照日時は、音声データ情報の保存先に保存されている音声データから認識又は校正された文字データが利用された最後の日時を示す。参照回数は、この文字データが利用された回数を示す。音声データ登録日時は、この音声データを文字データに変換し登録した日時を示す。校正日時は、認識文字に保存される文字データをオペレータ又は利用者が校正した日時を示す。

次に、上述したような音声文字化サーバー５が適用される利用形態について説明する。図１１は、携帯電話機で通話する利用形態での適用例を示す図である。図１１において、発声者Ａ及びＢが携帯電話機２ａ及び２ｂを用いた通話による各音声信号は、各々の携帯基地局３ａ及び３ｂで受信され、電話回線網７ａを介して各々の中継交換局４ａ及び４ｂによって双方の携帯電話機２ａ及び２ｂに送信される。中継交換局４ａ及び４ｂは、通信可能なデータ回線網によって音声文字化サーバー５に接続されており、音声文字化サーバー５により携帯電話番号などで認証確認後、更に音声→文字変換サービス利用フラグによりサービスの利用を確認後、音声データと自動認識によって変換された文字データとを音声文字化サーバー５に蓄積する。音声文字化サーバー５は、所定の送信タイミングで指定された送信先へ文字データを送信する。

図１２は、ＩＰ電話機で通話する利用形態での適用例を示す図である。図１２において、発声者Ａ及びＢがＩＰ電話機２ｃ及び２ｄを用いた通話による各音声信号は、光ファイバー又はデジタル専用回線などに接続される無線アンテナ３ｃ及び３ｅによってＩＰ網７ｃを介して送受信される。ＩＰ網７ｃに接続される音声文字化サーバー５は、ＩＰ網７ｃを形成するルーターから転送されるＩＰ電話機２ｃ及び２ｄを夫々識別するＩＰアドレスによって認証確認し、更に音声→文字変換サービス利用フラグによりサービスの利用を確認後、ＩＰ電話機２ｃ及び２ｄ夫々からの音声データと自動認識によって変換された文字データとを音声文字化サーバー５に蓄積する。

発声者Ａ又はＢが公衆電話ボックスやコンビニなどに設置されるＩＰ電話機から通話する場合においても同様である。このような利用形態では、図９に示される発声者ＤＢ４２のＰＣ識別コードを用いて認証などを行えばよい。

図１３は、Ｐ２Ｐネットワークを介してＩＰ電話により通話する利用形態での適用例を示す図である。図１３において、一般のノードとなるＰＣ端末６２は、インターネット６８を介して音声文字化サーバー５で認証後、複数のスーパーノード６１で構成されるＰ２Ｐネットワーク６７に接続され、スーパーノード６１を介して相手方のＰＣ端末６２に接続され、ＩＰ電話による通話が開始される。

通話開始後、各ＰＣ端末６２が通話中の音声データを音声文字化サーバー５へ転送することにより、音声データと自動認識によって変換された文字データとを音声文字化サーバー５に蓄積する。

図１４は、音声文字化サーバーの機能構成例を示す図である。図１４において、音声文字化サーバー５は、ＣＰＵ、メモリ、記憶装置、表示ユニット、出力ユニット、入力ユニット、通信ユニット、外部記憶装置Ｉ／Ｆなどを備えたコンピュータ装置であり、ＣＰＵがプログラムを実行することによって実現される音声データ受信処理部５０１と、ユーザ認証及びサービス利用確認部５０２と、音声データＡ／Ｄ変換部５０３と、フレーム分割部５０４と、音声データ登録確認部５０５と、文字データ変換部５０６と、オペレータ校正部５０９と、利用者校正部５１０と、文字データ配信部５１１と、表示処理部５２１と、入出力処理部５２２と、通信制御部５２３と、インストーラ５２４とを有する。また、発声者ＤＢ４１と、音声データファイル４２と、音声ＤＢ４３と、送信待機ＤＢ４７とは記憶装置に保持される。音声データファイル４２は、音声データが音声ＤＢ４３に登録されるデータファイルである。

表示処理部５２１は、表示ユニットへのデータの表示を制御する。入出力処理部５２２は、入力ユニット及び出力ユニットへのデータの入出力を制御する。通信制御部５２３は、ネットワークを介して行われるデータ通信を制御する。インストーラ５２４は、本発明に係るプログラムを記録した記録媒体５２０から外部記憶装置Ｉ／Ｆを介して該プログラムをインストールする。記録媒体５２０は、コンピュータが読み取り可能な媒体であればよい。

音声データ受信処理部５０１は、図２のステップＳ５１及びＳ５２に相当し、通信制御部５２３によって音声データが受信されると、音声データと共に送信される電話番号を用いて発声者ＤＢ４１を検索して発声者情報を取得して、音声データと発声者情報とを作業用の記憶領域に格納する。認証後は、格納しておいた音声データが取り込まれ必要に応じてＡ／Ｄ変換されて、文字データへの変換が行われる。また、音声データ受信処理部５０１は、通信制御部５２３から発声者ＩＤが通知された場合には、発声者ＩＤを用いて発声者ＤＢ４１を検索して発声者情報を取得し、発声者情報を作業用の記憶領域に格納する。

ユーザ認証及びサービス利用確認部５０２は、図２のステップＳ５３からＳ５４に相当し、音声データ受信処理部５０１によって取得した発声者情報を用いて、通話中の発声者又はインターネットを介してアクセスする利用者に対するユーザ認証を行うと共に、発声者情報の音声→文字変換サービス利用フラグを参照することによって、音声データから文字データへの変換サービスの利用を確認する。

音声データＡ／Ｄ変換部５０３は、図２のステップＳ５６に相当し、アナログの音声データを図３に示す所定のアルゴリズムに従ってデジタルの音声データに変換する。フレーム分割部５０４は、図２のステップＳ５７に相当し、デジタルに変換された音声データをフレームに分割し、分割したフレーム毎にデジタル値を合算してチェックサムを算出する。

音声データ登録確認部５０５は、図２のステップＳ５８からＳ６０に相当し、フレーム分割部５０４によって算出されたチェックサムを用いて音声データの登録を確認する。音声データが音声ＤＢ４３に登録されている場合、変換された文字データが音声ＤＢ４３に登録されていることを意味する。

文字データ変換部５０６は、図２のステップＳ６２及びＳ６３に相当し、音声認識機能５０７及び言語解析機能５０８を用いて文字データに変換したのち音声ＤＢ６３に登録する。

オペレータ校正部５０９は、図８のステップＳ２０１からＳ２０８に相当し、発声者情報のオペレータ校正フラグを参照することによってオペレータによる校正を希望していると判断した場合に実行される。

利用者校正部５１０は、図７のステップＳ１０１からＳ１０７に相当し、ネットワークを介してアクセスする利用者がユーザ認証及びサービス利用確認部５０２によって認証された場合に、音声ＤＢ４２に登録されている音声データを視聴可能とし、変換された文字データの校正を許可し、利用者によって確認された文字データで音声ＤＢ４２の更新を行う。

文字データ配信部５１１は、図５のステップＳ７１からＳ８２と図６のステップＳ９１から９６とに相当し、発声者情報の送信タイミングフラグ、送信タイミングの規定数、送信方法、送信先などを参照して、変換された文字データを送信する。

上述したように、音声文字化サーバー５を利用することによって、例えば、騒音又は難聴により通話がはっきりしない場合であっても、変換された文字の提供によって通話が理解し易くなる。

音声文字化サーバー５では、文字データを変換する前段階における受信した音声データのチェックサムで音声ＤＢ４３を検索して音声データの音声ＤＢ４３の登録確認をするため、登録済みの場合は、既に音声データに対応させて格納されている文字データを提供することができ、より高速に音声データから文字データへの変換を行うことができる。また、発声者ＩＤで関連付けられるチェックサムの値で検索するため、文字データに変換するための個々の発声者の音声の特性を詳細に解析する必要がない。

通話中の音声データに対するオペレータによる文字データの校正を可能にすることで、タイムリーにより精度の高い文字データを提供することができる。また、通話後に発声者によって直接文字データを校正することを可能とすることで、更に精度の高い文字データを提供することができる。

また、音声文字化サーバー５によって、電話中の通話が文字データに変換可能であるため、発声者は通常の電話機又は自身の携帯電話機を利用するのみで音声認識機能や言語解析機能などを備えた特別な装置を別途備える必要がなく、また、そのような特別な装置が設置されている場所に制限されることがない。

実施例において、日本語に変換する例で説明したが、日本語に限定されることなく、英語やその他の言語でも可能である。

以上の説明に関し、更に以下の項を開示する。
（付記１）
通話中の発声者の音声データを通信回線を介して受信する音声データ受信手段と、
前記音声データを文字データに変換する音声文字変換手段と、
前記文字データを前記発声者に配信する配信手段とを有する音声文字化サーバー。
（付記２）
音声データのチェックサムと該音声データから変換された文字データとを対応させて音声データベースに格納することによって、該音声データを登録する音声登録手段と、
前記音声データ受信手段が受信した発声者の音声データが前記音声データベースに登録されているか否かを該音声データのチェックサムの一致で判断する音声登録判断手段とを有し、
前記配信手段は、前記チェックサムの一致した音声データに対応する文字データを前記発声者に配信する付記１記載の音声文字化サーバー。
（付記３）
前記音声データ受信手段によって受信した音声データを発生音節毎のフレーム単位に分割するフレーム単位分割手段と、
前記フレーム単位にチェックサムを算出するチェックサム算出手段とを有し、
前記音声登録判断手段は、前記フレーム単位に算出された前記チェックサムを用いて前記音声データベースへの前記音声データの登録を判断する付記２記載の音声文字化サーバー。
（付記４）
前記音声登録判断手段によって前記音声データが未登録であると判断した場合、前記フレーム単位の音声データを所定の区切り方法で細分割し、前記チェックサム算出手段により該細分割された音声データに対してチェックサムを算出させ、前記音声登録判断手段により該チェックサムの一致する音声データが登録されているか否かを判断させるようにする付記３記載の音声文字化サーバー。
（付記５）
前記音声文字変換手段は、前記音声データが前記音声データベースに登録されていない場合、音声認識機能を用いて該音声データを文字データに変換し、
前記音声認識機能による変換誤りをオペレータ又は前記発声者によって校正可能とする校正手段と、
前記変換誤りが修正された文字データで前記音声データベースを更新手段とを有する付記２乃至４のいずれか一項記載の音声文字化サーバー。
（付記６）
前記配信手段は、所定の送信タイミングによって前記発声者の音声データから変換された文字データを送信する際に、前記音声認識機能によって認識できた文字データと認識できなかった文字データとを区別可能なようにフィードバックする付記５記載の音声文字化サーバー。
（付記７）
前記音声データと共に受信する通話装置を特定する装置特定情報を用いて前記発声者を認証する発声者認証手段を有し、
前記発声者認証手段によって認証が成功した場合に前記音声文字変換手段と前記配信手段とを有効にする付記１乃至６のいずれか一項記載の音声文字化サーバー。
（付記８）
前記発声者を識別する発声者ＩＤに対応づけて、前記装置特定情報と前記文字データの送信方法とを含む発声者情報を発声者データベースに格納して管理する発声者情報管理手段と、
前記配信手段は、前記送信方法で指定される手段によって前記文字データを配信する付記７記載の音声文字化サーバー。
（付記９）
音声文字化サーバーとして機能するコンピュータが、
通話中の発声者の音声データを通信回線を介して受信する音声データ受信手順と、
前記音声データ受信手順によって受信した音声データを発生音節毎のフレーム単位に分割するフレーム単位分割手順と、
前記音声データを前記フレーム単位で文字データに変換する音声文字変換手順と、
前記文字データを前記発声者に配信する配信手順と実行する音声文字化方法。

本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

全体処理の概要を説明するための図である。音声データを文字データに変換して登録する音声登録処理を説明するためのフローチャート図である。アナログの音声データを量子化する方法例を示す図である。音声データを分割する処理を説明するための図である。図２に示す音声登録処理から呼び出される文字データキューイング処理を説明するためのフローチャート図である。文字データ送信処理を説明するためのフローチャート図である。利用者による音声ＤＢに保存されている文字データの校正処理を説明するためのフローチャート図である。校正依頼キューに登録された自動認識後の文字データのオペレータによる校正処理を説明するためのフローチャート図である。利用者として登録する発声者ＤＢのテーブル構成例を示す図である。音声データから変換された文字データを保存する音声ＤＢのテーブル構成例を示す図である。携帯電話機で通話する利用形態での適用例を示す図である。ＩＰ電話機で通話する利用形態での適用例を示す図である。Ｐ２Ｐネットワークを介してＩＰ電話により通話する利用形態での適用例を示す図である。音声文字化サーバーの機能構成例を示す図である。

符号の説明

５音声文字化サーバー
６ＰＣ
１１、１２局交換機
２１、２２電波塔
３１、３２携帯電話機
４１発声者ＤＢ
４２音声データファイル
４３音声ＤＢ
４７送信待機ＤＢ
１００音声文字化システム

Claims

通話中の発声者の音声データを通信回線を介して受信する音声データ受信手段と、
前記音声データ受信手段が受信した発声者の音声データが、該音声データのチェックサムと該音声データから変換された文字データとを対応させた音声データベースに登録されているか否かを、該音声データのチェックサムの一致で判断する音声登録判断手段と、
前記チェックサムの一致した音声データに対応する文字データを前記発声者に配信する配信手段と、
前記音声データベースに前記チェックサムの一致する音声データが存在しない場合、該音声データを文字データに変換する音声文字変換手段と、
前記音声データのチェックサムと、前記音声文字変換手段によって該音声データから変換した文字データとを対応させて前記音声データベースに格納することによって、該音声データを登録する音声登録手段と、
を有する音声文字化サーバー。
前記音声データ受信手段によって受信した音声データを発生音節毎のフレーム単位に分割するフレーム単位分割手段と、
前記フレーム単位にチェックサムを算出するチェックサム算出手段とを有し、
前記音声登録判断手段は、前記フレーム単位に算出された前記チェックサムを用いて前記音声データベースへの前記音声データの登録を判断する請求項１記載の音声文字化サーバー。
前記音声登録判断手段によって前記音声データが未登録であると判断した場合、前記フレーム単位の音声データを所定の区切り方法で細分割し、前記チェックサム算出手段により該細分割された音声データに対してチェックサムを算出させ、前記音声登録判断手段により該チェックサムの一致する音声データが登録されているか否かを判断させるようにする請求項２記載の音声文字化サーバー。