JP6320962B2 - Speech recognition system, speech recognition method, program - Google Patents
Speech recognition system, speech recognition method, program Download PDFInfo
- Publication number
- JP6320962B2 JP6320962B2 JP2015061831A JP2015061831A JP6320962B2 JP 6320962 B2 JP6320962 B2 JP 6320962B2 JP 2015061831 A JP2015061831 A JP 2015061831A JP 2015061831 A JP2015061831 A JP 2015061831A JP 6320962 B2 JP6320962 B2 JP 6320962B2
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- recognition server
- unit
- setting
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
本発明は、クライアント装置と複数の音声認識サーバ装置と管理部を含む音声認識システム、音声認識方法、プログラムに関する。 The present invention relates to a voice recognition system, a voice recognition method, and a program including a client device, a plurality of voice recognition server devices, and a management unit.
従来のサーバ・クライアント型の音声認識方法について開示した文献として例えば特許文献1がある。特許文献1のサーバ・クライアント型音声認識方法は、クライアント装置で観測した無音声区間の信号によって雑音モデルを生成し、クライアント装置と音声認識サーバ装置のそれぞれにおいて雑音モデルと音声モデルとにより共通の雑音重畳音声モデルを生成し、クライアント装置では認識対象とする入力音声の特徴量を雑音重畳音声モデルに基づいてコード化して音声認識サーバ装置に送信し、音声認識サーバ装置ではクライアント装置から受信したコードを雑音重畳音声モデルに基づいて特徴量に変換する。この方法は、雑音モデルに基づく雑音重畳音声モデルをその都度生成するので、様々な雑音下における音声の認識処理に対応できるという利点があった。
For example,
また特許文献2の音声認識方法では、音声入力時の雑音区間(音声区間でない区間)の信号と、雑音重畳音声モデルを作成する際に重畳した雑音信号との類似度(雑音類似度という)を計算し、類似度が所定値以上を示す雑音重畳音声モデルを音声認識用の確率モデルとして利用したり、類似度が所定値以上となる雑音重畳音声モデルが存在しなければ予め格納してある音声モデルと雑音区間の信号とを利用して雑音信号に適応した雑音重畳音声モデルを作成して音声認識用の確率モデルとする。この方法は、クライアント装置に高度な処理を要求しなくて良いという利点があった。 Further, in the speech recognition method of Patent Document 2, the similarity (referred to as noise similarity) between a signal in a noise interval (interval that is not a speech interval) at the time of speech input and a noise signal superimposed when creating a noise-superimposed speech model. Calculated and used as a noise-superimposed speech model whose similarity is a predetermined value or more as a probability model for speech recognition, or stored in advance if there is no noise-superimposed speech model whose similarity is a predetermined value or more A noise-superimposed speech model adapted to the noise signal is created using the model and the signal in the noise interval to obtain a stochastic model for speech recognition. This method has an advantage in that it is not necessary to request a high-level processing from the client device.
特許文献1の方法では、雑音モデルを観測してから雑音重畳音声モデルを生成して認識に利用するために時間がかかるとすれば、雑音モデル観測時の雑音の特性と認識利用時の雑音の特性とが異なってしまい音声認識性能に影響を及ぼす可能性がある。音声認識利用のために雑音重畳音声モデルを高速に生成するためには、クライアント装置に高度な処理能力を求めることになってしまう。また音声認識サーバ装置側においても同様に、雑音重畳音声モデルを作成するためにその稼働量が一時的に増大するという問題が生じる。
In the method of
特許文献2の方法を、大多数の利用者が同時に利用するサーバ・クライアント型音声認識システムに適用しようとすると、あらゆる利用者の雑音区間の信号に対応するためには、1つの音声認識サーバ装置の中に様々な雑音に対応した雑音重畳音声モデルを格納する必要があり、モデルの管理が複雑になってしまう。もしくは、クライアント装置から雑音区間の信号を受信する都度、雑音重畳音声モデルを作成するために音声認識サーバ装置の稼働量が一時的に増大するという問題が生じる。 If the method of Patent Document 2 is applied to a server / client type speech recognition system that is used by a large number of users at the same time, one speech recognition server device can be used to deal with signals in the noise interval of all users. It is necessary to store a noise-superimposed speech model corresponding to various types of noise, and the model management becomes complicated. Alternatively, every time a signal in the noise interval is received from the client device, there is a problem that the amount of operation of the speech recognition server device temporarily increases in order to create a noise superimposed speech model.
そこで本発明では、クライアント装置に高度な処理を要求せず、低い導入コストで高い性能を実現することができる音声認識システムを提供することを目的とする。 Therefore, an object of the present invention is to provide a voice recognition system that does not require advanced processing from a client device and can realize high performance at a low introduction cost.
本発明の音声認識システムは、クライアント装置と、複数の音声認識サーバ装置と、管理部を含む。 The speech recognition system of the present invention includes a client device, a plurality of speech recognition server devices, and a management unit.
クライアント装置は、送信部を含む。送信部は、入力された音響信号または音響信号に由来する信号を、その収音条件に基づいて選択された音声認識サーバ装置に送信する。音声認識サーバ装置のそれぞれは、設定記憶部と、利用率送信部を含む。設定記憶部は、音声認識に関する設定を予め記憶する。利用率送信部は、クライアント装置が自装置を送信先として利用した割合である利用率に関する情報を管理部に送信する。管理部は、クライアント装置に対して利用率に基づいて更新された収音条件のしきい値を送信する動作、利用率に基づいて特定された音声認識サーバ装置に対して利用率に基づいて更新された設定に関する情報を送信する動作のうち少なくとも何れか一つの動作を実行する。 The client device includes a transmission unit. The transmission unit transmits the input acoustic signal or a signal derived from the acoustic signal to the voice recognition server device selected based on the sound collection condition. Each of the voice recognition server devices includes a setting storage unit and a utilization rate transmission unit. The setting storage unit stores in advance settings relating to voice recognition. The usage rate transmission unit transmits information on the usage rate, which is a rate at which the client device uses the own device as a transmission destination, to the management unit. The management unit transmits the threshold value of the sound collection condition updated based on the usage rate to the client device, and updates based on the usage rate for the voice recognition server device specified based on the usage rate. At least one of the operations for transmitting information on the set setting is executed.
本発明の音声認識システムによれば、クライアント装置に高度な処理を要求せず、低い導入コストで高い性能を実現することができる。 According to the voice recognition system of the present invention, high performance can be realized at a low introduction cost without requiring high-level processing from the client device.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
以下の説明では、音声認識対象とする発声された信号を音声信号、音声信号と音声信号以外の背景雑音信号などが混在した状態で収音した信号を音響信号と呼ぶこととする。 In the following description, a signal uttered as a speech recognition target is referred to as a sound signal, and a signal collected in a state where a sound signal and a background noise signal other than the sound signal are mixed is referred to as an acoustic signal.
以下、実施例1の音声認識システムの概要について説明する。前述したように、クライアント装置に入力された音響信号を、その収音条件毎に複数の音声認識サーバ装置に分散して送信し、各音声認識サーバ装置において音声認識処理を実行すれば、クライアント装置に高度な処理を要求せず、低い導入コストで高い性能を実現することが可能となる。しかしながら、クライアント装置がどのような収音条件の下で本システムを利用するかは、本システムの計画段階では未知数であるため、特定の音声認識サーバ装置へのトラフィックの集中、過疎が起こる可能性がある。すなわち、ある収音条件下における本システムの利用頻度が著しく高くなれば、その収音条件に基づいて選択される音声認識サーバ装置に負荷が集中することになる。また、ある収音条件下における本システムの利用頻度が著しく少なければ、その収音条件に基づいて選択される音声認識サーバ装置はほとんど利用されないことになる。局所的な負荷の集中により処理の遅延が発生すれば、ユーザの不利益となる。また、ほとんど利用されない音声認識サーバ装置が存在すれば、設備の無駄が発生し、システム運営者の不利益となる。あるいは、本システムの運用開始以降、本システムのユーザの利用傾向が変動して、上記の問題が新たに発生した場合には、本システムが上記の変動に追従できないことにより、上述と同様のユーザの不利益、システム運営者の不利益が生ずる。 Hereinafter, an outline of the voice recognition system according to the first embodiment will be described. As described above, if the acoustic signal input to the client device is distributed and transmitted to a plurality of voice recognition server devices for each sound collection condition, and the voice recognition processing is executed in each voice recognition server device, the client device Therefore, it is possible to achieve high performance at a low introduction cost without requiring advanced processing. However, under what kind of sound collection conditions the client device uses this system is unknown at the planning stage of this system, so there is a possibility of traffic concentration and depopulation to a specific voice recognition server device. There is. In other words, if the frequency of use of the system under a certain sound collection condition is remarkably increased, the load is concentrated on the voice recognition server device selected based on the sound collection condition. Further, if the frequency of use of the system under a certain sound pickup condition is extremely low, the voice recognition server device selected based on the sound pickup condition is hardly used. If processing delay occurs due to local load concentration, it is disadvantageous for the user. Further, if there is a voice recognition server device that is hardly used, equipment is wasted, which is disadvantageous for the system operator. Or, since the usage tendency of the users of the system fluctuates after the start of operation of the system, and the above problem newly occurs, the system cannot follow the fluctuations. The disadvantage of the system operator.
そこで本実施例では、音声認識サーバ装置の利用率を監視し、当該利用率に応じて音声認識サーバ装置の設定、またはクライアント装置の設定を変更することによって、特定の音声認識サーバ装置に負荷が集中しないように運用し、音声認識システム全体の利用性能(パフォーマンス)を高めることができる音声認識システムを開示する。 Therefore, in this embodiment, the load on a specific voice recognition server device is monitored by monitoring the usage rate of the voice recognition server device and changing the setting of the voice recognition server device or the client device according to the usage rate. Disclosed is a speech recognition system that can be operated so as not to concentrate and can improve the performance (performance) of the entire speech recognition system.
以下、図1、図2、図3を参照して本実施例の音声認識システムの構成について説明する。図1は、本実施例の音声認識システム1の構成を示すブロック図である。図2は、本実施例の音声認識サーバ装置21−nの構成を示すブロック図である。図3は、本実施例の管理部30の構成を示すブロック図である。
Hereinafter, the configuration of the speech recognition system according to the present embodiment will be described with reference to FIGS. 1, 2, and 3. FIG. 1 is a block diagram showing the configuration of the
図1に示すように、本実施例の音声認識システム1は、クライアント装置10と、複数の音声認識サーバ装置21−1、…、21−n、…、21−N(NはN≧2を充たす整数、nは1≦n≦Nを充たす整数)と、管理部30を含む。図1においてクライアント装置10は1台のみ図示したが、クライアント装置10は複数台存在するものとする。音声認識サーバ装置21−1、…、21−n、…、21−Nをまとめて呼称する際には、音声認識サーバ装置群20と呼ぶ。クライアント装置10と音声認識サーバ装置群20は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。管理部30は、単独のハードウェア(装置)として構成されてもよい。管理部30を単独のハードウェア(装置)として構成した場合は、これを管理装置30と呼んでもよい。管理部30を単独のハードウェア(装置)として構成した場合、クライアント装置10と音声認識サーバ装置群20と管理部30(管理装置30)はネットワークを介して、無線または有線で通信可能に接続されているものとする。また、管理部30は、クライアント装置10内の構成要件であってもよいし、音声認識サーバ装置群20内の何れかの音声認識サーバ装置内の構成要件であってもよい。
As shown in FIG. 1, the
図1に示すように、クライアント装置10は、収音条件抽出部11と、しきい値記憶部111と、選択部12と、送信先記憶部121と、信号処理部13と、送信部14と、受信部15と、呈示部16と、送信先変更部17を含む。図2に示すように、音声認識サーバ装置群20に含まれる全ての音声認識サーバ装置(21−nに代表させた)は、音響信号受信部21Aと、音声認識部21Bと、認識結果送信部21Cと、利用率送信部21Dと、設定情報受信部21Eと、設定更新部21Fと、設定記憶部21Gを含む。図3に示すように、管理部30(管理装置30)は、利用率受信部30Aと、設定情報更新部30Bと、設定情報送信部30Cと、送信先情報更新部30Dと、送信先情報送信部30Eと、送信先記憶部30Gと、設定記憶部30Fを含む。
As illustrated in FIG. 1, the
以下、図4を参照して本システムの音声認識動作について説明する。図4は、本実施例の音声認識システム1の音声認識動作を示すシーケンス図である。まず、収音条件抽出部11は、入力された音響信号の収音条件を抽出する(S11)。選択部12は、抽出された収音条件に基づいて、対応する音響信号の送信先となる音声認識サーバ装置(例えば音声認識サーバ装置21−1)を選択する(S12)。収音条件と送信先となる音声認識サーバ装置との関係は、送信先記憶部121に予め記憶されているものとする。
Hereinafter, the speech recognition operation of this system will be described with reference to FIG. FIG. 4 is a sequence diagram showing the voice recognition operation of the
<収音条件>
収音条件は、例えば音声信号の大きさと背景雑音信号の大きさの比率であるS/N比に関する特徴量、音響信号のひずみに関する特徴量、背景雑音信号のスペクトル形状に関する特徴量、背景雑音信号の大きさに関する特徴量のうち少なくとも何れかの特徴量についてのしきい値に基づく条件とすることができる。しきい値は、しきい値記憶部111に予め記憶されているものとする。
<Sound collection conditions>
The sound collection conditions include, for example, a feature amount relating to the S / N ratio, which is a ratio of the size of the audio signal and the background noise signal, a feature amount relating to the distortion of the acoustic signal, a feature amount relating to the spectrum shape of the background noise signal, and a background noise signal. It is possible to set a condition based on a threshold value for at least one of the feature amounts related to the size of the feature amount. It is assumed that the threshold value is stored in advance in the threshold
背景雑音信号とは発声音声や目的音が入力される直前の一定時間にマイクで観測された信号である。背景雑音信号の大きさとは、背景雑音信号のパワースペクトルの一定時間の平均値である。背景雑音信号のスペクトル形状とは、背景雑音信号のスペクトルにおける各帯域の成分やその時間変化である。音声信号と背景雑音信号のS/N比とは、発声音声(目的音)入力中の音響信号中の音声信号の大きさと背景雑音信号の大きさの比である。音声信号として、発声音声(目的音)入力中の一定時間の音響信号のパワースペクトルから背景雑音信号のパワースペクトルの一定時間の平均値を差し引いたパワースペクトルを用いることができる。音声信号の大きさとは、発声音声(目的音)入力中の一定時間の音声信号のパワースペクトルの平均値である。 The background noise signal is a signal observed by a microphone for a certain time immediately before the voiced sound or the target sound is input. The magnitude of the background noise signal is an average value of the power spectrum of the background noise signal over a certain period of time. The spectrum shape of the background noise signal is a component of each band in the spectrum of the background noise signal and its time change. The S / N ratio between the audio signal and the background noise signal is the ratio of the size of the audio signal in the acoustic signal being input to the uttered speech (target sound) and the size of the background noise signal. As the audio signal, a power spectrum obtained by subtracting the average value of the power spectrum of the background noise signal for a certain time from the power spectrum of the acoustic signal for a certain time during the input of the uttered voice (target sound) can be used. The magnitude of the audio signal is an average value of the power spectrum of the audio signal for a certain time during the input of the uttered voice (target sound).
音響信号のひずみとは、音響信号の入力が大きすぎたためにマイクロホン素子、マイクロホンアンプ回路、A/D変換がクリッピングしているものを指す。入力信号レベルが、あらかじめ決めた閾値以上の振幅を持つ区間を検出し、その時間的な割合を計算する。この割合が高ければひずみが大きく、割合が小さければひずみが小さい。閾値以上の振幅となっていなければ、ひずみなしとすることができる。閾値は、マイク素子、回路、AD変換のクリッピングレベルに合わせて設定する。 The distortion of the acoustic signal means that the microphone element, the microphone amplifier circuit, and the A / D conversion are clipping because the input of the acoustic signal is too large. A section where the input signal level has an amplitude greater than or equal to a predetermined threshold is detected, and the time ratio is calculated. If this ratio is high, the strain is large, and if the ratio is small, the strain is small. If the amplitude does not exceed the threshold, no distortion can be achieved. The threshold is set according to the clipping level of the microphone element, circuit, and AD conversion.
<収音条件抽出部11(S11)、選択部12(S12)>
以下に、収音条件抽出部11、選択部12の動作(S11、S12)の例について述べる。収音条件抽出部11は、例えば入力された音響信号から収音条件を表す特徴量を抽出し、特徴量の値に応じて入力された音響信号をグループ(例えば収音条件を表す符号)に分ける。
<Sound Collection Condition Extraction Unit 11 (S11), Selection Unit 12 (S12)>
Hereinafter, an example of the operation (S11, S12) of the sound collection
次に、選択部12は、表1に記載のように、グループ(収音条件を表す符号)とインデックス(送信先音声認識サーバ装置を表す符号)の関係に基づいて、対応する音響信号の送信先となる音声認識サーバ装置(例えば音声認識サーバ装置21−1)を選択する(S12)。
Next, as shown in Table 1, the
特徴量xは例えば、音響信号に含まれる音声信号の大きさと背景雑音信号の大きさの比率であるS/N比、音響信号のひずみの有無やひずみの頻度、背景雑音信号のスペクトル形状、背景雑音信号の大きさ、などとすることができる。 The feature amount x is, for example, the S / N ratio that is the ratio of the size of the audio signal included in the acoustic signal and the size of the background noise signal, the presence or absence of distortion of the acoustic signal, the frequency of distortion, the spectrum shape of the background noise signal, the background The magnitude of the noise signal, etc.
特徴量xをS/N比とする場合、例えばしきい値をθ1=0dB、θ2=10dB、θ3=20dB等と設定し、x=5dBならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。
When the feature quantity x is an S / N ratio, for example, threshold values are set as θ 1 = 0 dB, θ 2 = 10 dB, θ 3 = 20 dB, and so on. Are extracted as sound collection conditions, and the
特徴量xを音響信号のひずみとする場合、たとえばビットデプス16bitで量子化した信号で、0.5秒間で振幅の絶対値が30000以上となる時間の割合を特徴量xとする。しきい値をθ1=0.8等と設定し、x=0ならば収音条件抽出部11はグループ1を収音条件として抽出し、選択部12はインデックス1を選択し、x=0.9ならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。
When the feature quantity x is a distortion of an acoustic signal, for example, the ratio of the time when the absolute value of the amplitude is 30000 or more in 0.5 seconds is a feature quantity x in a signal quantized with a bit depth of 16 bits. The threshold is set as θ 1 = 0.8, etc., and if x = 0, the sound collection
特徴量xを背景雑音信号のスペクトル形状とする場合、例えば背景雑音信号の大きさを周波数帯域や継続時間によりx1、x2、…、xm等(mはm≧2を充たす整数)と分けて評価する。収音条件抽出部11は、評価結果の組み合わせからグループを抽出し、選択部12はそのインデックスを選択する。また、背景雑音信号のスペクトル形状を特徴量として用いる別の方法として、複数種類の背景雑音信号のモデルを記憶しておき、入力された信号の背景雑音信号をモデルのいずれかに分類することもできる。複数種類の背景雑音信号とは、例えばホワイトノイズ、ピンクノイズ、バーストノイズなどである。この方法では、モデル一つ一つに対応するグループを割振っておき、入力された信号の背景雑音信号が分類されたモデルに応じてグループが決定される。
When the feature amount x is the spectrum shape of the background noise signal, for example, the size of the background noise signal is x 1 , x 2 ,..., X m (m is an integer satisfying m ≧ 2) depending on the frequency band and duration. Separately evaluate. The sound collection
特徴量xを背景雑音信号の大きさとする場合、たとえばθ1=40dBA、θ2=55dBA、θ3=70dBA等と設定し、特徴量x=50dBAならば収音条件抽出部11はグループ2を収音条件として抽出し、選択部12はインデックス2を選択する。ここでdBAとは人間の聴覚を考慮した周波数重み付け特性(A特性)のもとで測定した騒音レベルのdB値の単位である。
When the feature amount x is set to the size of the background noise signal, for example, θ 1 = 40 dBA, θ 2 = 55 dBA, θ 3 = 70 dBA, etc. are set, and if the feature amount x = 50 dBA, the sound collection
<信号処理部13(S13)>
信号処理部13は、抽出された収音条件が所定の条件に該当する場合に、対応する音響信号を信号処理する(S13)。具体的には信号処理部13は、S/N比や背景雑音信号の大きさが、収音条件抽出部11で抽出された収音条件に基づいて決定される音声認識サーバ装置において音声認識対象として想定していた特徴量の範囲に適合するように、対応する音響信号を信号処理する。例えばS/N比=1近傍、すなわち0dB近傍の収音条件は、音声信号の大きさと背景雑音信号の大きさが同等であり、そのような音響信号をそのまま音声認識に用いれば性能の低下を招きやすい。従って、S/N比=0dB近傍の収音条件を収音条件抽出部11で抽出した場合は、当該収音条件の音響信号に対して背景雑音信号を抑圧する信号処理を信号処理部13で適用する。あるいは例えばS/N比=100近傍、すなわち20dB近傍の収音条件を収音条件抽出部11で抽出した場合は、前述の0dB近傍の収音条件と同様に、S/N比の値に応じて適応的に背景雑音信号を抑圧する処理を行うとしても良いし、抑圧する処理を全く行わないとしても良い。その他の収音条件においても、信号処理部13において、収音条件抽出部11で抽出した結果に基づき、音響信号への信号処理を適応的に行う。
<Signal processing unit 13 (S13)>
The
以下に、信号処理部13の動作(S13)の例について述べる。音声認識では、多くの場合、前処理として信号処理により入力音声を補正する。音声認識において前処理して対処すべき音響特性として、例えば、加法性雑音と乗法性雑音がある。加法性雑音は、音声入力環境に遍在する雑音のように音声信号に対して加法的に観測される信号である。一方、乗法性雑音とはマイクの特性や空間伝達特性などの音響特性に起因する雑音(ひずみ)であり、時間波形では原音声波形に対する畳み込み演算として観測されるもので、スペクトル波形では乗算性のひずみとなるものである。加法性雑音に対処した音声認識処理の例としては、参考特許文献1の段落[0005]に開示されたスペクトルサブトラクション法に基づく雑音抑圧法、または同文献の段落[0007]に開示されたウィナー・フィルタ法(以下、WF法という)に基づく雑音抑圧法などのように、雑音の重畳した音声から雑音を抑圧して音声認識に適用する方法がある。
(参考特許文献1:特許第4464797号公報)
Hereinafter, an example of the operation (S13) of the
(Reference Patent Document 1: Japanese Patent No. 4464797)
加法性雑音に加えて乗法性雑音に対処した音声認識処理の例としては、参考特許文献1のように乗法性雑音の影響を除去した音声モデルに雑音モデルを重畳させた雑音重畳音声モデルを生成してから乗法性特徴量に基づいてモデルを更新する方法がある。あるいは参考特許文献2の発明のように、雑音モデルに対しても乗法性雑音特徴量に基づいて正規化した上で正規化雑音重畳音声モデルを生成する方法がある。
(参考特許文献2:特許第5200080号公報)
As an example of speech recognition processing that copes with multiplicative noise in addition to additive noise, a noise superimposed speech model is generated by superimposing a noise model on a speech model from which the influence of multiplicative noise has been removed as in
(Reference Patent Document 2: Japanese Patent No. 5200080)
信号処理部13が行う信号処理として典型的には雑音抑圧が考えられる。雑音抑圧以外の信号処理としては、例えばAGC(Automatic Gain Control)、CMN(Cepstrum Mean Normalization)、イコライザなどでもよい。
Noise suppression is typically considered as signal processing performed by the
<AGC>
Automatic Gain Control(AGC)は、入力音声信号の短時間平均パワーまたは短時間平均振幅をもとに入力信号レベルを検出し、入力信号レベルと最適レベル(目標値)との差分が少なくなるように音声入力段の利得(ゲイン)を調整する処理である。AGCはA/D変換後の音声波形が過少または過大になって音声特徴量が不明瞭になることを防ぐ効果がある。AGCについては、例えば参考特許文献3の段落[0001]に開示されている。
(参考特許文献3:特許第3588555号公報)
<AGC>
Automatic Gain Control (AGC) detects the input signal level based on the short-time average power or short-time average amplitude of the input audio signal so that the difference between the input signal level and the optimum level (target value) is reduced. This is a process for adjusting the gain of the audio input stage. AGC has an effect of preventing the voice feature amount from becoming unclear due to the voice waveform after A / D conversion being too small or excessive. AGC is disclosed in paragraph [0001] of Reference Patent Document 3, for example.
(Reference Patent Document 3: Japanese Patent No. 3588555)
<CMN>
Cepstrum Mean Normalization(CMN)とは、音声認識の特徴量であるケプストラムにおいて、入力音声信号の長時間ケプストラム平均を求め、各フレームの入力音声のケプストラムから長時間ケプストラム平均をさし引く処理である。CMNは、マイクロホンの特性、マイクロホンの位置、部屋の形状に代表される乗算性ひずみの影響を軽減するために用いられる。CMNについては、例えば参考特許文献1の段落[0010]に開示されている。
<CMN>
Cepstrum Mean Normalization (CMN) is a process of obtaining a long-term cepstrum average of an input speech signal in a cepstrum that is a feature amount of speech recognition, and subtracting the long-term cepstrum average from the cepstrum of the input speech of each frame. The CMN is used to reduce the influence of multiplicative distortion represented by the characteristics of the microphone, the position of the microphone, and the shape of the room. CMN is disclosed in paragraph [0010] of
なお、クライアント装置10の信号処理部13でCMNを実施する場合、クライアント装置10から音声認識サーバ装置へは、音声認識のための音響信号に由来する信号として、CMN適用後のMFCC(メル周波数ケプストラム)が送信されることとしておけば、音声認識サーバ装置で再度ケプストラム分析する処理を省くことができる。
When the CMN is performed by the
<イコライザ>
イコライザとは、入力音声信号のゲインを周波数帯域ごとに調整する処理である。例えば音声入力用のマイクロホンの音響特性が平坦でないことが予めわかっていれば、イコライザを経由することで、音響特性を改善したうえで収音することができる。イコライザについては、例えば参考特許文献4の段落[0010]、[0016]に開示されている。
(参考特許文献4:特許第2865268号公報)
<Equalizer>
The equalizer is a process for adjusting the gain of the input audio signal for each frequency band. For example, if it is known in advance that the acoustic characteristics of a microphone for voice input are not flat, sound can be collected after improving the acoustic characteristics via an equalizer. The equalizer is disclosed in, for example, paragraphs [0010] and [0016] of Reference Patent Document 4.
(Reference Patent Document 4: Japanese Patent No. 2865268)
次に、送信部14は、抽出された収音条件に対応する音声認識サーバ装置(ステップS12で選択された音声認識サーバ装置)に、音響信号または音響信号に由来する信号を送信する(S14)。このとき、送信部14は、ステップS13の信号処理がされていない場合と信号処理がされた場合とで送信先を異ならせて、信号処理がされていない音響信号、または信号処理がされた音響信号を送信するものとする。また、ステップS12で選択された音声認識サーバ装置とは関係なくステップS13の信号処理が実施されたか否かだけで、異なる音声認識サーバ装置のうちのいずれかの送信先を決定しても良い。なお、音響信号に由来する信号とは、音響信号の特徴量を表す信号、ステップS13における信号処理を施した音響信号などを指す。また送信部14は、音響信号または音響信号に由来する信号を送信する際に、収音条件(グループ)やそのしきい値、信号処理部13における信号処理の有無に関する情報を音声認識サーバ装置に送信しても良い。音声認識サーバ装置は収音条件(グループ)やそのしきい値、や信号処理の有無から、どのような収音条件または信号処理条件において当該音声認識サーバ装置が選択されたかを記録することが可能になる。
Next, the
音声認識サーバ装置21−1、…、21−n、…、21−Nの音響信号受信部21Aは、クライアント装置10から音響信号または音響信号に由来する信号を受信する(S21A)。音響信号または音響信号に由来する信号を受信した音声認識サーバ装置(例えば音声認識サーバ装置21−1)の音声認識部21Bは、音声認識処理を実行する(S21B)。
The acoustic
<音声認識処理(S21B)>
ステップS21Bの音声認識処理は、例えば以下のように実行される。音声認識部21Bは、一文章や一単語の発話を文字列に変換する。音声認識部21Bは、音声特徴量として音声のパワーやその変化量、MFCC(メル周波数ケプストラム、Mel-Frequency Cepstrum Coefficient)やその動的変化量を用いる。音声認識部21Bは、統計的な音響モデルや言語モデルを用いて単語列を探索する。
<Voice recognition processing (S21B)>
The voice recognition process in step S21B is executed as follows, for example. The
ステップS21Bの音声認識処理を実行後、認識結果送信部21Cは、音声認識結果をクライアント装置10に送信する(S21C)。クライアント装置10の受信部15は、音声認識結果を受信する(S15A)。クライアント装置10の呈示部16は、受信した音声認識結果を呈示する(S16)。
After executing the speech recognition process in step S21B, the recognition
以下、図5を参照して本実施例の音声認識システム1の情報更新動作について説明する。図5は、本実施例の音声認識システム1の情報更新動作を示すシーケンス図である。まず、全ての音声認識サーバ装置の利用率送信部21Dは、利用率に関する情報を管理部30に送信する(S21D)。ある音声認識サーバ装置の利用率は、例えばクライアント装置10が当該音声認識サーバ装置を送信先として利用した回数やデータ送信量などを、当該音声認識サーバ装置を利用した全てのクライアント装置10について累計し所定時間で除算した割合と定義される。ステップS21Dは、予め設定した時刻に定期的に実行されてもよいし、予め設定した所定時間経過ごとに実行されてもよい。利用率送信部21Dは、利用率そのものではなく利用率に関する情報を送ってもよい。利用率に関する情報とは、例えば各クライアント装置で入力された音響信号または音響信号に由来する信号のデータについての、単位時間あたりのデータ受信量(送信量)や、音声認識サーバ装置で認識処理した際のCPU時間などである。単位時間あたりのデータ受信量(送信量)やCPU時間は、単独では利用率そのものを表す情報ではないが、管理部30は他の音声認識サーバ装置からも同様の受信量(送信量)やCPU時間を取得し、管理部30がこれらの受信量(送信量)やCPU時間を集計することにより単位時間あたりの利用率を求めることができる。従って、単位時間あたりのデータ受信量(送信量)やCPU時間などは利用率に関する情報に分類される。管理部30の利用率受信部30Aは、音声認識サーバ装置群20から利用率に関する情報を受信する(S30A)。管理部30の設定情報更新部30Bは、利用率に関する情報から求めた利用率に基づいて特定される音声認識サーバ装置(ここでは21−nに代表させる)の設定に関する情報(設定情報)を更新する(30B)。更新前の設定情報は、管理部30の設定記憶部30Fに記憶されているものとし、設定情報更新部30Bは更新された設定情報を、設定記憶部30Fに記憶、または上書き記憶する。
Hereinafter, the information update operation of the
<設定>
ここで、設定とは各音声認識サーバ装置の設定記憶部21Gに記憶される情報であって、音声認識に利用する音響モデル、言語モデル、当該音響モデル、当該言語モデルを用いた認識動作に関する動作設定、音声認識に用いる他のパラメータ、その他音声認識に際して予め決めておく設定全般を指す。各設定は、ある収音条件に特化して高い認識性能を有するように調整されているものとし、各音声認識サーバ装置は互いに異なる設定を有しているか、あるいは数台で同じ設定を共有しているものとする。設定記憶部21Gには、複数の設定を記憶しておくこともできる。この場合、各音声認識サーバ装置は、設定記憶部21Gに記憶された設定のうちの一つをアクティブな設定として予め選択しているものとする。
<Setting>
Here, the setting is information stored in the setting
前述の設定情報更新部30Bは、利用率が低い音声認識サーバ装置向けの設定情報を、利用率が高い音声認識サーバ装置の設定と同じになるように更新してもよい。これにより、負荷が集中している音声認識サーバ装置と設定を共有する音声認識サーバ装置が増えることとなるため、負荷の集中が緩和される。また、前述の設定情報更新部30Bは、利用率が高い音声認識サーバ装置向けの設定情報を、利用率が低い音声認識サーバ装置の設定と同じになるように更新してもよい。これにより、該当する音声認識サーバ装置に対するトラフィックを一時的に減少させることができる。ただし、この場合は負荷が集中する要因が取り除かれたわけではないため、他の音声認識サーバ装置の設定情報を更新することにより、負荷の集中を緩和する措置が別途必要となる。
The setting
次に、管理部30の設定情報送信部30Cは、利用率が高い、または利用率が低い音声認識サーバ装置(一つ以上、複数でも可)に対して前述の設定情報を送信する(S30C)。例えば、ステップS30Bにおいて利用率が低い音声認識サーバ装置向けに設定情報を更新した場合、設定情報送信部30Cは、当該利用率が低い音声認識サーバ装置に対して、当該設定情報を送信する(S30C)。反対に、ステップS30Bにおいて利用率が高い音声認識サーバ装置向けに設定情報を更新した場合、設定情報送信部30Cは、当該利用率が高い音声認識サーバ装置に対して、当該設定情報を送信する(S30C)。
Next, the setting
設定情報送信部30Cは、最高の利用率、最低の利用率に該当する音声認識サーバ装置の何れか(双方でも良い)に対して前述の設定情報を送信してもよい(S30C)。典型的には設定情報送信部30Cは、ステップS30Bにおいて利用率が最低となる音声認識サーバ装置に対して、利用率が最高となる音声認識サーバ装置と設定が共有されるように更新した設定情報を送信することが考えられる。あるいは設定情報送信部30Cは、ステップS30Bにおいて利用率が最高となり、負荷が集中している音声認識サーバ装置に対して、利用率が最低、あるいは利用率が平均となる音声認識サーバ装置と設定が共有されるように更新した設定情報を送信することが考えられる。この場合は当該音声認識サーバ装置に対する一時的なトラフィック増大の回避が目的である。
The setting
音声認識サーバ装置21−nの設定情報受信部21Eは、管理部30から設定情報を受信する(S21E)。前述したように、音声認識サーバ装置21−nの設定記憶部21Gに、音声認識に関する設定が予め複数記憶されている場合、設定更新部21Fは、受信した設定情報に基づいて記憶された複数の設定のうちの一つを(アクティブな設定として)選択することで設定を更新する(S21F)。
The setting
次に、管理部30の送信先情報更新部30Dは、設定情報送信部30Cが設定情報を送信した場合に、これに併せて送信先情報を更新する(S30D)。前述したように、送信先情報とは、収音条件と送信先となる音声認識サーバ装置との関係に関する情報である。送信先情報とは、収音条件と送信先音声認識サーバ装置とを結びつける情報といってもよい。更新前の送信先情報は、管理部30の送信先情報記憶部30Gに記憶されているものとし、送信先情報更新部30Dは更新された送信先情報を、送信先情報記憶部30Gに記憶、または上書き記憶する。管理部30の送信先情報送信部30Eは、更新された送信先情報をクライアント装置10に送信する(S30E)。
Next, when the setting
クライアント装置10の受信部15は、管理部30から送信先情報を受信する(S15B)。クライアント装置10において、更新前の送信先情報は、送信先記憶部121に記憶されている。送信先変更部17は、管理部30から受信した送信先情報に基づいて記憶された送信先情報を変更する(S17)。選択部12は、入力された音響信号の収音条件とステップS17において変更された送信先情報に基づいて、対応する音響信号の送信先となる音声認識サーバ装置を選択する(S12)。
The receiving
<本システムの適用例>
以下、本システムの適用例について説明する。まず事前学習により収音条件を抽出するためのしきい値を決定しておく。同様に、音声認識サーバ装置群20の音響モデルのパラメータを決定しておく。具体的には、サーバの管理者が予め音響モデルを含む認識動作設定を複数通り学習しておき、学習結果を音声認識サーバ装置群20に保存する。この例では、音声認識サーバ装置が10台用意されているものとし、10台の音声認識サーバ装置のうち2台ずつに収音条件に対応した5種類の認識動作設定(設定A、B、C、D、Eと呼称する)を保存しておくものとする。設定Aが保存された2台の音声認識サーバ装置を音声認識サーバ装置21−1、21−2と呼称する。同様に、各2台ずつ設定B、C、D、Eを保持する音声認識サーバ装置を、音声認識サーバ装置21−3と21−4、21−5と21−6、21−7と21−8、21−9と21−10と呼称する。これらの音声認識サーバ装置をまとめて呼称する際には、前述と同様に音声認識サーバ装置群20と呼ぶ。
<Application example of this system>
Hereinafter, application examples of this system will be described. First, a threshold for extracting a sound collection condition is determined by prior learning. Similarly, the parameters of the acoustic model of the speech recognition
音声認識サーバ装置群20は特定の音声レベル、雑音レベル、雑音の定常性の音声入力に対して特化した動作設定を保持している。例えば、音声認識サーバ装置21−1、21−2は雑音が低いレベルで混入した音声を用いて作成した音響モデルAと音響モデルAに適した動作設定(設定A)を保持する。音声認識サーバ装置21−3、21−4は雑音が中程度のレベルで混入した音声を用いて作成した音響モデルBと音響モデルBに適した動作設定(設定B)を保持する。音声認識サーバ装置21−5、21−6は非定常雑音が混入した音声を用いて作成した音響モデルCと音響モデルCに適した動作設定(設定C)を保持する。音声認識サーバ装置21−7、21−8は雑音が高いレベルで混入した音声を用いて作成した音響モデルDと音響モデルDに適した動作設定を保持する(設定D)。音声認識サーバ装置21−9、21−10は信号レベルが低い音声を用いて作成した音響モデルEと音響モデルEに適した動作設定(設定E)を保持する。音声認識サーバ装置と、これらに保持される設定の関係を下表に示す。
The voice recognition
クライアント装置10の収音条件抽出部11は、入力された音響信号から計算した音声レベル、雑音レベル、雑音の定常性などから、音響信号の収音条件を抽出する(S11)。選択部12は、抽出された収音条件に基づいて、最適な音声認識動作設定を保持する音声認識サーバ装置を選択する(S12)。信号処理部13は、抽出された収音条件に従い、音響信号に混入した雑音成分を抑圧する(S13)。送信部14は、雑音が抑圧された音響信号を、ステップS12で選択された音声認識サーバ装置に送信する(S14)。
The sound collection
音声認識サーバ装置群20の音響信号受信部21Aは、クライアント装置10から音響信号を受信する(S21A)と例えば下表のような通信ログを自装置の所定の記憶領域に保存する。
When the acoustic
音声認識部21Bは、設定記憶部21Gに保持された何れかのアクティブな設定(設定A、B、C、D、Eの何れか)に従って、音声認識処理を実行する(S21B)。認識結果送信部21Cは、音声認識結果をクライアント装置10に送信する(S21C)。
The
音声認識サーバ装置群20の利用率送信部21Dは、例えば1週間に1回、通信ログを管理部30に送信する。管理部30は、音声認識サーバ装置群20から受信した音響信号のデータサイズを総計する。例えば、受信したデータサイズが音声認識サーバ装置群20全体で10GB、音声認識サーバ装置21−1、21−2で5GB、音声認識サーバ装置21−3、21−4で2GB、音声認識サーバ装置21−5、21−6で1.5GB、音声認識サーバ装置21−7、21−8で1GB、音声認識サーバ装置21−9、21−10で0.5GBであったとする。図6は、本適用例における設定更新前の利用実績の割合(利用率)を示す図である。
The utilization
設定更新後に設定Aを保持する音声認識サーバ装置の台数NAは、例えば式(1)で計算することができる。
NA=└Nall・DA/Dall+0.5┘ (1)
Nallは音声認識サーバ装置の総数、Dallは全音声認識サーバ装置で受信したデータサイズの合計、DAは設定Aを保持する音声認識サーバ装置21−1、21−2で受信したデータサイズの合計である。└ ┘は床関数であり、└x+0.5┘はxの四捨五入を意味する。設定更新後に設定B、C、Dを保持する音声認識サーバ装置の台数NB、NC、NDは式(1)の添え字AをB、C、Dに書き換えて得られる。設定更新後に設定Eを保持する音声認識サーバ装置の台数NEは、例えば式(2)で計算することができる。
NE=Nall-(NA+NB+NC+ND) (2)
The number N A of speech recognition server apparatuses that retain the setting A after the setting update can be calculated by, for example, Expression (1).
N A = └N all・ D A / D all + 0.5┘ (1)
N all is the total number of voice recognition server devices, D all is the total data size received by all the voice recognition server devices, D A is the data size received by the voice recognition server devices 21-1 and 21-2 holding the setting A Is the sum of └ ┘ is a floor function, and └x + 0.5┘ means rounding x. The numbers N B , N C , and N D of the speech recognition server apparatuses that retain the settings B, C, and D after the setting update are obtained by rewriting the subscript A in the formula (1) to B, C, and D. The number N E of speech recognition server apparatuses that retain the setting E after the setting update can be calculated by, for example, Expression (2).
N E = N all- (N A + N B + N C + N D ) (2)
図6の例ではNA=5、NB=2、NC=2、ND=1、NE=0となり、設定更新後の音声認識サーバ装置の利用率は図7のように表される。管理部30の設定情報更新部30Bは、利用率が低い音声認識サーバ装置21−8、21−9、21−10の設定情報を、利用率が高い音声認識サーバ装置21−1、21−2の設定(設定A)と同じになるように更新する(S30B)。管理部30の設定情報送信部30Cは、利用率が低い音声認識サーバ装置21−8、21−9、21−10に対して前述の設定情報を送信する(S30C)。
In the example of FIG. 6, N A = 5, N B = 2, N C = 2, N D = 1 and N E = 0, and the usage rate of the voice recognition server device after the setting update is expressed as shown in FIG. The The setting
音声認識サーバ装置21−8、21−9、21−10の設定情報受信部21Eは、管理部30から設定情報を受信する(S21E)。前述したように、音声認識サーバ装置21−8、21−9、21−10の設定記憶部21Gに、音声認識に関する設定が予め複数記憶されている場合、設定更新部21Fは、受信した設定情報に基づいて記憶された複数の設定のうちの一つ(この例では設定A)をアクティブな設定として選択することで設定を更新する(S21F)。
The setting
管理部30の送信先情報送信部30Eは、上述の設定更新に伴って更新された送信先情報をクライアント装置10に送信する(S30E)。上述の適用例のように、同一の設定の音声認識サーバ装置が2台以上ある場合、クライアント装置10の端末IDによって送信先となる同一の設定を持つ音声認識サーバ装置のうちいずれかのIPアドレスが送信先になるよう変更し、同じクライアント装置10からは同一の音声認識サーバ装置にデータを送信させてもよい。また上述の例における、設定Eのように、更新後に当該設定を保持する音声認識サーバの装置が0台になる場合があるため、あらかじめ代替として似た設定情報を指定しておく。例えば、設定Eの音声認識サーバ装置の代替として設定Dの音声認識サーバ装置をあらかじめ指定しておき、設定Dの音声認識サーバ装置のIPアドレスを対応付けておく。
The transmission destination
本実施例の音声認識システム1によれば、管理部30が音声認識サーバ装置の利用率を監視し、当該利用率に応じて音声認識サーバ装置の設定を変更することによって、特定の音声認識サーバ装置に負荷が集中しないように運用することができ、音声認識システム1全体の利用性能(パフォーマンス)を高めることができる。
According to the
以下、クライアント装置に設定された収音条件抽出のためのしきい値を変更することによって、実施例1と同様の効果を達成した実施例2の音声認識システムについて説明する。まず図8、図9、図10を参照して本実施例の音声認識システムの構成について説明する。図8は、本実施例の音声認識システム4の構成を示すブロック図である。図9は、本実施例の音声認識サーバ装置51−nの構成を示すブロック図である。図10は、本実施例の管理部60の構成を示すブロック図である。
Hereinafter, the speech recognition system according to the second embodiment that achieves the same effect as that of the first embodiment by changing the threshold value for extracting the sound pickup conditions set in the client device will be described. First, the configuration of the speech recognition system according to the present embodiment will be described with reference to FIGS. FIG. 8 is a block diagram showing the configuration of the voice recognition system 4 of the present embodiment. FIG. 9 is a block diagram illustrating a configuration of the voice recognition server device 51-n according to the present embodiment. FIG. 10 is a block diagram illustrating a configuration of the
図8に示すように、本実施例の音声認識システム4は、クライアント装置40と、複数の音声認識サーバ装置51−1、…、51−n、…、51−Nと、管理部60を含む。図8においてクライアント装置40は1台のみ図示したが、実施例1と同様クライアント装置40は複数台存在するものとする。音声認識サーバ装置51−1、…、51−n、…、51−Nをまとめて呼称する際には、音声認識サーバ装置群50と呼ぶ。クライアント装置40と音声認識サーバ装置群50は、実施例1と同様、ネットワークを介し、無線または有線で通信可能に接続されている。管理部60は、単独のハードウェア(装置)として構成されてもよく、これを管理装置60と呼んでもよい。この場合、クライアント装置40と音声認識サーバ装置群50と管理部60(管理装置60)はネットワークを介して、無線または有線で通信可能に接続される。実施例1同様、管理部60は、クライアント装置40内の構成要件であってもよいし、音声認識サーバ装置群50内の何れかの音声認識サーバ装置内の構成要件であってもよい。
As shown in FIG. 8, the speech recognition system 4 of this embodiment includes a
図8に示すように、クライアント装置40は、収音条件抽出部11と、しきい値記憶部111と、選択部12と、送信先記憶部121と、信号処理部13と、送信部14と、受信部15と、呈示部16と、しきい値変更部47を含み、送信先変更部17がしきい値変更部47に変更されたこと以外は、実施例1のクライアント装置10と同じである。図9に示すように、音声認識サーバ装置51−n(代表させた)は、音響信号受信部21Aと、音声認識部21Bと、認識結果送信部21Cと、利用率送信部21Dと、設定記憶部21Gを含み、設定情報受信部21Eと、設定更新部21Fが存在しないこと以外は、実施例1の音声認識サーバ装置21−nと同じである。図10に示すように、管理部60(管理装置60)は、利用率受信部30Aと、しきい値更新部60Bと、しきい値送信部60Cと、しきい値記憶部60Dを含む。本実施例の利用率受信部30Aは実施例1の利用率受信部30Aと同じである。なお、本実施例の音声認識システム4の音声認識動作(S11〜S14、S21A〜S21C、S15A、S16)は実施例1の音声認識動作と全く同じであるから説明を省略する。
As illustrated in FIG. 8, the
以下、図11を参照して本実施例の音声認識システム4の情報更新動作について説明する。図11は、本実施例の音声認識システム4の情報更新動作を示すシーケンス図である。ステップS21D、S30Aは実施例1と同様に実行される。次に、管理部60のしきい値更新部60Bは、前述の利用率に基づいて収音条件のしきい値を更新する(S60B)。このしきい値は、収音条件の抽出に用いるしきい値であって、例えば前述のθ1、θ2などがこれに該当する。しきい値更新部60Bは実施例1と同様の方針に従って、しきい値を更新する。すなわち、利用率が低い音声認識サーバ装置の利用率が高くなるように前述のしきい値を調整することで、負荷集中の緩和を実現する。あるいは、利用率が高い音声認識サーバ装置の利用率が低くなるように前述のしきい値を調整することで、該当する音声認識サーバ装置に対するトラフィックを一時的に減少させる。更新前のしきい値は、管理部60のしきい値記憶部60Dに記憶されているものとし、しきい値更新部60Bは更新されたしきい値を、しきい値記憶部60Dに記憶、または上書き記憶する。
Hereinafter, the information update operation of the speech recognition system 4 of the present embodiment will be described with reference to FIG. FIG. 11 is a sequence diagram showing an information update operation of the voice recognition system 4 of the present embodiment. Steps S21D and S30A are executed in the same manner as in the first embodiment. Next, the
次に、管理部60のしきい値送信部60Cは、ステップS60Bで更新されたしきい値をクライアント装置40に送信する(S60C)。クライアント装置40の受信部15は、管理部60からしきい値を受信する(S15C)。クライアント装置40のしきい値変更部47は、受信したしきい値に基づいて、しきい値記憶部111に記憶されたしきい値を変更する(S47)。収音条件抽出部11は、変更されたしきい値を用いて、入力された音響信号の収音条件を抽出する(S11)。
Next, the
本実施例の音声認識システム4によれば、クライアント装置40に設定された収音条件抽出のためのしきい値を変更することによって、特定の音声認識サーバ装置に負荷が集中しないように運用することができ、音声認識システム4全体の利用性能(パフォーマンス)を高めることができる。
According to the voice recognition system 4 of the present embodiment, the threshold for extracting the sound pickup conditions set in the
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (8)
前記クライアント装置は、
入力された音響信号または前記音響信号に由来する信号を、その収音条件に基づいて選択された音声認識サーバ装置に送信する送信部を含み、
前記音声認識サーバ装置のそれぞれは、
音声認識に関する設定を予め記憶する設定記憶部と、
前記クライアント装置が自装置を送信先として利用した割合である利用率に関する情報を前記管理部に送信する利用率送信部を含み、
前記管理部は、
前記収音条件の抽出に用いるしきい値であって、前記音声認識サーバ装置間の前記利用率の偏りが少なくなるように更新された前記しきい値を前記クライアント装置に対して送信する動作を第1の動作とし、前記利用率の偏りが少なくなるように更新された前記設定に関する情報を、他の前記音声認識サーバ装置と比較して前記利用率が偏っている前記音声認識サーバ装置に対して送信し、更新された前記設定に関する情報に対応するように更新された送信先情報であって、前記収音条件と送信先となる前記音声認識サーバ装置との関係に関する情報である前記送信先情報を、前記クライアント装置に送信する動作を第2の動作とした場合に、前記第1の動作と前記第2の動作のうち少なくとも何れか一つの動作を実行する
音声認識システム。 A voice recognition system including a client device, a plurality of voice recognition server devices, and a management unit,
The client device is
A transmission unit that transmits an input acoustic signal or a signal derived from the acoustic signal to a voice recognition server device selected based on the sound collection condition;
Each of the voice recognition server devices
A setting storage unit that stores in advance settings relating to voice recognition;
A utilization rate transmitting unit that transmits information on the utilization rate, which is a rate at which the client device uses the device as a transmission destination, to the management unit;
The management unit
An operation of transmitting to the client device the threshold value used for extraction of the sound collection condition, the threshold value updated so as to reduce the bias of the utilization rate between the voice recognition server devices. For the voice recognition server device in which the usage rate is biased in comparison with other voice recognition server devices, the information regarding the setting updated so that the bias in the usage rate is reduced as a first operation The transmission destination information updated to correspond to the updated information relating to the setting, the transmission destination information being information relating to the relationship between the sound collection condition and the voice recognition server device that is the transmission destination. information, wherein when the operation to be transmitted to the client device and a second operation, the speech recognition system to perform at least one of operation of said second operation and the first operation
前記設定記憶部には、音声認識に関する設定が予め複数記憶され、
前記音声認識サーバ装置のそれぞれは、
前記利用率に基づいて更新された設定に関する情報である設定情報に基づいて前記記憶された複数の設定のうちの一つを選択して前記設定を更新する設定更新部を含み、
前記管理部は、
他の音声認識サーバ装置の利用率と比較して高い利用率、または他の音声認識サーバ装置の利用率と比較して低い利用率に該当する一つ以上の音声認識サーバ装置に対して前記設定情報を送信する設定情報送信部を含む
音声認識システム。 The speech recognition system according to claim 1,
In the setting storage unit, a plurality of settings relating to voice recognition are stored in advance,
Each of the voice recognition server devices
A setting update unit that selects one of the plurality of stored settings based on setting information that is information related to the setting updated based on the utilization rate and updates the setting;
The management unit
The setting for one or more voice recognition server devices corresponding to a high usage rate compared to the usage rate of other voice recognition server devices or a low usage rate compared to the usage rate of other voice recognition server devices. A speech recognition system including a setting information transmission unit for transmitting information.
前記設定記憶部には、音声認識に関する設定が予め複数記憶され、
前記音声認識サーバ装置のそれぞれは、
前記利用率に基づいて更新された設定に関する情報である設定情報に基づいて前記記憶された複数の設定のうちの一つを選択して前記設定を更新する設定更新部を含み、
前記管理部は、
他の音声認識サーバ装置の利用率と比較して最高の利用率、または他の音声認識サーバ装置の利用率と比較して最低の利用率に該当する一つ以上の音声認識サーバ装置に対して前記設定情報を送信する設定情報送信部を含む
音声認識システム。 The speech recognition system according to claim 1,
In the setting storage unit, a plurality of settings relating to voice recognition are stored in advance,
Each of the voice recognition server devices
A setting update unit that selects one of the plurality of stored settings based on setting information that is information related to the setting updated based on the utilization rate and updates the setting;
The management unit
For one or more speech recognition server devices corresponding to the highest utilization rate compared to the utilization rate of other speech recognition server devices or the lowest utilization rate compared to the utilization rate of other speech recognition server devices A speech recognition system including a setting information transmission unit for transmitting the setting information.
前記管理部は、
前記設定情報送信部が前記設定情報を送信した場合に、収音条件と送信先となる音声認識サーバ装置との関係に関する情報である送信先情報を更新する送信先情報更新部と、
前記更新された送信先情報を前記クライアント装置に送信する送信先情報送信部を含み、
前記クライアント装置は、
前記送信先情報を記憶する送信先記憶部と、
前記管理部から受信した送信先情報に基づいて前記記憶された送信先情報を変更する送信先変更部と、
前記入力された音響信号の収音条件と前記変更された送信先情報に基づいて、対応する音響信号の送信先となる音声認識サーバ装置を選択する選択部を含む
音声認識システム。 The speech recognition system according to claim 2 or 3 ,
The management unit
A transmission destination information update unit that updates transmission destination information that is information relating to a relationship between a sound collection condition and a voice recognition server device that is a transmission destination when the setting information transmission unit transmits the setting information;
A transmission destination information transmission unit that transmits the updated transmission destination information to the client device;
The client device is
A destination storage unit for storing the destination information;
A transmission destination changing unit that changes the stored transmission destination information based on the transmission destination information received from the management unit;
A speech recognition system including a selection unit that selects a speech recognition server device that is a transmission destination of a corresponding acoustic signal based on the input sound collection condition of the input acoustic signal and the changed transmission destination information.
前記クライアント装置は、
入力された音響信号の収音条件を抽出する収音条件抽出部と、
前記利用率に基づいて更新された収音条件のしきい値に基づいて、前記収音条件の抽出に用いるしきい値を変更するしきい値変更部を含む
音声認識システム。 The speech recognition system according to claim 1,
The client device is
A sound collection condition extraction unit that extracts sound collection conditions of the input acoustic signal;
A speech recognition system including a threshold value changing unit that changes a threshold value used for extraction of the sound pickup condition based on the threshold value of the sound pickup condition updated based on the utilization rate.
前記クライアント装置は、
入力された音響信号または前記音響信号に由来する信号を、その収音条件に基づいて選択された音声認識サーバ装置に送信するステップを実行し、
前記音声認識サーバ装置のそれぞれは、
音声認識に関する設定を予め記憶するステップと、
前記クライアント装置が自装置を送信先として利用した割合である利用率に関する情報を前記管理部に送信するステップを実行し、
前記管理部は、
前記収音条件の抽出に用いるしきい値であって、前記音声認識サーバ装置間の前記利用率の偏りが少なくなるように更新された前記しきい値を前記クライアント装置に対して送信する動作を第1のステップとし、前記利用率の偏りが少なくなるように更新された前記設定に関する情報を、他の前記音声認識サーバ装置と比較して前記利用率が偏っている前記音声認識サーバ装置に対して送信し、更新された前記設定に関する情報に対応するように更新された送信先情報であって、前記収音条件と送信先となる前記音声認識サーバ装置との関係に関する情報である前記送信先情報を、前記クライアント装置に送信する動作を第2のステップとした場合に、前記第1のステップと前記第2のステップのうち少なくとも何れか一つのステップを実行する
音声認識方法。 A voice recognition method executed by a client device, a plurality of voice recognition server devices, and a management unit,
The client device is
Executing the step of transmitting an input acoustic signal or a signal derived from the acoustic signal to a voice recognition server device selected based on the sound collection condition;
Each of the voice recognition server devices
Storing in advance settings relating to voice recognition;
Executing the step of transmitting information relating to a utilization rate, which is a rate at which the client device has used its own device as a transmission destination, to the management unit;
The management unit
An operation of transmitting to the client device the threshold value used for extraction of the sound collection condition, the threshold value updated so as to reduce the bias of the utilization rate between the voice recognition server devices. As a first step, the information regarding the setting updated so that the bias of the utilization rate is reduced is compared with the other voice recognition server devices for the voice recognition server device in which the utilization rate is biased. The transmission destination information updated to correspond to the updated information relating to the setting, the transmission destination information being information relating to the relationship between the sound collection condition and the voice recognition server device that is the transmission destination. information, if the operation to be transmitted to the client apparatus as a second step, performing at least one of steps of said first step and said second step Speech recognition method that.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015061831A JP6320962B2 (en) | 2015-03-25 | 2015-03-25 | Speech recognition system, speech recognition method, program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015061831A JP6320962B2 (en) | 2015-03-25 | 2015-03-25 | Speech recognition system, speech recognition method, program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016180914A JP2016180914A (en) | 2016-10-13 |
| JP6320962B2 true JP6320962B2 (en) | 2018-05-09 |
Family
ID=57131793
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015061831A Active JP6320962B2 (en) | 2015-03-25 | 2015-03-25 | Speech recognition system, speech recognition method, program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6320962B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102507249B1 (en) * | 2018-03-08 | 2023-03-07 | 삼성전자주식회사 | Method for controlling performance mode and electronic device supporting the same |
| JP7503939B2 (en) * | 2020-06-11 | 2024-06-21 | Tis株式会社 | Information processing device, program, and information processing method |
| KR20220037846A (en) | 2020-09-18 | 2022-03-25 | 삼성전자주식회사 | Electronic device for identifying electronic device to perform speech recognition and method for thereof |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003140691A (en) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | Voice recognition device |
| DE10158583A1 (en) * | 2001-11-29 | 2003-06-12 | Philips Intellectual Property | Procedure for operating a barge-in dialog system |
| WO2011148594A1 (en) * | 2010-05-26 | 2011-12-01 | 日本電気株式会社 | Voice recognition system, voice acquisition terminal, voice recognition distribution method and voice recognition program |
-
2015
- 2015-03-25 JP JP2015061831A patent/JP6320962B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016180914A (en) | 2016-10-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6889698B2 (en) | Methods and devices for amplifying audio | |
| JP6553111B2 (en) | Speech recognition apparatus, speech recognition method and speech recognition program | |
| WO2022012195A1 (en) | Audio signal processing method and related apparatus | |
| US6990446B1 (en) | Method and apparatus using spectral addition for speaker recognition | |
| RU2407074C2 (en) | Speech enhancement with multiple sensors using preceding clear speech | |
| CN110797031A (en) | Voice change detection method, system, mobile terminal and storage medium | |
| CN112151055B (en) | Audio processing method and device | |
| JP6320963B2 (en) | Voice recognition system, client device, voice recognition method, program | |
| US9671999B2 (en) | Methods and apparatus for improving understandability of audio corresponding to dictation | |
| CN109389988B (en) | Sound effect adjustment control method and device, storage medium and electronic device | |
| JP6320962B2 (en) | Speech recognition system, speech recognition method, program | |
| CN112233693B (en) | Sound quality evaluation method, device and equipment | |
| JP6389787B2 (en) | Speech recognition system, speech recognition method, program | |
| JP2016090799A (en) | Noise suppression device, method and program thereof | |
| JP2013250548A (en) | Processing device, processing method, program, and processing system | |
| JP6273227B2 (en) | Speech recognition system, speech recognition method, program | |
| CN113593604B (en) | Method, device and storage medium for detecting audio quality | |
| US20230033305A1 (en) | Methods and systems for audio sample quality control | |
| KR102171658B1 (en) | Crowd transcription apparatus, and control method thereof | |
| CN108364654B (en) | Voice processing method, medium, device and computing equipment | |
| US10600432B1 (en) | Methods for voice enhancement | |
| CN114743571A (en) | Audio processing method and device, storage medium and electronic equipment | |
| JP6106618B2 (en) | Speech section detection device, speech recognition device, method thereof, and program | |
| CN111370017B (en) | Voice enhancement method, device and system | |
| JP6693340B2 (en) | Audio processing program, audio processing device, and audio processing method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161019 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170831 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171030 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180404 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6320962 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |