JP4838282B2 - Hands-free call device and hands-free call method - Google Patents
Hands-free call device and hands-free call method Download PDFInfo
- Publication number
- JP4838282B2 JP4838282B2 JP2008115651A JP2008115651A JP4838282B2 JP 4838282 B2 JP4838282 B2 JP 4838282B2 JP 2008115651 A JP2008115651 A JP 2008115651A JP 2008115651 A JP2008115651 A JP 2008115651A JP 4838282 B2 JP4838282 B2 JP 4838282B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- signal
- sound
- party
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephone Function (AREA)
Description
本発明は、通話者が手に保持しなくても通話相手と通話可能なハンズフリー通話装置及びハンズフリー通話方法の技術に関する。 The present invention relates to a technology of a hands-free call device and a hands-free call method capable of making a call with a call partner even if the caller does not hold it in his hand.
テレビ電話を行う通信装置において、送受話器としてのハンドセットを使用せず、スピーカー及びマイクロホンを組み合わせたスピーカーホンによって通信を行うハンズフリー音声通話が見直されている。旧来は、例えばNTT(株)が開発したテレビ電話機「PICSEND−R」(図3参照)のように、テレビ画面を見ながら備え付けのハンドセットで通話するという通話形態が主流であった。しかしながら現在では、同NTTグループが開発した「フレッツホンVP1000」(図4参照)に見られるように、スピーカー及びマイクロホンがテレビ画面と一体的に形成され、ハンドセットを手に保持しなくてもハンズフリーで通話可能なテレビ電話が出現している。ハンドセットが不要になることで、通信装置自体の外観が従来よりも整えられ、ハンドセットの保持から通話者を解放し、自由な通話環境を実現している。 2. Description of the Related Art Hands-free voice communication in which communication is performed using a speakerphone that combines a speaker and a microphone without using a handset as a handset in a communication device that performs a videophone call has been reviewed. In the past, for example, a video telephone system called “PICSEND-R” (see FIG. 3) developed by NTT Corporation has been mainly used to make a call using a built-in handset while watching a TV screen. However, as seen in the “Flet's Phone VP1000” developed by the NTT Group (see FIG. 4), the speaker and microphone are formed integrally with the TV screen, so hands-free without holding the handset in hand. Videophones that can be used to make calls are emerging. By eliminating the need for the handset, the appearance of the communication device itself is better than before, releasing the caller from holding the handset and realizing a free call environment.
このようなハンズフリー通話が可能な通話装置は、スピーカーから通話相手の音声を再生すると共にマイクロホンが通話者の肉声を拾う機能を具備するものであるが、このスピーカーから放出された通話相手の音声がマイクロホンを通じて同通話相手に送り返されるため、遅延した自己の声を同通話相手に与えてしまう場合がある。また、通話相手及び通話者が共にハンズフリー通話を利用している場合には音響結合という現象が生じ、極端な場合にはハウリング(発振騒音)が発生することになる。このようなフィードバック現象を抑止するために、一般的には、マイクとスピーカーとの間にエコーキャンセラEC又は音声スイッチVOXと称される処理回路が組み込まれ、スピーカーから放出される音声が通話相手に戻ることを防止し、音響結合を遮断するようになっている。 Such a call device capable of hands-free calling has a function of reproducing the voice of the other party from the speaker and the microphone picking up the voice of the other party, but the voice of the other party released from this speaker. Is sent back to the other party through the microphone, and there is a case where a delayed own voice is given to the other party. In addition, when both the call partner and the caller use hands-free calling, a phenomenon called acoustic coupling occurs, and in an extreme case, howling (oscillation noise) occurs. In order to suppress such a feedback phenomenon, generally, a processing circuit called an echo canceler EC or a voice switch VOX is incorporated between a microphone and a speaker, and the voice emitted from the speaker is transmitted to the other party. It is designed to prevent return and to block acoustic coupling.
ところで、ハンズフリー通話に関しては、上述した利便性もある一方で普及を阻害する要因がある。具体的には、通話音声の漏洩に起因する第三者による盗聴やプライバシー流出の可能性である。すなわち、通話者の肉声とスピーカーから放出される通話相手の音声との双方の対話を一度に受聴できることから、第三者が同じ室内に居る場合や室内の音を収録されてしまった場合には、通話内容のプライバシーを守ることが非常に困難となる。 By the way, regarding the hands-free call, there is a factor that hinders the spread while having the above-described convenience. Specifically, there is a possibility of eavesdropping by a third party or leakage of privacy due to leakage of call voice. In other words, since the conversation between the caller's voice and the other party's voice emitted from the speaker can be heard at the same time, when a third party is in the same room or the sound in the room is recorded It is very difficult to protect the privacy of the content of calls.
そこで、このような問題を極端に防止する一方法として、通話音声が他人に聞き取られないようにマスキングする妨害音を出すことが考えられる。欧州のオフィスではオフィス用電話機は個人に属するという考え方もあり、ハンズフリー通話利用者の中には、ラジオやステレオなどのスピーカーから音楽や周囲騒音を流しながら通話する人もいる。しかし、このような方法は盗聴対策として一定の効果が期待できるものの、ラジオやステレオはハンズフリー通話装置と独立に動作するものであり、音源としてみた場合には通話者の肉声と同等である。すなわち、前述のエコーキャンセラECや音声スイッチVOXによる制約を受けないため、通話相手に対して音楽や周囲騒音がそのまま伝わり、明瞭な音声通話が困難となる。また、それら音楽や周囲騒音の音圧レベルが大きければ、通話者の周囲にいる善意の第三者に対して迷惑な妨害音を与えることになる。 Therefore, as one method for extremely preventing such a problem, it is conceivable to generate an interfering sound that masks the call voice so that it cannot be heard by others. In European offices, there is the idea that office telephones belong to individuals, and some hands-free users use telephones while listening to music and ambient noise from speakers such as radio and stereo. However, although such a method can be expected to have a certain effect as a countermeasure against eavesdropping, the radio and stereo operate independently of the hands-free call device, and are equivalent to the caller's real voice when viewed as a sound source. That is, since there is no restriction by the above-described echo canceler EC or voice switch VOX, music and ambient noise are transmitted as they are to the other party, making clear voice call difficult. Further, if the sound pressure level of the music or ambient noise is high, annoying disturbing sound is given to a bona fide third party around the caller.
このように、音楽や周囲騒音が通話相手に伝わることを防止すると共に妨害音としての効果を得るためには、妨害音自体をハンズフリー通話装置で生成し、打ち消してしまう方法が考えられる。このような方法を携帯電話の筐体やハンドセットで実現しようとする技術が特許文献1に開示されている。
As described above, in order to prevent the music and ambient noise from being transmitted to the calling party and to obtain the effect as the disturbing sound, a method of generating and canceling the disturbing sound itself with the hands-free call device is conceivable. A technique for realizing such a method with a casing or handset of a mobile phone is disclosed in
特許文献1の図1には、ハンドセットの送話マイクロホンの近傍に妨害音源を置き、通話者の肉声と妨害音とをマイクロホンで収音した後で、エコーキャンセラと同様の機能を持つ適応的ノイズキャンセラANCによって妨害音を相殺し、通話者の肉声のみを出力する技術が記載されている。しかしながら、ハンドセットの筐体を媒介として通話者自身の耳に回りこむ妨害音について考慮されていないため、通話相手との通話が非常に困難になる。
FIG. 1 of
また、同特許文献の図5には、上記と同様の技術をハンズフリー通話装置で実現する技術が記載されている。しかしながら、受話用のスピーカーと妨害音生成用のスピーカーとが夫々分離して配置されているため、スピーカーの配置によっては装置の筐体が大きくなる。 FIG. 5 of the patent document describes a technique for realizing the same technique as described above with a hands-free call device. However, since the receiving speaker and the interfering sound generating speaker are separately arranged, the housing of the apparatus becomes large depending on the arrangement of the speakers.
更に、同特許文献においては、妨害音の音圧レベルについて配慮されていないため、周囲に過大な騒音を撒き散らす可能性が高くなり、現実的な使用を配慮したものとは言い難い。 Furthermore, in this patent document, since the sound pressure level of the disturbing sound is not considered, there is a high possibility that excessive noise will be scattered around the surroundings, and it is difficult to say that the practical use is considered.
更にまた、同特許文献の図5を実現する具体的な回路構成は記載されていないが、同特許文献の図4の回路図から推定すれば、ノイズ発生器から発生したマスキング音をマイクで収音した時に、これを打ち消すための適応フィルタANCと、スピーカー及びマイクを使ったハンズフリー通話を実現するためのエコーキャンセラEC又は音声スイッチVOXとを夫々独立に具備する回路構成であると予想される。適応フィルタANCとエコーキャンセラECとは略同一の回路構成であるため、冗長な回路構成となってしまう。 Furthermore, although a specific circuit configuration for realizing FIG. 5 of the patent document is not described, if estimated from the circuit diagram of FIG. 4 of the patent document, the masking sound generated from the noise generator is collected by a microphone. It is expected that the circuit configuration includes an adaptive filter ANC for canceling the sound, and an echo canceller EC or a voice switch VOX for realizing a hands-free call using a speaker and a microphone. . Since the adaptive filter ANC and the echo canceller EC have substantially the same circuit configuration, the circuit configuration becomes redundant.
更にその上、同特許文献における妨害音を出す目的は異なる。通話者自身の音声はこれまでのハンドセットの使用下でも十分に漏れていたものである。これを前提に考えると、ハンズフリー通話において本来盗聴を抑止したい第1の目的は通話相手の音声である。通話者自身の肉声の盗聴防止は第2の目的である。同特許文献に開示された技術は、この第2の目的を達成しようとしたものであるが、第1の目的を達成するために特化したものではない。
以上を整理すると、従来のハンズフリー通話装置において、通話相手の音声を第三者に盗聴されることを抑止する妨害音の生成に関して以下に示す問題があった。 To summarize the above, in the conventional hands-free call device, there has been the following problem regarding generation of disturbing sound that suppresses the voice of the other party being wiretapped by a third party.
まず、第三者による盗聴を確実に抑止するために妨害音の音圧レベルを大きくした場合にあっては、通話者自身も同妨害音を受聴することになるため、騒がしい中での通話を余儀なくされて通話が非常に困難になるという第1の問題があった。また、周囲に妨害音相当の雑音が存在する場合にあっては、その雑音が妨害音として作用するため、新たに妨害音を発生する効果が薄れるという第2の問題があった。更に、妨害音を周囲に人々に受聴させることになるため、一定の盗聴抑止効果以上の騒音を生成する場合にあっては、周囲の人々に不快な影響を与えるという第3の問題があった。更にまた、妨害音を放出する妨害音用スピーカーと通話相手の音声を放出する通話相手用スピーカーとの双方が必要になるため、装置筐体の大型化を招くだけではなく、妨害音を打ち消すための適応フィルタANCと、ハンズフリーを実現するためのエコーキャンセラEC又は音声スイッチVOXとの多段構成を取ることになり、処理が複雑化するという第4の問題があった。 First, if the sound pressure level of the interfering sound is increased in order to reliably prevent eavesdropping by a third party, the caller himself / herself will also hear the interfering sound, so the call should be made in a noisy environment. There was a first problem that it was forced to make calls very difficult. Further, in the case where noise equivalent to the disturbing sound exists in the surrounding area, the noise acts as the disturbing sound, so that there is a second problem that the effect of newly generating the disturbing sound is reduced. Furthermore, since the disturbing sound is heard by people in the surroundings, there is a third problem that in the case of generating noise exceeding a certain wiretapping suppression effect, the surrounding people are unpleasantly affected. . In addition, both the speaker for disturbing sound that emits the disturbing sound and the speaker for the other party that emits the voice of the other party are required, so that not only the size of the device casing is increased, but also the interference sound is canceled out. The adaptive filter ANC and the echo canceller EC or voice switch VOX for realizing the hands-free configuration have a multi-stage configuration, and there is a fourth problem that the processing becomes complicated.
本発明は、上記に鑑みてなされたものであり、簡易な構成で妨害音を生成すると共に、周囲騒音に合わせて該妨害音のレベルを適切に調整することを第1の課題とし、通話状況に応じて該妨害音のレベルを適切に調整することを第2の課題とするハンズフリー通話装置及びハンズフリー通話方法を提供することを課題とする。 The present invention has been made in view of the above, and it is a first problem to generate a disturbing sound with a simple configuration and appropriately adjust the level of the disturbing sound according to the ambient noise. Accordingly, it is an object of the present invention to provide a hands-free call device and a hands-free call method whose second problem is to appropriately adjust the level of the interference sound according to the situation.
請求項1に記載の本発明は、スピーカー及びマイクを備え、通話者が手に保持しなくても通話相手と通話可能なハンズフリー通話装置において、前記スピーカーから放出される前記通話相手の音声が前記通話者以外の者に聴取されることを妨害する妨害信号を発生する妨害信号発生手段と、前記通話相手の通話装置から送信された音声信号に前記妨害信号を加え、当該通話相手の音声信号に基づく音声と当該妨害信号に基づく妨害音とを前記スピーカーから放出させる妨害信号付加手段と、前記マイクで収音された音に基づく収音信号を入力し、通話音声でない非音声時間区間に対応する当該収音信号の大きさを雑音レベルとして測定する雑音レベル測定手段と、前記収音信号を入力し、通話音声である音声時間区間に対応する当該収音信号の大きさを通話音レベルとして測定する通話音レベル測定手段と、前記通話音レベルに対する前記雑音レベルとの差分を計算する差分計算手段と、前記差分が所定値よりも小さい場合に前記妨害信号の大きさを小さくし、前記差分が前記所定値よりも大きい場合に前記妨害信号の大きさを大きくする妨害信号レベル制御手段と、を有することを要旨とする。
The present invention according to
本発明にあっては、スピーカーから放出される通話相手の音声が通話者以外の者に聴取されることを妨害する妨害信号を発生し、通話相手の通話装置から送信された音声信号に該妨害信号を加え、通話相手の音声信号に基づく音声と妨害信号に基づく妨害音とをスピーカーから放出させるため、簡易な構成で妨害音を生成するハンズフリー通話装置を提供することができる。具体的には、通話相手の音声を放出するスピーカーと妨害音を放出するスピーカーとが1つになるため、ハンズフリー通話装置の筐体の大型化を防止し、妨害音生成のために新たなスピーカーの配置を必要とせず、従来のハンズフリー通話装置の筐体でも容易に適用が可能となる。 According to the present invention, a disturbing signal is generated to prevent the other party's voice from being heard from a speaker from being heard by a speaker, and the disturbing signal is transmitted to the other party's speech device. Since a signal is added and the sound based on the speech signal of the other party and the interference sound based on the interference signal are emitted from the speaker, a hands-free communication device that generates the interference sound with a simple configuration can be provided. Specifically, since the speaker that emits the voice of the other party and the speaker that emits the disturbing sound are combined into one, it is possible to prevent an increase in the size of the hands-free talking device and The arrangement of the speaker is not required, and the present invention can be easily applied to the case of a conventional hands-free call device.
また、本発明にあっては、マイクで収音された音に基づく収音信号を入力し、通話音声でない非音声時間区間に対応する該収音信号の大きさを雑音レベルとして測定すると共に、マイクで収音された音に基づく収音信号を同様に入力し、通話音声である音声時間区間に対応する該収音信号の大きさを通話音レベルとして測定し、通話音レベルに対する雑音レベルとの差分が所定値よりも小さい場合に妨害信号の大きさを小さくし、該差分が該所定値よりも大きい場合に妨害信号の大きさを大きくするため、周囲騒音に合わせて妨害音のレベルを適切に調整するハンズフリー通話装置を提供することができる。具体的には、通話者や通話相手が音声を発しない時間区間で周囲騒音を評価し、音声レベルに対して十分な騒音レベルが定在していれば妨害音の音圧レベルを下げ、一方、騒音レベルが低い場合には、妨害音の音圧レベルを上げるため、周囲騒音の状況に合わせて妨害音のレベルを適切に調整することができる。 Further, in the present invention, a sound pickup signal based on a sound picked up by a microphone is input, and the magnitude of the sound pickup signal corresponding to a non-voice time interval that is not a call voice is measured as a noise level. Similarly, a sound pickup signal based on the sound picked up by the microphone is input, and the magnitude of the sound pickup signal corresponding to the voice time interval that is the call voice is measured as a call sound level. In order to reduce the magnitude of the interfering signal when the difference is smaller than the predetermined value, and to increase the magnitude of the interfering signal when the difference is larger than the predetermined value, the level of the interfering sound is adjusted according to the ambient noise. It is possible to provide a hands-free communication device that is appropriately adjusted. Specifically, the ambient noise is evaluated in a time interval in which the caller or the call partner does not make a sound, and if a sufficient noise level is present relative to the sound level, the sound pressure level of the interference sound is lowered. When the noise level is low, the sound pressure level of the interfering sound is increased, so that the level of the interfering sound can be appropriately adjusted according to the surrounding noise conditions.
請求項2に記載の本発明は、前記妨害信号が加えられた前記通話相手の音声信号を用いて、前記スピーカーから放出された後に前記マイクで収音された前記通話相手の音声成分及び前記妨害音成分を前記収音信号から除去する除去手段と、前記通話相手の音声成分及び前記妨害音成分が除去された前記収音信号を入力し、前記通話者の音声である音声時間区間に対応する当該収音信号の大きさの時間変化量を通話者音声変化量として測定する通話者音声変化量測定手段と、前記通話相手の通話装置から送信された音声信号を入力し、当該通話相手の音声である音声時間区間に対応する当該音声信号の大きさの時間変化量を通話相手音声変化量として測定する通話相手音声変化量測定手段と、を更に有し、前記妨害信号レベル制御手段は、前記通話者音声変化量及び/又は前記通話相手音声変化量が所定値よりも大きい場合に、前記妨害信号の大きさを大きくし、前記通話者音声変化量及び/又は前記通話相手音声変化量が当該所定値よりも小さい場合に、前記妨害信号の大きさを小さくすることを要旨とする。 According to a second aspect of the present invention, there is provided the voice component of the call partner and the jamming signal collected by the microphone after being emitted from the speaker using the voice signal of the call partner to which the jamming signal is added. A removal means for removing a sound component from the collected sound signal, and the collected sound signal from which the voice component and the disturbing sound component of the other party are removed are input, and corresponds to a voice time interval that is the voice of the caller A caller voice change amount measuring means for measuring a time change amount of the collected sound signal as a caller voice change amount, and a voice signal transmitted from the call partner's call device are input, and the voice of the call partner is input. Further comprising: a call partner voice change amount measuring unit that measures a time change amount of the size of the voice signal corresponding to the voice time interval as a call partner voice change amount, wherein the disturbing signal level control unit includes: When the speaker voice change amount and / or the other party voice change amount is larger than a predetermined value, the magnitude of the disturbing signal is increased, and the talker voice change amount and / or the other party voice change amount The gist is to reduce the size of the interference signal when the value is smaller than a predetermined value.
本発明にあっては、通話相手の音声成分及び妨害音成分が除去された収音信号を入力し、通話者の音声である音声時間区間に対応する該収音信号の大きさの時間変化量を通話者音声変化量として測定すると共に、通話相手の通話装置から送信された音声信号を入力し、通話相手の音声である音声時間区間に対応する該音声信号の大きさの時間変化量を通話相手音声変化量として測定し、通話者音声変化量及び/又は通話相手音声変化量が所定値よりも大きい場合に、妨害信号の大きさを大きくし、通話者音声変化量及び/又は通話相手音声変化量が該所定値よりも小さい場合に、妨害信号の大きさを小さくするため、通話状況に応じて妨害音のレベルを適切に調整するハンズフリー通話装置を提供することができる。具体的には、通話者同士の音声を情報伝達量の観点で音声スペクトルの変化量を擬似的に評価し、音声スペクトルの変化が低下してきたら双方間で伝わる情報が少なくなって通話が困難になったものと見做して妨害音の音圧レベルを下げるため、通話の状況に合わせて妨害音の大きさを適切に調整することができる。 In the present invention, the sound collection signal from which the voice component and the interference sound component of the other party are removed is input, and the amount of time change in the magnitude of the sound collection signal corresponding to the voice time interval that is the voice of the caller Is measured as the amount of change in the caller's voice, and the voice signal transmitted from the other party's call device is input, and the amount of time change in the volume of the voice signal corresponding to the voice time interval that is the voice of the other party is called When the caller voice change amount and / or the call partner voice change amount is larger than a predetermined value, the size of the disturbing signal is increased and the caller voice change amount and / or the call partner voice is measured. When the amount of change is smaller than the predetermined value, it is possible to provide a hands-free call device that appropriately adjusts the level of the disturbing sound according to the call situation in order to reduce the magnitude of the disturbing signal. More specifically, the amount of change in the voice spectrum is evaluated in a pseudo manner from the viewpoint of the amount of information transmitted between the callers, and if the change in the voice spectrum decreases, the amount of information transmitted between the two parties will be reduced, making the call difficult. Since the sound pressure level of the interfering sound is lowered by assuming that it has become, it is possible to appropriately adjust the size of the interfering sound according to the situation of the call.
また、本発明にあっては、妨害信号が加えられた通話相手の音声信号を用いて、スピーカーから放出された後にマイクで収音された通話相手の音声成分及び妨害音成分を収音信号から除去するため、処理の単純化がされたハンズフリー通話装置を提供することができる。具体的には、スピーカーから放出された通話相手の音声がマイクへ回りこんで該通話相手に送り返されることを防止する機能(前述のエコーキャンセラECに相当する機能)と、スピーカーから放出された妨害音が該マイクへ回り込んで該通話相手に送り返されることを防止する機能(前述の適応フィルタANCに相当する機能)とを共有化することができる。 Further, in the present invention, using the voice signal of the other party to which the disturbing signal is added, the voice component and the disturbing sound component of the other party collected by the microphone after being emitted from the speaker are extracted from the collected signal. Therefore, a hands-free communication device with simplified processing can be provided. Specifically, a function (a function corresponding to the above-described echo canceler EC) for preventing the voice of the other party from the speaker from being sent back to the other party, and a disturbance emitted from the speaker. It is possible to share a function (a function corresponding to the above-described adaptive filter ANC) that prevents a sound from reaching the microphone and being sent back to the other party.
請求項3に記載の本発明は、スピーカー及びマイクを備え、通話者が手に保持しなくても通話相手と通話可能なハンズフリー通話装置で行うハンズフリー通話方法において、前記スピーカーから放出される前記通話相手の音声が前記通話者以外の者に聴取されることを妨害する妨害信号を発生するステップと、前記通話相手の通話装置から送信された音声信号に前記妨害信号を加え、当該通話相手の音声信号に基づく音声と当該妨害信号に基づく妨害音とを前記スピーカーから放出させるステップと、前記マイクで収音された音に基づく収音信号を入力し、通話音声でない非音声時間区間に対応する当該収音信号の大きさを雑音レベルとして測定するステップと、前記収音信号を入力し、通話音声である音声時間区間に対応する当該収音信号の大きさを通話音レベルとして測定するステップと、前記通話音レベルに対する前記雑音レベルとの差分を計算するステップと、前記差分が所定値よりも小さい場合に前記妨害信号の大きさを小さくし、前記差分が前記所定値よりも大きい場合に前記妨害信号の大きさを大きくするステップと、を有することを要旨とする。 According to a third aspect of the present invention, there is provided a hands-free call method that is provided with a speaker and a microphone, and is performed by a hands-free call device capable of making a call with a call partner without being held by a caller. Generating a jamming signal that prevents the voice of the other party from being heard by a person other than the calling party; and adding the jamming signal to the voice signal transmitted from the other party's calling device; A voice signal based on the voice signal and a jamming sound based on the jamming signal are emitted from the speaker, and a voice collecting signal based on the sound picked up by the microphone is input to correspond to a non-speech time period that is not a call voice Measuring the magnitude of the collected sound signal as a noise level, and inputting the collected sound signal, and the collected sound signal corresponding to a voice time interval that is a call voice Measuring the magnitude as a call sound level; calculating a difference between the noise level with respect to the call sound level; and reducing the magnitude of the jamming signal when the difference is smaller than a predetermined value; And a step of increasing the magnitude of the interference signal when the difference is larger than the predetermined value.
請求項4に記載の本発明は、前記妨害信号が加えられた前記通話相手の音声信号を用いて、前記スピーカーから放出された後に前記マイクで収音された前記通話相手の音声成分及び前記妨害音成分を前記収音信号から除去するステップと、前記通話相手の音声成分及び前記妨害音成分が除去された前記収音信号を入力し、前記通話者の音声である音声時間区間に対応する当該収音信号の大きさの時間変化量を通話者音声変化量として測定するステップと、前記通話相手の通話装置から送信された音声信号を入力し、当該通話相手の音声である音声時間区間に対応する当該音声信号の大きさの時間変化量を通話相手音声変化量として測定するステップと、前記通話者音声変化量及び/又は前記通話相手音声変化量が所定値よりも大きい場合に、前記妨害信号の大きさを大きくし、前記通話者音声変化量及び/又は前記通話相手音声変化量が当該所定値よりも小さい場合に、前記妨害信号の大きさを小さくするステップと、を更に有することを要旨とする。 According to a fourth aspect of the present invention, there is provided the voice component of the call partner and the jamming signal collected by the microphone after being emitted from the speaker using the voice signal of the call partner to which the jamming signal has been added. Removing the sound component from the collected sound signal; inputting the collected sound signal from which the voice component of the other party and the disturbing sound component have been removed; and corresponding to a voice time interval that is the voice of the caller Measuring the amount of time change in the magnitude of the collected sound signal as the amount of change in the caller's voice, and inputting the audio signal transmitted from the call device of the other party, corresponding to the voice time interval that is the voice of the other party Measuring the amount of time change in the size of the voice signal as a call partner voice change amount, and when the caller voice change amount and / or the call partner voice change amount is larger than a predetermined value, A step of increasing the size of the jamming signal and reducing the size of the jamming signal when the amount of change in voice of the caller and / or the amount of change in voice of the other party of the call is smaller than the predetermined value. This is the gist.
本発明によれば、簡易な構成で妨害音を生成すると共に、周囲騒音や通話状況に合わせて該妨害音のレベルを適切に調整可能なハンズフリー通話装置及びハンズフリー通話方法を提供することができる。 According to the present invention, it is possible to provide a hands-free call device and a hands-free call method capable of generating a disturbing sound with a simple configuration and appropriately adjusting the level of the disturbing sound in accordance with ambient noise and a call situation. it can.
以下、本発明の実施の形態について図面を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本実施の形態に係るハンズフリー通話装置の機能ブロックを示す機能ブロック図である。このハンズフリー通話装置は、スピーカー7及びマイク8を備え、通話者が手に保持しなくても通話相手と通話可能であって、図1において音声入力端1は、通話相手の通話装置(図示せず)から送信される音声信号を入力するオーディオ端子である。音声出力端2は、マイク8で収音された通話者の音声や同通話者の周囲で発生している雑音等の音に基づく収音信号を通話相手の通話装置に出力するオーディオ端子である。妨害信号発生源3は、スピーカー7から放出される通話相手の音声が同通話者以外の者に聴取されることを妨害する妨害音としての妨害信号を発生する。その妨害音とは、例えばホワイトノイズや、小川のせせらぎ音等の人間が発する音声とは異なるスペクトル構造を持った音等を挙げることができる。スイッチ4は、妨害信号発生源3で発生した妨害信号が後段のミキサ5へ入力することをオン/オフするスイッチである。
FIG. 1 is a functional block diagram showing functional blocks of the hands-free call device according to the present embodiment. This hands-free call device includes a speaker 7 and a microphone 8 and can talk to a call partner even if the caller does not hold it in his / her hand. In FIG. 1, the
ミキサ5は、音声入力端1及び妨害信号発生源3からの各信号を混合する端子であって、より具体的には、音声入力端1を介して通話相手の通話装置から送信された音声信号に妨害信号発生源3で発生した妨害信号を加え、通話相手の音声信号に基づく音声と妨害信号に基づく妨害音とをスピーカー7から放出させる。アンプ6は、ミキサ5から出力された通話相手の音声信号と妨害信号との大きさを増幅する。スピーカー7は、アンプ6を介して増幅された音声信号及び妨害信号に基づく通話相手の音声及び妨害音を通話者に対して放出する。マイク8は、通話者の音声や同通話者の周囲で発生している雑音等の音を収音する。
The
エコーキャンセラ9は、スピーカー7から放出されてマイク8に入力される通話相手の音声及び妨害音を打ち消す回路であって、より具体的には、ミキサ5から出力されて妨害信号が加えられた通話相手の音声信号を入力して、スピーカー7から放出された後にマイク8で収音された通話相手の音声成分及び妨害音成分を前述の収音信号から除去する。
The
第1音声パワー計算部10は、マイク8で収音された収音信号を入力し、この収音信号の波形を用いて時間区間に対する音声パワーanを算出して、算出された音声パワーの対数値からデシベル値pnを計算する。まず、音声パワーanについては、例えば、音声信号の波形をサンプリング周波数8kHz、16bit線形波形でA/D(アナログ→デジタル)変換したデータ(離散的なサンプリング波形){wm}(m=1,2,…,8000)について、フレーム長1秒単位、フレーム周期0.5秒単位のフレーム単位で区切り、その波形を自乗して総和演算して得ることができる(式(1))。
ここで、fは1フレーム内のサンプリング数(上記8000に相当)、nは任意のフレーム番号である。 Here, f is the number of samplings in one frame (corresponding to the above 8000), and n is an arbitrary frame number.
次に、音声パワーanのデシベル値pnについては、例えば、音声パワーanに対して10を底とする対数値を求め、それを10倍することで得ることができる(式(2))。
なお、第2音声パワー計算部11及び第3音声パワー計算部18についても同様の機能を備えているが、第2音声パワー計算部11に入力される信号はエコーキャンセラ9により通話相手の音声成分及び妨害音成分が除去された収音信号であり、第3音声パワー計算部18に入力される信号は通話相手の通話装置から送信された音声信号である点が第1音声パワー計算部10と異なっている。
The second voice
非音声時間区間判別部12は、第1音声パワー計算部10で計算された音声パワーのデシベル値pnを用いてマイク8で収音された収音信号に音声が含まれているかいないかの弁別を行い、音声が含まれていない非音声時間区間を判別し、この非音声時間区間に対応する音声パワーのデシベル値pnのみをフレーム単位で後段の平均非音声パワー算出部14に送出する。ここで、音声の有無を判別する方法としては、例えば、音声のピッチ周波数に相当する100Hzから300Hzの信号のパワースペクトルを観測し、この観測値が全帯域(前出のサンプリング周波数に対応し、ここでは100Hzから4kHzの帯域とする)の音声パワーに対して一定の大きさを有していれば、その時点は音声が入力された音声時間区間であると判別し、その大きさを有していない場合には、その時点は音声でない非音声時間区間であると判別する方法を用いることができる。また、より高度な推定方法としては、それぞれの音声に対してケプストラム分析を行い、100Hzから300Hzの成分に相当する高ケフレンシー領域を観測し、有声音(音声時間区間)と無声音(非音声時間区間)とを区別する方法を利用することも可能である。
Non-speech time
一方、第1音声時間区間判別部13は、第2音声パワー計算部11で計算された音声パワーのデシベル値を用いて、エコーキャンセラ9により通話相手の音声成分及び妨害音成分が除去された収音信号に音声が含まれているかいないかの弁別を行い、通話者の音声が含まれている音声時間区間を判別し、この音声時間区間に対応する音声パワーのデシベル値のみをフレーム単位で後段の平均音声パワー算出部15及び第1音声動的情報算出部17に送出する。また、第2音声時間区間判別部19にあっては、第3音声パワー計算部18で計算された音声パワーのデシベル値を用いて通話相手の通話装置から送信された音声信号に音声が含まれているかいないかの弁別を行い、通話相手の音声が含まれている音声時間区間を判別し、この音声時間区間に対応する音声パワーのデシベル値のみをフレーム単位で後段の第2音声動的情報算出部20に送出する。
On the other hand, the first voice time
平均非音声パワー算出部14は、非音声時間区間判別部12から送出された非音声時間区間に対応する音声パワーのデシベル値を一定フレーム数分蓄積し、その平均値を求めて雑音レベルとして出力する。例えば、前述したように第1音声パワー計算部10から出力される音声パワーがフレーム周期0.5秒単位の値である場合、15秒間、即ち30フレーム分の音声パワーの平均値として得ることができる。また、平均音声パワー算出部15にあっては、第1音声時間区間判別部13から送出された音声時間区間に対応する音声パワーのデシベル値を用いてその平均値を算出し、通話音レベルとして出力する。なお、非音声時間区間判別部12と第1音声時間区間判別部13とにおいて非音声時間区間と音声時間区間とを夫々振り分けているので、平均非音声パワー算出部14及び平均音声パワー算出部15では、30フレーム分の音声パワーが確実に蓄積されない可能性があるが、その場合には、その前に蓄積して計算しておいた音声パワーで代用するようにしてもよい。
The average non-speech
差分計算部16は、平均非音声パワー算出部14から出力された雑音レベルと、平均音声パワー算出部15から出力された通話音レベルとの差分、即ち、通話音レベルに対する雑音レベルとの差分を計算し、後段の妨害信号レベル制御部22に送出する。
The
第1音声動的情報算出部17は、第1音声時間区間判別部13から送出された音声時間区間に対応する音声パワーのデシベル値がフレーム単位でどの程度変動しているかを通話者音声変化量として算出する。このような変化量を表す音声特徴量としては、例えば、「デルタパワー」として知られる対数音声パワーの回帰係数を用いることができる。デルタパワーは、音声がなだらかに変化するときは小さい値となり、音声が激しく変化するときは大きい値となる(デルタパワーの算出式は後述にて説明する)。第1音声動的情報算出部17は、この値を自乗して総和演算して得た値を後段の妨害信号レベル制御部21に送出する。また、第2音声動的情報算出部20にあっては、第2音声時間区間判別部19から送出された音声時間区間に対応する音声パワーのデシベル値を用いて通話相手音声変化量として算出する。
The first voice dynamic
妨害信号レベル制御部21は、差分計算部16,第1音声動的情報算出部17,第2音声動的情報算出部20からの出力に基づいて妨害信号レベル制御器22を制御する。具体的には、差分計算部16で計算された差分が所定値よりも小さい場合に妨害信号の大きさを小さくし、その差分が同所定値よりも大きい場合に妨害信号の大きさを大きくする。また、妨害信号レベル制御部21は、通話者音声変化量及び/又は通話相手音声変化量が所定値よりも大きい場合に、妨害信号の大きさを大きくし、通話者音声変化量及び/又は通話相手音声変化量が同所定値よりも小さい場合に、妨害信号の大きさを小さくする。
The jamming signal
妨害信号レベル制御器22は、スイッチ4とミキサ5との間に接続されたアッテネータであって、妨害信号レベル制御部21からの制御に基づいて、妨害信号発生源3で発生した妨害信号の出力ゲインを変化させることが可能である。
The interference
ここで、本実施の形態に記載されたハンズフリー通話装置の各機能ブロックと、特許請求の範囲に記載されたハンズフリー通話装置の各手段との関係について説明しておく。妨害信号発生源3は特許請求の範囲に記載された妨害信号発生手段に相当し、ミキサ5は特許請求の範囲に記載された妨害信号付加手段に相当し、第1音声パワー計算部10,非音声時間区間判別部12,平均非音声パワー算出部14は特許請求の範囲に記載された雑音レベル測定手段に相当し、第2音声パワー計算部11,第1音声時間区間判別部13,平均音声パワー算出部15は特許請求の範囲に記載された通話音レベル測定手段に相当し、第2音声パワー計算部11,第1音声時間区間判別部13,第1音声動的情報算出部17は特許請求の範囲に記載された通話者音声変化量測定手段に相当し、第3音声パワー計算部18,第2音声時間区間判別部19,第2音声動的情報算出部20は特許請求の範囲に記載された通話相手音声変化量測定手段に相当し、差分計算部16は特許請求の範囲に記載された差分計算手段に相当し、妨害信号レベル制御部21は特許請求の範囲に記載された妨害信号レベル制御手段に相当し、エコーキャンセラ9は特許請求の範囲に記載された除去手段に相当している。
Here, the relationship between each functional block of the hands-free call device described in the present embodiment and each means of the hands-free call device described in the claims will be described. The interference
なお、本実施の形態では、第2音声パワー計算部11及び第1音声時間区間判別部13は、特許請求の範囲に記載された通話音レベル測定手段及び通話者音声変化量測定手段として共通的な役割を担うように記載されているが、無論、これら2つの手段に夫々対応する第2音声パワー計算部11及び第1音声時間区間判別部13を夫々備えることも可能である。
In the present embodiment, the second voice
続いて、上記機能を備えたハンズフリー通話装置の動作について説明する。図2は、本実施の形態に係るハンズフリー通話装置の処理フローを示すフローチャートである。なお、音声入力端1及び音声出力端2は通話相手の通話装置と接続されており、妨害信号レベル制御器22のゲインは減じられていないものとする(ステップS100)。
Next, the operation of the hands-free call device having the above function will be described. FIG. 2 is a flowchart showing a processing flow of the hands-free call device according to the present embodiment. Note that it is assumed that the
通話相手の通話装置から送信された音声信号は、ミキサ5及びアンプ6を経由してスピーカー7から通話相手の音声として通話者の環境に放出される。いま、通話者がスイッチ4をオンにすると、妨害信号発生源3から発生した妨害信号が、妨害信号レベル制御器22,ミキサ5,アンプ6を経由してスピーカー7から妨害音として通話者の環境に放出される。ここで、通話者が発話を意図的に行わないとすれば、スピーカー7から放出された通話相手の音声及び妨害音は、通話者の環境における音響特性及び周囲雑音の影響を受けてマイク8に入力される。マイク8において収音された収音信号の波形が極端に歪むものでなければ、この通話相手の音声及び妨害音による合成音は、エコーキャンセラ9において、ミキサ5からの出力にデジタルフィルタによる畳み込み演算を行って得られる逆相の合成音によって、ある程度のレベルにまで打ち消すことができる。打ち消すことができない音とは、通話者の肉声、通話者の周囲に存在する周囲雑音、エコーキャンセラのデジタルフィルタの精度によって生じる合成音の予測誤差、及び、マイク8での収音時に発生する電気的なノイズや過大音量による歪み成分である。ここでは、電気的なノイズや歪み成分は、通話者の肉声や周囲雑音に比べてはるかに低いレベルとして無視できるものとする。そうすると、エコーキャンセラ9の出力は、主に通話者の肉声と周囲雑音との合成音になる。エコーキャンセラ9の出力はそのまま音声出力端2に送られ、通話相手は自分の声のフィードバックを多少聴くこともあるが、主に、通話者の音声と通話者の周囲雑音のみの比較的明瞭な音声を受聴することができる。なお、以降、エコーキャンセラ9に入力される前の収音信号は、通話相手の音声成分,雑音成分,通話者の音声成分,通話者の周囲雑音成分を含む除去前収音信号と称し、エコーキャンセラ9に入力された後の収音信号は、通話相手の音声成分及び雑音成分が除去された、通話者の音声成分及び通話者の周囲雑音成分を含む除去後収音信号と称するものとする。
The audio signal transmitted from the call device of the other party is released from the speaker 7 through the
このとき、第1音声パワー計算部10は、エコーキャンセラ9に入力される前の除去前収音信号を用いて、例えば、フレーム長1.0秒,フレーム周期0.5秒毎のフレームデータとして音声パワーを計算し、そのデシベル値を求める(ステップS101)。ここで、第1音声パワー計算部10で計算された時刻すなわちフレームnにおける音声パワーのデシベル値をpnと定義する。
At this time, the first sound
そして、非音声時間区間判別部12は、求められたpnから非音声時間区間のフレームのpnのみを弁別し、平均非音声パワー算出部14に送出する(ステップS102)。
Then, the non-speech time
平均非音声パワー算出部14は、非音声時間区間判別部12から送出されたpnを用いて、非音声時間区間に対する一定時間長の平均非音声パワーPを算出する(ステップS103)。すなわち、pnがフレーム周期0.5秒毎に求められた対数パワーであるとすると、平均非音声パワー算出部14で計算される非音声時間区間に対する平均非音声パワーPの計算方法は、例えば、30フレーム、15秒単位での平均値を求めるものとすれば、式(3)を用いて計算することができる。
同様に、第2音声パワー計算部11は、エコーキャンセラ9に入力される後の除去後収音信号を用いて音声パワーを計算し、そのデシベル値を求める(ステップS104)。ここで、第2音声パワー計算部11で計算された時刻すなわちフレームnにおける音声パワーのデシベル値をqnと定義する。
Similarly, the second sound
そして、第1音声時間区間判別部13は、求められたqnから非音声時間区間のフレームのqnのみを弁別し、平均音声パワー算出部15及び第1音声動的情報算出部17に送出する(ステップS105)。
Then, the first audio time
平均音声パワー算出部15は、第1音声時間区間判別部13から送出されたqnを用いて、音声時間区間に対する一定時間長の平均音声パワーQを算出する(ステップS106)。平均音声パワーQは、式(3)と同様に式(4)を用いて計算することができる。
なお、平均非音声パワーPと平均音声パワーQとは、非音声時間区間と音声時間区間とを弁別する過程を経由するため、時刻的に同時に得ることはできない。ここで、平均非音声パワー算出部14で計算した非音声時間区間における平均非音声パワーPは、通話者の周囲雑音と妨害音とによって生成された雑音レベルとみなすことができる。また、平均音声パワー算出部15で計算した音声時間区間における平均音声パワーQは、通話者の発する肉声によって生成された通話音レベルとみなすことができる。
Note that the average non-speech power P and the average speech power Q pass through the process of discriminating the non-speech time interval and the speech time interval, and therefore cannot be obtained simultaneously in time. Here, the average non-speech power P in the non-speech time interval calculated by the average non-speech
その後、差分計算部16は、式(5)を用いて差分値Dを計算する(ステップS107)。
既に説明したように、平均非音声パワーP,平均音声パワーQ,差分値Dはいずれもデシベル値である。一般的な音声認識装置においては、平均的な音声入力レベルに対して平均的な周囲騒音レベルとの差分が約10デシベル以下になると音声認識率が目立って低下してくる。実環境で考えた場合に、肉声によるマイクへの音声入力レベルが等価騒音レベル76dBA相当の大きさを持つものとすれば、周囲環境の雑音が66dBA(=76dBA−10dBA)に相当し、これは二車線を有する道路における騒音規制レベルにほぼ匹敵するため、相当な大きさの雑音であることがわかる。これを盗聴が困難になる音圧レベルと同一と仮定すれば、即ち、差分値Dが10デシベル以下の小さい値の場合には、第三者による盗聴が困難である一方、周囲へも悪影響を及ぼす多大な音として妨害音の抑制を行う。 As already described, the average non-voice power P, the average voice power Q, and the difference value D are all decibel values. In a general speech recognition apparatus, when the difference between the average speech input level and the average ambient noise level is about 10 decibels or less, the speech recognition rate is significantly reduced. When considered in a real environment, if the voice input level to the microphone by the real voice has a magnitude equivalent to the equivalent noise level of 76 dBA, the noise in the surrounding environment corresponds to 66 dBA (= 76 dBA-10 dBA). It can be seen that the noise is considerably large because it is almost equivalent to the noise regulation level in a road having two lanes. If this is assumed to be the same as the sound pressure level at which eavesdropping becomes difficult, that is, if the difference value D is a small value of 10 decibels or less, it is difficult for a third party to eavesdrop on, but also adversely affects the surroundings. Suppresses the disturbing sound as an enormous sound.
次に、第1音声動的情報算出部17は、フレームnにおけるデルタパワーrnを式(6)を用いて算出する。
このデルタパワーrnは、通話者の音声の変化量が分かり、変化が著しい程大きな値が得られる。逆に、定常的な音に近づくと、音圧レベルが大きい音であっても小さな数値となる傾向がある。 The delta power r n is the amount of change talker speech understanding, large value changes more significant is obtained. On the other hand, when the sound approaches a steady sound, even if the sound has a high sound pressure level, it tends to be a small numerical value.
また、第1音声動的情報算出部17は、デルタパワーrnを自乗した値について、一定時間の長時間平均値Rを求める(ステップS108)。一定時間を既出の通り15秒単位での平均値とすれば、式(7)で長時間平均値R求めることができる。
同様に、第3音声パワー計算部18は、通話相手の音声信号を用いて音声パワーを計算し、そのデシベル値snを求める(ステップS109)。
Similarly, the third voice
また同様に、第2音声時間区間判別部19は、求められた対数パワーから音声時間区間のフレームのsnのみを弁別し、第2音声動的情報算出部20に送出する(ステップS110)。
Similarly, the second audio time
そして、第2音声動的情報算出部20は、フレームnにおけるデルタパワーunを式(8)を用いて算出する。
更に、第2音声動的情報算出部20は、デルタパワーunを自乗した値について、一定時間の長時間平均値Uを求める(ステップS111)。
これらの長時間平均値R及び長時間平均値Uは、平均値を計算したときの時間長15秒単位で妨害信号レベル制御部21に送出される。そして、妨害信号レベル制御部21は、差分計算部16から得られた差分値Dと、第1音声動的情報算出部17及び第2音声動的情報算出部20から得られたデルタパワーの自乗和としての長時間平均値R及び長時間平均値Uを用いて、例えば、15秒単位で以下の制御を行う。
The long-time average value R and the long-time average value U are sent to the interference signal
最初に、差分値Dが10デシベル以下の場合について説明する。既に説明したように、差分値Dは音声と周囲雑音との信号対雑音比のデシベル値に相当するため、差分値Dが小さい値であることは相当な周囲雑音が存在していることを意味している。そこで、妨害信号レベル制御部21は、例えば差分値Dが10デシベル以下の場合に(ステップS112)、例えば−3デシベル単位で妨害信号レベル制御器22のゲインを小さくし、妨害信号発生源3から発せられる妨害信号の出力を下げる(ステップS113)。
First, a case where the difference value D is 10 decibels or less will be described. As already described, since the difference value D corresponds to the decibel value of the signal-to-noise ratio between speech and ambient noise, a small value of the difference value D means that there is considerable ambient noise. is doing. Therefore, for example, when the difference value D is 10 decibels or less (step S112), the interfering signal
次に、差分値Dが10デシベルよりも大きいが、長時間平均値Rと長時間平均値Uの和が小さい場合について説明する。長時間平均値Rと長時間平均値Uとの和の値を閾値Xと比較する。ここで、閾値Xは正の値であり、音声信号の分析フレーム長、フレーム周期などの分析条件から導出される値である。その和の値が小さいということは、通話者及び通話相手の対話において、音声の明瞭性が低下しているか、どちらも活発な討論をしていないか、どちらかが一方的に話をしているかのいずれかに該当すると考えられる。音声の明瞭性は、通話者の音声の音響特性に起因するものも考えられるが、妨害音が通話者及び通話相手の思考を妨げている可能性がある。そこでこのような可能性を排除するため、妨害信号レベル制御部21は、差分値Dが閾値Xより小さいの場合に(ステップS114)、ステップS113と同様に、例えば−3デシベル単位で妨害信号レベル制御器22のゲインを小さくし、妨害信号発生源3から発せられる妨害信号の出力を下げる。
Next, a case where the difference value D is larger than 10 decibels but the sum of the long time average value R and the long time average value U is small will be described. The sum of the long-time average value R and the long-time average value U is compared with the threshold value X. Here, the threshold value X is a positive value, and is a value derived from analysis conditions such as the analysis frame length and frame period of the audio signal. The small value of the sum means that in the conversation between the caller and the other party, the clarity of the voice has decreased, neither of them has been actively discussing, or one of them has spoken unilaterally. It is thought that it corresponds to either. The clarity of speech may be attributed to the acoustic characteristics of the caller's voice, but the disturbing sound may hinder the thinking of the caller and the other party. Therefore, in order to eliminate such a possibility, when the difference value D is smaller than the threshold value X (step S114), the interfering signal
その後、妨害信号レベル制御部21は、ステップS113によって妨害信号の出力を下げた結果、差分値D、長時間平均値R、長時間平均値Uを再度測定し、差分値Dが10デシベル以上となったか、或いは長時間平均値Rと長時間平均値Uの和が一定値Xを上回ったかを確認する。もし変化がみられなかった場合にはステップS113を繰り返し、妨害信号発生源3から発せられる妨害信号の出力をさらに下げていく。一方、長時間平均値Rと長時間平均値Uの和が一定値Xを上回っている場合、妨害信号レベル制御部21は、例えば+3デシベル単位で妨害信号レベル制御器22のゲインを大きくし、妨害信号発生源3から発せられる妨害信号の出力を元に戻していく(ステップS115)。但し、妨害信号レベル制御器22では、最大0デシベルを超えてゲインの増幅は行わないものとする。
Thereafter, the interference signal
ハンズフリー通話装置は、ステップS112〜ステップS115を繰り返すことにより、適切な音量の妨害音を出力することが可能となる。 The hands-free call device can output a disturbing sound having an appropriate volume by repeating Steps S112 to S115.
最後に、ハンズフリー通話を終了する際に、通話者がスイッチ4をオフにすれば(ステップS116)、妨害信号レベル制御器22で印加されたゲインが元に戻ることになる。
Finally, when the caller ends the hands-free call, if the caller turns off the switch 4 (step S116), the gain applied by the interference
なお、本実施の形態では、デルタパワーを使って音声の動的特徴量を計算したが、計算量に余裕があればデルタパワーよりも正確に音声の動的特徴を表すデルタケプストラムを用いて、より精緻な音声の変化を捉えることも可能である。 In this embodiment, the dynamic feature amount of the voice is calculated using the delta power. However, if there is a margin in the calculation amount, the delta cepstrum representing the dynamic feature of the voice more accurately than the delta power is used. It is also possible to capture more precise changes in speech.
更に、通話相手の音声を放出するスピーカーと、妨害音を放出するスピーカーとを同一としたが、ミキサ5を廃止し、通話相手の音声及び妨害音を夫々異なるスピーカーから放出させることも可能である。エコーキャンセラ9は、通話相手の音声及び妨害音のどちらかがマイク8に回り込んだ場合であっても、どちらも打ち消すことが原理的に可能だからである。
Furthermore, although the speaker that emits the voice of the other party is the same as the speaker that emits the disturbing sound, the
また、本実施の形態では、ステップS112での比較において、差分値Dが10デシベル以下の場合について説明したが、差分値Dに対する比較値は10デシベルに限られることはなく、他の比較値を用いても良い。 In the present embodiment, the case where the difference value D is 10 decibels or less has been described in the comparison in step S112. However, the comparison value for the difference value D is not limited to 10 decibels, and other comparison values are used. It may be used.
更に、本実施の形態では、ステップS114での比較において、長時間平均値Rと長時間平均値Uとの和の値を用いて説明したが、一定値Xの値によっては、加算のみではなく、乗算,除算,減算を用いてもよく、更には所定の数式を用いてもよい。また、いずれか一方の長時間平均値を用いてもよい。 Furthermore, in the present embodiment, the sum of the long-time average value R and the long-time average value U has been described in the comparison in step S114. However, depending on the value of the constant value X, not only the addition. , Multiplication, division, and subtraction may be used, and a predetermined mathematical formula may be used. Further, either one of the long-term average values may be used.
最後に、第1の課題として記載した「周囲騒音に合わせて該妨害音のレベルを調整すること」を考慮した場合、通話相手及び通話者が発する通話音声と周囲雑音とを判別することが可能であればよいので、エコーキャンセラ9により通話相手の音声を除去しなくても、換言すれば、エコーキャンセラ9を具備しなくとも上記課題が解決可能であることを付言しておく。
Finally, when considering “adjusting the level of the disturbing sound in accordance with the ambient noise” described as the first problem, it is possible to discriminate between the call voice and the ambient noise emitted by the other party and the caller. Therefore, it should be noted that the above problem can be solved without removing the voice of the communication partner by the
本実施の形態によれば、スピーカー7から放出される通話相手の音声が通話者以外の者に聴取されることを妨害する妨害信号を発生し、通話相手の通話装置から送信された音声信号に該妨害信号を加え、通話相手の音声信号に基づく音声と妨害信号に基づく妨害音とをスピーカー7から放出させるので、簡易な構成で妨害音を生成するハンズフリー通話装置を提供することができる。具体的には、通話相手の音声を放出するスピーカー7と妨害音を放出するスピーカー7とが1つになるため、ハンズフリー通話装置の筐体の大型化を防止し、妨害音生成のために新たなスピーカー7の配置を必要とせず、従来のハンズフリー通話装置の筐体でも容易に適用が可能となる。 According to the present embodiment, a disturbing signal that prevents the other party's voice being heard from the speaker 7 from being heard by a person other than the calling party is generated, and the voice signal transmitted from the other party's calling apparatus is generated. Since the interference signal is added and the sound based on the speech signal of the other party and the interference sound based on the interference signal are emitted from the speaker 7, it is possible to provide a hands-free communication device that generates the interference sound with a simple configuration. Specifically, since the speaker 7 that emits the voice of the call partner and the speaker 7 that emits the interference sound are combined into one, it is possible to prevent an increase in the size of the housing of the hands-free communication device and to generate the interference sound. The arrangement of a new speaker 7 is not required, and it can be easily applied to the case of a conventional hands-free call device.
また、本実施の形態によれば、マイク8で収音された音に基づく収音信号を入力し、通話音声でない非音声時間区間に対応する該収音信号の大きさを雑音レベルとして測定すると共に、マイク8で収音された音に基づく収音信号を同様に入力し、通話音声である音声時間区間に対応する該収音信号の大きさを通話音レベルとして測定し、通話音レベルに対する雑音レベルとの差分が所定値よりも小さい場合に妨害信号の大きさを小さくし、該差分が該所定値よりも大きい場合に妨害信号の大きさを大きくするので、周囲騒音に合わせて妨害音のレベルを適切に調整するハンズフリー通話装置を提供することができる。具体的には、通話者や通話相手が音声を発しない時間区間で周囲騒音を評価し、音声レベルに対して十分な騒音レベルが定在していれば妨害音の音圧レベルを下げ、一方、騒音レベルが低い場合には、妨害音の音圧レベルを上げるため、周囲騒音の状況に合わせて妨害音のレベルを適切に調整することができる。 Further, according to the present embodiment, a sound collection signal based on the sound collected by the microphone 8 is input, and the magnitude of the sound collection signal corresponding to a non-voice time period that is not a call voice is measured as a noise level. At the same time, a sound pickup signal based on the sound picked up by the microphone 8 is input in the same manner, and the magnitude of the sound pickup signal corresponding to the voice time interval that is the call voice is measured as the call sound level, When the difference from the noise level is smaller than a predetermined value, the size of the interfering signal is reduced, and when the difference is larger than the predetermined value, the size of the interfering signal is increased. It is possible to provide a hands-free communication device that appropriately adjusts the level of the communication. Specifically, the ambient noise is evaluated in a time interval in which the caller or the call partner does not make a sound, and if a sufficient noise level is present relative to the sound level, the sound pressure level of the interference sound is lowered. When the noise level is low, the sound pressure level of the interfering sound is increased, so that the level of the interfering sound can be appropriately adjusted according to the surrounding noise conditions.
更に、本実施の形態によれば、通話相手の音声成分及び妨害音成分が除去された収音信号を入力し、通話者の音声である音声時間区間に対応する該収音信号の大きさの時間変化量を通話者音声変化量として測定すると共に、通話相手の通話装置から送信された音声信号を入力し、通話相手の音声である音声時間区間に対応する該音声信号の大きさの時間変化量を通話相手音声変化量として測定し、通話者音声変化量及び/又は通話相手音声変化量が所定値よりも大きい場合に、妨害信号の大きさを大きくし、通話者音声変化量及び/又は通話相手音声変化量が該所定値よりも小さい場合に、妨害信号の大きさを小さくするので、通話状況に応じて妨害音のレベルを適切に調整するハンズフリー通話装置を提供することができる。具体的には、通話者同士の音声を情報伝達量の観点で音声スペクトルの変化量を擬似的に評価し、音声スペクトルの変化が低下してきたら双方間で伝わる情報が少なくなって通話が困難になったものと見做して妨害音の音圧レベルを下げるため、通話の状況に合わせて妨害音の大きさを適切に調整することができる。 Furthermore, according to the present embodiment, the collected sound signal from which the voice component and the disturbing sound component of the other party are removed is input, and the magnitude of the collected sound signal corresponding to the voice time interval that is the voice of the caller is The time change amount is measured as the caller voice change amount, and the voice signal transmitted from the call device of the other party is input, and the time change of the magnitude of the voice signal corresponding to the voice time interval which is the voice of the other party When the amount of change in the other party's voice is measured and the amount of change in the other party's voice and / or the amount of change in the other party's voice is larger than a predetermined value, the magnitude of the disturbing signal is increased, and Since the magnitude of the disturbing signal is reduced when the amount of change in the other party's voice is smaller than the predetermined value, it is possible to provide a hands-free call device that appropriately adjusts the level of the disturbing sound according to the call situation. More specifically, the amount of change in the voice spectrum is evaluated in a pseudo manner from the viewpoint of the amount of information transmitted between the callers, and if the change in the voice spectrum decreases, the amount of information transmitted between the two parties will be reduced, making the call difficult. Since the sound pressure level of the interfering sound is lowered by assuming that it has become, it is possible to appropriately adjust the size of the interfering sound according to the situation of the call.
更にまた、本実施の形態によれば、妨害信号が加えられた通話相手の音声信号を用いて、スピーカー7から放出された後にマイク8で収音された通話相手の音声成分及び妨害音成分を収音信号から除去するため、処理の単純化がされたハンズフリー通話装置を提供することができる。具体的には、スピーカー7から放出された通話相手の音声がマイク8へ回りこんで該通話相手に送り返されることを防止する機能と、スピーカー7から放出された妨害音が該マイク8へ回り込んで該通話相手に送り返されることを防止する機能とを共有化することができる。 Furthermore, according to the present embodiment, the voice component and the disturbing sound component of the call partner collected by the microphone 8 after being emitted from the speaker 7 using the voice signal of the call partner to which the jamming signal has been added. Since it is removed from the collected sound signal, a hands-free communication device with simplified processing can be provided. Specifically, the function of preventing the other party's voice emitted from the speaker 7 from turning around the microphone 8 and being sent back to the other party, and the disturbing sound emitted from the speaker 7 wraps around the microphone 8. Thus, it is possible to share the function of preventing the call from being sent back to the other party.
1…音声入力端
2…音声出力端
3…妨害信号発生源
4…スイッチ
5…ミキサ
6…アンプ
7…スピーカー
8…マイク
9…エコーキャンセラ
10…第1音声パワー計算部
11…第2音声パワー計算部
12…非音声時間区間判別部
13…第1音声時間区間判別部
14…平均非音声パワー算出部
15…平均音声パワー算出部
16…差分計算部
17…第1音声動的情報算出部
18…第3音声パワー計算部
19…第2音声時間区間判別部
20…第2音声動的情報算出部
21…妨害信号レベル制御部
22…妨害信号レベル制御器
S100〜S116…ステップ
DESCRIPTION OF
Claims (4)
前記スピーカーから放出される前記通話相手の音声が前記通話者以外の者に聴取されることを妨害する妨害信号を発生する妨害信号発生手段と、
前記通話相手の通話装置から送信された音声信号に前記妨害信号を加え、当該通話相手の音声信号に基づく音声と当該妨害信号に基づく妨害音とを前記スピーカーから放出させる妨害信号付加手段と、
前記マイクで収音された音に基づく収音信号を入力し、通話音声でない非音声時間区間に対応する当該収音信号の大きさを雑音レベルとして測定する雑音レベル測定手段と、
前記収音信号を入力し、通話音声である音声時間区間に対応する当該収音信号の大きさを通話音レベルとして測定する通話音レベル測定手段と、
前記通話音レベルに対する前記雑音レベルとの差分を計算する差分計算手段と、
前記差分が所定値よりも小さい場合に前記妨害信号の大きさを小さくし、前記差分が前記所定値よりも大きい場合に前記妨害信号の大きさを大きくする妨害信号レベル制御手段と、
を有することを特徴とするハンズフリー通話装置。 In a hands-free call device that has a speaker and a microphone, and that allows the caller to talk to the other party without holding it,
Interference signal generating means for generating an interference signal that prevents the voice of the other party released from the speaker from being heard by a person other than the speaker;
An interference signal adding means for adding the interference signal to the audio signal transmitted from the communication device of the other party, and emitting the sound based on the audio signal of the other party and the interference sound based on the interference signal from the speaker;
A noise level measurement means for inputting a collected sound signal based on the sound collected by the microphone and measuring the magnitude of the collected sound signal corresponding to a non-voice time interval that is not a call voice as a noise level;
A call sound level measuring unit that inputs the sound pickup signal and measures the magnitude of the sound pickup signal corresponding to a voice time interval that is a call voice as a call sound level;
A difference calculating means for calculating a difference between the noise level and the call sound level;
A jamming signal level control means for reducing the magnitude of the jamming signal when the difference is smaller than a predetermined value and increasing the magnitude of the jamming signal when the difference is larger than the predetermined value;
A hands-free communication device comprising:
前記通話相手の音声成分及び前記妨害音成分が除去された前記収音信号を入力し、前記通話者の音声である音声時間区間に対応する当該収音信号の大きさの時間変化量を通話者音声変化量として測定する通話者音声変化量測定手段と、
前記通話相手の通話装置から送信された音声信号を入力し、当該通話相手の音声である音声時間区間に対応する当該音声信号の大きさの時間変化量を通話相手音声変化量として測定する通話相手音声変化量測定手段と、を更に有し、
前記妨害信号レベル制御手段は、前記通話者音声変化量及び/又は前記通話相手音声変化量が所定値よりも大きい場合に、前記妨害信号の大きさを大きくし、前記通話者音声変化量及び/又は前記通話相手音声変化量が当該所定値よりも小さい場合に、前記妨害信号の大きさを小さくすることを特徴とする請求項1に記載のハンズフリー通話装置。 Using the voice signal of the other party to which the jamming signal has been added, the voice component and the jamming sound component of the other party that have been emitted from the speaker and collected by the microphone are removed from the collected signal. Removal means;
The collected sound signal from which the voice component and the disturbing sound component of the other party are removed is input, and the time change amount of the collected signal corresponding to the voice time interval that is the voice of the caller is determined. Caller voice change amount measuring means for measuring the voice change amount;
The other party who inputs the voice signal transmitted from the other party's calling device and measures the amount of time change of the voice signal corresponding to the voice time interval which is the voice of the other party as the other party voice change. Voice change amount measuring means,
The jamming signal level control means increases the magnitude of the jamming signal when the caller voice change amount and / or the call partner voice change amount is larger than a predetermined value, and the caller voice change amount and / or The hands-free call device according to claim 1, wherein when the call partner voice change amount is smaller than the predetermined value, the interference signal is reduced.
前記スピーカーから放出される前記通話相手の音声が前記通話者以外の者に聴取されることを妨害する妨害信号を発生するステップと、
前記通話相手の通話装置から送信された音声信号に前記妨害信号を加え、当該通話相手の音声信号に基づく音声と当該妨害信号に基づく妨害音とを前記スピーカーから放出させるステップと、
前記マイクで収音された音に基づく収音信号を入力し、通話音声でない非音声時間区間に対応する当該収音信号の大きさを雑音レベルとして測定するステップと、
前記収音信号を入力し、通話音声である音声時間区間に対応する当該収音信号の大きさを通話音レベルとして測定するステップと、
前記通話音レベルに対する前記雑音レベルとの差分を計算するステップと、
前記差分が所定値よりも小さい場合に前記妨害信号の大きさを小さくし、前記差分が前記所定値よりも大きい場合に前記妨害信号の大きさを大きくするステップと、
を有することを特徴とするハンズフリー通話方法。 In a hands-free call method that is performed with a hands-free call device that includes a speaker and a microphone and can be called with a call partner even if the caller does not hold it in his / her hand,
Generating a jamming signal that prevents the voice of the other party emitted from the speaker from being heard by a person other than the caller;
Adding the jamming signal to a voice signal transmitted from the call device of the other party, and emitting sound based on the voice signal of the other party and jamming sound based on the jamming signal from the speaker;
Inputting a collected sound signal based on the sound collected by the microphone, and measuring the magnitude of the collected sound signal corresponding to a non-voice time interval that is not a call voice as a noise level;
Inputting the collected sound signal and measuring the magnitude of the collected sound signal corresponding to a voice time interval that is a call voice as a call sound level;
Calculating a difference between the noise level relative to the call sound level;
Reducing the magnitude of the jamming signal when the difference is smaller than a predetermined value, and increasing the magnitude of the jamming signal when the difference is larger than the predetermined value;
A hands-free calling method characterized by comprising:
前記通話相手の音声成分及び前記妨害音成分が除去された前記収音信号を入力し、前記通話者の音声である音声時間区間に対応する当該収音信号の大きさの時間変化量を通話者音声変化量として測定するステップと、
前記通話相手の通話装置から送信された音声信号を入力し、当該通話相手の音声である音声時間区間に対応する当該音声信号の大きさの時間変化量を通話相手音声変化量として測定するステップと、
前記通話者音声変化量及び/又は前記通話相手音声変化量が所定値よりも大きい場合に、前記妨害信号の大きさを大きくし、前記通話者音声変化量及び/又は前記通話相手音声変化量が当該所定値よりも小さい場合に、前記妨害信号の大きさを小さくするステップと、
を更に有することを特徴とする請求項3に記載のハンズフリー通話方法。 Using the voice signal of the other party to which the jamming signal has been added, the voice component and the jamming sound component of the other party that have been emitted from the speaker and collected by the microphone are removed from the collected signal. Steps,
The collected sound signal from which the voice component and the disturbing sound component of the other party are removed is input, and the time change amount of the collected signal corresponding to the voice time interval that is the voice of the caller is determined. Measuring the amount of change in voice;
Inputting a voice signal transmitted from the call partner's call device, and measuring a time change amount of the voice signal corresponding to a voice time interval that is the voice of the call partner as a call partner voice change amount; ,
When the caller voice change amount and / or the call partner voice change amount is larger than a predetermined value, the size of the jamming signal is increased, and the caller voice change amount and / or the call partner voice change amount is Reducing the magnitude of the jamming signal if less than the predetermined value;
The hands-free call method according to claim 3, further comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008115651A JP4838282B2 (en) | 2008-04-25 | 2008-04-25 | Hands-free call device and hands-free call method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008115651A JP4838282B2 (en) | 2008-04-25 | 2008-04-25 | Hands-free call device and hands-free call method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2009267799A JP2009267799A (en) | 2009-11-12 |
| JP4838282B2 true JP4838282B2 (en) | 2011-12-14 |
Family
ID=41393078
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008115651A Expired - Fee Related JP4838282B2 (en) | 2008-04-25 | 2008-04-25 | Hands-free call device and hands-free call method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4838282B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5391118B2 (en) * | 2010-03-23 | 2014-01-15 | アイホン株式会社 | Intercom system |
| KR102742450B1 (en) * | 2019-12-27 | 2024-12-17 | 삼성전자주식회사 | An electronic device and method for removing residual echo signal based on Neural Network in the same |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0758833A (en) * | 1993-08-09 | 1995-03-03 | Oki Electric Ind Co Ltd | Portable telephone set |
| JPH08223264A (en) * | 1995-02-14 | 1996-08-30 | Nec Corp | Portable telephone set having music output function |
| JPH08296335A (en) * | 1995-04-25 | 1996-11-12 | Matsushita Electric Ind Co Ltd | Active soundproof hood device |
| JP3910455B2 (en) * | 2002-01-28 | 2007-04-25 | 松下電器産業株式会社 | Hands-free communication device and speaker control method thereof |
| US7471945B2 (en) * | 2004-11-30 | 2008-12-30 | Agere Systems Inc. | Methods and apparatus for preventing a third party from overhearing a telephone conversation |
| JP4428280B2 (en) * | 2005-04-18 | 2010-03-10 | 日本電気株式会社 | Call content concealment system, call device, call content concealment method and program |
| JP4640801B2 (en) * | 2005-06-27 | 2011-03-02 | 富士通株式会社 | Telephone |
-
2008
- 2008-04-25 JP JP2008115651A patent/JP4838282B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2009267799A (en) | 2009-11-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5293817B2 (en) | Audio signal processing apparatus and audio signal processing method | |
| CN107452367B (en) | Coordinated control of adaptive noise cancellation in ear speaker channels | |
| KR101655003B1 (en) | Pre-shaping series filter for active noise cancellation adaptive filter | |
| CN100420149C (en) | Communication device with active equalization and method thereof | |
| US6690800B2 (en) | Method and apparatus for communication operator privacy | |
| JP4568439B2 (en) | Echo suppression device | |
| US10341759B2 (en) | System and method of wind and noise reduction for a headphone | |
| CN105637892B (en) | System and headphones for assisting dialogue while listening to audio | |
| US7881927B1 (en) | Adaptive sidetone and adaptive voice activity detect (VAD) threshold for speech processing | |
| US20020172350A1 (en) | Method for generating a final signal from a near-end signal and a far-end signal | |
| US9699554B1 (en) | Adaptive signal equalization | |
| JP5168162B2 (en) | SOUND SIGNAL ADJUSTMENT DEVICE, PROGRAM AND METHOD, AND TELEPHONE DEVICE | |
| EP1599992A1 (en) | Audibility enhancement | |
| JP3267556B2 (en) | Echo canceller and transmitter | |
| WO2019220951A1 (en) | Echo suppression device, echo suppression method, and echo suppression program | |
| Premananda et al. | Speech enhancement algorithm to reduce the effect of background noise in mobile phones | |
| JP2020170986A (en) | Echo suppression device, echo suppression method and echo suppression program | |
| JP4376793B2 (en) | Apparatus and method for suppressing echo, particularly in telephones | |
| JP4838282B2 (en) | Hands-free call device and hands-free call method | |
| JP4317222B2 (en) | Measuring the transmission quality of communication links in networks | |
| KR101223306B1 (en) | Methods and apparatus for preventing a third party from overhearing a telephone conversation | |
| WO2008069660A1 (en) | Telephone device to cancel background noise at the speaker | |
| JP2002050987A (en) | Interference signal dependent adaptive echo suppression | |
| CN117278677A (en) | Echo cancellation method, device, equipment and computer-readable storage medium | |
| CN116647789A (en) | Method for reducing echoes in hearing devices |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100727 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110914 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110920 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110929 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |