Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7656853B2 - Information terminal and intercom system - Google Patents
[go: Go Back, main page]

JP7656853B2 - Information terminal and intercom system - Google Patents

Information terminal and intercom system Download PDF

Info

Publication number
JP7656853B2
JP7656853B2 JP2020207022A JP2020207022A JP7656853B2 JP 7656853 B2 JP7656853 B2 JP 7656853B2 JP 2020207022 A JP2020207022 A JP 2020207022A JP 2020207022 A JP2020207022 A JP 2020207022A JP 7656853 B2 JP7656853 B2 JP 7656853B2
Authority
JP
Japan
Prior art keywords
unit
information terminal
sound
voice
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020207022A
Other languages
Japanese (ja)
Other versions
JP2021141572A (en
Inventor
欣也 冠野
隆治 諸橋
剛 桑野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JP2021141572A publication Critical patent/JP2021141572A/en
Application granted granted Critical
Publication of JP7656853B2 publication Critical patent/JP7656853B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Description

本開示は、一般に情報端末及びインターホンシステムに関し、より詳細には通話可能に構成された情報端末及びインターホンシステムに関する。 The present disclosure generally relates to an information terminal and an intercom system , and more particularly to an information terminal and an intercom system configured to be able to make and receive calls.

従来、集合住宅等で用いられるインターホンシステムが知られている(例えば、特許文献1参照)。 Conventionally, intercom systems have been known for use in apartment complexes and the like (see, for example, Patent Document 1).

特許文献1のインターホンシステムは、集合住宅の共同玄関に設置されるロビーインターホン、各住戸内に設置されるインターホン親機、及び各住戸の戸外(玄関先)に設置されるドアホン子器を備える。 The intercom system in Patent Document 1 includes a lobby intercom installed at the common entrance of an apartment building, an intercom master unit installed in each dwelling unit, and a door phone slave unit installed outside each dwelling unit (at the entrance).

このようなインターホンシステムでは、来訪者は、ロビーインターホンを用いてインターホン親機を呼び出す。この呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでロビーインターホンとインターホン親機との間で通話が開始される。ドアホン子器でインターホン親機を呼び出したときも同様に、呼出に応じて住戸の住人がインターホン親機に対して所定の操作を行うことでドアホン子器とインターホン親機との間で通話が開始される。 In this type of intercom system, a visitor calls the intercom master unit using the lobby intercom. In response to this call, the resident of the residence performs a specified operation on the intercom master unit, which starts a conversation between the lobby intercom and the intercom master unit. Similarly, when the intercom master unit is called using the doorphone slave, the resident of the residence performs a specified operation on the intercom master unit in response to the call, which starts a conversation between the doorphone slave and the intercom master unit.

特開2004-64249号公報JP 2004-64249 A

ところで、インターホン親機(情報端末)は、ハンズフリーで通話が可能に構成されていることが多い。このような場合において、インターホン親機から離れた場所からでも通話を行いたいとの要望がある。 Incidentally, intercom master units (information terminals) are often configured to allow hands-free calling. In such cases, there is a demand for the ability to make calls even from a location far away from the intercom master unit.

本開示は上記課題に鑑みてなされ、ユーザの位置に応じて明瞭な通話を行うことができる情報端末及びインターホンシステムを提供することを目的とする。 The present disclosure has been made in consideration of the above-mentioned problems, and aims to provide an information terminal and an intercom system that enable clear conversation depending on the user's location.

本開示の一態様に係る情報端末は、インターホン装置として動作する情報端末である。前記情報端末は、音取得部と、音声処理部と、音声認識部と、制御処理部と、を備える。前記音取得部は、ユーザの音声を含む音を取得する。前記音声処理部は、前記音取得部が取得した音に対して、前記情報端末に対する前記ユーザの距離及び方向のうち少なくとも一方である推定対象を所定の条件として音声調整処理を行う。前記音声認識部は、前記音声処理部が処理した音に対して音声認識処理を行う。前記制御処理部は、前記音声処理部が処理した音に対する前記音声認識処理の結果に基づいた制御を行う。前記音声処理部は、前記ユーザが発する音声に所定のキーワードが含まれる場合に、前記推定対象を推定する。前記音声処理部は、推定結果に応じて、受話及び発話のうち少なくとも一方に関する前記音声調整処理を行う。前記音声認識部は、前記ユーザが発する音声に前記所定のキーワードが含まれる場合に、通話開始状態とし、前記通話開始状態とした後、前記音声処理部が処理した音に、前記所定のキーワードとは異なる制御用ワードが含まれるか否かを判断する。前記制御処理部は、前記音声処理部が処理した音に前記制御用ワードが含まれると前記音声認識部が判断した場合、前記制御用ワードに応じた制御を行う。前記制御用ワードは、扉の解錠の制御に応じたワードを含む。 An information terminal according to an aspect of the present disclosure is an information terminal that operates as an intercom device. The information terminal includes a sound acquisition unit, a voice processing unit, a voice recognition unit, and a control processing unit. The sound acquisition unit acquires a sound including a user's voice. The voice processing unit performs a voice adjustment process on the sound acquired by the sound acquisition unit, with an estimation target being at least one of the distance and direction of the user relative to the information terminal as a predetermined condition. The voice recognition unit performs a voice recognition process on the sound processed by the voice processing unit. The control processing unit performs control based on a result of the voice recognition process on the sound processed by the voice processing unit. The voice processing unit estimates the estimation target when a predetermined keyword is included in the voice uttered by the user. The voice processing unit performs the voice adjustment process on at least one of receiving and uttering according to the estimation result. When the predetermined keyword is included in the voice uttered by the user, the voice recognition unit sets the state to a call start state, and after the call start state, determines whether or not the sound processed by the voice processing unit includes a control word other than the predetermined keyword. When the voice recognition unit determines that the sound processed by the voice processing unit includes the control word, the control processing unit performs control in accordance with the control word. The control word includes a word corresponding to control of unlocking a door.

本開示の一態様に係るインターホンシステムは、前記情報端末と、前記情報端末と通信するインターホン玄関装置と、を備える。 The intercom system according to one aspect of the present disclosure includes the information terminal and an intercom entrance device that communicates with the information terminal.

本開示によると、ユーザの位置に応じて明瞭な通話を行うことができる。 According to this disclosure, clear calls can be made depending on the user's location.

図1は、一実施形態に係る情報端末の構成を説明するブロック図である。FIG. 1 is a block diagram illustrating the configuration of an information terminal according to an embodiment. 図2は、同上の情報端末を備えるインターホンシステムのシステム構成を説明する図である。FIG. 2 is a diagram for explaining the system configuration of an intercom system including the above information terminal. 図3は、同上の情報端末の動作を説明する図である。FIG. 3 is a diagram for explaining the operation of the information terminal. 図4Aは、同上の情報端末に対するユーザの距離が近い場合において、同上の情報端末に表示される画像の表示態様の一例を表す図である。図4Bは、同上の情報端末に対するユーザの距離が遠い場合において、同上の情報端末に表示される画像の表示態様の一例を表す図である。4A and 4B are diagrams showing an example of a display mode of an image displayed on the information terminal of the above embodiment when the user is close to the information terminal of the above embodiment and when the user is far from the information terminal of the above embodiment; 図5は、変形例1に係る情報端末の構成を説明するブロック図である。FIG. 5 is a block diagram illustrating the configuration of an information terminal according to the first modification.

以下に説明する実施形態及び変形例は、本開示の一例に過ぎず、本開示は、実施形態及び変形例に限定されない。以下の実施形態及び変形例以外であっても、本開示に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能である。 The embodiments and modifications described below are merely examples of the present disclosure, and the present disclosure is not limited to the embodiments and modifications. Various modifications other than the embodiments and modifications below are possible depending on the design, etc., as long as they do not deviate from the technical ideas of the present disclosure.

(実施形態)
以下、本実施形態に係るインターホン装置として動作する情報端末10を備えるインターホンシステム1について、図1~図4Bを用いて説明する。
(Embodiment)
Hereinafter, an intercom system 1 including an information terminal 10 that operates as an intercom device according to this embodiment will be described with reference to FIGS. 1 to 4B.

(1)概要
以下、本実施形態に係る情報端末10について、説明する。
(1) Overview Hereinafter, an information terminal 10 according to the present embodiment will be described.

本実施形態に係る情報端末10は、図2に示すように、インターホンシステム1に適用される。インターホンシステム1は、例えば、マンション等の集合住宅5に適用される。本実施形態に係るインターホンシステム1は、情報端末10を備える。本実施形態では、インターホンシステム1は、各々がインターホン装置として動作する複数(図2では2つ)の情報端末10を備える。インターホンシステム1は、ロビーインターホン20(インターホン玄関装置)と、制御装置30と、複数(図2では2つ)の玄関子機40(インターホン玄関装置)とを、更に備える。インターホンシステム1では、複数の情報端末10の各々とロビーインターホン20とが制御装置30を介して通信を行うように構成されている。また、インターホンシステム1では、複数の情報端末10と複数の玄関子機40とが一対一に対応している。なお、本実施形態に係るインターホンシステム1は、集合住宅5以外に、戸建住宅に適用されてもよい。あるいは、インターホンシステム1は、事務所、店舗、学校若しくは介護施設等の非住宅施設等に適用されてもよい。 The information terminal 10 according to this embodiment is applied to an intercom system 1 as shown in FIG. 2. The intercom system 1 is applied to, for example, an apartment building or other collective housing 5. The intercom system 1 according to this embodiment includes an information terminal 10. In this embodiment, the intercom system 1 includes a plurality of information terminals 10 (two in FIG. 2), each of which operates as an intercom device. The intercom system 1 further includes a lobby intercom 20 (intercom entrance device), a control device 30, and a plurality of entrance sub-units 40 (intercom entrance device). In the intercom system 1, each of the plurality of information terminals 10 and the lobby intercom 20 are configured to communicate with each other via the control device 30. In the intercom system 1, the plurality of information terminals 10 and the plurality of entrance sub-units 40 correspond one-to-one to each other. The intercom system 1 according to this embodiment may be applied to a detached house in addition to the collective housing 5. Alternatively, the intercom system 1 may be applied to non-residential facilities such as offices, stores, schools, or nursing homes.

複数の情報端末10の各々は、例えば、集合住宅5に含まれる複数の住戸E2の各々に設けられている住戸端末(インターホン親機)である。各情報端末10は、例えば、各住戸E2の内玄関に設けられている。各情報端末10は、第2幹線62、分岐線63、及び分岐器50を介して制御装置30に接続されている。各情報端末10は、制御装置30を介して、ロビーインターホン20との間で通信(例えば、通話、及び制御信号の送信等)を行うように構成されている。さらに、各情報端末10は、接続線64を介して対応する玄関子機40に接続されている。各情報端末10は、対応する玄関子機40との間で通信(例えば、通話、及び制御信号の送信等)を行うように構成されている。 Each of the multiple information terminals 10 is, for example, a dwelling unit terminal (intercom master unit) provided in each of the multiple dwelling units E2 included in the apartment building 5. Each information terminal 10 is provided, for example, at the inner entrance of each dwelling unit E2. Each information terminal 10 is connected to the control device 30 via the second trunk line 62, the branch line 63, and the splitter 50. Each information terminal 10 is configured to communicate (for example, make calls and send control signals, etc.) with the lobby intercom 20 via the control device 30. Furthermore, each information terminal 10 is connected to the corresponding entrance unit 40 via a connection line 64. Each information terminal 10 is configured to communicate (for example, make calls and send control signals, etc.) with the corresponding entrance unit 40.

ロビーインターホン20は、例えば、集合住宅5の共用玄関(ロビー)E1に設けられている。ロビーインターホン20は、第1幹線61を介して制御装置30に接続されている。ロビーインターホン20は、制御装置30を介して、各情報端末10との間で通信(例えば、通話、及び映像信号の送信等)を行うように構成されている。ロビーインターホン20は、例えば、共用玄関E1の壁に取り付けられている。ロビーインターホン20が映像信号を情報端末10に送信することで、情報端末10は、映像(画像)を表示することができる。 The lobby intercom 20 is provided, for example, at the shared entrance (lobby) E1 of the apartment building 5. The lobby intercom 20 is connected to the control device 30 via a first trunk line 61. The lobby intercom 20 is configured to communicate (for example, make calls and transmit video signals, etc.) with each information terminal 10 via the control device 30. The lobby intercom 20 is attached, for example, to the wall of the shared entrance E1. The lobby intercom 20 transmits a video signal to the information terminal 10, which enables the information terminal 10 to display a video (image).

制御装置30は、例えば、集合住宅5の管理室E3に設けられている。制御装置30は、第1幹線61を介してロビーインターホン20に接続され、かつ第2幹線62を介して各情報端末10に接続されている。つまり、制御装置30は、各情報端末10とロビーインターホン20との間の通信を中継するように構成されている。 The control device 30 is provided, for example, in the management room E3 of the apartment building 5. The control device 30 is connected to the lobby intercom 20 via a first trunk line 61, and is connected to each information terminal 10 via a second trunk line 62. In other words, the control device 30 is configured to relay communication between each information terminal 10 and the lobby intercom 20.

複数の玄関子機40の各々は、例えば、集合住宅5の住戸E2の外玄関に設けられている。各玄関子機40は、接続線64を介して対応する情報端末10に接続されている。各玄関子機40は、対応する情報端末10との間で通信(例えば、通話、映像信号の送信等)を行うように構成されている。 Each of the multiple entrance sub-units 40 is provided, for example, at the outer entrance of dwelling unit E2 of apartment building 5. Each entrance sub-unit 40 is connected to a corresponding information terminal 10 via a connection line 64. Each entrance sub-unit 40 is configured to communicate (for example, make calls, transmit video signals, etc.) with the corresponding information terminal 10.

本実施形態では、第1幹線61、第2幹線62、分岐線63、及び接続線64は、いずれもツイストペア線である。つまり、実際には、第1幹線61、第2幹線62、分岐線63、及び接続線64は2本の電線で構成されるが、図面上は1本の線で表している。第1幹線61、第2幹線62、分岐線63、及び接続線64の少なくとも1つはツイストペア線以外の電線であってもよい。 In this embodiment, the first trunk 61, the second trunk 62, the branch 63, and the connection 64 are all twisted pair wires. In other words, in reality, the first trunk 61, the second trunk 62, the branch 63, and the connection 64 are each composed of two electric wires, but are shown as a single line in the drawings. At least one of the first trunk 61, the second trunk 62, the branch 63, and the connection 64 may be an electric wire other than a twisted pair wire.

本実施形態に係る情報端末10は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。ここで、ユーザは、例えば、住戸E2の住人である。また、受話は、情報端末10が受け取るユーザの音声を含む。発話は、情報端末10がユーザに対して出力する音声を含む。ユーザに対して出力する音声の送信元は、例えば、集合住宅5への訪問者であるが、ロビーインターホン20又は玄関子機40から各住戸E2のユーザを呼び出す者であればよく、外出先から帰宅した各住戸E2の住人(呼出対象のユーザとは異なるユーザ)等であってもよい。 The information terminal 10 according to this embodiment performs a voice adjustment process for at least one of receiving and speaking based on at least one of the distance and direction of the user relative to the information terminal 10. Here, the user is, for example, a resident of the dwelling unit E2. The received voice includes the user's voice received by the information terminal 10. The spoken voice includes the voice output by the information terminal 10 to the user. The sender of the voice output to the user is, for example, a visitor to the apartment building 5, but it may be anyone who calls the user of each dwelling unit E2 from the lobby intercom 20 or the entrance unit 40, or it may be a resident of each dwelling unit E2 who has returned home from outside (a user different from the user to be called), etc.

本実施形態に係る情報端末10では、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。そのため、情報端末10は、適切な音声を、通信対象の機器(ロビーインターホン20、玄関子機40)に出力、又はユーザに対して出力することができる。例えば、ユーザが情報端末10から離れた位置でロビーインターホン20から呼び出しに対応する場合、情報端末10がユーザから受け取る音声が小さくても適切な音量に調整してロビーインターホン20に出力することができる。 In the information terminal 10 according to this embodiment, sound adjustment processing is performed for at least one of receiving and speaking based on at least one of the distance and direction of the user relative to the information terminal 10. Therefore, the information terminal 10 can output an appropriate sound to the device with which it is communicating (lobby intercom 20, entrance unit 40) or to the user. For example, when a user answers a call from the lobby intercom 20 while in a location away from the information terminal 10, even if the sound received by the information terminal 10 from the user is low, it can be adjusted to an appropriate volume and output to the lobby intercom 20.

(2)構成
(2-1)情報端末
情報端末10は、図1に示すように、第1通信部11、第2通信部12、音取得部13、操作部14、出力部15、表示部16、記憶部17及び制御部18を備える。
(2) Configuration (2-1) Information Terminal As shown in FIG. 1, the information terminal 10 includes a first communication unit 11, a second communication unit 12, a sound acquisition unit 13, an operation unit 14, an output unit 15, a display unit 16, a memory unit 17, and a control unit 18.

情報端末10は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部18として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。 The information terminal 10 has, for example, a microcomputer having a processor and a memory. The processor executes a program stored in the memory, causing the microcomputer to function as the control unit 18. The program executed by the processor is pre-recorded in the memory of the microcomputer here, but may also be provided by being recorded on a non-transitory recording medium such as a memory card, or may be provided via a telecommunications line such as the Internet.

第1通信部11は、ロビーインターホン20(の通信部21)と通信するための通信インタフェースである。第1通信部11は、第2幹線62、分岐線63、及び分岐器50を介して制御装置30に接続されている。第1通信部11は、制御装置30を介して、ロビーインターホン20に対して音声信号、及び制御信号等を送信する。さらに、第1通信部11は、制御装置30を介して、ロビーインターホン20から音声信号、及び映像信号等を受信する。 The first communication unit 11 is a communication interface for communicating with the lobby intercom 20 (its communication unit 21). The first communication unit 11 is connected to the control device 30 via the second main line 62, the branch line 63, and the splitter 50. The first communication unit 11 transmits audio signals, control signals, etc. to the lobby intercom 20 via the control device 30. Furthermore, the first communication unit 11 receives audio signals, video signals, etc. from the lobby intercom 20 via the control device 30.

第2通信部12は、玄関子機40と通信するための通信インタフェースである。第2通信部12は、接続線64を介して玄関子機40に接続されている。第2通信部12は、玄関子機40に対して音声信号、及び制御信号等を送信し、玄関子機40から音声信号、及び映像信号等を受信する。 The second communication unit 12 is a communication interface for communicating with the front door sub-unit 40. The second communication unit 12 is connected to the front door sub-unit 40 via a connection line 64. The second communication unit 12 transmits audio signals, control signals, etc. to the front door sub-unit 40, and receives audio signals, video signals, etc. from the front door sub-unit 40.

音取得部13は、少なくともユーザの音声を含む音を取得し、取得した音に係る音情報を制御部18に出力する。音取得部13は、複数のマイクロホンを有している。複数のマイクロホンの各々は、指向性を有するマイクロホンである。本実施形態では、音取得部13は、図1に示すように、2つのマイクロホン(第1マイクロホン131及び第2マイクロホン132)を有している。第1マイクロホン131及び第2マイクロホン132は、水平方向(左右方向)及び鉛直方向(上下方向)の少なくとも一方において指向性を有している。第1マイクロホン131及び第2マイクロホン132は、左右方向に沿って並べられて配置されている。第1マイクロホン131及び第2マイクロホン132は、情報端末10の前方に位置するユーザの音声(音)を含む周囲の音を取得し、取得した音をアナログの音信号(音情報)に変換して制御部18に出力する。 The sound acquisition unit 13 acquires sounds including at least the user's voice, and outputs sound information related to the acquired sounds to the control unit 18. The sound acquisition unit 13 has a plurality of microphones. Each of the plurality of microphones is a directional microphone. In this embodiment, the sound acquisition unit 13 has two microphones (a first microphone 131 and a second microphone 132) as shown in FIG. 1. The first microphone 131 and the second microphone 132 have directionality in at least one of the horizontal direction (left-right direction) and the vertical direction (up-down direction). The first microphone 131 and the second microphone 132 are arranged side by side along the left-right direction. The first microphone 131 and the second microphone 132 acquire surrounding sounds including the voice (sound) of a user located in front of the information terminal 10, convert the acquired sounds into analog sound signals (sound information), and output them to the control unit 18.

操作部14は、ユーザ(例えば、各住戸E2の住人等)の操作を受け付けるように構成されている。操作部14は、少なくとも通話ボタンを有している。通話ボタンは、ロビーインターホン20、又は玄関子機40からの呼び出しに対して、ロビーインターホン20、又は玄関子機40との通信(訪問者等との通話)を開始するためのボタンである。つまり、第1通信部11が住人を呼び出すための呼出信号を受信している状態で通話ボタンが押されると、ロビーインターホン20、又は玄関子機40と情報端末10との間で音声通話が可能になる。 The operation unit 14 is configured to accept operations by a user (e.g., a resident of each dwelling unit E2, etc.). The operation unit 14 has at least a call button. The call button is a button for starting communication (a call with a visitor, etc.) with the lobby intercom 20 or the front door unit 40 in response to a call from the lobby intercom 20 or the front door unit 40. In other words, when the call button is pressed while the first communication unit 11 is receiving a call signal to call a resident, a voice call becomes possible between the lobby intercom 20 or the front door unit 40 and the information terminal 10.

出力部15は、例えばスピーカである。出力部15は、情報端末10がロビーインターホン20と通話可能な状態である場合には、ロビーインターホン20から送信された音データに基づいた音(訪問者等の音声を含む)を出力する。出力部15は、情報端末10が玄関子機40と通話可能な状態である場合には、玄関子機40から送信された音データに基づいた音(訪問者等の音声を含む)を出力する。 The output unit 15 is, for example, a speaker. When the information terminal 10 is in a state where it can communicate with the lobby intercom 20, the output unit 15 outputs sound (including the voice of a visitor, etc.) based on sound data transmitted from the lobby intercom 20. When the information terminal 10 is in a state where it can communicate with the front door unit 40, the output unit 15 outputs sound (including the voice of a visitor, etc.) based on sound data transmitted from the front door unit 40.

表示部16は、例えば、液晶ディスプレイである。表示部16は、映像を表示するように構成されている。表示部16は、情報端末10がロビーインターホン20と通話(通信)可能な状態である場合に、通信対象であるロビーインターホン20が撮像した映像を表示する。表示部16は、情報端末10が玄関子機40と通話(通信)可能な状態である場合に、通信対象である玄関子機40が撮像した映像を表示する。なお、情報端末10がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部16と操作部14とを兼ねてもよい。 The display unit 16 is, for example, a liquid crystal display. The display unit 16 is configured to display images. When the information terminal 10 is in a state where it can make a call (communicate) with the lobby intercom 20, the display unit 16 displays an image captured by the lobby intercom 20, which is the communication target. When the information terminal 10 is in a state where it can make a call (communicate) with the front door intercom 40, the display unit 16 displays an image captured by the front door intercom 40, which is the communication target. Note that, when the information terminal 10 is equipped with a touch panel display, the touch panel display may serve as both the display unit 16 and the operation unit 14.

記憶部17は、読み書き可能なメモリで構成されている。記憶部17は、例えば、フラッシュメモリである。記憶部17は、例えば、情報端末10とユーザとの距離を推定するための基準となる基準情報を記憶する。基準情報は、例えば、定常位置からユーザが発した音声が情報端末10に入力された場合における信号の強度を表す入力レベルを含む。入力レベルを表す単位は、例えば[dBspl]、[dBm]である。 The storage unit 17 is composed of a readable and writable memory. The storage unit 17 is, for example, a flash memory. The storage unit 17 stores, for example, reference information that serves as a standard for estimating the distance between the information terminal 10 and the user. The reference information includes, for example, an input level that represents the strength of a signal when a voice uttered by a user from a fixed position is input to the information terminal 10. The unit for expressing the input level is, for example, [dBspl] or [dBm].

制御部18は、図1に示すように、音声処理部181、音声認識部182、制御処理部183、表示処理部184及び送出部185を有している。 As shown in FIG. 1, the control unit 18 has a voice processing unit 181, a voice recognition unit 182, a control processing unit 183, a display processing unit 184, and a transmission unit 185.

音声処理部181は、音取得部13が取得した音に対して、所定の条件に応じて音声調整処理を行う。ここで、所定の条件は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方を含む。本実施形態では、所定の条件は、情報端末10に対するユーザの距離及び方向の双方を含む。以下、音声処理部181が行う音声調整処理についての具体例を記載する。 The audio processing unit 181 performs audio adjustment processing on the sound acquired by the sound acquisition unit 13 in accordance with predetermined conditions. Here, the predetermined conditions include at least one of the distance and direction of the user relative to the information terminal 10. In this embodiment, the predetermined conditions include both the distance and direction of the user relative to the information terminal 10. Below, a specific example of the audio adjustment processing performed by the audio processing unit 181 is described.

音声処理部181は、音取得部13が出力したアナログの音信号を取得する。音声処理部181は、取得したアナログの音信号を、デジタルの音信号に変換する。また、音声処理部181は、音取得部13から取得した音信号に対して所定のフィルタリング処理等を行うように構成されている。音声処理部181は、例えば複数のエコーキャンセラ(第1エコーキャンセラ、第2エコーキャンセラ)を含む。第1エコーキャンセラは、第1マイクロホン131から出力された音信号に対してエコーの抑制又は除去を行う。第2エコーキャンセラは、第2マイクロホンから出力された音信号に対してエコーの抑制又は除去を行う。 The audio processing unit 181 acquires the analog sound signal output by the sound acquisition unit 13. The audio processing unit 181 converts the acquired analog sound signal into a digital sound signal. The audio processing unit 181 is also configured to perform a predetermined filtering process or the like on the sound signal acquired from the sound acquisition unit 13. The audio processing unit 181 includes, for example, multiple echo cancellers (a first echo canceller, a second echo canceller). The first echo canceller suppresses or removes echo from the sound signal output from the first microphone 131. The second echo canceller suppresses or removes echo from the sound signal output from the second microphone.

音声処理部181は、音取得部13が取得した音にユーザが発した所定のキーワードを含む場合に、情報端末10に対するユーザの距離及び方向を推定する。すなわち、音声処理部181は、ユーザが発した音声として所定のキーワードを音取得部13が取得することをトリガとし、所定の条件としての情報(距離、方向)の取得(推定)を実行する。 When the sound acquired by the sound acquisition unit 13 includes a predetermined keyword uttered by the user, the sound processing unit 181 estimates the distance and direction of the user relative to the information terminal 10. That is, the sound processing unit 181 is triggered by the sound acquisition unit 13 acquiring a predetermined keyword as a voice uttered by the user, and executes acquisition (estimation) of information (distance, direction) as a predetermined condition.

音声処理部181は、音取得部13が取得した音に係る音情報に基づいて、音声を発する人の方向を推定する。具体的には、音声処理部181は、第1信号と、第2信号との位相差に基づいて音声を発する人の方向を推定する。ここで、第1信号は、第1マイクロホン131から出力されたアナログの音信号に対するデジタルの音信号である。第2信号は、第2マイクロホン132から出力されたアナログの音信号に対するデジタルの音信号である。 The sound processing unit 181 estimates the direction of the person making the sound based on the sound information related to the sound acquired by the sound acquisition unit 13. Specifically, the sound processing unit 181 estimates the direction of the person making the sound based on the phase difference between the first signal and the second signal. Here, the first signal is a digital sound signal corresponding to the analog sound signal output from the first microphone 131. The second signal is a digital sound signal corresponding to the analog sound signal output from the second microphone 132.

音声処理部181は、方向に対する推定結果に基づいて、音取得部13による音の取得方向を制御する。具体的には、音声処理部181は、第1マイクロホン131及び第2マイクロホン132の各々から入力される音声信号に対して各種演算を行うことで、所望の方向の感度を高めた音声信号に変換する。これにより、所望の方向のS/N比が向上する。つまり、制御部18は、音声処理部181の推定結果に基づいて、各マイクロホンから入力される音に基づいて、音取得部13による音の取得方向を制御することができる。 The sound processing unit 181 controls the direction of sound acquisition by the sound acquisition unit 13 based on the estimation result for the direction. Specifically, the sound processing unit 181 performs various calculations on the sound signals input from each of the first microphone 131 and the second microphone 132 to convert them into sound signals with increased sensitivity in the desired direction. This improves the S/N ratio in the desired direction. In other words, the control unit 18 can control the direction of sound acquisition by the sound acquisition unit 13 based on the sound input from each microphone, based on the estimation result of the sound processing unit 181.

音声処理部181は、例えばノイズサプレッサを含む。音声処理部181は、ゲイン調整された2つの信号を含む音の信号に対してノイズの抑制又は除去を行う。 The audio processing unit 181 includes, for example, a noise suppressor. The audio processing unit 181 suppresses or removes noise from the sound signal that includes the two gain-adjusted signals.

音声処理部181は、記憶部17が記憶する基準情報を用いてユーザとの距離を推定する。音声処理部181は、音取得部13が取得した音に係る音信号(音情報)に対する信号レベル(強度)を測定する。例えば、音声処理部181は、信号レベル(強度)の計測として、音取得部13が取得した音に係る音信号の信号レベルの単位時間当たりの平均値を算出する。音声処理部181は、音信号の信号レベルが基準情報に含まれる入力レベル以上である場合には、情報端末10とユーザとの距離は近いと推定する。音声処理部181は、音取得部13が取得した音に係る信号(デジタルの音信号)の信号レベルが、基準情報に含まれる入力レベル未満である場合には、情報端末10とユーザとの距離は遠いと推定する。要するに、距離には、音取得部13が取得した音に基づいて推定される結果が含まれる。言い換えると、距離は、音取得部13が取得した音に基づいて推定される結果を含む。また、基準情報に含まれる入力レベルは、ユーザごとに異なってもよい。 The voice processing unit 181 estimates the distance to the user using the reference information stored in the storage unit 17. The voice processing unit 181 measures the signal level (intensity) of the sound signal (sound information) related to the sound acquired by the sound acquisition unit 13. For example, the voice processing unit 181 calculates the average value per unit time of the signal level of the sound signal related to the sound acquired by the sound acquisition unit 13 as a measurement of the signal level (intensity). If the signal level of the sound signal is equal to or higher than the input level included in the reference information, the voice processing unit 181 estimates that the distance between the information terminal 10 and the user is close. If the signal level of the signal (digital sound signal) related to the sound acquired by the sound acquisition unit 13 is lower than the input level included in the reference information, the voice processing unit 181 estimates that the distance between the information terminal 10 and the user is far. In short, the distance includes a result estimated based on the sound acquired by the sound acquisition unit 13. In other words, the distance includes a result estimated based on the sound acquired by the sound acquisition unit 13. In addition, the input level included in the reference information may differ for each user.

音声処理部181は、情報端末10とユーザとの距離は近いと推定した場合、ユーザの音声の音量が小さくなるように音が入力されるゲインを小さくする。例えば、音声処理部181は、音が入力されるゲインが小さくなるように設定を変更する。 When the audio processing unit 181 estimates that the distance between the information terminal 10 and the user is short, it reduces the gain at which sound is input so that the volume of the user's voice decreases. For example, the audio processing unit 181 changes the setting so that the gain at which sound is input decreases.

音声処理部181は、情報端末10とユーザとの距離は遠いと推定した場合、ユーザの音声の音量が大きくなるように音が入力されるゲインを大きくする。例えば、音声処理部181は、音が入力されるゲインが大きくなるように設定を変更する。 When the audio processing unit 181 estimates that the distance between the information terminal 10 and the user is far, it increases the gain at which sound is input so that the volume of the user's voice increases. For example, the audio processing unit 181 changes the settings so that the gain at which sound is input increases.

音声処理部181は、音取得部13が取得した音の信号レベルが基準情報に含まれる入力レベルと同じとなるように設定を変更する。 The audio processing unit 181 changes the settings so that the signal level of the sound acquired by the sound acquisition unit 13 is the same as the input level included in the reference information.

音声認識部182は、音声処理部181が処理した音に対して音声認識処理を行う。音声認識部182は、音声認識処理を行うことで、音声処理部181が処理した音に所定のキーワードが含まれるか否かを判断する。音声認識部182は、音声処理部181が処理した音に所定のキーワードが含まれると判断する場合には、音声処理部181に情報端末10に対するユーザの距離及び方向を推定するように指示する。 The voice recognition unit 182 performs voice recognition processing on the sound processed by the voice processing unit 181. By performing voice recognition processing, the voice recognition unit 182 determines whether or not the sound processed by the voice processing unit 181 contains a predetermined keyword. If the voice recognition unit 182 determines that the sound processed by the voice processing unit 181 contains a predetermined keyword, it instructs the voice processing unit 181 to estimate the distance and direction of the user relative to the information terminal 10.

音声認識部182は、音声処理部181が処理した音に所定のキーワードが含まれると判断する場合には、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)との通信(通話)を開始するよう、情報端末10を制御する。 When the voice recognition unit 182 determines that the sound processed by the voice processing unit 181 contains a predetermined keyword, it controls the information terminal 10 to start communication (a call) with the intercom entrance device (lobby intercom 20, entrance handset 40) that is the communication target.

音声認識部182は、音声処理部181が処理した音に、インターホンシステム1における制御に係るキーワード(制御用ワード)が含まれるか否かを判断する。 The voice recognition unit 182 determines whether the sound processed by the voice processing unit 181 contains keywords (control words) related to control in the intercom system 1.

制御処理部183は、音声認識部182による上記判断の結果に応じて、インターホンシステム1における制御に係る処理を行う。具体的には、制御処理部183は、音声処理部181が処理した音に制御用ワードが含まれると音声認識部182が判断すると、音声処理部181が処理した音に含まれる制御用ワードに応じた処理を行う。 The control processing unit 183 performs processing related to control in the intercom system 1 according to the result of the above-mentioned judgment by the voice recognition unit 182. Specifically, when the voice recognition unit 182 judges that the sound processed by the voice processing unit 181 contains a control word, the control processing unit 183 performs processing according to the control word contained in the sound processed by the voice processing unit 181.

例えば、情報端末10がロビーインターホン20と通信中に、情報端末10は、ユーザから制御用ワードとして“ドアを開けて”を含む音声を受け取る。この場合、音声認識部182は、音声処理部181が処理した音声に制御用ワード“ドアを開けて”が含まれると判断する。制御処理部183は、共用玄関E1から入室するための扉の開錠を制御する。 For example, while the information terminal 10 is communicating with the lobby intercom 20, the information terminal 10 receives a voice from the user that includes the control word "open the door." In this case, the voice recognition unit 182 determines that the voice processed by the voice processing unit 181 includes the control word "open the door." The control processing unit 183 controls the unlocking of the door for entering from the shared entrance E1.

さらに、制御処理部183は、ユーザから操作部14が所定の操作を受け付けた場合に、上記扉の開錠を制御する。 Furthermore, the control processing unit 183 controls the unlocking of the door when the operation unit 14 receives a predetermined operation from the user.

表示処理部184は、表示部16に通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像を表示させるための処理を行う。より詳細には、表示処理部184は、所定の条件に応じて表示部16が表示する画像の表示態様を変更する。 The display processing unit 184 performs processing to display on the display unit 16 an image captured by the intercom entrance device (lobby intercom 20, entrance slave unit 40) that is the communication target. More specifically, the display processing unit 184 changes the display mode of the image displayed by the display unit 16 according to predetermined conditions.

具体的には、情報端末10とユーザとの距離が近いと音声処理部181が推定する場合、表示処理部184は、インターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像の倍率を変更することなく表示するように、表示部16を制御する。情報端末10とユーザとの距離が遠いと音声処理部181が推定する場合、表示処理部184は、インターホン玄関装置が撮像した画像の倍率を高くして表示、例えば訪問者の顔を拡大して表示するように、表示部16を制御する。 Specifically, when the voice processing unit 181 estimates that the distance between the information terminal 10 and the user is short, the display processing unit 184 controls the display unit 16 to display the image captured by the intercom entrance device (lobby intercom 20, entrance unit 40) without changing the magnification. When the voice processing unit 181 estimates that the distance between the information terminal 10 and the user is long, the display processing unit 184 controls the display unit 16 to display the image captured by the intercom entrance device at a higher magnification, for example, to enlarge and display the visitor's face.

また、情報端末10に対してユーザが第1マイクロホン131側の方向にユーザが存在すると音声処理部181が推定する場合、表示処理部184は、訪問者の顔が表示部16の画面の中心よりもユーザが存在すると推定された方向、つまり第1マイクロホン131側に表示されるように、表示部16を制御する。情報端末10に対してユーザが第2マイクロホン132側の方向にユーザが存在すると音声処理部181が推定する場合、表示処理部184は、訪問者の顔が表示部16の画面の中心よりも第2マイクロホン132側に表示されるように、表示部16を制御してもよい。 In addition, when the voice processing unit 181 estimates that the user is present in the direction of the first microphone 131 with respect to the information terminal 10, the display processing unit 184 controls the display unit 16 so that the visitor's face is displayed in the direction in which the user is estimated to be present, that is, on the first microphone 131 side, rather than the center of the screen of the display unit 16. When the voice processing unit 181 estimates that the user is present in the direction of the second microphone 132 with respect to the information terminal 10, the display processing unit 184 may control the display unit 16 so that the visitor's face is displayed on the second microphone 132 side, rather than the center of the screen of the display unit 16.

送出部185は、音取得部13が取得した音に係る音データ(音情報)を、通話先の人が操作する装置に出力する。具体的には、送出部185は、音声処理部181でノイズの抑制又は除去がされた音の信号を、第1通信部11又は第2通信部12を介して、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)に送信する。例えば、情報端末10がロビーインターホン20と通信を行っている場合には、送出部185は、音声処理部181でノイズの抑制又は除去がされた音の信号を、第1通信部11を介してロビーインターホン20に送信する。 The sending unit 185 outputs sound data (sound information) related to the sound acquired by the sound acquisition unit 13 to a device operated by the person at the other end of the call. Specifically, the sending unit 185 transmits a sound signal from which noise has been suppressed or removed by the voice processing unit 181 to the intercom entrance device (lobby intercom 20, entrance handset 40) that is the communication target via the first communication unit 11 or the second communication unit 12. For example, when the information terminal 10 is communicating with the lobby intercom 20, the sending unit 185 transmits a sound signal from which noise has been suppressed or removed by the voice processing unit 181 to the lobby intercom 20 via the first communication unit 11.

(2-2)ロビーインターホン
ロビーインターホン20は、図2に示すように、通信部21と、制御部22と、通話部23と、表示部24と、操作部25と、記憶部26と、撮像部27と、を備えている。
(2-2) Lobby Intercom The lobby intercom 20 includes a communication unit 21, a control unit 22, a call unit 23, a display unit 24, an operation unit 25, a memory unit 26, and an imaging unit 27, as shown in FIG.

ロビーインターホン20は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部22として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。 The lobby intercom 20 has, for example, a microcomputer having a processor and memory. The processor executes a program stored in the memory, causing the microcomputer to function as the control unit 22. The program executed by the processor is pre-recorded in the memory of the microcomputer here, but it may also be provided by being recorded on a non-transitory recording medium such as a memory card, or it may be provided via a telecommunications line such as the Internet.

通信部21は、情報端末10(の第1通信部11)と通信するための通信インタフェースである。通信部21は、第1幹線61を介して制御装置30(の通信部31)に接続されている。通信部21は、制御装置30を介して、情報端末10に対して音声信号、及び映像信号等を送信する。さらに、通信部21は、制御装置30を介して、情報端末10から音声信号、及び制御信号等を受信する。ここで、ロビーインターホン20からの通信信号には、情報端末10を特定するための情報(例えば、アドレス情報等)が含まれている。そのため、この通信信号に含まれるアドレス情報と一致するアドレス情報が割り当てられた情報端末10のみが通信信号を受信することができる。 The communication unit 21 is a communication interface for communicating with the information terminal 10 (the first communication unit 11 of the information terminal 10). The communication unit 21 is connected to the control device 30 (the communication unit 31 of the control device 30) via the first trunk line 61. The communication unit 21 transmits audio signals, video signals, etc. to the information terminal 10 via the control device 30. Furthermore, the communication unit 21 receives audio signals, control signals, etc. from the information terminal 10 via the control device 30. Here, the communication signal from the lobby intercom 20 contains information (e.g., address information, etc.) for identifying the information terminal 10. Therefore, only information terminals 10 that are assigned address information that matches the address information contained in this communication signal can receive the communication signal.

制御部22は、通信部21、通話部23、及び撮像部27等を制御するように構成されている。 The control unit 22 is configured to control the communication unit 21, the call unit 23, and the imaging unit 27, etc.

通話部23は、スピーカ及びマイクロホンを含み、情報端末10との間で通話可能に構成されている。 The communication unit 23 includes a speaker and a microphone, and is configured to enable communication with the information terminal 10.

表示部24は、例えば、液晶ディスプレイである。表示部24は、撮像部27が撮像した映像を表示するように構成されている。また、表示部24は、訪問者等に対してメッセージを表示するように構成されている。メッセージは、例えば、訪問者等に発話を促すためのメッセージである。表示部24は、例えば、「お話しください」等のメッセージを表示する。この場合において、同様の音声メッセージを通話部23のスピーカ、又は通話部23のスピーカとは別に設けられたスピーカから出力(報知)してもよい。また、表示部24とスピーカとを併用してもよい。なお、情報端末10がタッチパネルディスプレイを備えている場合には、タッチパネルディスプレイが表示部24と操作部25とを兼ねてもよい。 The display unit 24 is, for example, a liquid crystal display. The display unit 24 is configured to display an image captured by the imaging unit 27. The display unit 24 is also configured to display a message to a visitor, etc. The message is, for example, a message to encourage the visitor, etc. to speak. The display unit 24 displays a message such as "Please speak." In this case, a similar voice message may be output (announced) from the speaker of the call unit 23 or a speaker provided separately from the speaker of the call unit 23. The display unit 24 and the speaker may also be used together. Note that, if the information terminal 10 is equipped with a touch panel display, the touch panel display may serve as both the display unit 24 and the operation unit 25.

操作部25は、ユーザ(例えば、集合住宅5への訪問者、住人等)の操作を受け付けるように構成されている。操作部25は、例えば、複数の押ボタンスイッチ、及びタッチパネル等を有する入力インタフェースである。 The operation unit 25 is configured to accept operations from a user (e.g., a visitor to the apartment complex 5, a resident, etc.). The operation unit 25 is, for example, an input interface having multiple push button switches, a touch panel, etc.

記憶部26は、読み書き可能なメモリで構成されている。記憶部26は、例えば、フラッシュメモリである。記憶部26は、例えば、撮像部27で撮像された映像(画像)の映像データを記憶する。 The storage unit 26 is composed of a readable and writable memory. The storage unit 26 is, for example, a flash memory. The storage unit 26 stores, for example, video data of a video (image) captured by the imaging unit 27.

撮像部27は、撮像素子を有し、被写体(ユーザ)を撮像するためのカメラである。本実施形態では、撮像部27の撮像エリア(視野)は、情報端末10の前方に設定されている。本実施形態では、撮像部27は動画を撮像するカメラである。さらに、本実施形態では、撮像部27はカラー画像を撮像するカメラである。なお、撮像部27は、静止画を撮像するカメラ(スチルカメラ)であってもよいし、モノクロ画像を撮像するカメラであってもよい。 The imaging unit 27 has an imaging element and is a camera for capturing an image of a subject (user). In this embodiment, the imaging area (field of view) of the imaging unit 27 is set in front of the information terminal 10. In this embodiment, the imaging unit 27 is a camera that captures moving images. Furthermore, in this embodiment, the imaging unit 27 is a camera that captures color images. Note that the imaging unit 27 may be a camera that captures still images (still camera) or a camera that captures monochrome images.

撮像素子は、例えば、CCD(Charge Coupled Devices)イメージセンサ、又はCMOS(Complementary Metal-Oxide Semiconductor)イメージセンサ等の二次元イメージセンサである。撮像部27は、被写体からの光をレンズ等の光学系によって撮像素子の撮像面(受光面)上に結像させ、撮像素子にて被写体からの光を電気信号に変換する。そして、撮像部27は、撮像素子の出力信号を映像信号として制御部22に出力する。 The imaging element is, for example, a two-dimensional image sensor such as a CCD (Charge Coupled Devices) image sensor or a CMOS (Complementary Metal-Oxide Semiconductor) image sensor. The imaging unit 27 forms an image of light from the subject on the imaging surface (light-receiving surface) of the imaging element using an optical system such as a lens, and converts the light from the subject into an electrical signal in the imaging element. The imaging unit 27 then outputs the output signal of the imaging element to the control unit 22 as a video signal.

(2-3)制御装置
制御装置30は、図2に示すように、通信部31と、制御部32と、記憶部33と、を備えている。
(2-3) Control Device As shown in FIG. 2, the control device 30 includes a communication unit 31, a control unit 32, and a storage unit 33.

制御装置30は、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部32として機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。 The control device 30 has, for example, a microcomputer having a processor and a memory. The processor executes a program stored in the memory, causing the microcomputer to function as the control unit 32. The program executed by the processor is pre-recorded in the memory of the microcomputer here, but may also be provided by being recorded on a non-transitory recording medium such as a memory card, or may be provided via a telecommunications line such as the Internet.

通信部31は、各情報端末10、及びロビーインターホン20と通信するための通信インタフェースを含んでいる。通信部31は、第1幹線61を介してロビーインターホン20に接続され、第2幹線62を介して各情報端末10に接続されている。つまり、通信部31は、各情報端末10とロビーインターホン20との間の通信を中継するように構成されている。 The communication unit 31 includes a communication interface for communicating with each information terminal 10 and the lobby intercom 20. The communication unit 31 is connected to the lobby intercom 20 via a first trunk line 61, and is connected to each information terminal 10 via a second trunk line 62. In other words, the communication unit 31 is configured to relay communication between each information terminal 10 and the lobby intercom 20.

制御部32は、通信部31を制御するように構成されている。 The control unit 32 is configured to control the communication unit 31.

記憶部33は、読み書き可能なメモリで構成されている。記憶部33は、例えば、フラッシュメモリである。記憶部33は、例えば、各住戸E2に割り当てられた部屋番号と、各情報端末10に割り当てられたアドレス情報との対応関係を表す対応テーブルを記憶する。つまり、制御装置30では、制御部32は、対応テーブルを参照して、ロビーインターホン20からの信号に含まれる部屋番号を対応する情報端末10のアドレス情報に置き換えた信号を作成し、この信号を通信部31から各情報端末10に送信させる。そして、各情報端末10では、制御部18は、第1通信部11が受信した信号に含まれるアドレス情報が、記憶部17に記憶されているアドレス情報と一致する場合には、この信号に含まれる情報を取得する。また、各情報端末10では、制御部18は、第1通信部11が受信した信号に含まれるアドレス情報が、記憶部17に記憶されているアドレス情報と一致しない場合には、この信号に含まれる情報を破棄する。 The storage unit 33 is composed of a readable and writable memory. The storage unit 33 is, for example, a flash memory. The storage unit 33 stores, for example, a correspondence table showing the correspondence between the room number assigned to each dwelling unit E2 and the address information assigned to each information terminal 10. That is, in the control device 30, the control unit 32 refers to the correspondence table to create a signal in which the room number included in the signal from the lobby intercom 20 is replaced with the address information of the corresponding information terminal 10, and causes the communication unit 31 to transmit this signal to each information terminal 10. Then, in each information terminal 10, the control unit 18 acquires the information included in the signal when the address information included in the signal received by the first communication unit 11 matches the address information stored in the storage unit 17. Also, in each information terminal 10, the control unit 18 discards the information included in the signal when the address information included in the signal received by the first communication unit 11 does not match the address information stored in the storage unit 17.

(2-4)玄関子機
各玄関子機40は、図2に示すように、接続線64を介して対応する情報端末10に接続されている。玄関子機40は、情報端末10に対して音声信号、及び映像信号等を送信する。さらに、玄関子機40は、情報端末10から音声信号、及び制御信号等を受信する。
2, each of the front door slave units 40 is connected to a corresponding information terminal 10 via a connection line 64. The front door slave unit 40 transmits audio signals, video signals, etc. to the information terminal 10. Furthermore, the front door slave unit 40 receives audio signals, control signals, etc. from the information terminal 10.

(3)動作
ここでは、情報端末10の動作について、図3を用いて説明する。
(3) Operation Here, the operation of the information terminal 10 will be described with reference to FIG.

音声認識部182は、音取得部13が取得した音に係る音情報を用いて、音取得部13が取得した音にユーザが発した所定のキーワードが含まれるか否かを判断する(ステップS1)。 The voice recognition unit 182 uses the sound information related to the sound acquired by the sound acquisition unit 13 to determine whether the sound acquired by the sound acquisition unit 13 contains a predetermined keyword uttered by the user (step S1).

音取得部13が取得した音に所定のキーワードが含まれないと音声認識部182が判断する場合(ステップS1における「No」)、処理は、当該判定を繰り返す。 If the voice recognition unit 182 determines that the sound acquired by the sound acquisition unit 13 does not contain a predetermined keyword ("No" in step S1), the process repeats this determination.

音取得部13が取得した音に所定のキーワードが含まれると音声認識部182が判断する場合(ステップS1における「Yes」)、音声処理部181は、情報端末10に対するユーザの方向を推定する(ステップS2)。具体的には、音声処理部181は、第1信号と、第2信号との位相差に基づいて音声を発する人の方向を推定する。 When the voice recognition unit 182 determines that the sound acquired by the sound acquisition unit 13 includes a predetermined keyword ("Yes" in step S1), the voice processing unit 181 estimates the direction of the user relative to the information terminal 10 (step S2). Specifically, the voice processing unit 181 estimates the direction of the person making the sound based on the phase difference between the first signal and the second signal.

音声処理部181は、音取得部13が取得した音に係る音信号(音情報)に対する信号レベル(強度)を測定する(ステップS3)。音声処理部181は、音声処理部181は、音信号の信号レベルが基準情報に含まれる入力レベル以上であるか否かを判断する(ステップS4)。 The audio processing unit 181 measures the signal level (intensity) of the sound signal (sound information) related to the sound acquired by the sound acquisition unit 13 (step S3). The audio processing unit 181 determines whether the signal level of the sound signal is equal to or higher than the input level included in the reference information (step S4).

音信号の信号レベルが基準情報に含まれる入力レベル以上であると判断する場合(ステップS4における「Yes」)、音声処理部181は、情報端末10とユーザとの距離は近いと推定し、第1音声処理を行う(ステップS5)。具体的には、音声処理部181は、情報端末10とユーザとの距離は近いと推定した場合、ユーザの音声の音量が小さくなるように音が入力されるゲインを小さくする。このとき、送出部185は、音量が小さくなるように音量調整された音の信号を、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)に送信する。 When it is determined that the signal level of the sound signal is equal to or higher than the input level included in the reference information ("Yes" in step S4), the sound processing unit 181 estimates that the distance between the information terminal 10 and the user is close, and performs the first sound processing (step S5). Specifically, when the sound processing unit 181 estimates that the distance between the information terminal 10 and the user is close, it reduces the gain at which the sound is input so that the volume of the user's voice is reduced. At this time, the sending unit 185 transmits the sound signal, which has been adjusted to reduce the volume, to the intercom entrance device (lobby intercom 20, entrance unit 40) that is the communication target.

さらに、表示処理部184は、第1表示処理を行う(ステップS6)。具体的には、情報端末10とユーザとの距離が近いと音声処理部181が推定する場合、表示処理部184は、インターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像の倍率を変更することなく表示するように、表示部16を制御する。このとき、表示部16は、ロビーインターホン20において呼出操作を行った訪問者U1を撮像した画像G10を、当該画像G10の倍率を変更することなく表示する(図4A参照)。 Furthermore, the display processing unit 184 performs a first display process (step S6). Specifically, when the voice processing unit 181 estimates that the information terminal 10 is close to the user, the display processing unit 184 controls the display unit 16 to display the image captured by the intercom entrance device (lobby intercom 20, entrance slave unit 40) without changing the magnification. At this time, the display unit 16 displays an image G10 captured of a visitor U1 who has made a call operation on the lobby intercom 20 without changing the magnification of the image G10 (see FIG. 4A).

音信号の信号レベルが基準情報に含まれる入力レベル以上でない、つまり信号レベルが入力レベル未満であると判断する場合(ステップS4における「No」)、音声処理部181は、情報端末10とユーザとの距離は遠いと推定し、第2音声処理を行う(ステップS7)。具体的には、音声処理部181は、情報端末10とユーザとの距離は遠いと推定した場合、ユーザの音声の音量が大きくなるように音が入力されるゲインを大きくする。このとき、送出部185は、音量が大きくなるように音量調整された音の信号を、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)に送信する。 When it is determined that the signal level of the sound signal is not equal to or greater than the input level included in the reference information, i.e., that the signal level is less than the input level ("No" in step S4), the sound processing unit 181 estimates that the distance between the information terminal 10 and the user is far, and performs the second sound processing (step S7). Specifically, when the sound processing unit 181 estimates that the distance between the information terminal 10 and the user is far, it increases the gain at which sound is input so that the volume of the user's voice increases. At this time, the sending unit 185 transmits the sound signal, which has been adjusted to increase the volume, to the intercom entrance device (lobby intercom 20, entrance unit 40) that is the communication target.

さらに、表示処理部184は、第2表示処理を行う(ステップS8)。具体的には、情報端末10とユーザとの距離が遠いと音声処理部181が推定する場合、表示処理部184は、インターホン玄関装置が撮像した画像の倍率を高くして表示、例えば訪問者の顔を拡大して表示するように、表示部16を制御する。このとき、表示部16は、ロビーインターホン20において呼出操作を行った訪問者U1を撮像した画像G10に対して、当該画像G10に含まれる訪問者U1の顔を拡大して表示する(図4B参照)。 Furthermore, the display processing unit 184 performs a second display process (step S8). Specifically, when the audio processing unit 181 estimates that the distance between the information terminal 10 and the user is far, the display processing unit 184 controls the display unit 16 to increase the magnification of the image captured by the intercom entrance device, for example, to enlarge and display the visitor's face. At this time, the display unit 16 enlarges and displays the face of visitor U1 contained in image G10 captured of visitor U1 who made a call operation on the lobby intercom 20 (see FIG. 4B).

音声認識部182は、音声処理部181が処理した音に対して音声認識処理を行う(ステップS9)。具体的には、音声認識部182は、音声処理部181が処理した音に、インターホンシステム1における制御に係るキーワード(制御用ワード)が含まれるか否かを判断する。 The voice recognition unit 182 performs voice recognition processing on the sound processed by the voice processing unit 181 (step S9). Specifically, the voice recognition unit 182 determines whether or not the sound processed by the voice processing unit 181 includes a keyword (control word) related to control in the intercom system 1.

制御処理部183は、インターホンシステム1における制御が必要か否かを判断する(ステップS10)。具体的には、制御処理部183は、音声認識部182の判断結果に基づいて、制御が必要であるか否かを判断する。制御処理部183は、音声処理部181が処理した音に制御用ワードが含まれると判断した場合に、制御が必要であると判断する。制御処理部183は、音声処理部181が処理した音に制御用ワードが含まれないと判断した場合に、制御が必要でないと判断する。 The control processing unit 183 judges whether or not control is necessary in the intercom system 1 (step S10). Specifically, the control processing unit 183 judges whether or not control is necessary based on the judgment result of the voice recognition unit 182. The control processing unit 183 judges that control is necessary when it judges that the sound processed by the voice processing unit 181 contains a control word. The control processing unit 183 judges that control is not necessary when it judges that the sound processed by the voice processing unit 181 does not contain a control word.

制御が必要であると判断する場合(ステップS10における「Yes」)、制御処理部183は、音声処理部181が処理した音に含まれる制御用ワードに応じた処理を行う。 If it is determined that control is necessary ("Yes" in step S10), the control processing unit 183 performs processing according to the control word contained in the sound processed by the audio processing unit 181.

制御が必要でないと判断する場合(ステップS10における「No」)、制御処理部183は、ステップS11を実行しない。 If it is determined that control is not necessary ("No" in step S10), the control processing unit 183 does not execute step S11.

なお、情報端末10は、所定のキーワードが検出された以降であって、情報端末10と通信対象であるインターホン玄関装置との間で通信中である場合には、ステップS5~ステップS11までの処理を実行する。 After the predetermined keyword is detected, if communication is in progress between the information terminal 10 and the intercom entrance device that is the communication target, the information terminal 10 executes the processes from step S5 to step S11.

(4)利点
以上説明したように、本実施形態の情報端末10は、インターホン装置として動作する情報端末である。情報端末10は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて、音取得部13が取得した音(音声)である受話に関する音声調整処理を行う。
(4) Advantages As described above, the information terminal 10 of the present embodiment is an information terminal that operates as an intercom device. The information terminal 10 performs a sound adjustment process for receiving a call, which is a sound (voice) acquired by the sound acquisition unit 13, based on at least one of the distance and the direction of the user relative to the information terminal 10.

より詳細には、情報端末10は、音取得部13と、音声処理部181と、制御処理部183と、を備える。音取得部13は、ユーザの音声を含む音を取得する。音声処理部181は、音取得部13が取得した音に対して、距離及び方向のうち少なくとも一方を所定の条件として音声調整処理を行う。 More specifically, the information terminal 10 includes a sound acquisition unit 13, a voice processing unit 181, and a control processing unit 183. The sound acquisition unit 13 acquires sound including the user's voice. The voice processing unit 181 performs a voice adjustment process on the sound acquired by the sound acquisition unit 13, using at least one of the distance and the direction as a predetermined condition.

この構成によると、情報端末10に対するユーザの距離及び方向のうち少なくとも一方を用いて音声調整処理を行うので、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から出力される音声の音量を適切な音量とすることができる。例えば、情報端末10に対するユーザの距離が遠くであっても、音声を調整することで近くから音声を発しているように訪問者に感じさせることができる。したがって、情報端末10は、ユーザの位置に応じて明瞭な通話を行うことができる。 With this configuration, audio adjustment processing is performed using at least one of the distance and direction of the user relative to the information terminal 10, so the volume of the audio output from the intercom entrance device (lobby intercom 20, entrance unit 40) with which communication is to be made can be made appropriate. For example, even if the user is far away from the information terminal 10, the audio can be adjusted to make the visitor feel as if the audio is coming from nearby. Therefore, the information terminal 10 can make clear calls according to the user's position.

また、情報端末10は、表示部16と、表示処理部184と、を更に備える。表示部16は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像を表示する。表示処理部184は、表示部16に画像を表示させる。表示処理部184は、所定の条件に応じて表示部16が表示する画像の表示態様を変更する。 The information terminal 10 further includes a display unit 16 and a display processing unit 184. The display unit 16 displays an image captured by the intercom entrance device (lobby intercom 20, entrance slave unit 40) with which communication is to be performed. The display processing unit 184 causes the display unit 16 to display the image. The display processing unit 184 changes the display mode of the image displayed by the display unit 16 according to a predetermined condition.

例えば、情報端末10に対するユーザの距離が遠くである場合には、表示する画像を拡大する。これにより、ユーザは、ユーザの位置によらず、訪問者が誰であるかを容易に確認することができる。 For example, if the user is far away from the information terminal 10, the displayed image is enlarged. This allows the user to easily confirm who the visitor is, regardless of the user's location.

(5)変形例
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。
(5) Modifications The above embodiment is merely one of various embodiments of the present disclosure. The above embodiment can be modified in various ways depending on the design and the like as long as the object of the present disclosure can be achieved.

以下、上記の実施形態の変形例を列挙する。以下に説明する変形例は、適宜組み合わせて適用可能である。 Below, we will list some variations of the above embodiment. The variations described below can be applied in appropriate combinations.

(5-1)変形例1
上記実施形態では、情報端末10は、取得した音に基づいて、情報端末10に対するユーザの距離及び方向を推定する構成としたが、この構成に限定されない。
(5-1) Modification 1
In the above embodiment, the information terminal 10 is configured to estimate the distance and direction of the user relative to the information terminal 10 based on the acquired sound, but the present invention is not limited to this configuration.

取得した音に係る音情報とは異なる情報を基に、情報端末10に対するユーザの距離及び方向を推定してもよい。例えば、情報端末10は、住戸E2での人(ユーザ)の有無を検知する人検知部19(図5参照)の検知結果を基に、情報端末10に対するユーザの距離及び方向を推定してもよい。 The distance and direction of the user relative to the information terminal 10 may be estimated based on information other than the sound information related to the acquired sound. For example, the information terminal 10 may estimate the distance and direction of the user relative to the information terminal 10 based on the detection results of the human detection unit 19 (see FIG. 5) that detects the presence or absence of a person (user) in the dwelling unit E2.

以下、実施形態とは異なる点を中心に説明する。なお、実施形態と同一の構成要素については、実施形態と同一の符号を付し、その説明を適宜省略する。 The following will focus on the differences from the embodiment. Note that the same components as those in the embodiment will be given the same reference numerals as in the embodiment, and their explanation will be omitted as appropriate.

本変形例の情報端末10Aは、図5に示すように、第1通信部11、第2通信部12、音取得部13、操作部14、出力部15、表示部16、記憶部17、制御部18A及び人検知部19を備える。 As shown in FIG. 5, the information terminal 10A of this modified example includes a first communication unit 11, a second communication unit 12, a sound acquisition unit 13, an operation unit 14, an output unit 15, a display unit 16, a memory unit 17, a control unit 18A, and a human detection unit 19.

情報端末10Aは、例えばプロセッサ及びメモリを有するマイクロコンピュータを有している。そして、プロセッサがメモリに格納されているプログラムを実行することにより、マイクロコンピュータが制御部18Aとして機能する。プロセッサが実行するプログラムは、ここではマイクロコンピュータのメモリに予め記録されているが、メモリカード等の非一時的な記録媒体に記録されて提供されてもよいし、インターネット等の電気通信回線を通じて提供されてもよい。 The information terminal 10A has, for example, a microcomputer having a processor and a memory. The processor executes a program stored in the memory, causing the microcomputer to function as the control unit 18A. The program executed by the processor is pre-recorded in the memory of the microcomputer here, but may also be provided by being recorded on a non-transitory recording medium such as a memory card, or may be provided via a telecommunications line such as the Internet.

人検知部19は、例えば人感センサである。人検知部19は、赤外線等のマイクロ波を出力し、物体に反射した反射波を受信する。 The human detection unit 19 is, for example, a human sensor. The human detection unit 19 outputs microwaves such as infrared rays and receives the reflected waves reflected by an object.

制御部18Aは、図5に示すように、音声処理部181A、音声認識部182、制御処理部183、表示処理部184、送出部185及び検知処理部186を有する。 As shown in FIG. 5, the control unit 18A has a voice processing unit 181A, a voice recognition unit 182, a control processing unit 183, a display processing unit 184, a transmission unit 185, and a detection processing unit 186.

検知処理部186は、音声認識部182が音取得部で取得した音(音声)に所定のキーワードが含まれると判断した場合に、人検知部19の検知結果を基に、情報端末10に対するユーザの距離及び方向を推定する。具体的には、検知処理部186は、マイクロ波が出力された方向を、情報端末10に対するユーザの方向として推定する。検知処理部186は、出力されたマイクロ波の位相と、受光された反射波の位相との位相差に基づいて、マイクロ波が反射した物体(ユーザ)までの距離を算出(推定)する。検知処理部186は、算出した距離が予め定められた基準値以下である場合には、情報端末10に対するユーザの距離は近いと判定する。検知処理部186は、算出した距離が予め定められた基準値より大きい場合には、情報端末10に対するユーザの距離は遠いと判定する。要するに、距離には、人を検知する人検知部19が検知した結果に基づいて推定される結果が含まれる。言い換えると、距離は、人を検知する人検知部19が検知した結果に基づいて推定される結果を含む。 When the voice recognition unit 182 determines that the sound (voice) acquired by the sound acquisition unit contains a predetermined keyword, the detection processing unit 186 estimates the distance and direction of the user relative to the information terminal 10 based on the detection result of the human detection unit 19. Specifically, the detection processing unit 186 estimates the direction in which the microwaves are output as the direction of the user relative to the information terminal 10. The detection processing unit 186 calculates (estimates) the distance to the object (user) from which the microwaves are reflected based on the phase difference between the phase of the output microwaves and the phase of the received reflected wave. If the calculated distance is equal to or less than a predetermined reference value, the detection processing unit 186 determines that the user is close to the information terminal 10. If the calculated distance is greater than a predetermined reference value, the detection processing unit 186 determines that the user is far from the information terminal 10. In short, the distance includes a result estimated based on the result detected by the human detection unit 19 that detects people. In other words, the distance includes a result estimated based on the result detected by the human detection unit 19, which detects people.

音声処理部181Aは、音取得部13が取得した音に対して、所定の条件(情報端末10に対するユーザの距離及び方向)に応じて音声調整処理を行う。 The audio processing unit 181A performs audio adjustment processing on the sound acquired by the sound acquisition unit 13 according to predetermined conditions (the distance and direction of the user relative to the information terminal 10).

音声処理部181Aは、音取得部13が出力したアナログの音信号を取得し、デジタルの音信号に変換する。音声処理部181Aは、音取得部13から取得した音信号に対して所定のフィルタリング処理等により、音信号に対してエコーの抑制又は除去を行う。 The audio processing unit 181A acquires the analog sound signal output by the sound acquisition unit 13 and converts it into a digital sound signal. The audio processing unit 181A performs a predetermined filtering process or the like on the sound signal acquired from the sound acquisition unit 13 to suppress or remove echoes from the sound signal.

音声処理部181Aは、方向に対する検知処理部186の推定結果に基づいて、音取得部13による音の取得方向を制御する。具体的には、音声処理部181Aは、推定結果に基づいて、第1マイクロホン131から入力される音、及び第2マイクロホン132から入力される音をそれぞれ調整する。 The sound processing unit 181A controls the direction of sound acquisition by the sound acquisition unit 13 based on the estimation result of the direction detection processing unit 186. Specifically, the sound processing unit 181A adjusts the sound input from the first microphone 131 and the sound input from the second microphone 132 based on the estimation result.

音声処理部181Aは、例えばノイズサプレッサを含む。音声処理部181は、ゲイン調整された2つの信号を含む音の信号に対してノイズの抑制又は除去を行う。 The audio processing unit 181A includes, for example, a noise suppressor. The audio processing unit 181 suppresses or removes noise from a sound signal that includes two gain-adjusted signals.

音声処理部181は、距離に対する検知処理部186の推定結果(判定結果)に基づいて、通信対象のインターホン玄関装置(ロビーインターホン20、玄関子機40)に出力する音の音量を調整する。例えば、情報端末10とユーザとの距離が近いと検知処理部186が判断した場合には、ユーザの音声の音量が小さくなるように音が入力されるゲインを小さくする。情報端末10とユーザとの距離が遠いと検知処理部186が判断した場合には、ユーザの音声の音量が大きくなるように音が入力されるゲインを小さくする。 The audio processing unit 181 adjusts the volume of the sound output to the intercom entrance device (lobby intercom 20, entrance unit 40) with which it is communicating, based on the estimation result (determination result) of the detection processing unit 186 for the distance. For example, if the detection processing unit 186 determines that the distance between the information terminal 10 and the user is short, it reduces the gain at which the sound is input so that the volume of the user's voice becomes lower. If the detection processing unit 186 determines that the distance between the information terminal 10 and the user is long, it reduces the gain at which the sound is input so that the volume of the user's voice becomes higher.

これにより、本変形例の情報端末10Aは、人検知部19の検知結果を用いた場合であっても、ユーザの位置に応じて明瞭な通話を行うことができる。 As a result, the information terminal 10A of this modified example can conduct clear calls according to the user's position, even when using the detection results of the human detection unit 19.

本変形例では、情報端末10Aは、人検知部19を備える構成としたが、これに限定されない。人検知部19は、情報端末10Aの必須の構成要素ではない。 In this modified example, the information terminal 10A is configured to include a human detection unit 19, but is not limited to this. The human detection unit 19 is not a required component of the information terminal 10A.

また、人検知部19は、人感センサとする構成としたが、これに限定されない。人検知部19は、住戸E2における人の位置を検知するLPS(Local Positioning System)であってもよい。すなわち、人検知部19は、住戸E2内の人(ユーザ)の情報端末10に対する距離及び方向を検出(推定)できる構成であればよい。 The human detection unit 19 is configured as a human sensor, but is not limited to this. The human detection unit 19 may be a Local Positioning System (LPS) that detects the position of a person in the dwelling unit E2. In other words, the human detection unit 19 may be configured to detect (estimate) the distance and direction of a person (user) in the dwelling unit E2 relative to the information terminal 10.

(5-2)変形例2
上記実施形態では、所定の条件として、情報端末10に対するユーザの距離及び方向の双方を含める構成としたが、この構成に限定されない。
(5-2) Modification 2
In the above embodiment, the predetermined condition includes both the distance and the direction of the user with respect to the information terminal 10, but is not limited to this.

所定の条件は、情報端末10に対するユーザの距離及び方向のうち一方を含める構成であってもよい。つまり、所定の条件は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方を含む構成であればよい。すなわち、音声処理部181は、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて音声調整処理を行う構成であればよい。 The predetermined condition may be configured to include either the distance or the direction of the user relative to the information terminal 10. In other words, the predetermined condition may be configured to include at least one of the distance or the direction of the user relative to the information terminal 10. In other words, the audio processing unit 181 may be configured to perform audio adjustment processing based on at least one of the distance or the direction of the user relative to the information terminal 10.

(5-3)変形例3
上記実施形態では、音声処理部181は、音取得部13が取得した音(ユーザの音声)、すなわち受話に対して、情報端末10に対するユーザの距離及び方向に基づいて、音声調整を行う構成としたが、この構成に限定されない。
(5-3) Modification 3
In the above embodiment, the voice processing unit 181 is configured to adjust the voice of the sound (user's voice) acquired by the sound acquisition unit 13, i.e., the received call, based on the distance and direction of the user relative to the information terminal 10, but this configuration is not limited to this.

音声処理部181は、インターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声信号に基づいた音声(訪問者音声)を出力する際に、情報端末10に対するユーザの距離及び方向の少なくとも一方に基づいて、音声調整を行ってもよい。 When outputting audio (visitor audio) based on an audio signal received from the intercom entrance device (lobby intercom 20, entrance unit 40), the audio processing unit 181 may adjust the audio based on at least one of the distance and direction of the user relative to the information terminal 10.

例えば、音声処理部181は、音取得部13が取得した音に係る音信号(音情報)に対する信号レベル(強度)を基に、情報端末に対するユーザの距離が遠いか否かを判断する。音声処理部181は、情報端末10に対するユーザの距離が遠いと判断する場合には、訪問者音声の音量を上げるように音声調整を行う。音声処理部181は、情報端末10に対するユーザの距離が近いと判断する場合には、訪問者音声の音量を維持するよう、又は下げるように音声調整を行う。これにより、ユーザ側で聞こえる音量についても適切な音量とすることができる。 For example, the audio processing unit 181 determines whether the user is far from the information terminal based on the signal level (intensity) of the sound signal (sound information) related to the sound acquired by the sound acquisition unit 13. If the audio processing unit 181 determines that the user is far from the information terminal 10, it adjusts the audio to increase the volume of the visitor's voice. If the audio processing unit 181 determines that the user is close to the information terminal 10, it adjusts the audio to maintain or lower the volume of the visitor's voice. This allows the volume heard by the user to be an appropriate volume.

要するに、音声処理部181は、前記情報端末に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う構成であればよい。例えば、発話について音声調整処理を行うことで、情報端末10の出力部15から出力される音の音量をユーザの位置に応じてユーザが聞きやすい音量とすることができる。また、受話及び発話の双方について音声調整処理を行うことで、インターホン玄関装置(ロビーインターホン20、玄関子機40)から出力される音声の音量を適切な音量とするとともに、情報端末10の出力部15から出力される音の音量をユーザの位置に応じてユーザが聞きやすい音量とすることができる。 In short, the audio processing unit 181 may be configured to perform audio adjustment processing for at least one of receiving and speaking based on at least one of the distance and direction of the user relative to the information terminal. For example, by performing audio adjustment processing for speaking, the volume of the sound output from the output unit 15 of the information terminal 10 can be adjusted to a volume that is easy for the user to hear depending on the user's position. Also, by performing audio adjustment processing for both receiving and speaking, the volume of the sound output from the intercom entrance device (lobby intercom 20, entrance unit 40) can be adjusted to an appropriate volume, and the volume of the sound output from the output unit 15 of the information terminal 10 can be adjusted to a volume that is easy for the user to hear depending on the user's position.

(5-4)変形例4
上記実施形態では、情報端末10が、情報端末10に対するユーザの距離及び方向に基づいて音声調整(音量の調整)を行う構成としたが、この構成に限定されない。
(5-4) Modification 4
In the above embodiment, the information terminal 10 is configured to adjust the sound (adjust the volume) based on the distance and direction of the user from the information terminal 10, but the present invention is not limited to this configuration.

情報端末10との通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)が、音量調整を行ってもよい。この場合、情報端末10は、情報端末10に対するユーザの距離及び方向のそれぞれの推定結果を、インターホン玄関装置に送信する。インターホン玄関装置は、推定結果を基に、インターホン玄関装置から出力するユーザの音声の音量を調整する。 The intercom entrance device (lobby intercom 20, entrance handset 40) that is the communication target with the information terminal 10 may adjust the volume. In this case, the information terminal 10 transmits the estimation results of the user's distance and direction from the information terminal 10 to the intercom entrance device. The intercom entrance device adjusts the volume of the user's voice output from the intercom entrance device based on the estimation results.

(5-5)変形例5
上記実施形態では、音声処理部181は、ユーザが発した音声として所定のキーワードを音取得部13が取得することをトリガとし、所定の条件としての情報(距離、方向)の取得(推定)を実行する構成とした。しかしながら、この構成に限定されない。
(5-5) Modification 5
In the above embodiment, the voice processing unit 181 is configured to acquire (estimate) information (distance, direction) as a predetermined condition when the sound acquisition unit 13 acquires a predetermined keyword as a voice uttered by the user as a trigger. However, the present invention is not limited to this configuration.

音声処理部181は、所定の条件としての情報(距離、方向)の取得(推定)を実行の開始の条件を、所定のキーワードを音取得部13が取得することすることは必須ではない。インターホン玄関装置(ロビーインターホン20、玄関子機40)から呼出に係る制御信号を第1通信部11又は第2通信部12が受信すると、音声処理部181は、所定の条件としての情報(距離、方向)の取得(推定)を実行してもよい。 It is not essential for the sound acquisition unit 13 to acquire a specified keyword as a condition for starting to acquire (estimate) information (distance, direction) as a specified condition. When the first communication unit 11 or the second communication unit 12 receives a control signal related to a call from the intercom entrance device (lobby intercom 20, entrance handset 40), the sound processing unit 181 may acquire (estimate) information (distance, direction) as a specified condition.

(5-6)変形例6
上記実施形態において、情報端末とインターホン玄関装置(ロビーインターホン20、玄関子機40)との通信が終了するまでの間、音声処理部181は、情報端末10に対するユーザの距離及び方向の推定を繰り返し行ってもよい。
(5-6) Modification 6
In the above embodiment, the voice processing unit 181 may repeatedly estimate the distance and direction of the user relative to the information terminal 10 until communication between the information terminal and the intercom entrance device (lobby intercom 20, entrance unit 40) is terminated.

(5-7)変形例7
上記実施形態では、音取得部13は、2つのマイクロホン(第1マイクロホン131、第2マイクロホン132)を有する構成としたが、この構成に限定されない。
(5-7) Modification 7
In the above embodiment, the sound acquisition unit 13 is configured to have two microphones (the first microphone 131 and the second microphone 132), but is not limited to this configuration.

音取得部13は、1つのマイクロホン又は3つ以上のマイクロホンを有する構成であってもよい。音取得部13が、1つのマイクロホンを有する構成は、所定の条件として情報端末10に対するユーザの距離を推定する場合に有効である。また、音取得部13が3つ以上のマイクロホンを有する場合には、情報端末10に対するユーザの距離及び方向をより精度よく推定することができる。 The sound acquisition unit 13 may be configured to have one microphone or three or more microphones. A configuration in which the sound acquisition unit 13 has one microphone is effective when estimating the distance of the user from the information terminal 10 as a predetermined condition. Furthermore, when the sound acquisition unit 13 has three or more microphones, the distance and direction of the user from the information terminal 10 can be estimated with greater accuracy.

(5-8)変形例8
上記実施形態において、音声認識部182は、情報端末10の必須の構成要素ではない。音声認識部182は、情報端末10とは異なる端末(例えばサーバ)が備えてもよい。この場合、情報端末10は、音取得部13が取得した音に係る音情報をサーバに送信する。サーバは、音声認識処理により、所定のキーワードの検知及び制御用ワードの検知を行う。具体的には、サーバは、音情報を基に、音取得部13が取得した音に所定のキーワードが含まれるかの判断、及び音取得部13が取得した音に制御用ワードが含まれるかを判断する。
(5-8) Modification 8
In the above embodiment, the voice recognition unit 182 is not an essential component of the information terminal 10. The voice recognition unit 182 may be provided in a terminal (e.g., a server) different from the information terminal 10. In this case, the information terminal 10 transmits sound information related to the sound acquired by the sound acquisition unit 13 to the server. The server detects a predetermined keyword and a control word by a voice recognition process. Specifically, the server determines whether the sound acquired by the sound acquisition unit 13 includes a predetermined keyword and whether the sound acquired by the sound acquisition unit 13 includes a control word based on the sound information.

または、所定のキーワードの検知を音声認識部182が行い、制御用ワードの検知をサーバが行ってもよい。 Alternatively, the voice recognition unit 182 may detect the specified keywords, and the server may detect the control words.

(5-9)変形例9
上記実施形態において、情報端末10は、住戸端末(インターホン親機)とする構成としたが、この構成に限定されない。
(5-9) Modification 9
In the above embodiment, the information terminal 10 is configured as a dwelling terminal (intercom master unit), but is not limited to this configuration.

情報端末10は、インターホン玄関装置(ロビーインターホン20、玄関子機40)と通信可能に構成されている端末であればよく、例えばタブレット端末、スマートフォンであってもよい。 The information terminal 10 may be any terminal that is configured to be able to communicate with the intercom entrance device (lobby intercom 20, entrance handset 40), and may be, for example, a tablet terminal or a smartphone.

(5-10)変形例10
上記実施形態の情報端末10が備える音声調整処理に係る機能(音取得部13、音声処理部181)を、インターホン玄関装置(ロビーインターホン20、玄関子機40)に適用してもよい。
(5-10) Modification 10
The functions relating to the sound adjustment process provided in the information terminal 10 of the above embodiment (sound acquisition unit 13, sound processing unit 181) may be applied to an intercom entrance device (lobby intercom 20, entrance unit 40).

同様に、変形例1の情報端末10Aが備える音声調整処理に係る機能(音取得部13、人検知部19、音声処理部181A、検知処理部186)を、インターホン玄関装置(ロビーインターホン20、玄関子機40)に適用してもよい。 Similarly, the functions related to the audio adjustment processing provided in the information terminal 10A of the first modification (sound acquisition unit 13, human detection unit 19, audio processing unit 181A, detection processing unit 186) may be applied to the intercom entrance device (lobby intercom 20, entrance unit 40).

(5-11)変形例11
上記実施形態の情報端末10が備える音声処理部181は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されてもよい。
(5-11) Modification 11
The voice processing unit 181 provided in the information terminal 10 in the above embodiment may be configured to perform processing to exclude voice received from the intercom entrance device (lobby intercom 20, entrance sub-unit 40) that is the communication target from being processed in the voice recognition processing.

例えば、情報端末10が備える音声処理部181は、出力部15(スピーカ)が出力した音声が音取得部13で入力されると、当該音声に対してエコーキャンセラによりエコーの抑制又は除去を行ってもよい。すなわち、音声処理部181は、出力部15が出力した音声が音取得部13で入力されると、当該音声をエコーキャンセラにより減衰させてもよい。出力部15が出力した音声に対して、音声処理部181は減衰する処理(減衰処理)を行うので、当該音声に対して音声認識部182が行う音声認識処理は抑止される。すなわち、出力部15が出力した音声に対して、音声処理部181が減衰処理を行うことで、当該音声を音声認識処理での処理対象外とすることができる。 For example, when the sound output by the output unit 15 (speaker) is input to the sound acquisition unit 13, the sound processing unit 181 provided in the information terminal 10 may suppress or remove echoes from the sound using an echo canceller. That is, when the sound output by the output unit 15 is input to the sound acquisition unit 13, the sound processing unit 181 may attenuate the sound using an echo canceller. Since the sound processing unit 181 performs an attenuation process (attenuation process) on the sound output by the output unit 15, the voice recognition process performed by the voice recognition unit 182 on the sound is suppressed. That is, by the sound processing unit 181 performing an attenuation process on the sound output by the output unit 15, the sound can be excluded from being processed in the voice recognition process.

または、音声処理部181は、出力部15から音声が出力されているか否かを判断し、出力部15から音声が出力されていると判断する場合には、音声認識部182による音声認識処理を抑止するように、音声認識部182を制御してもよい。音声認識部182による音声認識処理を抑止するように音声認識部182を制御する処理を行うことで、音声処理部181は、出力部15が出力した音声を音声認識処理での処理対象外とすることができる。 Alternatively, the voice processing unit 181 may determine whether or not voice is being output from the output unit 15, and if it determines that voice is being output from the output unit 15, control the voice recognition unit 182 to inhibit voice recognition processing by the voice recognition unit 182. By performing processing to control the voice recognition unit 182 to inhibit voice recognition processing by the voice recognition unit 182, the voice processing unit 181 can exclude the voice output by the output unit 15 from being processed in the voice recognition processing.

例えば、情報端末10がロビーインターホン20と通信を行っている場合、ロビーインターホン20から送信された音声が、第1マイクロホン131及び第2マイクロホン132のうち少なくとも一方のマイクロホンに入力され、音声認識処理が行われる場合がある。この場合、ロビーインターホン20から送信された音声に共用玄関E1から入室するための扉を開錠するための制御用ワードが含まれていると、制御処理部183は、音声認識処理の結果に基づいて、共用玄関E1から入室するための扉の開錠を制御する。すなわち、住戸E2のユーザの意思に関係なく、第三者(例えば訪問者)によって共用玄関E1の扉が解除されてしまう。 For example, when the information terminal 10 is communicating with the lobby intercom 20, the voice transmitted from the lobby intercom 20 may be input to at least one of the first microphone 131 and the second microphone 132, and a voice recognition process may be performed. In this case, if the voice transmitted from the lobby intercom 20 contains a control word for unlocking the door for entering from the common entrance E1, the control processing unit 183 controls the unlocking of the door for entering from the common entrance E1 based on the result of the voice recognition process. In other words, the door to the common entrance E1 may be unlocked by a third party (e.g., a visitor) regardless of the intention of the user of the dwelling unit E2.

そこで、変形例11の情報端末10は、音取得部13と、音声処理部181と、制御処理部183と、を備える。音取得部13は、ユーザの音声を含む音を取得する。音声処理部181は、音取得部13が取得した音に対して、音声調整処理を行う。制御処理部183は、音声処理部181が処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理部181は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されている。 The information terminal 10 of the 11th modification thus includes a sound acquisition unit 13, a voice processing unit 181, and a control processing unit 183. The sound acquisition unit 13 acquires sound including the user's voice. The voice processing unit 181 performs voice adjustment processing on the sound acquired by the sound acquisition unit 13. The control processing unit 183 performs control based on the results of voice recognition processing on the sound processed by the voice processing unit 181. The voice processing unit 181 is configured to perform processing to exclude voice received from the intercom entrance device (lobby intercom 20, entrance unit 40) that is the communication target from being processed in the voice recognition processing.

この構成によると、音声処理部181は、通信対象であるインターホン玄関装置から受け取った音声を音声認識処理での処理対象外とする処理を行うので、第三者によって扉が解除されてしまう可能性を低くすることができる。 With this configuration, the voice processing unit 181 performs processing to exclude voice received from the intercom entrance device, which is the communication target, from being processed in the voice recognition process, thereby reducing the possibility that the door will be opened by a third party.

なお、変形例11において、音取得部13が複数のマイクロホン(第1マイクロホン131、第2マイクロホン132)を有することは必須ではない。音取得部13は、1本のマイクロホンを有する構成であってもよい。音取得部13が1本のマイクロホンを有する場合、音声処理部181がユーザの距離及び方向を推定することは必須ではない。音声処理部181は、音声調整処理として、音取得部13(が有する1本マイクロホン)が取得した音信号に対して少なくともエコーの抑制又は除去を行う構成であればよい。 In addition, in the 11th modified example, it is not essential that the sound acquisition unit 13 has multiple microphones (first microphone 131, second microphone 132). The sound acquisition unit 13 may have a configuration having one microphone. If the sound acquisition unit 13 has one microphone, it is not essential that the audio processing unit 181 estimates the distance and direction of the user. The audio processing unit 181 may be configured to at least suppress or remove echoes from the sound signal acquired by the sound acquisition unit 13 (one microphone) as an audio adjustment process.

また、変形例11に係る情報端末10の処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。処理方法は、音取得ステップと、音声処理ステップと、制御処理ステップと、を備える。音取得ステップは、ユーザの音声を含む音を取得する。音声処理ステップは、音取得ステップが取得した音に対して、音声調整処理を行う。制御処理ステップは、音声処理ステップが処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理ステップは、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行う。一態様に係るプログラムは、コンピュータシステムを、変形例11に係る情報端末10又は変形例11に係る情報端末10の処理方法として機能させるためのプログラムである。 The processing method of the information terminal 10 according to the modified example 11 is a processing method used in an information terminal that operates as an intercom device. The processing method includes a sound acquisition step, a voice processing step, and a control processing step. The sound acquisition step acquires sound including the user's voice. The voice processing step performs a voice adjustment process on the sound acquired in the sound acquisition step. The control processing step performs control based on the result of the voice recognition process on the sound processed in the voice processing step. The voice processing step performs a process to exclude the voice received from the intercom entrance device (lobby intercom 20, entrance handset 40) that is the communication target from the processing target in the voice recognition process. The program according to one aspect is a program for causing a computer system to function as the information terminal 10 according to the modified example 11 or the processing method of the information terminal 10 according to the modified example 11.

また、変形例11は、変形例1の情報端末10Aに適用してもよい。この場合、情報端末10Aの音声処理部181Aは、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されている。 Also, variant 11 may be applied to the information terminal 10A of variant 1. In this case, the voice processing unit 181A of the information terminal 10A is configured to perform processing to exclude voice received from the intercom entrance device (lobby intercom 20, entrance handset 40) that is the communication target from being processed in the voice recognition process.

(その他の変形例)
上記実施形態は、本開示の様々な実施形態の一つに過ぎない。上記実施形態は、本開示の目的を達成できれば、設計等に応じて種々の変更が可能である。また、情報端末10と同様の機能は、処理方法、コンピュータプログラム、又はプログラムを記録した非一時的な記録媒体等で具現化されてもよい。一態様に係る情報端末10の処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。当該処理方法は、処理ステップを含む。処理ステップは、情報端末10に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。ここで、処理ステップは、図3で示すステップS5及びステップS7に相当する。一態様に係るプログラムは、コンピュータシステムを、上述した情報端末10又は情報端末10の処理方法として機能させるためのプログラムである。
(Other Modifications)
The above embodiment is merely one of various embodiments of the present disclosure. The above embodiment can be modified in various ways depending on the design and the like as long as the object of the present disclosure can be achieved. In addition, the same function as the information terminal 10 may be embodied in a processing method, a computer program, or a non-transitory recording medium on which a program is recorded. The processing method of the information terminal 10 according to one aspect is a processing method used in an information terminal that operates as an intercom device. The processing method includes processing steps. The processing steps perform a voice adjustment process for at least one of receiving and speaking based on at least one of the distance and direction of the user relative to the information terminal 10. Here, the processing steps correspond to steps S5 and S7 shown in FIG. 3. The program according to one aspect is a program for causing a computer system to function as the above-mentioned information terminal 10 or the processing method of the information terminal 10.

本開示における情報端末10又は情報端末10の処理方法の実行主体は、コンピュータシステムを含んでいる。コンピュータシステムは、ハードウェアとしてのプロセッサ及びメモリを有する。コンピュータシステムのメモリに記録されたプログラムをプロセッサが実行することによって、本開示における情報端末10又は情報端末10の処理方法の実行主体としての機能が実現される。プログラムは、コンピュータシステムのメモリに予め記録されていてもよいが、電気通信回線を通じて提供されてもよい。また、プログラムは、コンピュータシステムで読み取り可能なメモリカード、光学ディスク、ハードディスクドライブ等の非一時的な記録媒体に記録されて提供されてもよい。コンピュータシステムのプロセッサは、半導体集積回路(IC)又は大規模集積回路(LSI)を含む1乃至複数の電子回路で構成される。ここでいうIC又はLSI等の集積回路は、集積の度合いによって呼び方が異なっており、システムLSI、VLSI(Very Large Scale Integration)、又はULSI(Ultra Large Scale Integration)と呼ばれる集積回路を含む。さらに、LSIの製造後にプログラムされる、FPGA(Field-Programmable Gate Array)、又はLSI内部の接合関係の再構成若しくはLSI内部の回路区画の再構成が可能な論理デバイスについても、プロセッサとして採用することができる。複数の電子回路は、1つのチップに集約されていてもよいし、複数のチップに分散して設けられていてもよい。複数のチップは、1つの装置に集約されていてもよいし、複数の装置に分散して設けられていてもよい。 The information terminal 10 or the processing method of the information terminal 10 in the present disclosure includes a computer system. The computer system has a processor and a memory as hardware. The processor executes a program recorded in the memory of the computer system, thereby realizing the function of the information terminal 10 or the processing method of the information terminal 10 in the present disclosure. The program may be pre-recorded in the memory of the computer system, or may be provided through an electric communication line. The program may also be recorded and provided in a non-transitory recording medium such as a memory card, an optical disk, or a hard disk drive that can be read by the computer system. The processor of the computer system is composed of one or more electronic circuits including a semiconductor integrated circuit (IC) or a large scale integrated circuit (LSI). The integrated circuits such as IC or LSI here are called by different names depending on the degree of integration, and include integrated circuits called system LSI, VLSI (Very Large Scale Integration), or ULSI (Ultra Large Scale Integration). Furthermore, a field-programmable gate array (FPGA) that is programmed after the LSI is manufactured, or a logic device that allows reconfiguration of the connection relationships within the LSI or reconfiguration of the circuit partitions within the LSI, can also be used as a processor. The multiple electronic circuits may be integrated into one chip, or may be distributed across multiple chips. The multiple chips may be integrated into one device, or may be distributed across multiple devices.

また、情報端末10における複数の機能が、1つの筐体内に集約されていることは情報端末10に必須の構成ではなく、情報端末10の構成要素は、複数の筐体に分散して設けられていてもよい。さらに、情報端末10の少なくとも一部の機能、例えば、情報端末10の一部の機能がクラウド(クラウドコンピューティング)等によって実現されてもよい。 In addition, it is not essential for the information terminal 10 that multiple functions are concentrated in one housing, and the components of the information terminal 10 may be distributed across multiple housings. Furthermore, at least some of the functions of the information terminal 10, for example, some of the functions of the information terminal 10, may be realized by the cloud (cloud computing) or the like.

(まとめ)
以上説明したように、第1の態様の情報端末(10,10A)は、インターホン装置として動作する情報端末である。情報端末(10,10A)は、情報端末(10,10A)に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。
(summary)
As described above, the information terminal (10, 10A) of the first aspect is an information terminal that operates as an intercom device. The information terminal (10, 10A) performs a sound adjustment process for at least one of receiving and speaking, based on at least one of the distance and the direction of the user relative to the information terminal (10, 10A).

この構成によると、ユーザの位置に応じて明瞭な通話を行うことができる。 This configuration allows clear calls to be made depending on the user's location.

第2の態様の情報端末(10,10A)は、第1の態様において、音取得部(13)と、音声処理部(181,181A)と、制御処理部(183)と、を備える。音取得部(13)は、ユーザの音声を含む音を取得する。音声処理部(181)は、音取得部(13)が取得した音に対して、上記距離及び上記方向のうち少なくとも一方を所定の条件として音声調整処理を行う。制御処理部(183)は、音声処理部(181)が処理した音に対する音声認識処理の結果に基づいた制御を行う。 The information terminal (10, 10A) of the second aspect is the first aspect and includes a sound acquisition unit (13), a voice processing unit (181, 181A), and a control processing unit (183). The sound acquisition unit (13) acquires sound including the user's voice. The voice processing unit (181) performs a voice adjustment process on the sound acquired by the sound acquisition unit (13) using at least one of the distance and the direction as a predetermined condition. The control processing unit (183) performs control based on the result of a voice recognition process on the sound processed by the voice processing unit (181).

この構成によると、ユーザの位置に応じて明瞭な通話を行うことができるとともに、ユーザが発した音声に応じた制御を行うことができる。 This configuration allows clear calls to be made according to the user's location, and allows control to be performed according to the voice uttered by the user.

第3の態様の情報端末(10,10A)では、第2の態様において、所定の条件は、ユーザの情報端末(10)に対する距離を含む。音声処理部(181,181A)は、距離に応じて、音取得部(13)が取得したユーザの音声の音量を変更する。 In the information terminal (10, 10A) of the third aspect, in the second aspect, the predetermined condition includes the distance of the user from the information terminal (10). The audio processing unit (181, 181A) changes the volume of the user's voice acquired by the sound acquisition unit (13) depending on the distance.

この構成によると、情報端末(10,10A)に対するユーザの距離に応じた適切な音量を設定することができる。 This configuration allows an appropriate volume to be set according to the user's distance from the information terminal (10, 10A).

第4の態様の情報端末(10,10A)では、第2又は第3の態様において、距離は、音取得部(13)が取得した音に基づいて推定される結果を含む。 In the information terminal (10, 10A) of the fourth aspect, in the second or third aspect, the distance includes a result estimated based on the sound acquired by the sound acquisition unit (13).

この構成によると、音取得部(13)が取得した音に基づいて推定される結果に基づいて、明瞭な通話を行うことができる。 With this configuration, clear conversations can be made based on the results estimated from the sounds acquired by the sound acquisition unit (13).

第5の態様の情報端末(10,10A)では、第2又は第3の態様において、距離は、人を検知する人検知部(19)が検知した結果に基づいて推定される結果を含む。 In the information terminal (10, 10A) of the fifth aspect, in the second or third aspect, the distance includes a result estimated based on the result detected by a human detection unit (19) that detects a person.

この構成によると、人検知部(19)が検知した結果に基づいて推定される結果に基づいて、明瞭な通話を行うことができる。 With this configuration, clear conversations can be made based on the results estimated from the results detected by the human detection unit (19).

第6の態様の情報端末(10,10A)では、第2~第5のいずれかの態様において、音声処理部(181)は、ユーザが発した音声として所定のキーワードを音取得部(13)が取得することをトリガとし、所定の条件としての情報の取得を実行する。 In the sixth aspect of the information terminal (10, 10A), in any of the second to fifth aspects, the voice processing unit (181) executes the acquisition of information as a predetermined condition, triggered by the sound acquisition unit (13) acquiring a predetermined keyword as a voice uttered by the user.

この構成によると、所定の条件としての情報の取得を実行するタイミングを設定することができる。 With this configuration, it is possible to set the timing for acquiring information as a specified condition.

第7の態様の情報端末(10,10A)は、第2~第6のいずれかの態様において、音声認識部(182)を、更に備える。音声認識部(182)は、音声処理部(181)が処理した音に対して音声認識処理を行う。 The information terminal (10, 10A) of the seventh aspect is any one of the second to sixth aspects, and further includes a voice recognition unit (182). The voice recognition unit (182) performs voice recognition processing on the sound processed by the voice processing unit (181).

この構成によると、ユーザが発した音声に対して音声認識を行うことができる。具体的には、情報端末(10,10A)の音声認識部(182)は、音声処理部(181)が処理した音に対して音声認識を行うため、より適切に音声認識を行うことができる。 This configuration allows speech recognition to be performed on the voice uttered by the user. Specifically, the speech recognition unit (182) of the information terminal (10, 10A) performs speech recognition on the sound processed by the speech processing unit (181), allowing for more appropriate speech recognition.

第8の態様の情報端末(10,10A)は、第2~第7のいずれかの態様において、表示部(16)と、表示処理部(184)と、を更に備える。表示部(16)は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)が撮像した画像を表示する。表示処理部(184)は、表示部(16)に画像を表示させる。表示処理部(184)は、所定の条件に応じて表示部(16)が表示する画像の表示態様を変更する。 The information terminal (10, 10A) of the eighth aspect further includes a display unit (16) and a display processing unit (184) in any of the second to seventh aspects. The display unit (16) displays an image captured by the intercom entrance device (lobby intercom 20, entrance slave unit 40) that is the communication target. The display processing unit (184) causes the display unit (16) to display the image. The display processing unit (184) changes the display mode of the image displayed by the display unit (16) according to a predetermined condition.

この構成によると、ユーザは、ユーザの位置によらず、訪問者が誰であるかを容易に確認することができる。 With this configuration, the user can easily check who the visitor is, regardless of the user's location.

第9の態様の情報端末(10,10A)は、第2~第8のいずれかの態様において、音声処理部(181,181A)は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行う。 In the ninth aspect of the information terminal (10, 10A), in any of the second to eighth aspects, the voice processing unit (181, 181A) performs processing to exclude voice received from the intercom entrance device (lobby intercom 20, entrance handset 40) that is the communication target from being processed in the voice recognition process.

この構成によると、第三者によって扉が解除されてしまう可能性を低くすることができる。 This configuration reduces the possibility of the door being unlocked by a third party.

第10の態様のインターホンシステム(1)は、第1~第9のいずれかの態様の情報端末(10,10A)と、情報端末(10,10A)と通信するインターホン玄関装置(ロビーインターホン20、玄関子機40)と、を備える。 The intercom system (1) of the tenth aspect includes an information terminal (10, 10A) of any one of the first to ninth aspects, and an intercom entrance device (lobby intercom 20, entrance handset 40) that communicates with the information terminal (10, 10A).

この構成によると、ユーザの位置に応じて明瞭な通話を行うことができる。 This configuration allows clear calls to be made depending on the user's location.

第11の態様の処理方法は、インターホン装置として動作する情報端末(10,10A)で用いられる処理方法である。処理方法は、処理ステップを含む。処理ステップは、情報端末(10,10A)に対するユーザの距離及び方向のうち少なくとも一方に基づいて、受話及び発話のうち少なくとも一方に関する音声調整処理を行う。 The processing method of the eleventh aspect is a processing method used in an information terminal (10, 10A) that operates as an intercom device. The processing method includes a processing step. The processing step performs a sound adjustment process for at least one of receiving and speaking based on at least one of the distance and direction of the user relative to the information terminal (10, 10A).

この処理方法によると、ユーザの位置に応じて明瞭な通話を行うことができる。 This processing method allows for clear calls depending on the user's location.

第12の態様のプログラムは、コンピュータに、第11の態様の処理方法を実行させるためのプログラムである。 The program of the twelfth aspect is a program for causing a computer to execute the processing method of the eleventh aspect.

このプログラムによると、ユーザの位置に応じて明瞭な通話を行うことができる。 This program allows users to make clear calls based on their location.

第13の態様の情報端末(10,10A)は、音取得部(13)と、音声処理部(181,181A)と、制御処理部(183)と、を備える。音取得部(13)は、ユーザの音声を含む音を取得する。音声処理部(181)は、音取得部(13)が取得した音に対して、音声調整処理を行う。制御処理部(183)は、音声処理部(181)が処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理部(181)は、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行うように構成されている。 The information terminal (10, 10A) of the thirteenth aspect includes a sound acquisition unit (13), a voice processing unit (181, 181A), and a control processing unit (183). The sound acquisition unit (13) acquires sound including the user's voice. The voice processing unit (181) performs a voice adjustment process on the sound acquired by the sound acquisition unit (13). The control processing unit (183) performs control based on the result of a voice recognition process on the sound processed by the voice processing unit (181). The voice processing unit (181) is configured to perform a process that excludes the voice received from the intercom entrance device (lobby intercom 20, entrance unit 40) that is the communication target from the processing target of the voice recognition process.

この構成によると、音声処理部(181,181A)は、通信対象であるインターホン玄関装置から受け取った音声を音声認識処理での処理対象外とする処理を行うので、第三者によって扉が解除されてしまう可能性を低くすることができる。 With this configuration, the voice processing unit (181, 181A) performs processing to exclude voice received from the intercom entrance device, which is the communication target, from being processed in the voice recognition process, thereby reducing the possibility that the door will be opened by a third party.

第14の態様のインターホンシステム(1)は、第13の態様の情報端末(10,10A)と、情報端末(10,10A)と通信するインターホン玄関装置(ロビーインターホン20、玄関子機40)と、を備える。 The intercom system (1) of the 14th aspect includes the information terminal (10, 10A) of the 13th aspect and an intercom entrance device (lobby intercom 20, entrance handset 40) that communicates with the information terminal (10, 10A).

この構成によると、第三者によって扉が解除されてしまう可能性を低くすることができる。 This configuration reduces the possibility of the door being unlocked by a third party.

第15の態様の処理方法は、インターホン装置として動作する情報端末で用いられる処理方法である。処理方法は、音取得ステップと、音声処理ステップと、制御処理ステップと、を備える。音取得ステップは、ユーザの音声を含む音を取得する。音声処理ステップは、音取得ステップが取得した音に対して、音声調整処理を行う。制御処理ステップは、音声処理ステップが処理した音に対する音声認識処理の結果に基づいた制御を行う。音声処理ステップは、通信対象であるインターホン玄関装置(ロビーインターホン20、玄関子機40)から受け取った音声を音声認識処理での処理対象外とする処理を行う。 The processing method of the fifteenth aspect is a processing method used in an information terminal that operates as an intercom device. The processing method includes a sound acquisition step, a voice processing step, and a control processing step. The sound acquisition step acquires sound including the user's voice. The voice processing step performs a voice adjustment process on the sound acquired in the sound acquisition step. The control processing step performs control based on the results of voice recognition processing on the sound processed in the voice processing step. The voice processing step performs processing to exclude voice received from the intercom entrance device (lobby intercom 20, entrance unit 40) that is the communication target from being processed in the voice recognition processing.

この処理方法によると、第三者によって扉が解除されてしまう可能性を低くすることができる。 This method of processing reduces the chances of the door being unlocked by a third party.

第16の態様のプログラムは、コンピュータに、第15の態様の処理方法を実行させるためのプログラムである。 The program of the sixteenth aspect is a program for causing a computer to execute the processing method of the fifteenth aspect.

この処理方法によると、第三者によって扉が解除されてしまう可能性を低くすることができる。 This method of processing reduces the chances of the door being unlocked by a third party.

1 インターホンシステム
10,10A 情報端末
13 音取得部
16 表示部
19 人検知部
20 ロビーインターホン(インターホン玄関装置)
40 玄関子機(インターホン玄関装置)
181,181A 音声処理部
182 音声認識部
183 制御処理部
184 表示処理部
1 Intercom system 10, 10A Information terminal 13 Sound acquisition unit 16 Display unit 19 Human detection unit 20 Lobby intercom (intercom entrance device)
40 Entrance intercom unit (entrance intercom device)
181, 181A Voice processing unit 182 Voice recognition unit 183 Control processing unit 184 Display processing unit

Claims (8)

インターホン装置として動作する情報端末であって、
ユーザの音声を含む音を取得する音取得部と、
前記音取得部が取得した音に対して、前記情報端末に対する前記ユーザの距離及び方向のうち少なくとも一方である推定対象を所定の条件として音声調整処理を行う音声処理部と、
前記音声処理部が処理した音に対して音声認識処理を行う音声認識部と、
前記音声処理部が処理した音に対する前記音声認識処理の結果に基づいた制御を行う制御処理部と、を備え、
前記音声処理部は、
前記ユーザが発する音声に所定のキーワードが含まれる場合に、前記推定対象を推定し、
推定結果に応じて、受話及び発話のうち少なくとも一方に関する前記音声調整処理を行い、
前記音声認識部は、前記ユーザが発する音声に前記所定のキーワードが含まれる場合に、通話開始状態とし、前記通話開始状態とした後、前記音声処理部が処理した音に、前記所定のキーワードとは異なる制御用ワードが含まれるか否かを判断し、
前記制御処理部は、前記音声処理部が処理した音に前記制御用ワードが含まれると前記音声認識部が判断した場合、前記制御用ワードに応じた制御を行い、
前記制御用ワードは、扉の解錠の制御に応じたワードを含む、
情報端末。
An information terminal that operates as an intercom device,
A sound acquisition unit that acquires a sound including a user's voice;
a sound processing unit that performs sound adjustment processing on the sound acquired by the sound acquisition unit, using at least one of a distance and a direction of the user relative to the information terminal as a predetermined condition to be estimated;
a voice recognition unit that performs voice recognition processing on the sound processed by the voice processing unit;
a control processing unit that performs control based on a result of the voice recognition processing for the sound processed by the voice processing unit,
The audio processing unit includes:
When a predetermined keyword is included in the voice uttered by the user , the estimation target is estimated;
According to the estimation result, the voice adjustment process is performed for at least one of the speech reception and the speech generation.
the voice recognition unit sets a call start state when the voice uttered by the user includes the predetermined keyword, and after setting the call start state, determines whether or not a control word different from the predetermined keyword is included in the sound processed by the voice processing unit;
when the voice recognition unit determines that the sound processed by the voice processing unit includes the control word, the control processing unit performs control according to the control word;
The control word includes a word corresponding to the control of unlocking a door.
Information terminal.
前記所定の条件は、前記ユーザの前記情報端末に対する前記距離を含み、the predetermined condition includes the distance of the user to the information terminal,
前記音声処理部は、前記距離に応じて、前記音取得部が取得した前記ユーザの音声の音量を変更する、The voice processing unit changes a volume of the voice of the user acquired by the sound acquisition unit according to the distance.
請求項1に記載の情報端末。2. An information terminal according to claim 1.
前記距離は、前記音取得部が取得した音に基づいて推定される結果を含む、The distance includes a result estimated based on the sound acquired by the sound acquisition unit.
請求項1又は2に記載の情報端末。3. An information terminal according to claim 1 or 2.
前記距離は、人を検知する人検知部が検知した結果に基づいて推定される結果を含む、The distance includes a result estimated based on a result detected by a human detection unit that detects a person.
請求項1又は2に記載の情報端末。3. An information terminal according to claim 1 or 2.
前記音声処理部は、前記所定のキーワードを前記音取得部が取得することをトリガとし、前記所定の条件としての情報の推定を実行する、the voice processing unit executes estimation of information as the predetermined condition, triggered by the sound acquisition unit acquiring the predetermined keyword;
請求項1~4のいずれか一項に記載の情報端末。An information terminal according to any one of claims 1 to 4.
通信対象であるインターホン玄関装置が撮像した画像を表示する表示部と、a display unit that displays an image captured by the intercom entrance device that is the communication target;
前記表示部に前記画像を表示させるための表示処理部と、を更に備え、A display processing unit for displaying the image on the display unit,
前記表示処理部は、前記所定の条件に応じて前記表示部が表示する前記画像の表示態様を変更する、the display processing unit changes a display mode of the image displayed by the display unit in accordance with the predetermined condition.
請求項1~5のいずれか一項に記載の情報端末。An information terminal according to any one of claims 1 to 5.
前記音声処理部は、通信対象であるインターホン玄関装置から受け取った音声を前記音声認識処理での処理対象外とする処理を行う、The voice processing unit performs a process of excluding a voice received from an intercom entrance device that is a communication target from a processing target of the voice recognition process.
請求項1~6のいずれか一項に記載の情報端末。An information terminal according to any one of claims 1 to 6.
請求項1~7のいずれか一項に記載の情報端末と、An information terminal according to any one of claims 1 to 7;
前記情報端末と通信するインターホン玄関装置と、を備える、and an intercom entrance device that communicates with the information terminal.
インターホンシステム。Intercom system.
JP2020207022A 2020-03-09 2020-12-14 Information terminal and intercom system Active JP7656853B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020040036 2020-03-09
JP2020040036 2020-03-09

Publications (2)

Publication Number Publication Date
JP2021141572A JP2021141572A (en) 2021-09-16
JP7656853B2 true JP7656853B2 (en) 2025-04-04

Family

ID=77669152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020207022A Active JP7656853B2 (en) 2020-03-09 2020-12-14 Information terminal and intercom system

Country Status (1)

Country Link
JP (1) JP7656853B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115866180A (en) * 2022-11-04 2023-03-28 杭州海康威视数字技术股份有限公司 Access control call control method and device, access control equipment and storage medium
JP2024136274A (en) * 2023-03-23 2024-10-04 横河電機株式会社 Information processing device, handset of intercom system, information processing method, and program
CN119629595A (en) * 2025-02-13 2025-03-14 深圳市思科尔特科技有限公司 A vehicle real-time full-duplex digital multi-person intercom transmission method and device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007221744A (en) 2006-02-15 2007-08-30 Asustek Computer Inc Mobile device capable of regulating dynamically volume thereof and its related method
JP2009159002A (en) 2007-12-25 2009-07-16 Panasonic Electric Works Co Ltd Telephone device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3709739B2 (en) * 1999-04-23 2005-10-26 松下電工株式会社 Audio switching device
JP2003319079A (en) * 2002-04-22 2003-11-07 Matsushita Electric Works Ltd Hands-free intercom

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007221744A (en) 2006-02-15 2007-08-30 Asustek Computer Inc Mobile device capable of regulating dynamically volume thereof and its related method
JP2009159002A (en) 2007-12-25 2009-07-16 Panasonic Electric Works Co Ltd Telephone device

Also Published As

Publication number Publication date
JP2021141572A (en) 2021-09-16

Similar Documents

Publication Publication Date Title
JP7656853B2 (en) Information terminal and intercom system
CN105513596B (en) Voice control method and control equipment
EP3562132B1 (en) Intercom system, control method and computer program
TWI818035B (en) Intercom door station, intercom system, control method, and program
JP7422321B2 (en) Intercom system, setting method, and program
JP2021140114A (en) Information terminal, intercom system, processing method and program
TWI788548B (en) Intercom device, intercom system, information terminal, processing method and program
JP7095356B2 (en) Communication terminal and conference system
JP2011055103A (en) Condominium intercom system
JP7390582B2 (en) Call system, control method and program
JP7133781B2 (en) Intercom device and intercom system
JP7308445B2 (en) Image processing system, image processing method and program
JP2019140617A (en) Intercom system, image output method of intercom system, and program
JP2020184656A (en) Sound acquisition control system, information terminal, sound acquisition control method, and program
JP7493187B2 (en) Call system, control method, and program
JP7685731B2 (en) Intercom System
JP7546203B2 (en) Information terminal, intercom system, control method and program
TW202428013A (en) Information terminal, intercom system, speech recognition system, control method, and program
JP2021002729A (en) Intercom system, control method, and program
TW202308366A (en) Information terminal, intercom system, and program
TW202428011A (en) Information terminal, intercom system, control method, and program product
TW202428012A (en) Information terminal, intercom system, speech recognition system, control method, and program
JP2024072182A (en) Information terminal, intercom system, control method and program
WO2023286680A1 (en) Electronic device, program, and system
JP6534033B2 (en) Pointing device, imaging system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240917

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20241001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241216

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20241224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250314

R150 Certificate of patent or registration of utility model

Ref document number: 7656853

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150