JP7112949B2 - Call control system - Google Patents
Call control system Download PDFInfo
- Publication number
- JP7112949B2 JP7112949B2 JP2018225618A JP2018225618A JP7112949B2 JP 7112949 B2 JP7112949 B2 JP 7112949B2 JP 2018225618 A JP2018225618 A JP 2018225618A JP 2018225618 A JP2018225618 A JP 2018225618A JP 7112949 B2 JP7112949 B2 JP 7112949B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- calling
- terminal
- called
- originating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
本開示の一側面は呼制御システムに関する。 One aspect of the present disclosure relates to call control systems.
端末間で伝送される通話の内容をテキストに変換して少なくとも一方の端末にそのテキストを表示する技術が知られている。例えば、特許文献1には、第1の端末から入力された音声信号を音声認識し、音声認識結果の読み情報を生成し、少なくとも読み情報を、第1の端末の通話相手である第2の端末に表示させる電話システムが記載されている。
A technique is known for converting the content of a call transmitted between terminals into text and displaying the text on at least one of the terminals. For example, in
上記の電話システムは、一方の話者の発話をテキストに変換して該テキストを他方の話者の電話機に伝送するので、この仕組みは一方向のテキスト変換である。一方の話者の発話を双方の話者が視認する場面を実現するための手段として、発側および着側の双方に音声認識サーバを設置することが考えられる。しかし、音声認識エンジンへの接続が発側と着側との間で異なると音声認識の結果が異なってしまう可能性があり、その結果、一つの発話を表すテキストが発側と着側とで異なる可能性がある。そのため、発側および着側の双方の間で通話内容のテキストを一致させることが望まれている。 This mechanism is one-way text conversion, since the telephone system described above converts one speaker's utterances to text and transmits the text to the other speaker's telephone. As a means for realizing a scene in which one speaker's utterance is visually recognized by both speakers, it is conceivable to install speech recognition servers on both the calling side and the called side. However, if the connection to the speech recognition engine differs between the caller and the callee, the results of speech recognition may differ. may differ. Therefore, it is desired to match the text of the call content between the caller and callee.
本開示の一側面に係る呼制御システムは、発信端末と着信端末との間で伝送される通話をテキストに変換する音声テキスト化サービスを実行可能である。呼制御システムは、発信端末を利用する発信者と着信端末を利用する着信者との双方が音声テキスト化サービスの利用者である場合に、発信端末に対応する発側メディア処理装置と着信端末に対応する着側メディア処理装置とのうちの一方を共通のメディア処理装置として機能させる制御部を備える。共通のメディア処理装置は、発信者または着信者の音声をテキストに変換する音声認識エンジンと接続する。共通のメディア処理装置は、発信端末から送信された発信者の発側音声を音声認識エンジンに入力することで発側テキストを取得し、発側テキストを発信端末および着信端末の双方に向けて送信する。共通のメディア処理装置は、着信端末から送信された着信者の着側音声を音声認識エンジンに入力することで着側テキストを取得し、着側テキストを発信端末および着信端末の双方に向けて送信する。 A call control system according to one aspect of the present disclosure is capable of executing a speech-to-text service that converts a call transmitted between a calling terminal and a called terminal into text. In the call control system, when both the caller using the calling terminal and the called party using the called terminal are users of the voice-to-text service, the calling-side media processing device corresponding to the calling terminal and the called terminal A control unit is provided that causes one of the corresponding destination media processing devices to function as a common media processing device. A common media processing unit interfaces with a speech recognition engine that converts the caller's or called party's speech to text. The common media processing device acquires the caller text by inputting the caller's caller's voice transmitted from the caller terminal into the speech recognition engine, and transmits the caller text to both the caller terminal and the callee terminal. do. The common media processing device acquires the called-side text by inputting the called-side voice of the called party transmitted from the called terminal into the speech recognition engine, and transmits the called-side text to both the calling terminal and the called terminal. do.
このような側面においては、発信者および着信者の双方が音声認識サービスの利用者である場合に、発信者および着信者の双方の音声が共通のメディア処理装置を介してテキストに変換され、そのテキストが発信端末および着信端末の双方に送信される。発側および着側の双方について、共通のメディア処理装置が用いられるので、発側および着側の双方の間で通話内容のテキストを一致させることができる。 In this aspect, when both the caller and the callee are users of a speech recognition service, the voices of both the caller and the callee are converted to text through a common media processing device, and the A text is sent to both the originating terminal and the terminating terminal. Since a common media processor is used for both the originating and terminating parties, the text of the call can be matched between the originating and terminating parties.
本開示の一側面によれば、発側および着側の双方の間で通話内容のテキストを一致させることができる。 According to one aspect of the present disclosure, the text of the call content can be matched between the calling party and the called party.
以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。 Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same or equivalent elements are denoted by the same reference numerals, and overlapping descriptions are omitted.
呼制御システムは、発信端末と着信端末との間の呼および通話を制御するコンピュータシステムである。呼とは発信端末と着信端末との間で一時的に占有される通信経路のことをいう。発信端末とは最初に呼接続を要求する通信端末のことをいい、着信端末とはその呼接続要求に応答する通信端末のことをいう。これら二つの通信端末間で呼が確立されることで、発信者(発信端末のユーザ)および着信者(着信端末のユーザ)は会話することができる。通話とは、発信端末と着信端末との間で送受信される音声を意味し、また、発信端末と着信端末との間での音声の送受信も意味する。 A call control system is a computer system that controls calls and conversations between originating and terminating terminals. A call is a communication path temporarily occupied between a calling terminal and a called terminal. A calling terminal is a communication terminal that first requests a call connection, and a receiving terminal is a communication terminal that responds to the call connection request. By establishing a call between these two communication terminals, the caller (user of the calling terminal) and the called party (user of the called terminal) can talk. A call means voice transmitted and received between a calling terminal and a called terminal, and also means voice transmission and reception between a calling terminal and a called terminal.
本実施形態では、呼制御システムは、発信端末と着信端末との間の通話をテキストに変換して、変換されたテキストを発信端末および着信端末の少なくとも一方に表示させる音声テキスト化サービス(これは音声認識サービスともいう。)を実行する。本開示では、変換されたテキストを音声テキストともいう。 In this embodiment, the call control system converts a call between a calling terminal and a called terminal into text and displays the converted text on at least one of the calling terminal and the called terminal. (also called speech recognition service). In this disclosure, converted text is also referred to as spoken text.
図1は実施形態に係る呼制御システム1の全体構成を示す図である。呼制御システム1は、発信端末31が在圏する発側ネットワーク21と、着信端末32が在圏する着側ネットワーク22と、発側ネットワーク21および着側ネットワーク22を接続するコアネットワーク10とを備える。呼制御システム1では、複数の装置および端末の間で制御信号が伝送されることで呼(通信経路)が確立され、音声を示すデータ信号がその呼を介して伝送されることで、通話が可能になる。
FIG. 1 is a diagram showing the overall configuration of a
発信端末31および着信端末32はいずれも、通話機能を有する通信端末である。発信端末31および着信端末32のそれぞれは固定端末でもよいし携帯端末でもよい。発信端末31および着信端末32の例として、携帯電話機、スマートフォン、タブレット端末、ウェアラブル端末、またはパーソナルコンピュータが挙げられるが、端末の種類はこれらに限定されない。発信端末31と着信端末32とで端末の種類が同じでもよいし異なってもよい。
Both the originating
発側ネットワーク21および着側ネットワーク22はいずれも、端末が直接に接続するアクセスネットワークである。アクセスネットワークの構成は限定されない。例えば、アクセスネットワークは任意の無線ネットワークまたは有線ネットワークであってもよい。発側ネットワーク21と着側ネットワーク22との間でアクセスネットワークの種類(プロトコル)が同じでもよいし異なってもよい。
Both the
コアネットワーク10は、呼制御システム1の中核を成すネットワークであり、様々な通信制御装置を備える。本実施形態では、コアネットワーク10はIMSネットワークであるとする。IMSネットワークは、通信プロトコルとしてSIPを用い、データ通信だけでなく音声または動画のリアルタイム通信を実現するマルチメディアサービスを提供できるネットワークである。IMSネットワークでは、呼セッション制御機能(CSCF:Call Session Control Function)、アプリケーションサーバ(AS:Application Server)、ゲートウェイ、加入者管理機能(HSS:Home Subscriber Server)などの複数の通信制御装置により呼が処理される。CSCFは、呼またはセッションを設定したり、予め定められたサービスを起動したりする呼制御装置である。アプリケーションサーバは、予め定められた付加サービス(例えば、音声テキスト化サービス)を実行したり、その付加サービスの実行の可否を判定したりする装置である。ゲートウェイは、アクセスネットワークとコアネットワークとを接続する装置である。HSSはユーザのプロファイル(加入者情報)を記憶する装置(データベース)である。
The
本実施形態では、コアネットワーク10は、MCE(Media Composition Enabler)およびSMS-GW(SMSゲートウェイ)という2種類の通信制御装置をさらに備える。MCEは通話の付加機能を提供するメディア処理装置である。SMS-GWは、コアネットワークと他のネットワークとを接続するゲートウェイの一種であり、ショートメッセージサービス(SMS)を提供する装置である。
In this embodiment, the
図1は、付加サービスを伴う呼の制御に特に関連する通信制御装置を示し、具体的には、発側CSCF11、着側CSCF12、発側AS13、着側AS14、発側MCE15、着側MCE16、発側SMS-GW17、および着側SMS-GW18を示す。
FIG. 1 shows a communication control device particularly related to control of calls involving supplementary services. An originating SMS-
発側CSCF11および着側CSCF12はいずれも、発信端末31と着信端末32とを通信接続するための呼制御を実行する。発側CSCF11と着側CSCF12との間で制御信号およびデータ信号(例えば音声データ)が送受信されることで、発側と着側とが相互に接続される。発側AS13は発側のアプリケーションサーバであり、着側AS14は着側のアプリケーションサーバである。発側MCE15は発側のメディア処理装置であり、着側MCE16は着側のメディア処理装置である。発側SMS-GW17は発側のSMSゲートウェイであり、着側SMS-GW18は着側のSMSゲートウェイである。
Both the originating
図1はさらに発側Webサーバ41、着側Webサーバ42、および音声認識エンジン43を示す。発側Webサーバ41および音声認識エンジン43は、発信端末31に音声テキスト化サービスを提供する発側サービス基盤を構成する。着側Webサーバ42および音声認識エンジン43は、着信端末32に音声テキスト化サービスを提供する着側サービス基盤を構成する。音声認識エンジン43は、発側および着側の双方により用いられる共通のコンピュータであり、音声認識を用いて音声をテキストに変換する。発側および着側のサービス基盤はいずれも、コアネットワーク10とは別の通信ネットワーク内に設けられる。発側Webサーバ41は、発信端末31、発側AS13、および発側MCE15のそれぞれとデータ通信を実行することができる。着側Webサーバ42は、着信端末32、着側AS14、および着側MCE16のそれぞれとデータ通信を実行することができる。音声認識エンジン43は発側MCE15および着側MCE16のそれぞれとデータ通信を実行することができる。発信端末31は発側Webサーバ41と接続することで音声テキスト化サービスを発信者に提供することができる。着信端末32は着側Webサーバ42と接続することで音声テキスト化サービスを着信者に提供することができる。
FIG. 1 further shows a calling
本実施形態では、コアネットワーク10はセッションデータベース(セッションDB)19をさらに備える。セッションデータベース19は、音声テキスト化サービスを伴う呼(セッション)に関するセッション情報を記憶する装置(記憶部)であり、発側および着側の双方により用いられる共通のデータベースである。セッションデータベース19は発側AS13および着側AS14にアクセスされ得る。
In this embodiment, the
例えば、一つの呼に対応するセッション情報は、セッションID、発側補助セッションID、着側補助セッションID、発信端末31の加入者番号、着信端末32の加入者番号、発側エンドポイント、着側エンドポイント、および認識方向というデータ項目群を含んでもよい。セッションIDは呼(セッション)を一意に特定する識別子である。補助セッションIDは、コアネットワーク10の外側に位置するWebサーバでも呼を一意に特定できるように用意される識別子である。発側補助セッションIDは発側Webサーバ41のために用いられ、着側補助セッションIDは着側Webサーバ42のために用いられる。エンドポイントはWebサーバを一意に特定する識別子である。発側エンドポイントは発側Webサーバ41を一意に特定し、着側エンドポイントは着側Webサーバ42を一意に特定する。認識方向は、音声テキストをどの通信端末に送信するかを示す情報である。
For example, the session information corresponding to one call includes session ID, originating auxiliary session ID, terminating auxiliary session ID, subscriber number of originating
セッション情報のデータ構造は限定されず、任意の方針で設計されてよい。例えば、セッション情報は発側のレコードと着側のレコードとを互いに関連付けることで表現されてもよい。あるいは、セッション情報は、発側および着側の双方のデータ項目が1レコードに統合されることで表現されてもよい。 The data structure of session information is not limited and may be designed according to any policy. For example, the session information may be expressed by associating a calling-side record and a called-side record with each other. Alternatively, the session information may be expressed by integrating data items of both the originating side and the receiving side into one record.
図1に示す各装置は、少なくとも一つのコンピュータを用いて構成される。複数のコンピュータが用いられる場合には、これらのコンピュータが通信ネットワークを介して相互に接続することで、論理的に一つの装置が構築される。 Each device shown in FIG. 1 is configured using at least one computer. When a plurality of computers are used, these computers are interconnected via a communication network to logically construct one device.
呼制御システム1の特徴の一つは、発信者および着信者の双方が音声テキスト化サービスを利用する場合に、発側および着側のいずれか一方が、発信者および着信者の双方の音声をテキストに変換する点にある。図1に示すように音声認識エンジン43が発側と着側とで共通であったとしても、その音声認識エンジン43への接続が発側と着側との間で異なると音声認識の結果が異なってしまう可能性がある。例えば、或る一つの発話が発側MCE15から音声認識エンジン43に入力された場合と、同じ発話が着側MCE16から音声認識エンジン43に入力された場合とで、音声テキストが異なる可能性がある。発側および着側の双方の間で通話内容のテキストを一致させるために、呼制御システム1では、発側MCE15および着側MCE16のうちの一方のみが共通のメディア処理装置として機能する。この共通のメディア処理装置は、発信者および着信者の双方の音声を音声認識エンジン43に送信し、音声テキストを発側Webサーバ41および着側Webサーバ42の双方に送信する。図1は、この仕組みに関連する接続51,52も示す。接続51は一つの呼(セッション)において発側MCE15が共通のメディア処理装置として機能する場合に用いられ、接続52は一つの呼(セッション)において着側MCE16が共通のメディア処理装置として機能する場合に用いられる。
One of the features of the
図2は、アプリケーションサーバの機能構成の一例を示す図である。発側AS13は機能要素としてサービス制御部131、セッション制御部132、およびサービスシナリオ部133を備える。サービス制御部131は発側CSCF11との間でデータを送受信する機能要素である。セッション制御部132は発側MCE15との間でデータを送受信する機能要素である。サービスシナリオ部133は発側SMS-GW17および発側Webサーバ41のそれぞれとの間でデータを送受信する機能要素である。発側MCE15が発側および着側のそれぞれの音声を処理する場合には、サービスシナリオ部133は着側Webサーバ42との間でもデータを送受信する可能性があり、図2における接続61はその通信を示す。
FIG. 2 is a diagram illustrating an example of a functional configuration of an application server; The originating AS 13 has a
着側AS14は機能要素としてサービス制御部141、セッション制御部142、およびサービスシナリオ部143を備える。サービス制御部141は着側CSCF12との間でデータを送受信する機能要素である。セッション制御部142は着側MCE16との間でデータを送受信する機能要素である。サービスシナリオ部143は着側SMS-GW18および着側Webサーバ42のそれぞれとの間でデータを送受信する機能要素である。着側MCE16が発側および着側のそれぞれの音声を処理する場合には、サービスシナリオ部143は発側Webサーバ41との間でもデータを送受信する可能性があり、図2における接続62はその通信を示す。
The destination AS 14 has a
発側AS13および着側AS14はいずれも、発信者および着信者の双方が音声テキスト化サービスを利用する場合に、発側MCE15および着側MCE16のうちの一方を共通のメディア処理装置として機能させる制御部を備える。発側AS13では、サービス制御部131、セッション制御部132、およびサービスシナリオ部133の少なくとも一つがその制御部に相当する。着側AS14では、サービス制御部141、セッション制御部142、およびサービスシナリオ部143の少なくとも一つがその制御部に相当する。
Both the calling side AS 13 and the called side AS 14 control one of the calling
本実施形態では発側MCE15が双方の音声を処理する例を説明する。したがって、図1に示す接続51と図2に示す接続61とが利用される。しかし、本開示はその例に限定されるものではなく、着側MCE16が双方の音声を処理してもよい。
In this embodiment, an example in which the originating
図3~図6を参照しながら、本実施形態に係る呼制御システム1の動作の例を説明する。図3~図6はいずれも呼制御システム1の動作の一例を示すシーケンス図である。図3は呼を確立する処理の例を示す。図4および図5は音声テキスト化サービスを起動する処理の例を示す。図6は音声テキストを通信端末上に表示する処理の例を示す。理解を容易にするために、図3~図6では、通話および音声テキスト化サービスの制御に特に関係する構成要素、処理、およびデータ信号に限って示す。
An example of the operation of the
まず、図3を参照しながら、呼を確立する処理の例を処理フローS1として説明する。 First, referring to FIG. 3, an example of a call establishment process will be described as a process flow S1.
ステップS101では、発信端末31が発信者の発信操作に応じてINVITEメッセージを送信し、発側AS13がそのINVITEメッセージを受信する。INVITEメッセージは、発信端末31と着信端末32との間に呼(セッション)を確立するために伝送される制御信号(呼確立要求信号)である。このINVITEメッセージは発側ネットワーク21を経由してコアネットワーク10に入る。コアネットワーク10では、発側CSCF11がそのINVITEメッセージを発側AS13に転送する。
In step S101, the originating
ステップS102では、サービス制御部131がそのINVITEメッセージに応答して発信端末31(発信者)のために音声テキスト化サービスを起動する。サービス制御部131は加入者管理機能にアクセスして発信者の加入者情報を参照し、発信者が音声テキスト化サービスを契約しているか否かを判定する。発信者が音声テキスト化サービスを契約している場合に、サービス制御部131はサービスを起動する。本実施形態では、発信者が音声テキスト化サービスの契約者であることを前提とする。サービスの起動に関連して、サービス制御部131、セッション制御部132、およびサービスシナリオ部133は連携して、これから確立する呼のセッションIDと、発側補助セッションIDと、発信端末31の加入者番号と、着信端末32の加入者番号とを含むセッション情報をセッションデータベース19に格納する。
In step S102, the
ステップS103では、サービスシナリオ部133が発側SMS-GW17にプッシュ通知を送信し、ステップS104では、発側SMS-GW17がそのプッシュ通知に応答して発信端末31にプッシュ要求を送信する。サービスシナリオ部133は、サービス制御部131からの指示に応答してユーザプロファイルにアクセスして発信者のユーザ情報を参照し、音声テキスト化サービスの契約状態を判定する。発信者に音声テキスト化サービスを提供できる場合に、サービスシナリオ部133はプッシュ通知を送信する。本実施形態では、発信者が音声テキスト化サービスを享受する資格を有することを前提とする。プッシュ要求は、発信端末31が発側Webサーバ41から音声テキスト化サービスを受けるために必要な情報(例えば、発信端末31のデバイストークン、および発側補助セッションID)を含み、プッシュ通知は、そのプッシュ要求を構成する情報の少なくとも一部を含む。
In step S103, the
ステップS105では、セッション制御部132が発側MCE15との接続のためにINVITEメッセージを発側MCE15に送信する。発側MCE15はそのINVITEメッセージに応答して音声テキスト化サービスのための処理を実行した後に、ステップS106において200_OKメッセージを送信する。200_OKメッセージは、INVITEメッセージに対応する処理が正常に実行されたことを示す応答信号である。すなわち、200_OKメッセージはINVITEメッセージに対応する成功応答信号である。
In step S<b>105 , the
ステップS107では、サービス制御部131が着側AS14に向けてINVITEメッセージを送信する。サービス制御部131は、INVITEメッセージのヘッダ情報に、発側MCE15を一意に特定するための識別子である発側メディア装置IDと、発側で音声テキスト化サービスが実行されることを示す発側サービス情報とを付加する。そして、サービス制御部131は発側メディア装置IDおよび発側サービス情報を含むINVITEメッセージを送信する。このINVITEメッセージは発側CSCF11および着側CSCF12を経由して着側AS14に到達する。
In step S107, the
ステップS108では、サービス制御部141が発側AS13からのINVITEメッセージに応答して着信端末32(着信者)のために音声テキスト化サービスを起動する。サービス制御部141は加入者管理機能にアクセスして着信者の加入者情報を参照し、着信者が音声テキスト化サービスを契約しているか否かを判定する。着信者が音声テキスト化サービスを契約している場合に、サービス制御部141はサービスを起動する。本実施形態では、着信者が音声テキスト化サービスの契約者であることを前提とする。サービスの起動に関連して、サービス制御部141、セッション制御部142、およびサービスシナリオ部143は連携して、これから確立する呼の着側補助セッションIDをセッションデータベース19内の対応するセッション情報に書き込む。
In step S108, the
ステップS109では、サービスシナリオ部143が着側SMS-GW18にプッシュ通知を送信し、ステップS110では、着側SMS-GW18がそのプッシュ通知に応答して着信端末32にプッシュ要求を送信する。サービスシナリオ部143は、サービス制御部141からの指示に応答してユーザプロファイルにアクセスして着信者のユーザ情報を参照し、音声テキスト化サービスの契約状態を判定する。着信者に音声テキスト化サービスを提供できる場合に、サービスシナリオ部143はプッシュ通知を送信する。本実施形態では、着信者が音声テキスト化サービスを享受する資格を有することを前提とする。プッシュ要求は、着信端末32が着側Webサーバ42から音声テキスト化サービスを受けるために必要な情報(例えば、着信端末32のデバイストークン、および着側補助セッションID)を含み、プッシュ通知は、そのプッシュ要求を構成する情報の少なくとも一部を含む。
In step S109, the
ステップS111では、セッション制御部142が着側MCE16との接続のためにINVITEメッセージを着側MCE16に送信する。着側MCE16はそのINVITEメッセージに応答して音声テキスト化サービスのための処理を実行する。着側MCE16はINVITEメッセージ内の発側メディア装置IDおよび発側サービス情報を参照することで、発側で音声テキスト化サービスが実行されることと、発側MCE15がそのサービスを実行することとを認識する。この認識に基づいて、着側MCE16は音声データを音声認識エンジン43に提供しない。ただし、着側MCE16と着側AS14との間の接続は、呼が切断されるまで維持される。ステップS112では、着側MCE16が200_OKメッセージを着側AS14に送信する。
In step S111, the
ステップS113では、サービス制御部141がINVITEメッセージを着信端末32に向けて送信する。INVITEメッセージは着側AS14から着側CSCF12に送られ、着側CSCF12から着側ネットワーク22を経由して着信端末32に送信される。着信端末32がそのINVITEメッセージを受信することで、着信端末32に対する呼出処理が完了する。
In step S<b>113 , the
ステップS114では、着信者が電話に出たことに応答して、着信端末32が200_OKメッセージを送信し、この200_OKメッセージが着側ネットワーク22および着側CSCF12を経由して着側AS14に到達する。
In step S114, the terminating
ステップS115では、着側AS14のサービス制御部141、セッション制御部142、およびサービスシナリオ部143のそれぞれがそのメッセージを処理し、最後にサービス制御部141が200_OKメッセージを発側AS13に向けて送信する。サービス制御部141は、200_OKメッセージのヘッダ情報に、着側MCE16を一意に特定するための識別子である着側メディア装置IDと、着側で音声テキスト化サービスが実行されることを示す着側サービス情報とを付加する。そして、サービス制御部141は着側メディア装置IDおよび着側サービス情報を含む200_OKメッセージを送信する。この200_OKメッセージは着側CSCF12および発側CSCF11を経由して発側AS13に到達する。
In step S115, each of
ステップS116では、セッション制御部132がその200_OKメッセージを発側MCE15に送信する。発側MCE15はその200_OKメッセージ内の着側メディア装置IDおよび着側サービス情報を参照することで、着側でも音声テキスト化サービスが実行されることを認識する。この認識に基づいて、発側MCE15は発信端末31からの音声データと着信端末32からの音声データとを音声認識エンジン43に提供する。このように、発側AS13は発側MCE15を共通のメディア処理装置として機能させる。ステップS117では、発側MCE15が200_OKメッセージを発側AS13に返し、ステップS118では、発側AS13がその200_OKメッセージを発信端末31に向けて送信する。200_OKメッセージは発側CSCF11および発側ネットワーク21を経由して発信端末31に到達する。
In step S116, the
ステップS119では、発信端末31が200_OKメッセージを受信することで、発信端末31と着信端末32との間に、データ信号を伝送するためのU-Plane(ユーザ・プレイン)のバスが確立される。すなわち、発信端末31と着信端末32との間に呼が確立される。この結果、発信端末31と着信端末32との間で通話が可能になる。
In step S119, the calling
次に、図4を参照しながら、音声テキスト化サービスを起動する処理の例を処理フローS2として説明する。この例は、通信端末での音声テキスト化サービスの開始のタイミングが発信端末31と着信端末32との間で同じかまたはほぼ同じ場合を示す。
Next, referring to FIG. 4, an example of processing for activating the speech-to-text service will be described as a processing flow S2. This example shows a case where the start timing of the speech-to-text service at the communication terminal is the same or almost the same between the originating
ステップS201では、発信端末31が音声テキスト化サービスのためのアプリケーションプログラムを起動するために接続要求を発側Webサーバ41に送信する。接続要求は発信端末31と発側Webサーバ41との間に通信接続を確立するためのデータ信号であり、プッシュ要求により提供された情報の少なくとも一部(例えば、発信端末31のデバイストークン、および発側補助セッションID)を含む。
In step S201, the originating
ステップS202では、発側Webサーバ41と発側AS13のサービスシナリオ部133との間で、発信者を認証するための処理が実行される。発側Webサーバ41は、接続要求により提供された情報の少なくとも一部(例えば、発信端末31のデバイストークン)を含む認証要求を発側AS13に送信する。サービスシナリオ部133はその認証要求に応答して認証処理を実行する。例えば、サービスシナリオ部133はデバイストークンが有効か否かを検査する。サービスシナリオ部133はその処理結果を発側Webサーバ41に送信する。本実施形態では、発信者が認証されることを前提とする。
In step S202, processing for authenticating the caller is executed between the calling
ステップS203では、発信端末31が音声テキスト化サービスのためのアプリケーションプログラムを起動させて起動信号を発側Webサーバ41に送信する。起動信号はそのアプリケーションプログラムを実行するためのデータ信号である。
In step S203, the originating
ステップS204では、発側Webサーバ41がその起動信号に応答して発側AS13にイベント通知を送信する。このイベント通知は発側エンドポイントおよび発側補助セッションIDを含む。
In step S204, the originating
ステップS205では、発側AS13のサービスシナリオ部133が発側エンドポイントをセッションデータベース19に登録する。サービスシナリオ部133は、発側補助セッションIDに対応するセッション情報に発側エンドポイントを書き込む。この登録処理により、現在確立されている呼(セッション)での音声テキストを発側Webサーバ41経由で発信端末31に送信することが可能になる。
In step S 205 , the
着側でもステップS201~S205と同様の処理が実行される。その同様の処理をステップS211~S215として示す。 The processing similar to steps S201 to S205 is executed on the receiving side as well. Similar processing is shown as steps S211 to S215.
ステップS211では、着信端末32が音声テキスト化サービスのためのアプリケーションプログラムを起動するために接続要求を着側Webサーバ42に送信する。接続要求は、プッシュ要求により提供された情報の少なくとも一部(例えば、着信端末32のデバイストークン、および着側補助セッションID)を含む。
In step S211, the receiving
ステップS212では、着側Webサーバ42と着側AS14のサービスシナリオ部143との間で、発信者を認証するための処理が実行される。本実施形態では、着信者も認証されることを前提とする。
In step S212, a process for authenticating the caller is executed between the called-
ステップS213では、着信端末32が音声テキスト化サービスのためのアプリケーションプログラムを起動させて起動信号を着側Webサーバ42に送信する。
In step S<b>213 , the receiving
ステップS214では、着側Webサーバ42がその起動信号に応答して着側AS14にイベント通知を送信する。このイベント通知は着側エンドポイントおよび着側補助セッションIDを含む。
In step S214, the
ステップS215では、着側AS14のサービスシナリオ部143が着側エンドポイントをセッションデータベース19に登録する。サービスシナリオ部143は、着側補助セッションIDに対応するレコードに着側エンドポイントを書き込む。この登録処理により、現在確立されている呼(セッション)での音声テキストを着側Webサーバ42経由で着信端末32に送信することが可能になる。
In step S 215 , the
発側では、ステップS205の後にステップS206,S207が実行される。ステップS206では、発信端末31が、発信者が音声テキスト化サービスの利用に同意することを示す同意信号を発側Webサーバ41に送信する。ステップS207では、発側Webサーバ41がその同意信号に応答して発側AS13にイベント通知を送信する。このイベント通知は発信者の同意を示す。これらの同意信号およびイベント通知はいずれも発側補助セッションIDを含む。
On the calling side, steps S206 and S207 are executed after step S205. In step S206, the calling
着側では、ステップS215の後にステップS216,S217が実行される。ステップS216では、着信端末32が、着信者が音声テキスト化サービスの利用に同意することを示す同意信号を着側Webサーバ42に送信する。ステップS217では、着側Webサーバ42がその同意信号に応答して発側AS13に向けてイベント通知を送信する。このイベント通知は着信者の同意を示す。これらの同意信号およびイベント通知はいずれも着側補助セッションIDを含む。
On the receiving side, steps S216 and S217 are executed after step S215. In step S216, the receiving
ステップS208では、サービスシナリオ部133が、ステップS207,S217での二つのイベント通知に基づいて、確立された呼に対応するセッション情報の認識方向を「双方向」に設定する。具体的には、サービスシナリオ部133はセッションデータベース19にアクセスして、発側または着側の補助セッションIDに対応するセッション情報を特定し、このセッション情報の認識方向を「双方向」に設定する。このように、サービスシナリオ部133は、発信端末31および着信端末32の双方から同意信号が送信されたことに応答して認識方向を「双方向」に設定する。この結果、ステップS220で示すように、発着側の双方で音声テキスト化サービスが実行される。
At step S208, the
次に、図5を参照しながら、音声テキスト化サービスを起動する処理の別の例を処理フローS2Aとして説明する。この例は、通信端末での音声テキスト化サービスの開始のタイミングが発信端末31と着信端末32との間で異なる場合を示し、より具体的には、着信端末32が発信端末31よりも後に音声テキスト化サービスを開始する場合を示す。
Next, another example of processing for activating the speech-to-text service will be described as a processing flow S2A with reference to FIG. This example shows a case where the start timing of the speech-to-text service at the communication terminal is different between the calling
処理フローS2Aでも処理フローS2と同様に、発側ではステップS201~S207が実行される。音声テキスト化サービスのアプリケーションプログラムの起動に関する処理のタイミングが発側と着側とである程度大きく異なる場合には、発側ではステップS207の後にステップS208Aが実行される。このステップS208Aでは、サービスシナリオ部133が、ステップS207でのイベント通知に基づいて、確立された呼に対応するセッション情報(発側補助セッションIDに対応するセッション情報)の認識方向を「発側」に設定する。この結果、ステップS221に示すように、発信端末31でのみ音声テキスト化サービスが実行される。
In the processing flow S2A, steps S201 to S207 are executed on the originating side in the same manner as in the processing flow S2. If the timing of the process for starting the application program of the speech-to-text service differs to some extent between the calling side and the called side, step S208A is executed on the calling side after step S207. In step S208A,
ステップS221の後に、着側でステップS211~S217が実行されると、発側ではステップS208Bが実行される。このステップS208Bでは、サービスシナリオ部133が、ステップS217でのイベント通知に基づいて、確立された呼に対応するセッション情報(着側補助セッションIDに対応するセッション情報)の認識方向を「発側」から「双方向」に更新する。このように、サービスシナリオ部133は、発信端末31および着信端末32の双方から同意信号が送信されたことに応答して認識方向を「双方向」に設定する。この結果、ステップS222で示すように、発着側の双方で音声テキスト化サービスが実行可能になる。ステップS222は処理フローS2におけるステップS220と同じである。
After step S221, when steps S211 to S217 are executed on the receiving side, step S208B is executed on the calling side. In this step S208B, the
次に、図6を参照しながら、音声テキストを通信端末上に表示する処理の例を処理フローS3として説明する。処理フローS3は、発着側の双方で音声テキスト化サービスが実行可能になったこと(すなわち、ステップS220またはS222)を前提とする。 Next, an example of processing for displaying voice text on the communication terminal will be described as processing flow S3 with reference to FIG. The process flow S3 assumes that the voice-to-text service has become executable on both the originating and receiving sides (that is, step S220 or S222).
ステップS301~S309は、着信者の音声(着側音声)をテキストに変換して、その音声テキストを発信端末31および着信端末32の双方に表示にする処理を示す。
Steps S 301 to S 309 show processing for converting the voice of the called party (called voice) into text and displaying the voice text on both the calling
ステップS301では、着信端末32から送信された音声データ(着側音声)が着側ネットワーク22を介してコアネットワーク10に送られ、着側CSCF12、発側CSCF11、発側AS13などの通信制御装置を経由して発側MCE15に送信される。ステップS302では発側MCE15がその音声データを音声認識エンジン43に送信する。ステップS303では、音声認識エンジン43がその音声データに対して音声認識を実行することで着側音声をテキストに変換し、その音声テキストを発側MCE15に送信する。この音声テキストは着側テキストに相当する。
In step S301, voice data (receiving-side voice) transmitted from the receiving
ステップS304では、発側MCE15が、その音声テキストと、発話者が誰であるかを示す発話種別とを含む認識結果を発側Webサーバ41に送信する。音声テキストは着側音声を示すので、このステップで送信される認識結果では、発話種別は着側を示す。ステップS305では、発側MCE15がその認識結果を着側Webサーバ42にも送信する。発側MCE15は発側AS13を介して現在の呼に対応するセッション情報をセッションデータベース19から取得する。セッション情報の認識方向が「双方向」であることに応答して、発側MCE15はそのセッション情報から発側エンドポイントおよび着側エンドポイントを取得する。発側MCE15はこれらのエンドポイントにより認識結果の送信先(すなわち、発側Webサーバ41および着側Webサーバ42)を取得することができる。このように、発側MCE15は、認識方向が「双方向」であることに応答して着側テキストを発側Webサーバ41および着側Webサーバ42の双方に向けて送信する。
In step S304, the calling
ステップS306では、発側Webサーバ41が発信端末31に認識結果を送信する。発側Webサーバ41は、認識結果に含まれる発話種別が着側であることに基づいて、音声テキストが通話相手のものとして発信端末31上に表示されるように、音声テキストを含むデータを生成する。
In step S<b>306 , the calling-
ステップS307では、発信端末31がそのデータに基づいて、音声テキストを着信者(通話相手)のものとして画面上に表示する。これにより、発信者は相手が話した内容を視覚的に認識できる。
In step S307, the originating
ステップS308では、着側Webサーバ42が着信端末32に認識結果を送信する。着側Webサーバ42は、認識結果に含まれる発話種別が着側であることに基づいて、音声テキストが着信者自身のものとして着信端末32上に表示されるように、音声テキストを含むデータを生成する。
In step S<b>308 , the receiving-
ステップS309では、着信端末32がそのデータに基づいて、音声テキストを着信者自身のものとして画面上に表示する。これにより、着信者は自分の発話を視覚的に認識できる。
In step S309, the receiving
ステップS310~S318は、発信者の音声(発側音声)をテキストに変換して、その音声テキストを発信端末31および着信端末32の双方に表示にする処理を示す。
Steps S 310 to S 318 show processing for converting the voice of the caller (calling side voice) into text and displaying the voice text on both the calling
ステップS310では、発信端末31から送信された音声データ(発側音声)が発側ネットワーク21を介してコアネットワーク10に送られ、発側CSCF11および発側AS13を経由して発側MCE15に送信される。ステップS311では発側MCE15がその音声データを音声認識エンジン43に送信する。ステップS312では、音声認識エンジン43がその音声データに対して音声認識を実行することで発側音声をテキストに変換し、その音声テキストを発側MCE15に送信する。この音声テキストは発側テキストに相当する。
In step S310, voice data (calling-side voice) transmitted from the calling
ステップS313では、発側MCE15が、その音声テキストと、発話者が誰であるかを示す発話種別とを含む認識結果を発側Webサーバ41に送信する。音声テキストは発側音声を示すので、このステップで送信される認識結果では、発話種別は発側を示す。ステップS314では、発側MCE15がその認識結果を着側Webサーバ42にも送信する。発側MCE15は発側AS13を介して、現在の呼に対応するセッション情報をセッションデータベース19から取得する。セッション情報の認識方向が「双方向」であることに応答して、発側MCE15はそのセッション情報から発側エンドポイントおよび着側エンドポイントを取得し、これにより発側Webサーバ41および着側Webサーバ42を特定できる。このように、発側MCE15は、認識方向が「双方向」であることに応答して発側テキストを発側Webサーバ41および着側Webサーバ42の双方に向けて送信する。
In step S313, the calling
ステップS315では、発側Webサーバ41が発信端末31に認識結果を送信する。発側Webサーバ41は、認識結果に含まれる発話種別が発側であることに基づいて、音声テキストが発信者自身のものとして発信端末31上に表示されるように、音声テキストを含むデータを生成する。
In step S<b>315 , the calling-
ステップS316では、発信端末31がそのデータに基づいて、音声テキストを発信者自身のものとして画面上に表示する。これにより、発信者は自分の発話を視覚的に認識できる。
In step S316, the calling
ステップS317では、着側Webサーバ42が着信端末32に認識結果を送信する。着側Webサーバ42は、認識結果に含まれる発話種別が発側であることに基づいて、音声テキストが通話相手のものとして着信端末32上に表示されるように、音声テキストを含むデータを生成する。
In step S<b>317 , the receiving-
ステップS318では、着信端末32がそのデータに基づいて、音声テキストを発信者(通話相手)のものとして画面上に表示する。これにより、着信者は相手が話した内容を視覚的に認識できる。
In step S318, the receiving
このように、双方のWebサーバは発話種別に基づいて音声テキストの表示態様を設定する。音声テキストを発話者自身または通話相手のものとして表示する手法は何ら限定されず、任意の手法が採用されてよい。Webサーバは発話種別に応じて音声テキストの表示位置(たとえば、音声テキストの吹き出しの表示位置)を変えてもよい。例えば、Webサーバは、発話者自身の音声テキストが右側(一方の側の一例)に表示され、通話相手の音声テキストが左側(他方の側の一例)に表示されるように表示態様を制御してもよい。あるいは、Webサーバは発話種別に応じて、音声テキストのフォントを変えてもよいし、吹き出しの形状または背景色を変えてもよい。 In this way, both Web servers set the display mode of the voice text based on the utterance type. The method of displaying the voice text as that of the speaker or the other party is not limited at all, and any method may be adopted. The Web server may change the display position of the voice text (for example, the display position of the balloon of the voice text) according to the utterance type. For example, the Web server controls the display mode so that the speaker's own voice text is displayed on the right side (an example of one side) and the voice text of the other party is displayed on the left side (an example of the other side). may Alternatively, the Web server may change the font of the voice text, the shape of the balloon, or the background color according to the type of utterance.
発話種別に基づく音声テキストの表示態様の設定は発信端末31および着信端末32で実行されてもよい。具体的には、発側Webサーバ41および着側Webサーバ42のそれぞれが、音声テキストと共に発話種別も、対応する通信端末に送信することで、該通信端末にその発話種別に基づいて音声テキストの表示態様を設定させてもよい。この仕組みによっても、発信端末31および着信端末32のそれぞれは、表示位置、フォント、吹き出しの形状または背景色などの表示態様を設定することができる。
The setting of the display mode of the voice text based on the utterance type may be performed by the calling
本実施形態ではコアネットワーク10がIMSネットワークであるが、本開示に係る呼制御システムは任意の種類のコアネットワークに適用されてもよい。これに関連して、本開示に係る呼制御システムはSIP以外の通信プロトコルを用いてもよい。
Although the
発側AS13に実装される機能要素の少なくとも一部は、発側AS13以外の通信制御装置に実装されてもよい。同様に、着側AS14に実装される機能要素の少なくとも一部は、着側AS14以外の通信制御装置に実装されてもよい。 At least part of the functional elements implemented in the originating AS 13 may be implemented in a communication control device other than the originating AS 13 . Similarly, at least part of the functional elements implemented in the destination AS 14 may be implemented in a communication control device other than the destination AS 14 .
上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。 The block diagrams used in the description of the above embodiments show blocks for each function. These functional blocks (components) are realized by any combination of at least one of hardware and software. Also, the method of implementing each functional block is not particularly limited. That is, each functional block may be implemented using one device that is physically or logically coupled, or directly or indirectly using two or more devices that are physically or logically separated (e.g. , wired, wireless, etc.) and may be implemented using these multiple devices. A functional block may be implemented by combining software in the one device or the plurality of devices.
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。 Functions include judging, determining, determining, calculating, calculating, processing, deriving, investigating, searching, checking, receiving, transmitting, outputting, accessing, resolving, selecting, choosing, establishing, comparing, assuming, expecting, assuming, Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc. can't For example, a functional block (component) that makes transmission work is called a transmitting unit or a transmitter. In either case, as described above, the implementation method is not particularly limited.
例えば、本開示の一実施の形態における通信制御装置は、本開示の処理を行うコンピュータとして機能してもよい。図7は、その通信制御装置として機能するコンピュータ100のハードウェア構成の一例を示す図である。コンピュータ100は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含んでもよい。
For example, a communication control device according to an embodiment of the present disclosure may function as a computer that performs processing of the present disclosure. FIG. 7 is a diagram showing an example of the hardware configuration of
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。通信制御装置のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。 Note that in the following description, the term "apparatus" can be read as a circuit, device, unit, or the like. The hardware configuration of the communication control device may be configured to include one or more of each device shown in the figure, or may be configured without some of the devices.
通信制御装置における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
Each function in the communication control device is performed by causing the
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。
The
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、通信制御装置の各機能要素は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。
The
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
The
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
The
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。
The
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
The
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
Devices such as the
また、コンピュータ100は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
In addition, the
以上説明したように、本開示の一側面に係る呼制御システムは、発信端末と着信端末との間で伝送される通話をテキストに変換する音声テキスト化サービスを実行可能である。呼制御システムは、発信端末を利用する発信者と着信端末を利用する着信者との双方が音声テキスト化サービスの利用者である場合に、発信端末に対応する発側メディア処理装置と着信端末に対応する着側メディア処理装置とのうちの一方を共通のメディア処理装置として機能させる制御部を備える。共通のメディア処理装置は、発信者または着信者の音声をテキストに変換する音声認識エンジンと接続する。共通のメディア処理装置は、発信端末から送信された発信者の発側音声を音声認識エンジンに入力することで発側テキストを取得し、発側テキストを発信端末および着信端末の双方に向けて送信する。共通のメディア処理装置は、着信端末から送信された着信者の着側音声を音声認識エンジンに入力することで着側テキストを取得し、着側テキストを発信端末および着信端末の双方に向けて送信する。 As described above, the call control system according to one aspect of the present disclosure can execute a speech-to-text conversion service that converts a call transmitted between a calling terminal and a called terminal into text. In the call control system, when both the caller using the calling terminal and the called party using the called terminal are users of the voice-to-text service, the calling-side media processing device corresponding to the calling terminal and the called terminal A control unit is provided that causes one of the corresponding destination media processing devices to function as a common media processing device. A common media processing unit interfaces with a speech recognition engine that converts the caller's or called party's speech to text. The common media processing device acquires the caller text by inputting the caller's caller's voice transmitted from the caller terminal into the speech recognition engine, and transmits the caller text to both the caller terminal and the callee terminal. do. The common media processing device acquires the called-side text by inputting the called-side voice of the called party transmitted from the called terminal into the speech recognition engine, and transmits the called-side text to both the calling terminal and the called terminal. do.
このような側面においては、発信者および着信者の双方が音声認識サービスの利用者である場合に、発信者および着信者の双方の音声が共通のメディア処理装置を介してテキストに変換され、そのテキストが発信端末および着信端末の双方に送信される。発側および着側の双方について、共通のメディア処理装置が用いられるので、発側および着側の双方の間で通話内容のテキストを一致させることができる。 In this aspect, when both the caller and the callee are users of a speech recognition service, the voices of both the caller and the callee are converted to text through a common media processing device, and the A text is sent to both the originating terminal and the terminating terminal. Since a common media processor is used for both the originating and terminating parties, the text of the call can be matched between the originating and terminating parties.
また、発側メディア処理装置と着側メディア処理装置の双方を用いるのではなく、そのうちの一方が用いられるので、音声テキスト化サービスを実行するために用いられるハードウェア資源および利用ライセンス数の少なくとも一方を節約することができる。また、音声テキスト化サービスに関連するメッセージ(例えばガイダンス)を、共通のメディア処理装置から発信端末および着信端末の双方に送信することも可能になる。 Also, since one of the originating media processing device and the terminating media processing device is used instead of both, at least one of the hardware resources and the number of usage licenses used to execute the speech-to-text service is used. can be saved. It also enables messages (eg, guidance) related to speech-to-text services to be sent from a common media processing device to both the originating terminal and the terminating terminal.
他の側面に係る呼制御システムでは、制御部が発側メディア処理装置を共通のメディア処理装置として機能させてもよい。或る同一種類の処理が実行されるタイミングは着側よりも発側の方が早い。したがって、発側メディア処理装置を共通のメディア処理装置として用いることで、音声テキスト化サービスに関連する処理を早く開始することができ、その分、音声テキスト化サービスをより早くユーザに提供することが可能になる。 In a call control system according to another aspect, the control unit may cause the originating media processing device to function as a common media processing device. The timing at which the same type of processing is executed is earlier on the originating side than on the receiving side. Therefore, by using the originating side media processing device as a common media processing device, it is possible to start processing related to the voice-to-text service earlier, and to provide the user with the voice-to-text service more quickly. be possible.
他の側面に係る呼制御システムでは、制御部が、発側メディア処理装置を一意に特定する発側メディア装置IDを着側メディア処理装置に向けて送信し、発側メディア装置IDを受信した着側メディア処理装置から、着側メディア処理装置を一意に特定する着側メディア装置IDを受信し、着側メディア装置IDの受信に応答して、発側メディア処理装置を共通のメディア処理装置として機能させてもよい。発側および着側の双方のメディア処理装置の識別子を取得することで共通のメディア処理装置を確実に機能させることができる。 In the call control system according to another aspect, the control unit transmits a calling-side media device ID that uniquely identifies the calling-side media processing device to the called-side media processing device. Receiving a destination media device ID that uniquely identifies a destination media processing device from a media processing device on the side, and in response to receiving the media device ID on the destination side, the originating media processing device functions as a common media processing device. You may let By acquiring the identifiers of the media processing devices on both the originating side and the terminating side, the common media processing device can be reliably operated.
他の側面に係る呼制御システムでは、発側メディア処理装置が、発側テキストまたは着側テキストを発信端末に送信する発側Webサーバと接続し、着側メディア処理装置が、発側テキストまたは着側テキストを着信端末に送信する着側Webサーバと接続してもよい。呼制御システムは、発側Webサーバを一意に特定する発側エンドポイントと、着側Webサーバを一意に特定する着側エンドポイントとを含むセッション情報を記憶するデータベースをさらに備えてもよい。共通のメディア処理装置は、セッション情報の発側エンドポイントおよび着側エンドポイントを取得し、発側エンドポイントに基づいて、発側テキストまたは着側テキストを発側Webサーバに送信することで、発側テキストまたは着側テキストを発信端末に向けて送信し、着側エンドポイントに基づいて、発側テキストまたは着側テキストを着側Webサーバに送信することで、発側テキストまたは着側テキストを着信端末に向けて送信してもよい。そのエンドポイントを参照することで、テキストを送信すべきWebサーバを特定することができる。 In a call control system according to another aspect, a calling-side media processing device connects to a calling-side web server that transmits calling-side text or called-side text to a calling terminal, and a called-side media processing device transmits calling-side text or called-side text to a calling terminal. It may also be connected to a destination web server that sends the destination text to the destination terminal. The call control system may further comprise a database that stores session information including an originating endpoint that uniquely identifies the originating Web server and a terminating endpoint that uniquely identifies the terminating Web server. The common media processing device obtains the originating end point and the terminating end point of the session information, and transmits the originating text or the terminating text to the originating web server based on the originating end point. Terminate the calling or called text by sending the calling or called text to the originating terminal and sending the calling or called text to the called Web server based on the called endpoint. You can send it to your terminal. By referring to the endpoint, the web server to which the text should be sent can be specified.
他の側面に係る呼制御システムでは、制御部が、ユーザが音声テキスト化サービスの利用に同意することを示す同意信号が発信端末および着信端末の双方から送信されたことに応答して、音声テキストをどの通信端末に送信するかを示す認識方向を双方向に設定し、共通のメディア処理装置が、認識方向が双方向であることに応答して、発側テキストまたは着側テキストを発側Webサーバおよび着側Webサーバの双方に向けて送信してもよい。ユーザの同意に応じて認識方向を設定することで、発信者および着信者の双方が音声テキスト化サービスを希望する場合にのみその双方にテキストを送信することが可能になる。 In the call control system according to another aspect, the control unit generates the speech text in response to the consent signal indicating that the user agrees to use the speech-to-text service from both the calling terminal and the receiving terminal. is set to bidirectional, and the common media processing device transmits the originating side text or the terminating side text to the originating side Web in response to the fact that the recognition direction is bidirectional. It may be sent to both the server and the destination Web server. By setting the recognition direction according to the user's consent, it is possible to send the text to both the caller and the called party only if they both want the speech-to-text service.
他の側面に係る呼制御システムでは、共通のメディア処理装置が、発側テキストおよび着側テキストのそれぞれについて、発話者が発信者および着信者のどちらであるかを示す発話種別をさらに発側Webサーバおよび着側Webサーバの双方に送信してもよい。この発話種別がWebサーバに提供されることで、Webサーバは発話者の種類に応じてテキストを処理することができる。 In the call control system according to another aspect, the common media processing device further adds a speech type indicating whether the speaker is a caller or a callee for each of the caller text and the callee text. It may be sent to both the server and the destination Web server. By providing this utterance type to the web server, the web server can process the text according to the type of the utterer.
他の側面に係る呼制御システムでは、発側Webサーバは、発話種別が発信者を示す場合には、発信端末上で発側テキストが発話者自身の音声テキストとして表示されるように発側テキストの表示態様を設定し、発話種別が着信者を示す場合には、発信端末上で着側テキストが通話相手の音声テキストとして表示されるように着側テキストの表示態様を設定してもよい。着側Webサーバは、発話種別が発信者を示す場合には、着信端末上で発側テキストが通話相手の音声テキストとして表示されるように発側テキストの表示態様を設定し、発話種別が着信者を示す場合には、着信端末上で着側テキストが発話者自身の音声テキストとして表示されるように着側テキストの表示態様を設定してもよい。 In the call control system according to another aspect, when the utterance type indicates a caller, the caller-side Web server displays the caller-side text as the voice text of the speaker himself/herself on the calling terminal. is set, and when the utterance type indicates the called party, the display mode of the called party text may be set so that the called party text is displayed as the voice text of the other party on the calling terminal. When the utterance type indicates the caller, the receiving-side Web server sets the display mode of the calling-side text so that the caller-side text is displayed as the voice text of the other party on the receiving terminal, and In the case of indicating the person, the display mode of the called party text may be set so that the called party text is displayed as the voice text of the speaker himself/herself on the called terminal.
発側および着側のそれぞれで、発話種別に応じて上記のようにテキストの表示態様を設定することで、通信端末の利用者と発話者との関係に応じてテキストを表示することができる。通信端末は自機のユーザの音声テキストと通話相手の音声テキストとを互いに異なる表示態様で表示し、このことは、音声テキスト化サービスのユーザインタフェースの改善に寄与し得る。 By setting the text display mode as described above according to the speech type on each of the caller and callee, the text can be displayed according to the relationship between the user of the communication terminal and the speaker. The communication terminal displays the speech text of the user of the own device and the speech text of the other party in different display modes, which can contribute to improving the user interface of the speech-to-text service.
他の側面に係る呼制御システムでは、発側Webサーバは、発話種別が発信者を示す場合には、発信端末上で発側テキストが発話者自身の音声テキストとして表示されるように発側テキストを発信端末上の第1の側に表示させ、発話種別が着信者を示す場合には、発信端末上で着側テキストが通話相手の音声テキストとして表示されるように着側テキストを発信端末上の第2の側に表示させてもよい。着側Webサーバは、発話種別が発信者を示す場合には、着信端末上で発側テキストが通話相手の音声テキストとして表示されるように発側テキストを着信端末上の第1の側に表示させ、発話種別が着信者を示す場合には、着信端末上で着側テキストが発話者自身の音声テキストとして表示されるように着側テキストを着信端末上の第2の側に表示させてもよい。 In the call control system according to another aspect, when the utterance type indicates a caller, the caller-side Web server displays the caller-side text as the voice text of the speaker himself/herself on the calling terminal. is displayed on the first side on the calling terminal, and if the utterance type indicates called party, the called text is displayed on the calling terminal as the spoken text of the other party on the calling terminal. may be displayed on the second side of the The called-side Web server displays the calling-side text on the first side of the called terminal such that the called-side text is displayed as the spoken text of the other party on the called terminal when the utterance type indicates the caller. and if the utterance type indicates a called party, the called party text may be displayed on the second side of the called terminal such that the called party text is displayed as the speaker's own voice text on the called terminal. good.
発側および着側のそれぞれで、発話種別に応じて上記のようにテキストの表示位置を設定することで、通信端末の利用者と発話者との関係に応じてテキストを表示することができる。通信端末は自機のユーザの音声テキストと通話相手の音声テキストとを互いに異なる側に表示するので、発信者および着信者のそれぞれに、自分の発話と相手の発話とを分かり易く示すことができる。 By setting the display position of the text according to the type of speech as described above, the text can be displayed according to the relationship between the user of the communication terminal and the speaker. Since the communication terminal displays the voice text of the user of the own device and the voice text of the other party on different sides, it is possible to clearly show the utterance of the user and the utterance of the other party to each of the caller and the called party. .
他の側面に係る呼制御システムでは、発側Webサーバが、発話種別を発側テキストまたは着側テキストと共に発信端末に送信することで、発信端末に発話種別に基づいて発側テキストまたは着側テキストの表示態様を設定させ、着側Webサーバが、発話種別を発側テキストまたは着側テキストと共に着信端末に送信することで、着信端末に発話種別に基づいて発側テキストまたは着側テキストの表示態様を設定させてもよい。 In the call control system according to another aspect, the originating-side Web server transmits the utterance type together with the originating-side text or the terminating-side text to the originating terminal, so that the originating-side text or the terminating-side text is sent to the originating terminal based on the utterance type. and the receiving-side Web server transmits the utterance type together with the calling-side text or the called-side text to the receiving terminal, thereby allowing the receiving terminal to display the calling-side text or the called-side text based on the utterance type. may be set.
発側および着側のそれぞれで、発話種別に応じて上記のようにテキストの表示態様を設定することで、通信端末の利用者と発話者との関係に応じてテキストを表示することができる。通信端末は自機のユーザの音声テキストと通話相手の音声テキストとを互いに異なる表示態様で表示し、このことは、音声テキスト化サービスのユーザインタフェースの改善に寄与し得る。 By setting the text display mode as described above according to the speech type on each of the caller and callee, the text can be displayed according to the relationship between the user of the communication terminal and the speaker. The communication terminal displays the speech text of the user of the own device and the speech text of the other party in different display modes, which can contribute to improving the user interface of the speech-to-text service.
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。 Although the present disclosure has been described in detail above, it should be apparent to those skilled in the art that the present disclosure is not limited to the embodiments described in this disclosure. The present disclosure can be practiced with modifications and variations without departing from the spirit and scope of the present disclosure as defined by the claims. Accordingly, the description of the present disclosure is for illustrative purposes and is not meant to be limiting in any way.
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング(例えば、DCI(Downlink Control Information)、UCI(Uplink Control Information))、上位レイヤシグナリング(例えば、RRC(Radio Resource Control)シグナリング、MAC(Medium Access Control)シグナリング、報知情報(MIB(Master Information Block)、SIB(System Information Block)))、その他の信号又はこれらの組み合わせによって実施されてもよい。また、RRCシグナリングは、RRCメッセージと呼ばれてもよく、例えば、RRC接続セットアップ(RRC Connection Setup)メッセージ、RRC接続再構成(RRC Connection Reconfiguration)メッセージなどであってもよい。 Notification of information is not limited to the aspects/embodiments described in this disclosure, and may be performed using other methods. For example, notification of information includes physical layer signaling (e.g., DCI (Downlink Control Information), UCI (Uplink Control Information)), higher layer signaling (e.g., RRC (Radio Resource Control) signaling, MAC (Medium Access Control) signaling, It may be implemented by broadcast information (MIB (Master Information Block), SIB (System Information Block)), other signals, or a combination thereof. RRC signaling may also be called an RRC message, and may be, for example, an RRC connection setup message, an RRC connection reconfiguration message, or the like.
本開示において説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G(4th generation mobile communication system)、5G(5th generation mobile communication system)、FRA(Future Radio Access)、NR(new Radio)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi(登録商標))、IEEE 802.16(WiMAX(登録商標))、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE-Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。 Each aspect/embodiment described in the present disclosure includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G (4th generation mobile communication system), 5G (5th generation mobile communication system), FRA (Future Radio Access), NR (new Radio), W-CDMA (registered trademark), GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi (registered trademark) )), IEEE 802.16 (WiMAX®), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth®, and other suitable systems and extended It may be applied to at least one of the next generation systems. Also, a plurality of systems may be applied in combination (for example, a combination of at least one of LTE and LTE-A and 5G, etc.).
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。 The processing procedures, sequences, flowcharts, etc. of each aspect/embodiment described in this disclosure may be rearranged as long as there is no contradiction. For example, the methods described in this disclosure present elements of the various steps using a sample order, and are not limited to the specific order presented.
本開示において基地局によって行われるとした特定動作は、場合によってはその上位ノード(upper node)によって行われることもある。基地局を有する1つ又は複数のネットワークノード(network nodes)からなるネットワークにおいて、端末との通信のために行われる様々な動作は、基地局及び基地局以外の他のネットワークノード(例えば、MME又はS-GWなどが考えられるが、これらに限られない)の少なくとも1つによって行われ得ることは明らかである。上記において基地局以外の他のネットワークノードが1つである場合を例示したが、複数の他のネットワークノードの組み合わせ(例えば、MME及びS-GW)であってもよい。 Certain operations that are described in this disclosure as being performed by a base station may also be performed by its upper node in some cases. In a network consisting of one or more network nodes with a base station, various operations performed for communication with a terminal may be performed by the base station and other network nodes other than the base station (e.g. MME or S-GW, etc. (including but not limited to). Although the case where there is one network node other than the base station is exemplified above, it may be a combination of a plurality of other network nodes (for example, MME and S-GW).
情報等は、上位レイヤ(又は下位レイヤ)から下位レイヤ(又は上位レイヤ)へ出力され得る。複数のネットワークノードを介して入出力されてもよい。 Information, etc., may be output from a higher layer (or lower layer) to a lower layer (or higher layer). It may be input and output via multiple network nodes.
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 Input/output information and the like may be stored in a specific location (for example, memory), or may be managed using a management table. Input/output information and the like can be overwritten, updated, or appended. The output information and the like may be deleted. The entered information and the like may be transmitted to another device.
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 The determination may be made by a value represented by one bit (0 or 1), by a true/false value (Boolean: true or false), or by numerical comparison (for example, a predetermined value).
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。 Each aspect/embodiment described in the present disclosure may be used alone, may be used in combination, or may be used by switching according to execution. In addition, the notification of predetermined information (for example, notification of “being X”) is not limited to being performed explicitly, but may be performed implicitly (for example, not notifying the predetermined information). good too.
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software, whether referred to as software, firmware, middleware, microcode, hardware description language or otherwise, includes instructions, instruction sets, code, code segments, program code, programs, subprograms, and software modules. , applications, software applications, software packages, routines, subroutines, objects, executables, threads of execution, procedures, functions, and the like.
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。 Software, instructions, information, etc. may also be sent and received over a transmission medium. For example, the software uses wired technology (coaxial cable, fiber optic cable, twisted pair, Digital Subscriber Line (DSL), etc.) and/or wireless technology (infrared, microwave, etc.) to create websites, Wired and/or wireless technologies are included within the definition of transmission medium when sent from a server or other remote source.
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。 Information, signals, etc. described in this disclosure may be represented using any of a variety of different technologies. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description may refer to voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. may be represented by a combination of
なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及びシンボルの少なくとも一方は信号(シグナリング)であってもよい。また、信号はメッセージであってもよい。また、コンポーネントキャリア(CC:Component Carrier)は、キャリア周波数、セル、周波数キャリアなどと呼ばれてもよい。 The terms explained in this disclosure and the terms necessary for understanding the present disclosure may be replaced with terms having the same or similar meanings. For example, the channel and/or symbols may be signaling. A signal may also be a message. A component carrier (CC) may also be called a carrier frequency, a cell, a frequency carrier, or the like.
本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。 As used in this disclosure, the terms "system" and "network" are used interchangeably.
また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。 In addition, the information, parameters, etc. described in the present disclosure may be expressed using absolute values, may be expressed using relative values from a predetermined value, or may be expressed using other corresponding information. may be represented. For example, radio resources may be indexed.
上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々なチャネル(例えば、PUCCH、PDCCHなど)及び情報要素は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。 The names used for the parameters described above are not limiting names in any way. Further, the formulas, etc., using these parameters may differ from those expressly disclosed in this disclosure. Since the various channels (e.g., PUCCH, PDCCH, etc.) and information elements can be identified by any suitable designation, the various designations assigned to these various channels and information elements are in no way restrictive designations. is not.
本開示においては、「基地局(BS:Base Station)」、「無線基地局」、「固定局(fixed station)」、「NodeB」、「eNodeB(eNB)」、「gNodeB(gNB)」、「アクセスポイント(access point)」、「送信ポイント(transmission point)」、「受信ポイント(reception point)、「送受信ポイント(transmission/reception point)」、「セル」、「セクタ」、「セルグループ」、「キャリア」、「コンポーネントキャリア」などの用語は、互換的に使用され得る。基地局は、マクロセル、スモールセル、フェムトセル、ピコセルなどの用語で呼ばれる場合もある。 In the present disclosure, "base station (BS)", "radio base station", "fixed station", "NodeB", "eNodeB (eNB)", "gNodeB (gNB)", " "access point", "transmission point", "reception point", "transmission/reception point", "cell", "sector", "cell group", " Terms such as "carrier", "component carrier" may be used interchangeably. A base station may also be referred to by terms such as macrocell, small cell, femtocell, picocell, and the like.
基地局は、1つ又は複数(例えば、3つ)のセルを収容することができる。基地局が複数のセルを収容する場合、基地局のカバレッジエリア全体は複数のより小さいエリアに区分でき、各々のより小さいエリアは、基地局サブシステム(例えば、屋内用の小型基地局(RRH:Remote Radio Head)によって通信サービスを提供することもできる。「セル」又は「セクタ」という用語は、このカバレッジにおいて通信サービスを行う基地局及び基地局サブシステムの少なくとも一方のカバレッジエリアの一部又は全体を指す。 A base station may serve one or more (eg, three) cells. When a base station accommodates multiple cells, the overall coverage area of the base station can be partitioned into multiple smaller areas, each smaller area being associated with a base station subsystem (e.g., an indoor small base station (RRH: The term "cell" or "sector" refers to part or all of the coverage area of a base station and/or base station subsystem serving communication in this coverage. point to
本開示においては、「移動局(MS:Mobile Station)」、「ユーザ端末(user terminal)」、「ユーザ装置(UE:User Equipment)」、「端末」などの用語は、互換的に使用され得る。 In this disclosure, terms such as “Mobile Station (MS),” “user terminal,” “User Equipment (UE),” “terminal,” etc. may be used interchangeably. .
移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。 A mobile station is defined by those skilled in the art as a subscriber station, mobile unit, subscriber unit, wireless unit, remote unit, mobile device, wireless device, wireless communication device, remote device, mobile subscriber station, access terminal, mobile terminal, wireless It may also be called a terminal, remote terminal, handset, user agent, mobile client, client, or some other suitable term.
基地局及び移動局の少なくとも一方は、送信装置、受信装置、通信装置などと呼ばれてもよい。なお、基地局及び移動局の少なくとも一方は、移動体に搭載されたデバイス、移動体自体などであってもよい。当該移動体は、乗り物(例えば、車、飛行機など)であってもよいし、無人で動く移動体(例えば、ドローン、自動運転車など)であってもよいし、ロボット(有人型又は無人型)であってもよい。なお、基地局及び移動局の少なくとも一方は、必ずしも通信動作時に移動しない装置も含む。例えば、基地局及び移動局の少なくとも一方は、センサなどのIoT(Internet of Things)機器であってもよい。 At least one of a base station and a mobile station may be called a transmitter, a receiver, a communication device, and the like. At least one of the base station and the mobile station may be a device mounted on a mobile object, the mobile object itself, or the like. The mobile object may be a vehicle (e.g., car, airplane, etc.), an unmanned mobile object (e.g., drone, self-driving car, etc.), or a robot (manned or unmanned ). Note that at least one of the base station and the mobile station includes devices that do not necessarily move during communication operations. For example, at least one of the base station and the mobile station may be an IoT (Internet of Things) device such as a sensor.
また、本開示における基地局は、ユーザ端末で読み替えてもよい。例えば、基地局及びユーザ端末間の通信を、複数のユーザ端末間の通信(例えば、D2D(Device-to-Device)、V2X(Vehicle-to-Everything)などと呼ばれてもよい)に置き換えた構成について、本開示の各態様/実施形態を適用してもよい。この場合、基地局が有する機能をユーザ端末が有する構成としてもよい。また、「上り」及び「下り」などの文言は、端末間通信に対応する文言(例えば、「サイド(side)」)で読み替えられてもよい。例えば、上りチャネル、下りチャネルなどは、サイドチャネルで読み替えられてもよい。 Also, the base station in the present disclosure may be read as a user terminal. For example, communication between a base station and a user terminal is replaced with communication between multiple user terminals (for example, D2D (Device-to-Device), V2X (Vehicle-to-Everything), etc.) Regarding the configuration, each aspect/embodiment of the present disclosure may be applied. In this case, the user terminal may have the functions that the base station has. Also, words such as "up" and "down" may be replaced with words corresponding to inter-terminal communication (for example, "side"). For example, uplink channels, downlink channels, etc. may be read as side channels.
同様に、本開示におけるユーザ端末は、基地局で読み替えてもよい。この場合、ユーザ端末が有する機能を基地局が有する構成としてもよい。 Similarly, user terminals in the present disclosure may be read as base stations. In this case, the base station may have the functions that the user terminal has.
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。 As used in this disclosure, the terms "determining" and "determining" may encompass a wide variety of actions. "Judgement", "determining" are, for example, judging, calculating, computing, processing, deriving, investigating, looking up, searching, inquiring (eg, lookup in a table, database, or other data structure), ascertaining as "judged" or "determined", and the like. Also, "judgment" and "determination" are used for receiving (e.g., receiving information), transmitting (e.g., transmitting information), input, output, access (accessing) (for example, accessing data in memory) may include deeming that a "judgement" or "decision" has been made. In addition, "judgment" and "decision" are considered to be "judgment" and "decision" by resolving, selecting, choosing, establishing, comparing, etc. can contain. In other words, "judgment" and "decision" can include considering that some action is "judgment" and "decision". Also, "judgment (decision)" may be read as "assuming", "expecting", "considering", or the like.
「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。 The terms "connected", "coupled", or any variation thereof, mean any direct or indirect connection or coupling between two or more elements, It can include the presence of one or more intermediate elements between two elements being "connected" or "coupled." Couplings or connections between elements may be physical, logical, or a combination thereof. For example, "connection" may be read as "access". As used in this disclosure, two elements are in the radio frequency domain using at least one of one or more wires, cables and printed electrical connections, and as some non-limiting and non-exhaustive examples. , electromagnetic energy having wavelengths in the microwave and optical (both visible and invisible) regions, and the like.
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 As used in this disclosure, the phrase "based on" does not mean "based only on," unless expressly specified otherwise. In other words, the phrase "based on" means both "based only on" and "based at least on."
本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 Any reference to elements using the "first," "second," etc. designations used in this disclosure does not generally limit the quantity or order of those elements. These designations may be used in this disclosure as a convenient method of distinguishing between two or more elements. Thus, reference to a first and second element does not imply that only two elements can be employed or that the first element must precede the second element in any way.
本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。 Where "include," "including," and variations thereof are used in this disclosure, these terms are inclusive, as is the term "comprising." is intended. Furthermore, the term "or" as used in this disclosure is not intended to be an exclusive OR.
本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。 In this disclosure, where articles have been added by translation, such as a, an, and the in English, the disclosure may include the plural nouns following these articles.
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。 In the present disclosure, the term "A and B are different" may mean "A and B are different from each other." The term may also mean that "A and B are different from C". Terms such as "separate," "coupled," etc. may also be interpreted in the same manner as "different."
1…呼制御システム、10…コアネットワーク、11…発側CSCF、12…着側CSCF、13…発側AS、14…着側AS、15…発側MCE(発側メディア処理装置)、16…着側MCE(着側メディア処理装置)、17…発側SMS-GW、18…着側SMS-GW、19…セッションデータベース、21…発側ネットワーク、22…着側ネットワーク、31…発信端末、32…着信端末、41…発側Webサーバ、42…着側Webサーバ、43…音声認識エンジン、131,141…サービス制御部、132,142…セッション制御部、133,143…サービスシナリオ部。
DESCRIPTION OF
Claims (6)
前記発信端末を利用する発信者と前記着信端末を利用する着信者との双方が前記音声テキスト化サービスの利用者である場合に、前記発信端末に対応する発側メディア処理装置と前記着信端末に対応する着側メディア処理装置とのうちの一方を共通のメディア処理装置として機能させる制御部を備え、
前記共通のメディア処理装置が、前記発信者または前記着信者の音声をテキストに変換する音声認識エンジンと接続し、
前記共通のメディア処理装置が、
前記発信端末から送信された前記発信者の発側音声を前記音声認識エンジンに入力することで発側テキストを取得し、
前記発側テキストを前記発信端末および前記着信端末の双方に向けて送信し、
前記着信端末から送信された前記着信者の着側音声を前記音声認識エンジンに入力することで着側テキストを取得し、
前記着側テキストを前記発信端末および前記着信端末の双方に向けて送信する、
呼制御システム。 A call control system capable of executing a voice-to-text conversion service for converting a call transmitted between a calling terminal and a called terminal into text,
When both the caller using the calling terminal and the called party using the called terminal are users of the speech-to-text service, the calling side media processing device corresponding to the calling terminal and the called terminal a control unit that causes one of the corresponding destination media processing devices to function as a common media processing device;
the common media processing unit interfaces with a speech recognition engine that converts the speech of the caller or the callee to text;
the common media processing device comprising:
obtaining a caller text by inputting the caller's caller's voice transmitted from the caller terminal into the speech recognition engine;
transmitting the calling-side text to both the calling terminal and the called terminal;
Acquiring a destination text by inputting the destination voice of the called party transmitted from the receiving terminal into the speech recognition engine;
sending the called party text to both the calling terminal and the called terminal;
call control system.
請求項1に記載の呼制御システム。 the control unit causes the originating media processing device to function as the common media processing device;
The call control system according to claim 1.
前記発側メディア処理装置を一意に特定する発側メディア装置IDを前記着側メディア処理装置に向けて送信し、
前記発側メディア装置IDを受信した前記着側メディア処理装置から、前記着側メディア処理装置を一意に特定する着側メディア装置IDを受信し、
前記着側メディア装置IDの受信に応答して、前記発側メディア処理装置を前記共通のメディア処理装置として機能させる、
請求項2に記載の呼制御システム。 The control unit
transmitting an originating media device ID that uniquely identifies the originating media processing device to the destination media processing device;
receiving a destination media device ID that uniquely identifies the destination media processing device from the destination media processing device that received the originating media device ID;
causing the originating media processing device to function as the common media processing device in response to receiving the destination media device ID;
The call control system according to claim 2.
前記着側メディア処理装置が、前記発側テキストまたは前記着側テキストを前記着信端末に送信する着側Webサーバと接続し、
前記呼制御システムが、前記発側Webサーバを一意に特定する発側エンドポイントと、前記着側Webサーバを一意に特定する着側エンドポイントとを含むセッション情報を記憶するデータベースをさらに備え、
前記共通のメディア処理装置が、
前記セッション情報の前記発側エンドポイントおよび前記着側エンドポイントを取得し、
前記発側エンドポイントに基づいて、前記発側テキストまたは前記着側テキストを前記発側Webサーバに送信することで、前記発側テキストまたは前記着側テキストを前記発信端末に向けて送信し、
前記着側エンドポイントに基づいて、前記発側テキストまたは前記着側テキストを前記着側Webサーバに送信することで、前記発側テキストまたは前記着側テキストを前記着信端末に向けて送信する、
請求項2または3に記載の呼制御システム。 the calling-side media processing device connects to a calling-side Web server that transmits the calling-side text or the called-side text to the calling terminal;
the called-side media processing device connects to a called-side Web server that transmits the calling-side text or the called-side text to the called terminal;
said call control system further comprising a database for storing session information including an originating endpoint that uniquely identifies said originating Web server and a terminating endpoint that uniquely identifies said terminating Web server;
the common media processing device comprising:
obtaining the originating end point and the terminating end point of the session information;
transmitting the calling-side text or the called-side text to the calling-side Web server based on the calling-side endpoint, thereby transmitting the calling-side text or the called-side text to the calling terminal;
transmitting the calling-side text or the called-side text to the called-side Web server based on the called-side endpoint, thereby transmitting the calling-side text or the called-side text to the called terminal;
4. The call control system according to claim 2 or 3.
前記共通のメディア処理装置が、前記認識方向が双方向であることに応答して、前記発側テキストまたは前記着側テキストを前記発側Webサーバおよび前記着側Webサーバの双方に向けて送信する、
請求項4に記載の呼制御システム。 The control unit transmits the voice text to which communication terminal in response to the consent signal indicating that the user consents to the use of the voice-to-text conversion service is transmitted from both the calling terminal and the receiving terminal. Set the recognition direction to indicate whether to
The common media processing device transmits the originating text or the terminating text to both the originating web server and the terminating web server in response to the fact that the recognition direction is bidirectional. ,
The call control system according to claim 4.
請求項4または5に記載の呼制御システム。 The common media processing device further adds, for each of the calling side text and the called side text, an utterance type indicating whether the speaker is the calling party or the called party, to the calling side Web server and the called side text. Send to both side Web servers,
6. The call control system according to claim 4 or 5.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018225618A JP7112949B2 (en) | 2018-11-30 | 2018-11-30 | Call control system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018225618A JP7112949B2 (en) | 2018-11-30 | 2018-11-30 | Call control system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020088818A JP2020088818A (en) | 2020-06-04 |
| JP7112949B2 true JP7112949B2 (en) | 2022-08-04 |
Family
ID=70909169
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018225618A Active JP7112949B2 (en) | 2018-11-30 | 2018-11-30 | Call control system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7112949B2 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20040190689A1 (en) | 2003-03-31 | 2004-09-30 | Mariana Benitez Pelaez | Telecommunication system providing independent user selection of media type for reception and/or transmission |
| JP2010183521A (en) | 2009-02-09 | 2010-08-19 | Oki Networks Co Ltd | Communication media conversion system, method and program |
| JP2014150442A (en) | 2013-02-01 | 2014-08-21 | Nippon Telegraph & Telephone East Corp | Telephone conversation system and telephone conversation relay method |
-
2018
- 2018-11-30 JP JP2018225618A patent/JP7112949B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20040190689A1 (en) | 2003-03-31 | 2004-09-30 | Mariana Benitez Pelaez | Telecommunication system providing independent user selection of media type for reception and/or transmission |
| JP2010183521A (en) | 2009-02-09 | 2010-08-19 | Oki Networks Co Ltd | Communication media conversion system, method and program |
| JP2014150442A (en) | 2013-02-01 | 2014-08-21 | Nippon Telegraph & Telephone East Corp | Telephone conversation system and telephone conversation relay method |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020088818A (en) | 2020-06-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2018029335A (en) | Cellular network sharing system and method for call routing | |
| WO2015060887A1 (en) | Outbound communication session establishment on a telecommunications network | |
| WO2018233681A1 (en) | Terminal calling method and related equipment | |
| CN113438372B (en) | Call function setting method, device, terminal equipment and storage medium | |
| CN105323720A (en) | Trunking communication business processing method, trunking core network equipment, and user equipment | |
| JP7049966B2 (en) | Communication control device | |
| JP2020088825A (en) | Call control system | |
| JP7112949B2 (en) | Call control system | |
| US9537704B2 (en) | Method and apparatus for migrating active communication session between terminals | |
| JP7572890B2 (en) | Communication control device | |
| JP7112948B2 (en) | Call control system | |
| JP2024102368A (en) | COMMUNICATION CONTROL DEVICE AND COMMUNICATION CONTROL METHOD | |
| CN114916062B (en) | Paging method and related equipment | |
| KR102194257B1 (en) | Call relay system for the deaf | |
| JP6990157B2 (en) | Communication control device | |
| WO2018053749A1 (en) | Calling method and device, terminal and core network system | |
| JP6934825B2 (en) | Communication control system | |
| JP2020096295A (en) | Call control system | |
| JP7699553B2 (en) | Control System | |
| US12519881B2 (en) | Routing determination systems and methods | |
| JP2020096248A (en) | Call control system | |
| CN114127735A (en) | User equipment, network node and method in a communication network | |
| CN114697928B (en) | Data communication method and communication terminal | |
| JP2025143894A (en) | System, representative terminal, device and method | |
| KR102646692B1 (en) | Service system supporting call change between digital assistant device and terminal, method thereof and non-transitory computer readable medium having computer program recorded thereon |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210830 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220713 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220719 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220725 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7112949 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |