JP7626554B2

JP7626554B2 - 端末機及びその動作方法

Info

Publication number: JP7626554B2
Application number: JP2022103809A
Authority: JP
Inventors: サンイルアン，; ジュヨンホン，; ヨンウクチョン，
Original assignee: Hyperconnect LLC
Current assignee: Hyperconnect LLC
Priority date: 2019-08-09
Filing date: 2022-06-28
Publication date: 2025-02-04
Anticipated expiration: 2040-08-06
Also published as: JP2025063254A; JP2021028715A; KR20210017708A; JP7792539B2; US11615777B2; KR102430020B1; JP2026042027A; ES3015553T3; US12118977B2; US20210043187A1; JP2022137114A; EP3772732A1; EP3772732B1; US20230215418A1

Description

記載された実施形態は、より効果的にテキストを音声に変換する端末機及びその動作方法に関する。

通信技術が発展し、電子装置が小型化するに伴い、個人用端末機が一般消費者に広く普及している。特に最近では、スマートフォンまたはスマートタブレットのような携帯用個人端末機が広く普及している。端末機のほとんどは、通信機能を含んでいる。使用者は、端末機を用いてインターネットで検索を行ったり、他の使用者とメッセージを送受信することができる。

また、小型カメラ技術、小型マイク技術、小型ディスプレイ技術及び小型スピーカー技術の発展に伴い、スマートフォンのようなほとんどの端末機には、カメラ、マイク、ディスプレイ及びスピーカーが含まれている。使用者は、端末機を用いて音声を録音したり、音声が含まれた動画を撮影することができる。使用者は、端末機に含まれたスピーカーを介して録音された音声を確認したり、ディスプレイを介して前記撮影された動画を確認することができる。

使用者は、端末によって現在録音されている音声または現在撮影されている動画をリアルタイムで少なくとも１人以上の他の使用者に送信することができる。少なくとも１人以上の他の使用者は、端末機を介して他の使用者の端末によって現在撮影されている動画または音声をリアルタイムで確認することができる。

記載された実施形態によれば、より効果的にリアルタイム放送を行うことができる端末機及びその動作方法が提供されることができる。

また、実施形態によれば、リアルタイム放送サービスによって人間関係を拡張することができる端末機、及びその動作方法が提供されることができる。

本発明の実施形態に係る放送チャンネルを介してリアルタイム放送を行うことができるサービスを提供する端末機の動作方法は、放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始される段階、リアルタイム放送が開始されると、端末機のディスプレイが２つの領域に分割され、２つの領域のうち１つの領域がホストに割り当てられる段階、リアルタイム放送中にホストの音声を認識する段階、放送チャンネルに入場した少なくとも１人以上のゲストのうち特定ゲストの端末機から少なくとも１つ以上のアイテムのうちから選択された１つのアイテム及び特定テキストを受信する段階、特定テキストをホストの音声または特定ゲストの音声に変換した音声メッセージを生成する段階、及び音声メッセージを出力する段階を含むことができる。

いくつかの実施形態として、端末機の動作方法は、特定テキストをホストの音声に変換した音声メッセージを生成するためのアルゴリズムを準備する段階をさらに含むことができる。

いくつかの実施形態として、特定テキストをホストの音声に変換した音声メッセージを生成する段階は、ホストの音声及び特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。

いくつかの実施形態として、特定テキストをホストの音声に変換した音声メッセージを生成するためのアルゴリズムを準備する段階は、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備することができる。

いくつかの実施形態として、端末機の動作方法は、ホストの音声から音声特徴を抽出する段階、抽出された音声特徴に基づいて比較音声を生成する段階、ホストの音声及び比較音声を比較する段階、及び比較結果に応じて音声特徴を保存する段階をさらに含むことができる。

いくつかの実施形態として、ホストの音声及び比較音声を比較する段階は、ホストの音声及び比較音声の間のサンプリング値の誤差を計算し、比較結果に応じて音声特徴を保存する段階は、誤差が基準値以下である場合、音声特徴を保存することができる。

いくつかの実施形態として、特定テキストをホストの音声に変換した音声メッセージを生成する段階は、特定テキスト及び音声特徴に基づいて音声メッセージを生成することができる。

いくつかの実施形態として、少なくとも１つ以上のアイテムは、サービス内で財貨的価値を有することができる。

いくつかの実施形態として、端末機の動作方法は、放送チャンネルに入場した少なくとも１人以上のゲストのうち第１ゲストが放送に直接参加する段階、及びディスプレイの２つの領域のうちホストに割り当てられた領域を除いた他の領域が第１ゲストに割り当てられる段階をさらに含むことができる。

本発明の実施形態に係る端末機は、放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始されると、２つの領域に分割され、２つの領域のうち１つの領域がホストに割り当てられるディスプレイ、ホストの音声を受信する入出力インターフェース、放送チャンネルに入場した少なくとも１人以上のゲストのうち特定ゲストの端末機から少なくとも１つ以上のアイテムのうちから選択された１つのアイテム及び特定テキストを受信する通信インターフェース、及び特定テキストをホストの音声または特定ゲストの音声に変換した音声メッセージを生成するプロセッサを含むことができる。

いくつかの実施形態として、プロセッサは、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備し、ホストの音声及び特定テキストを学習モデルに適用して音声メッセージを生成することができる。

いくつかの実施形態として、端末機は、学習モデルを保存するメモリーをさらに含むことができる。

いくつかの実施形態として、プロセッサは、ホストの音声から音声特徴を抽出し、抽出された音声特徴に基づいて比較音声を生成し、ホストの音声及び比較音声を比較し、比較結果に応じて、特定テキスト及び音声特徴に基づいて音声メッセージを生成することができる。

いくつかの実施形態として、ディスプレイは、放送チャンネルに入場した少なくとも１人以上のゲストのうち第１ゲストが放送に直接参加する場合、ディスプレイの２つの領域のうちホストに割り当てられた領域を除いた他の領域が第１ゲストに割り当てられることができる。

記載された実施形態に係る端末機、及びその動作方法は、より効果的にリアルタイム放送を行うことができる。

また、実施形態に係る端末機、及びその動作方法は、リアルタイム放送サービスによって人間関係を拡張することができる。

本発明の実施形態に係る端末機が動作する環境を示すシステム構成図である。本発明の実施形態に係る端末機の構成を示すブロック図である。本発明の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。本発明の他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。本発明のまた他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。本発明の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。本発明の他の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。本発明の実施形態に係る端末機のプロセッサを示す図である。本発明の他の実施形態に係る端末機のプロセッサを示す図である。

本発明の利点及び特徴、そしてそれを達成する方法は、添付した図面と共に詳細に後述されている実施形態を参照すると明確になる。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる様々な形態で具現されることができ、単に本実施形態は、本発明の開示が完全になるようにして、本発明が属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。明細書全体にわたって同一の参照符号は、同一の構成要素を指す。

「第１」または「第２」などが、様々な構成要素を記述するために使用されるが、このような構成要素は、前記のような用語によって制限されるものではない。前記のような用語は、単に１つの構成要素を他の構成要素と区別するために使用されることができる。したがって、以下に言及される第１構成要素は、本発明の技術的思想内で第２構成要素であることもできる。

本明細書で使用される用語は、実施形態を説明するためのものであって、本発明を制限しようとするものではない。本明細書において、単数形は、文面で特に言及しない限り、複数形も含む。明細書で使用される「含む（comprises）」または「含んでいる（comprising）」は、言及された構成要素または段階が１つ以上の他の構成要素または段階の存在または追加を排除しないという意味を内包する。

別途の定義がなければ、本明細書で使用されるすべての用語は、本発明が属する技術分野において、通常の知識を有する者に共通的に理解され得る意味で解釈されることができる。また、一般的に使用される辞書に定義されている用語は、明白に特別に定義されていない限り、理想的または過度に解釈されない。

図１は、本発明の実施形態に係る端末機が動作する環境を示すシステム構成図である。

図１を参照すると、複数の端末機１００～３００が動作するシステム環境は、サーバ４００及び複数の端末機１００～３００を含むことができる。例えば、複数の端末機１００～３００が動作する環境は、少なくとも１つ以上のサーバを含むことができる。

複数の端末機１００～３００のそれぞれは、サーバ４００を媒介として連結されることができる。本発明の説明の便宜のために、図１で３つの端末機が示されている。しかし、端末機の数は、３つに限定されるものではない。複数の端末機１００～３００のそれぞれは、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、スマートタブレット、スマートウォッチ、移動端末機、デジタルカメラ、ウェアラブルデバイス（wearable device）、または携帯用電子機器のうちの１つとして具現されることができる。複数の端末機１００～３００のそれぞれは、プログラムまたはアプリケーションを実行することができる。

複数の端末機１００～３００のそれぞれは、通信網に連結されることができる。複数の端末機１００～３００のそれぞれは、通信網を介して互いに連結されたり、サーバ４００と連結されることができる。複数の端末機１００～３００のそれぞれは、互いに連結された他の装置にデータを出力したり、他の装置からデータを受信することができる。

複数の端末機１００～３００のそれぞれに連結された通信網は、有線通信網、無線通信網、または複合通信網を含むことができる。通信網は、３Ｇ、ＬＴＥ、またはＬＴＥ－Ａなどのような移動通信網を含むことができる。通信網は、ワイファイ（Wi-Fi）、ＵＭＴＳ／ＧＰＲＳ、またはイーサネット（Ethernet）などのような有線または無線通信網を含むことができる。通信網は、マグネチック保安出力（ＭＳＴ，Magnetic Secure Transmission）、ＲＦＩＤ（Radio Frequency Identification）、ＮＦＣ（Near Field Communication）、ジグビー（ZigBee）、Ｚ－Ｗａｖｅ、ブルートゥース（登録商標）（Bluetooth）、低電力ブルートゥース（ＢＬＥ，Bluetooth Low Energy）、または赤外線通信（ＩＲ，InfraRed communication）などのような近距離通信網を含むことができる。通信網は、近距離ネットワーク（ＬＡＮ，Local Area Network）、メトロポリタン・エリア・ネットワーク（ＭＡＮ，Metropolitan Area Network）、またはワイド・エリア・ネットワーク（ＷＡＮ，Wide Area Network）などを含むことができる。

複数の端末機１００～３００の間に様々な形態の通信セッションが確立されることができる。例えば、複数の端末機１００～３００は、互いにメッセージ、ファイル、音声データ、映像、または動画などを送受信することができる。例えば、複数の端末機１００～３００は、ＴＣＰ（Transmission Control Protocol）、ＵＤＰ（User Datagram Protocol）、またはＷｅｂＲＴＣ（Web Real-Time Communication）などを用いて、リアルタイム放送を行うことができる。

いくつかの実施形態として、複数の端末機１００～３００には、リアルタイム放送を行うか、視聴することができるアプリケーションが設置されていることがあり得る。複数の端末機１００～３００のうち第１端末機１００の使用者は、アプリケーションによってリアルタイム放送を行うための放送チャンネルを生成することができる。

そして、複数の端末機１００～３００のうち第２及び第３端末機２００、３００のそれぞれの使用者は、アプリケーションによって第１端末機１００の使用者が生成した放送チャンネルに入場することができる。第２及び第３端末機２００、３００のそれぞれの使用者は、第１端末機１００の使用者が進行する放送をリアルタイムで視聴することができる。

いくつかの実施形態として、第２端末機２００の使用者及び第３端末機３００の使用者のうちの少なくとも１人は、第１端末機１００の使用者が生成した放送に参加して共にリアルタイム放送を進行することができる。複数の端末機１００～３００のディスプレイを介して表示される２つに分割された画面は、それぞれ第１端末機１００の使用者及び２端末機２００の使用者及び第３端末機３００の使用者のうち放送に参加した使用者に割り当てられることができる。

サーバ４００は、複数の端末機１００～３００が互いに通信を行うことができるように連結させることができる。例えば、サーバ４００は、複数の端末機１００～３００が、リアルタイム放送のチャンネルを形成及び参加することができるように、リアルタイム放送のサービスを提供することができる。

１つ以上の例示的な実施例において、端末機は、モバイル端末機、電子装置、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットＰＣ、電子ブック端末機、デジタル放送端末機、ＰＤＡ（personal digital assistant）、携帯用マルチメディアプレーヤ（ＰＭＰ）、ナビゲーション、ＭＰ３プレーヤ、デジタルカメラなどを含んでもよい。但し、端末機は、前記例示に限定されるものではない。

図２は、本発明の実施形態に係る端末機の構成を示すブロック図である。図２を参照すると、第１端末機１００は、入出力インターフェース１１０、ディスプレイ１２０、メモリー１３０、通信インターフェース１４０、及びプロセッサ１５０を含むことができる。図１に示した第２端末機２００及び第３端末機３００のそれぞれは、第１端末機１００と類似または同一に具現されることができる。

入出力インターフェース１１０は、外部から信号を受信することができる。入出力インターフェース１１０は、第１端末機１００の使用者から信号を受信することができる。また、入出力インターフェース１１０は、外部装置から信号を受信することができる。入出力インターフェース１１０は、例えば、マイク、カメラ、キーボード、マウス、トラックボール、タッチスクリーン、ボタン、スイッチ、センサー、ネットワークインターフェース、またはその他の入力装置などを含むことができる。入出力インターフェース１１０は、入出力インターフェース１１０に含まれたマイクを介して外部から音声を受信することができる。

また、入出力インターフェース１１０は、入出力インターフェース１１０に含まれたカメラ（図示せず）から撮影されたイメージまたは映像を受信したり、端末機１００の使用者からジェスチャーを受信することができる。

入出力インターフェース１１０は、ディスプレイ１２０を含むことができる。例えば、ディスプレイ１２０は、ＬＣＤ（Liquid Crystal Display）、ＯＬＥＤ（Organic Light Emitting Diode）、またはＰＤＰ（Plasma Display Panel）などの平板表示装置を含むことができる。ディスプレイ１２０は、曲面ディスプレイまたはフレキシブルディスプレイ（flexible display）を含むことができる。ディスプレイ１２０は、タッチスクリーンを含むことができる。ディスプレイ１２０がタッチスクリーンを含む場合、ディスプレイ１２０は、第１端末機１００の使用者からタッチ入力を受信することができる。

ディスプレイ１２０は、データを表示することができる。または、ディスプレイ１２０は、プロセッサ１５０によって行われた演算結果を表示することができる。または、ディスプレイ１２０は、メモリー１３０に保存されたデータを表示することができる。ディスプレイ１２０は、入出力インターフェース１１０を介して受信されるデータまたは通信インターフェース１４０によって受信されたデータを表示することができる。

いくつかの実施形態として、第１端末機１００でリアルタイム放送のアプリケーションが実行される場合、ディスプレイ１２０は、第１端末機１００の使用者の映像を出力することができる。また、通信インターフェース１４０を介して第２端末機２００の使用者の映像または第３端末機３００の使用者の映像が受信される場合、ディスプレイ１２０は、第１端末機１００の使用者の映像と共に第２端末機２００の使用者の映像または第３端末機３００の使用者の映像を出力することができる。

いくつかの実施形態として、ディスプレイ１２０は、第１端末機１００の使用者から特定入力を受信することができる。特定入力は、少なくとも１つ以上のアイテムのうちから１つのアイテムを選択する入力または特定テキストを記入する入力であり得る。例えば、アイテムは、アプリケーション内で財貨的価値を有することができる。アプリケーションの使用者は、アイテムを購入し、購入したアイテムを互いにプレゼントすることができる。

いくつかの実施形態として、第１端末機１００でリアルタイム放送のアプリケーションが実行される場合、入出力インターフェース１１０は、音を出力することができる。入出力インターフェース１１０は、入出力インターフェース１１０を介して受信された音、または通信インターフェース１４０を介して第２端末機２００または第３端末機３００から受信された音を出力することができる。例えば、入出力インターフェース１１０は、スピーカー（図示せず）を含むことができる。

いくつかの実施形態として、第１端末機１００でリアルタイム放送のアプリケーションが実行される場合、入出力インターフェース１１０は、第１端末機１００の使用者から受信されたプロフィール情報または使用者入力を受信することができる。例えば、使用者のプロフィール情報は、端末機１００の使用者の写真、趣味情報、性別情報、国家情報または年齢情報のうちの少なくとも１つを含むことができる。また、使用者のプロフィール情報は、使用者によって撮影されたビデオをさらに含むことができる。そして、使用者入力は、端末機１００の使用者から受信されるタッチ入力であり得る。

メモリー１３０は、データを保存することができる。メモリー１３０は、入出力インターフェース１１０から受信された音声データ、イメージデータまたは使用者のプロフィール情報を保存することができる。そして、メモリー１３０は、プロセッサ１５０によって行われた演算結果を保存することができる。例えば、メモリー１３０は、プロセッサ１５０によってエンコードされた音声を保存することができる。メモリー１３０は、通信インターフェース１４０を介して外部に出力するデータを保存したり、通信インターフェース１４０を介して外部から受信されたデータを保存することができる。

メモリー１３０は、ソフトウェアまたはプログラムを保存することができる。例えば、メモリー１３０は、アプリケーション、アプリケーションプログラミングインターフェース（ＡＰＩ）などのようなプログラム及び様々な種類のデータを保存することができる。メモリー１３０は、プロセッサ１５０によって実行可能なコマンドを保存することができる。

メモリー１３０は、揮発性メモリーまたは不揮発性メモリーのうちの少なくとも１つを含むことができる。メモリー１３０は、例えば、フラッシュ（flash）メモリー、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＥＥＲＯＭ（Electrically Erasable ROM）、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）、ハードディスクドライブ（ＨＤＤ，Hard Disk Drive）、またはレジスター（register）のうちの少なくとも１つを含むことができる。メモリー１３０は、例えば、ファイルシステム、データベース、またはエンベッディドデータベースなどを含むことができる。

通信インターフェース１４０は、端末機１００の外部にデータを出力したり、外部からデータを受信することができる。通信インターフェース１４０は、サーバ４００または外部装置にデータを出力することができる。通信インターフェース１４０は、サーバ４００及び外部装置からデータを受信することができる。通信インターフェース１４０は、プロセッサ１５０によって行われた演算結果を外部に出力することができる。

いくつかの実施形態として、第１端末機１００でリアルタイム放送のアプリケーションが実行される場合、通信インターフェース１４０は、第２端末機２００または第３端末機３００から映像または音声を受信することができる。

また、通信インターフェース１４０は、第１端末機１００の使用者から選択されたアイテムまたは特定テキストを第２端末機２００または第３端末機３００に送信することができる。または、通信インターフェース１４０は、第２端末機２００または第３端末機３００からアイテムまたは特定テキストを受信することができる。

通信インターフェース１４０は、例えば、３Ｇモジュール、ＬＴＥモジュール、ＬＴＥ－Ａモジュール、Ｗｉ－Ｆｉモジュール、ワイギグ（WiGig）モジュール、ＵＷＢ（Ultra Wide Band）モジュール、またはＬＡＮカードなどのような遠距離用ネットワークインターフェースを含むことができる。また、通信インターフェース１４０は、マグネチック保安出力（ＭＳＴ）モジュール、ブルートゥースモジュール、ＮＦＣモジュール、ＲＦＩＤモジュール、ジグビー（ZigBee）モジュール、Ｚ－Ｗａｖｅモジュール、または赤外線モジュールなどのような近距離用ネットワークインターフェースを含むことができる。また、通信インターフェース１４０は、その他のネットワークインターフェースを含むことができる。

プロセッサ１５０またはプロセッサ１５０に含まれた構成要素のそれぞれは、ソフトウェア（software）またはハードウェア（hardware）形態で具現されることができる。例示的に、ソフトウェアは、機械コード、ファームウェアコード（firmware code）、エンベッディドコード（embedded code）、及びアプリケーション（application）などのようなプログラム実行コマンドとして具現されることができる。ハードウェアは、電気電子回路、プロセッサ、コンピュータ、圧力センサー、慣性センサー、ＭＥＭＳ（microelectromechanical system）、受身素子、またはそれらの組合であり得る。

プロセッサ１５０は、端末機１００の動作を制御することができる。プロセッサ１５０は、端末機１００に含まれたそれぞれの構成要素と互いに連結されることができ、端末機１００に含まれたそれぞれの構成要素の動作を制御することができる。プロセッサ１５０は、入出力インターフェース１１０によって受信された信号に対する応答として、端末機１００の動作を制御することができる。

いくつかの実施形態として、第１端末機１００がホスト端末機としてリアルタイム放送のアプリケーションが実行する場合、プロセッサ１５０は、入出力インターフェース１１０を介して受信される第１端末機１００の使用者の音声を認識することができる。そして、通信インターフェース１４０を介して特定テキストが受信される場合、プロセッサ１５０は、特定テキストを第１端末機１００の使用者の音声に変換した音声メッセージを生成するために準備することができる。

いくつかの実施形態として、プロセッサ１５０は、準備された学習モデルを用いて特定テキストを第１端末機１００の使用者の音声に変換した音声メッセージを生成することができる。他の実施形態として、プロセッサ１５０は、第１端末機１００の使用者の音声から特徴を抽出し、抽出された特徴を用いて特定テキストを第１端末機１００の使用者の音声に変換した音声メッセージを生成することができる。

複数の端末機１００～３００及びサーバ４００の詳細な動作方法は、図３～図９を参照して説明されることができる。

図３は、本発明の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。

図１～図３を参照すると、第１端末機１００の使用者は、リアルタイム放送のアプリケーションを実行することができる。第１端末機１００の使用者は、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第１端末機１００の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。

いくつかの実施形態として、第１端末機１００の使用者が放送チャンネルを生成して入場すると、第１端末機１００のディスプレイ１２０は、２つの領域１２１、１２２に分割されることができる。２つの領域１２１、１２２のうち第１領域１２１は、第１端末機１００の使用者に割り当てられることができる。

いくつかの実施形態として、第１端末機１００の使用者が音声放送を行う場合、第１領域１２１には、第１端末機１００の使用者が設定したプロフィール写真が表示されることができる。もし、第１端末機１００の使用者が映像放送を行う場合、第１領域１２１には、第１端末機１００の使用者が撮影している映像が表示されることができる。

いくつかの実施形態として、第１端末機１００の使用者が生成した放送チャンネルに第２端末機２００の使用者及び第３端末機３００の使用者が入場することができる。第２端末機２００の使用者及び第３端末機３００の使用者は、第１端末機１００の使用者が進行する放送をゲストとして傍聴することができる。

いくつかの実施形態として、第２端末機２００の使用者及び第３端末機３００の使用者のうちの少なくとも１人は、放送に直接参加することができる。もし、第２端末機２００の使用者が放送に直接参加するなら、２つの領域１２１、１２２のうち第２領域１２２は、第２端末機２００の使用者に割り当てられることができる。

いくつかの実施形態として、第２端末機２００の使用者が音声放送を行う場合、第２領域１２２には、第２端末機２００の使用者が設定したプロフィール写真が表示されることができる。もし、第２端末機２００の使用者が映像放送を行う場合、第２領域１２２には、第２端末機２００の使用者が撮影している映像が表示されることができる。

第２端末機２００の使用者が放送に直接参加するなら、第１端末機１００の使用者及び第２端末機２００の使用者は、共に放送を進行することができる。そして、第３端末機３００の使用者は、第１端末機１００の使用者及び第２端末機２００の使用者が進行する放送を傍聴することができる。

図４は、本発明の他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。

図３及び図４を参照すると、第２端末機２００の使用者または第３端末機３００の使用者は、放送中に第１端末機１００の使用者にアイテムをプレゼントしてあげることができる。例えば、アイテムは、アプリケーション内で財貨的価値を有することができる。アプリケーションの使用者はアイテムを購入し、購入したアイテムを互いにプレゼントすることができる。

いくつかの実施形態として、第２端末機２００の使用者または第３端末機３００の使用者は、アイテムギフトアイコン１０をタッチすることができる。アイテムギフトアイコン１０は、ディスプレイの一部領域に表示されることができる。第２端末機２００の使用者または第３端末機３００の使用者がアイテムギフトアイコン１０を選択すると、アイコンポップアップウィンドウ２０が表示されることができる。

いくつかの実施形態として、アイコンポップアップウィンドウ１１には少なくとも１つ以上のアイテム２１～２３が表示され、第２端末機２００の使用者または第３端末機３００の使用者は、少なくとも１つ以上のアイテム２１～２３のうちの１つのアイテムを選択することができる。例えば、少なくとも１つ以上のアイテム２１～２３のそれぞれは、互いに異なる財貨的価値を有することができる。

第２端末機２００の使用者または第３端末機３００の使用者は、少なくとも１つ以上のアイテム２１～２３のうちの１つのアイテムを選択することができる。いくつかの実施形態として、第２端末機２００の使用者または第３端末機３００の使用者は、選択したアイテムと特定テキストを共に送信することができる。例えば、第２端末機２００の使用者または第３端末機３００の使用者は、「こんにちは」というテキストを入力することができる。第２端末機２００の使用者または第３端末機３００の使用者は、選択したアイテムと共に「こんにちは」というメッセージを第１端末機１００の使用者に送信することができる。

他の実施形態として、第１端末機１００の使用者または第３端末機３００の使用者は、放送中に第２端末機２００の使用者にアイテムをプレゼントしてあげることができる。第２端末機２００の使用者または第３端末機３００の使用者は、少なくとも１つ以上のアイテム２１～２３のうちの１つのアイテムを選択することができ、第１端末機１００の使用者または第３端末機３００の使用者は、選択したアイテムと特定テキストを共に送信することができる。

図５は、本発明のまた他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。

図３～図５を参照すると、第１端末機１００の使用者または第２端末機の使用者に選択されたアイテムと共に送信された特定テキストは、音声メッセージに変換されて出力されることができる。

いくつかの実施形態として、特定テキストは、特定使用者の声を用いて音声メッセージに変換されることができる。より具体的には、第２端末機２００の使用者または第３端末機３００のうちのいずれか１つの使用者が第１端末機１００の使用者に送信した特定テキストである場合、特定テキストは、第１端末機１００の使用者の声を用いて音声メッセージに変換されることができる。

または、第１端末機１００の使用者または第３端末機３００のうちのいずれか１つの使用者が第２端末機２００の使用者に送信した特定テキストである場合、特定テキストは、第２端末機２００の使用者の声を用いて音声メッセージに変換されることができる。

または、特定テキストは、特定テキストを送信した使用者の声を用いて音声メッセージに変換されることができる。すなわち、第２端末機２００の使用者が第１端末機１００の使用者に送信した特定テキストである場合、特定テキストは、第２端末機２００の使用者の声を用いて音声メッセージに変換されることができる。

図２を参照すると、特定テキスト及び特定使用者の音声を使用して音声メッセージを生成する動作は、第１端末機１００または第２端末機２００のプロセッサ１５０で行われることができる。いくつかの実施形態として、プロセッサ１５０は、準備された学習モデルを用いて音声メッセージを生成することができる。プロセッサ１５０が準備された学習モデルを用いて音声メッセージを生成する方法は、図６を参照して説明することができる。

他の実施形態として、プロセッサ１５０は、特定音声の特徴を抽出し、抽出された特徴を用いて音声メッセージを生成することができる。プロセッサ１５０が特定音声の特徴を用いて音声メッセージを生成する方法は、図７を参照して説明することができる。

いくつかの実施形態として、第１端末機１００の使用者の声を用いて特定テキストを音声メッセージに変換する場合、第１端末機１００のプロセッサ１５０で変換が行われることができる。そして、生成された音声メッセージは、第２端末機２００及び第３端末機３００に送信されることができる。

他の実施形態として、第２端末機２００の使用者の声を用いて特定テキストを音声メッセージに変換する場合、第２端末機２００のプロセッサ１５０で変換が行われることができる。そして、生成された音声メッセージは、第１端末機１００及び第３端末機３００に送信されることができる。

図６は、本発明の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。

図２～図６を参照すると、Ｓ１１０段階において、第１端末機１００の使用者は、リアルタイム放送のチャンネルを開設し、放送を開始することができる。より具体的には、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第１端末機１００の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。

Ｓ１２０段階において、第１端末機１００のプロセッサ１５０は、特定使用者の音声を認識することができる。例えば、特定使用者は、第１端末機１００の使用者であり得る。いくつかの実施形態として、第１端末機１００のプロセッサ１５０は、放送中に入出力インターフェース１１０に受信される第１端末機１００の使用者の音声を認識することができる。より具体的には、プロセッサ１５０は、入出力インターフェース１１０に入力されるオーディオデータのうち第１端末機１００の使用者の音声を認識して抽出することができる。

Ｓ１３０段階において、第１端末機１００は、通信インターフェース１４０を介して第１端末機１００の使用者が開設したリアルタイム放送のチャンネルに入場したゲストからアイテム及び特定テキストを受信することができる。いくつかの実施形態として、リアルタイム放送のチャンネルに少なくとも１人以上のゲストが参加することができ、そのうち、特定ゲストからアイテム及び特定テキストを受信することができる。受信されたアイテム及び特定テキストは、プロセッサ１５０に伝達されることができる。

Ｓ１４０段階において、第１端末機１００のプロセッサ１５０は、特定テキストを特定使用者の音声に変換した音声メッセージを生成するためのアルゴリズムを準備することができる。例えば、準備されたアルゴリズムは、特定テキストを特定使用者の音声を用いて音声メッセージに変換するために用いられるデータ認識モデルであり得る。データ認識モデルは、ニューラルネットワーク（Neural Network）を基盤とするモデルであり得る。例えば、学習モデルは、ＤＮＮ（Deep Neural Network）、ＲＮＮ（Recurrent Neural Network）、及びＢＲＤＮＮ（Bidirectional Recurrent Deep Neural Network）のようなモデルがデータ認識モデルとして使用されることができるが、これに限定されない。

準備された学習モデルは、特定テキストを特定音声に変換した音声メッセージを生成するための学習モデルであり得る。音声メッセージを生成するための学習モデルは、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した音声メッセージとの間の相関関係について学習された結果であり得る。

例えば、第１端末機１００のプロセッサ１５０は、特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係を学習することができる。端末機１００は、学習結果に基づいて人工神経網を訓練して、学習モデルを生成することができる。

他の例として、端末機１００は、サーバ４００から音声メッセージを生成するための学習モデルを受信することができる。このような場合、サーバ４００が特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係を学習した学習モデルを生成し、生成された学習モデルが含まれているアプリケーションを端末機１００に提供することができる。

Ｓ１５０段階において、第１端末機１００のプロセッサ１５０は、アルゴリズムを用いて音声メッセージを生成することができる。より具体的には、第１端末機１００のプロセッサ１５０は、特定使用者の音声及び特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。音声メッセージは、特定テキストが特定使用者の音声に変換された結果であり得る。

Ｓ１６０段階において、第１端末機１００は、生成された音声メッセージを出力することができる。より具体的には、第１端末機１００は、入出力インターフェース１１０を介して音声メッセージを出力することができる。または第１端末機１００は、通信インターフェース１４０を介して音声メッセージを出力することができる。

図７は、本発明の他の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。

図１～図５及び図７を参照すると、Ｓ２１０段階において、第１端末機１００の使用者は、リアルタイム放送のチャンネルを開設し、放送を開始することができる。より具体的には、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第１端末機１００の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。

Ｓ２２０段階において、第１端末機１００のプロセッサ１５０は、特定使用者の音声を認識することができる。例えば、特定使用者は、第１端末機１００の使用者であり得る。より具体的には、第１端末機１００のプロセッサ１５０は、放送中に入出力インターフェース１１０に受信される第１端末機１００の使用者の音声を認識することができる。また、第１端末機１００の使用者の音声は、メモリー１３０に保存されることができる。

Ｓ２３０段階において、第１端末機１００のプロセッサ１５０は、基準時間以上特定使用者の音声が認識されると、音声の特徴を抽出することができる。例えば、音声特徴は、音声固有の抑揚、周波数帯域、フォルマント（formant）及びピッチ（pitch）などを意味することができる。すなわち、音声特徴は、その音声を作り出すことができる音声の固有特徴を意味することができる。

Ｓ２４０段階において、第１端末機１００のプロセッサ１５０は、抽出された音声特徴に基づいて比較音声を生成することができる。そして、Ｓ２５０段階において、第１端末機１００のプロセッサ１５０は、特定使用者の音声と生成された比較音声を比較することができる。

Ｓ２６０段階において、第１端末機１００のプロセッサ１５０は、比較結果に応じて、音声特徴をメモリー１３０に保存することができる。いくつかの実施形態として、特定使用者の音声と比較音声との間の誤差が基準値以下であれば、プロセッサ１５０は、音声特徴をメモリーに保存することができる。例えば、誤差は、特定使用者の音声及び比較音声の間のサンプリング値の差によって計算されることができる。特定使用者の音声及び比較音声の間の誤差を計算する方法は、これに限定されず、様々な方法を用いて計算することができる。

いくつかの実施形態として、音声認識中にノイズが第１端末機１００の使用者の音声と認識された場合、抽出された音声特徴を用いて生成された比較音声は、第１端末機１００の使用者の音声と誤差が大きくなり得る。したがって、音声特徴を用いて第１端末機１００の使用者の音声と類似した音声を生成するために、プロセッサ１５０は、音声特徴を用いて比較音声を生成し、第１端末機１００の使用者の音声と比較音声を比較する過程を行うことができる。

Ｓ２７０段階において、第１端末機１００は、通信インターフェース１４０を介して第１端末機１００の使用者が開設したリアルタイム放送のチャンネルに入場したゲスト（使用者）からアイテム及び特定テキストを受信することができる。いくつかの実施形態として、リアルタイム放送のチャンネルに少なくとも１人以上のゲストが参加することができ、その中で特定ゲストからアイテム及び特定テキストを受信することができる。受信されたアイテム及び特定テキストは、プロセッサ１５０に伝達されることができる。

Ｓ２８０段階において、第１端末機１００のプロセッサ１５０は、特定テキスト及び音声特徴に基づいて音声メッセージを生成して出力することができる。いくつかの実施形態として、プロセッサ１５０により、音声特徴に基づいて生成された音声メッセージは、特定使用者の音声と類似または同一であり得る。第１端末機１００は、入出力インターフェース１１０を介して音声メッセージを出力することができる。または第１端末機１００は、通信インターフェース１４０を介して音声メッセージを出力することができる。

図８は、本発明の実施形態に係る端末機のプロセッサを示す図である。

図１、図２、図６及び図８を参照すると、第１端末機１００のプロセッサ１５０は、音声認識部１５１、及びモデル適用部１５３を含むことができる。図１に示した第２端末機２００及び第３端末機３００のそれぞれは、第１端末機１００と類似または同一に具現されることができる。

音声認識部１５１は、放送中に第１端末機１００の入出力インターフェース１１０に入力されるオーディオデータのうち第１端末機１００の使用者の音声を認識して抽出することができる。いくつかの実施形態として、音声認識部１５１は、入力されたオーディオデータを分析して、音声区間と非音性区間を区分することができる。音声認識部１５１は、非音性区間に含まれたオーディオデータを除き、音声区間に含まれたオーディオデータの音声を認識し、モデル適用部１５３に送信することができる。

モデル適用部１５３は、第１端末機１００の使用者の音声及び外部から受信された特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。いくつかの実施形態として、音声メッセージを生成するための学習モデルは、特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係について学習された結果であり得る。

図９は、本発明の他の実施形態に係る端末機のプロセッサを示す図である。

図１、図２、図７及び図９を参照すると、第１端末機１００のプロセッサ１５０は、音声認識部１５２、特徴抽出部１５４、比較部１５６、及び音声メッセージ生成部１５８を含むことができる。図１に示した第２端末機２００及び第３端末機３００のそれぞれは、第１端末機１００と類似または同一に具現されることができる。

図９に示した音声認識部１５２は、図８に示した音声認識部１５１と類似または同一に動作することができる。音声認識部１５２は、音声区間に含まれたオーディオデータの音声を認識し、特徴抽出部１５４に送信することができる。

特徴抽出部１５４は、第１端末機１００の使用者の音声の特徴を抽出することができる。例えば、音声特徴は、音声固有の抑揚、周波数帯域、フォルマント（formant）及びピッチ（pitch）などを意味することができる。すなわち、音声特徴は、その音声を作り出すことができる音声の固有特徴を意味することができる。特徴抽出部１５４は、抽出された音声特徴を用いて比較音声を生成することができる。そして、特徴抽出部１５４は、生成された比較音声を比較部１５６に送信することができる。

比較部１５６は、第１端末機１００の使用者の音声と比較音声を比較することができる。比較部１５６は、比較結果に応じて音声特徴をメモリー１３０に保存することができる。

いくつかの実施形態として、第１端末機１００の使用者の音声と比較音声との間の誤差が基準値以下であれば、プロセッサ１５０は、音声特徴をメモリー１３０に保存することができ、音声メッセージ生成部１５８に音声特徴を送信することができる。

例えば、誤差は、第１端末機１００の使用者の音声と比較音声との間のサンプリング値の差によって計算することができる。第１端末機１００の使用者の音声と比較音声との間の誤差を計算する方法はこれに限定されず、様々な方法を用いて計算することができる。

もし、第１端末機１００の使用者の音声と比較音声との間の誤差が基準値を超過したら、比較部１５６は、特徴抽出部１５４にフィードバック信号を送信することができる。フィードバック信号が特徴抽出部１５４に受信されると、特徴抽出部１５４は、第１端末機１００の使用者の音声から再び特徴を抽出することができる。

音声メッセージ生成部１５８は、特定テキスト及び音声特徴に基づいて音声メッセージを生成して出力することができる。

図１～図９を参照すると、本発明の実施形態に係る複数の端末機１００～３００のそれぞれは、より効果的にリアルタイム放送を行うことができる。

また、複数の端末機１００～３００のそれぞれは、リアルタイム放送のサービスによって人間関係を拡張できるサービスを提供することができる。

以上で説明された実施形態は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能なコマンドを含む記録媒体の形態でも具現されることができる。コンピュータ読み取り可能媒体は、コンピュータによってアクセスすることができる任意の可用な媒体であることができ、揮発性及び不揮発性媒体、分離型及び非分離型媒体をすべて含むことができる。

また、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体または通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能コマンド、データ構造、プログラムモジュールまたはその他のデータのような情報の保存のための任意の方法または技術で具現された揮発性及び不揮発性、分離型及び非分離型媒体をすべて含むことができる。通信媒体は、典型的にコンピュータ判読可能コマンド、データ構造、プログラムモジュール、または搬送波のような変調されたデータ信号のその他のデータ、またはその他の出力メカニズムを含み、任意の情報伝達媒体を含むことができる。

以上、添付された図面を参照して、本発明の実施形態を説明したが、本発明が属する技術分野における通常の知識を有する者は、本発明がその技術的思想や必須の特徴を変更することなく、他の具体的な形態で実施できるということを理解できるはずである。したがって、以上で記述した実施形態は、すべての面で例示的なものであり、限定的でないものとして理解しなければならない。

Claims

放送チャンネルを介してリアルタイム放送を行うことができるサービスを提供するホスト端末機の動作方法において、
前記放送チャンネルに入場した複数のゲストのゲスト端末機に、前記リアルタイム放送を送信する段階と、
ホストの音声を受信し、前記ホストの音声から、前記ホストの音声特徴を認識する段階と、
前記複数のゲストのうち第１ゲストの第１端末機から、前記ホストの音声に変換を要請する対象である第１テキストを受信する段階と、
前記ホストの音声特徴に基づき、前記第１テキストが前記ホストの音声で発話される第１音声メッセージを生成する段階と、
前記第１音声メッセージを前記複数のゲストのゲスト端末機に伝送する段階と、
を含む、ホスト端末機の動作方法。
前記第１テキストを受信する段階は、前記第１端末機から、前記第１テキストと、前記第１ゲストによって選択されたアイテムとを共に受信する段階を含み、
前記第１音声メッセージを生成する段階は、前記第１端末機から、前記第１テキストと前記アイテムとが共に受信されれば、前記第１音声メッセージを生成する段階を含み、
前記アイテムは、前記サービス内において、財貨的価値を有する、
請求項１に記載のホスト端末機の動作方法。
前記第１音声メッセージを出力する段階をさらに含む、
請求項１に記載のホスト端末機の動作方法。
前記第１音声メッセージを生成する段階は、複数の音声と複数のテキスト、そして前記複数のテキストのそれぞれを前記複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された学習モデルを利用し、前記第１テキストが前記ホストの音声で発話される前記第１音声メッセージを生成する段階を含む、
請求項１に記載のホスト端末機の動作方法。
前記ホストの音声から前記音声特徴を抽出する段階と、
前記抽出された音声特徴に基づいて比較音声を生成する段階と、
前記ホストの音声及び前記比較音声を比較する段階と、
前記比較の結果に応じて前記音声特徴を保存する段階と、
をさらに含む、
請求項４に記載のホスト端末機の動作方法。
前記ホストの音声及び前記比較音声を比較する段階は、前記ホストの音声及び前記比較音声の間のサンプリング値の誤差を計算し、
前記比較の結果に応じて前記音声特徴を保存する段階は、前記誤差が基準値以下である場合、前記音声特徴を保存する、
請求項５に記載のホスト端末機の動作方法。
放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送を出力するディスプレイと、
前記ホストの音声を受信する入出力インターフェースと、
前記放送チャンネルに入場した複数のゲストのゲスト端末機と通信を行う通信インターフェースと、
プロセッサと、
前記プロセッサによって実行可能な命令語を保存するメモリと、
を含み、前記プロセッサは、前記命令語を実行することにより、
前記通信インターフェースを介し、前記複数のゲストのうち、第１ゲストの第１ゲスト端末機から、前記ホストの音声に変換を要請する対象である第１テキストを受信し、
前記ホストの音声特徴に基づき、前記第１テキストを前記ホストの音声に変換する第１音声メッセージを生成し、
前記通信インターフェースを介し、前記第１音声メッセージを前記複数のゲストのゲスト端末機に伝送し、
前記入出力インターフェースを介し、前記第１音声メッセージを出力する、
端末機。
リアルタイム放送サービスにおいて、ホストの放送チャンネルを利用するゲストのゲスト端末機の動作方法において、
前記放送チャンネルを介し、ホスト端末機からリアルタイム放送を受信する段階と、
前記ホストの音声に変換を要請する対象である第１テキストを入力され、前記第１テキストを前記ホスト端末機に伝送する段階と、
前記ホスト端末機で認識された前記ホストの音声特徴に基づき、前記ホスト端末機で生成された、前記第１テキストが前記ホストの音声で発話されるところの第１音声メッセージを受信する段階と、
前記第１音声メッセージを出力する段階と、
を含む、ゲスト端末機の動作方法。
前記ホストに伝送するアイテムと、前記第１テキストとを入力される段階と、
前記アイテムと前記第１テキストとを共に前記ホスト端末機に伝送する段階と、
をさらに含む、請求項８に記載のゲスト端末機の動作方法。
放送チャンネルのホストのホスト端末機と通信を行う通信インターフェースと、
前記放送チャンネルのホストのリアルタイム放送を出力するディスプレイと、
前記放送チャンネルのゲストから、前記ホストの音声に変換を要請する対象である第１テキストを入力される入出力インターフェースと、
プロセッサと、
前記プロセッサによって実行可能な命令語を保存するメモリと、
を含み、前記プロセッサは、前記命令語を実行することにより、
前記通信インターフェースを介し、前記第１テキストを前記ホスト端末機に伝送し、
前記通信インターフェースを介し、前記ホスト端末機から、前記ホストの音声特徴に基づいて生成された、第１音声メッセージを受信し、前記第１音声メッセージは、前記第１テキストが前記ホストの音声で発話され、
前記入出力インターフェースを介し、前記第１音声メッセージを出力する
端末機。
ホストの放送チャンネルを介し、複数のゲストが、前記ホストのリアルタイム放送を受信するサービスを提供する放送サービス提供システムにおいて、
前記複数のゲストのうち第１ゲストから、前記ホストの音声に変換を要請する対象である第１テキストを入力され、前記第１テキストを前記ホストのホスト端末機に伝送し、前記ホスト端末機から受信された第１音声メッセージを出力する第１ゲスト端末機と、
前記ホストの音声を受信し、前記ホストの音声から、前記ホストの音声特徴を認識し、前記第１ゲスト端末機から、前記第１テキストを受信し、前記ホストの音声特徴に基づき、前記第１テキストが、前記ホストの音声で発話する前記第１音声メッセージを生成し、前記第１音声メッセージを、前記複数のゲストのゲスト端末機に伝送する前記ホスト端末機と、
前記ホスト端末機から受信された前記第１音声メッセージを出力する第２ゲスト端末機と、
を含む、放送サービス提供システム。