本発明の利点及び特徴、そしてそれを達成する方法は、添付した図面と共に詳細に後述されている実施形態を参照すると明確になる。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる様々な形態で具現されることができ、単に本実施形態は、本発明の開示が完全になるようにして、本発明が属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。明細書全体にわたって同一の参照符号は、同一の構成要素を指す。
「第1」または「第2」などが、様々な構成要素を記述するために使用されるが、このような構成要素は、前記のような用語によって制限されるものではない。前記のような用語は、単に1つの構成要素を他の構成要素と区別するために使用されることができる。したがって、以下に言及される第1構成要素は、本発明の技術的思想内で第2構成要素であることもできる。
本明細書で使用される用語は、実施形態を説明するためのものであって、本発明を制限しようとするものではない。本明細書において、単数形は、文面で特に言及しない限り、複数形も含む。明細書で使用される「含む(comprises)」または「含んでいる(comprising)」は、言及された構成要素または段階が1つ以上の他の構成要素または段階の存在または追加を排除しないという意味を内包する。
別途の定義がなければ、本明細書で使用されるすべての用語は、本発明が属する技術分野において、通常の知識を有する者に共通的に理解され得る意味で解釈されることができる。また、一般的に使用される辞書に定義されている用語は、明白に特別に定義されていない限り、理想的または過度に解釈されない。
図1は、本発明の実施形態に係る端末機が動作する環境を示すシステム構成図である。
図1を参照すると、複数の端末機100~300が動作するシステム環境は、サーバ400及び複数の端末機100~300を含むことができる。例えば、複数の端末機100~300が動作する環境は、少なくとも1つ以上のサーバを含むことができる。
複数の端末機100~300のそれぞれは、サーバ400を媒介として連結されることができる。本発明の説明の便宜のために、図1で3つの端末機が示されている。しかし、端末機の数は、3つに限定されるものではない。複数の端末機100~300のそれぞれは、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、スマートタブレット、スマートウォッチ、移動端末機、デジタルカメラ、ウェアラブルデバイス(wearable device)、または携帯用電子機器のうちの1つとして具現されることができる。複数の端末機100~300のそれぞれは、プログラムまたはアプリケーションを実行することができる。
複数の端末機100~300のそれぞれは、通信網に連結されることができる。複数の端末機100~300のそれぞれは、通信網を介して互いに連結されたり、サーバ400と連結されることができる。複数の端末機100~300のそれぞれは、互いに連結された他の装置にデータを出力したり、他の装置からデータを受信することができる。
複数の端末機100~300のそれぞれに連結された通信網は、有線通信網、無線通信網、または複合通信網を含むことができる。通信網は、3G、LTE、またはLTE-Aなどのような移動通信網を含むことができる。通信網は、ワイファイ(Wi-Fi)、UMTS/GPRS、またはイーサネット(Ethernet)などのような有線または無線通信網を含むことができる。通信網は、マグネチック保安出力(MST,Magnetic Secure Transmission)、RFID(Radio Frequency Identification)、NFC(Near Field Communication)、ジグビー(ZigBee)、Z-Wave、ブルートゥース(登録商標)(Bluetooth)、低電力ブルートゥース(BLE,Bluetooth Low Energy)、または赤外線通信(IR,InfraRed communication)などのような近距離通信網を含むことができる。通信網は、近距離ネットワーク(LAN,Local Area Network)、メトロポリタン・エリア・ネットワーク(MAN,Metropolitan Area Network)、またはワイド・エリア・ネットワーク(WAN,Wide Area Network)などを含むことができる。
複数の端末機100~300の間に様々な形態の通信セッションが確立されることができる。例えば、複数の端末機100~300は、互いにメッセージ、ファイル、音声データ、映像、または動画などを送受信することができる。例えば、複数の端末機100~300は、TCP(Transmission Control Protocol)、UDP(User Datagram Protocol)、またはWebRTC(Web Real-Time Communication)などを用いて、リアルタイム放送を行うことができる。
いくつかの実施形態として、複数の端末機100~300には、リアルタイム放送を行うか、視聴することができるアプリケーションが設置されていることがあり得る。複数の端末機100~300のうち第1端末機100の使用者は、アプリケーションによってリアルタイム放送を行うための放送チャンネルを生成することができる。
そして、複数の端末機100~300のうち第2及び第3端末機200、300のそれぞれの使用者は、アプリケーションによって第1端末機100の使用者が生成した放送チャンネルに入場することができる。第2及び第3端末機200、300のそれぞれの使用者は、第1端末機100の使用者が進行する放送をリアルタイムで視聴することができる。
いくつかの実施形態として、第2端末機200の使用者及び第3端末機300の使用者のうちの少なくとも1人は、第1端末機100の使用者が生成した放送に参加して共にリアルタイム放送を進行することができる。複数の端末機100~300のディスプレイを介して表示される2つに分割された画面は、それぞれ第1端末機100の使用者及び2端末機200の使用者及び第3端末機300の使用者のうち放送に参加した使用者に割り当てられることができる。
サーバ400は、複数の端末機100~300が互いに通信を行うことができるように連結させることができる。例えば、サーバ400は、複数の端末機100~300が、リアルタイム放送のチャンネルを形成及び参加することができるように、リアルタイム放送のサービスを提供することができる。
1つ以上の例示的な実施例において、端末機は、モバイル端末機、電子装置、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットPC、電子ブック端末機、デジタル放送端末機、PDA(personal digital assistant)、携帯用マルチメディアプレーヤ(PMP)、ナビゲーション、MP3プレーヤ、デジタルカメラなどを含んでもよい。但し、端末機は、前記例示に限定されるものではない。
図2は、本発明の実施形態に係る端末機の構成を示すブロック図である。図2を参照すると、第1端末機100は、入出力インターフェース110、ディスプレイ120、メモリー130、通信インターフェース140、及びプロセッサ150を含むことができる。図1に示した第2端末機200及び第3端末機300のそれぞれは、第1端末機100と類似または同一に具現されることができる。
入出力インターフェース110は、外部から信号を受信することができる。入出力インターフェース110は、第1端末機100の使用者から信号を受信することができる。また、入出力インターフェース110は、外部装置から信号を受信することができる。入出力インターフェース110は、例えば、マイク、カメラ、キーボード、マウス、トラックボール、タッチスクリーン、ボタン、スイッチ、センサー、ネットワークインターフェース、またはその他の入力装置などを含むことができる。入出力インターフェース110は、入出力インターフェース110に含まれたマイクを介して外部から音声を受信することができる。
また、入出力インターフェース110は、入出力インターフェース110に含まれたカメラ(図示せず)から撮影されたイメージまたは映像を受信したり、端末機100の使用者からジェスチャーを受信することができる。
入出力インターフェース110は、ディスプレイ120を含むことができる。例えば、ディスプレイ120は、LCD(Liquid Crystal Display)、OLED(Organic Light Emitting Diode)、またはPDP(Plasma Display Panel)などの平板表示装置を含むことができる。ディスプレイ120は、曲面ディスプレイまたはフレキシブルディスプレイ(flexible display)を含むことができる。ディスプレイ120は、タッチスクリーンを含むことができる。ディスプレイ120がタッチスクリーンを含む場合、ディスプレイ120は、第1端末機100の使用者からタッチ入力を受信することができる。
ディスプレイ120は、データを表示することができる。または、ディスプレイ120は、プロセッサ150によって行われた演算結果を表示することができる。または、ディスプレイ120は、メモリー130に保存されたデータを表示することができる。ディスプレイ120は、入出力インターフェース110を介して受信されるデータまたは通信インターフェース140によって受信されたデータを表示することができる。
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、ディスプレイ120は、第1端末機100の使用者の映像を出力することができる。また、通信インターフェース140を介して第2端末機200の使用者の映像または第3端末機300の使用者の映像が受信される場合、ディスプレイ120は、第1端末機100の使用者の映像と共に第2端末機200の使用者の映像または第3端末機300の使用者の映像を出力することができる。
いくつかの実施形態として、ディスプレイ120は、第1端末機100の使用者から特定入力を受信することができる。特定入力は、少なくとも1つ以上のアイテムのうちから1つのアイテムを選択する入力または特定テキストを記入する入力であり得る。例えば、アイテムは、アプリケーション内で財貨的価値を有することができる。アプリケーションの使用者は、アイテムを購入し、購入したアイテムを互いにプレゼントすることができる。
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、入出力インターフェース110は、音を出力することができる。入出力インターフェース110は、入出力インターフェース110を介して受信された音、または通信インターフェース140を介して第2端末機200または第3端末機300から受信された音を出力することができる。例えば、入出力インターフェース110は、スピーカー(図示せず)を含むことができる。
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、入出力インターフェース110は、第1端末機100の使用者から受信されたプロフィール情報または使用者入力を受信することができる。例えば、使用者のプロフィール情報は、端末機100の使用者の写真、趣味情報、性別情報、国家情報または年齢情報のうちの少なくとも1つを含むことができる。また、使用者のプロフィール情報は、使用者によって撮影されたビデオをさらに含むことができる。そして、使用者入力は、端末機100の使用者から受信されるタッチ入力であり得る。
メモリー130は、データを保存することができる。メモリー130は、入出力インターフェース110から受信された音声データ、イメージデータまたは使用者のプロフィール情報を保存することができる。そして、メモリー130は、プロセッサ150によって行われた演算結果を保存することができる。例えば、メモリー130は、プロセッサ150によってエンコードされた音声を保存することができる。メモリー130は、通信インターフェース140を介して外部に出力するデータを保存したり、通信インターフェース140を介して外部から受信されたデータを保存することができる。
メモリー130は、ソフトウェアまたはプログラムを保存することができる。例えば、メモリー130は、アプリケーション、アプリケーションプログラミングインターフェース(API)などのようなプログラム及び様々な種類のデータを保存することができる。メモリー130は、プロセッサ150によって実行可能なコマンドを保存することができる。
メモリー130は、揮発性メモリーまたは不揮発性メモリーのうちの少なくとも1つを含むことができる。メモリー130は、例えば、フラッシュ(flash)メモリー、ROM(Read Only Memory)、RAM(Random Access Memory)、EEROM(Electrically Erasable ROM)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、ハードディスクドライブ(HDD,Hard Disk Drive)、またはレジスター(register)のうちの少なくとも1つを含むことができる。メモリー130は、例えば、ファイルシステム、データベース、またはエンベッディドデータベースなどを含むことができる。
通信インターフェース140は、端末機100の外部にデータを出力したり、外部からデータを受信することができる。通信インターフェース140は、サーバ400または外部装置にデータを出力することができる。通信インターフェース140は、サーバ400及び外部装置からデータを受信することができる。通信インターフェース140は、プロセッサ150によって行われた演算結果を外部に出力することができる。
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、通信インターフェース140は、第2端末機200または第3端末機300から映像または音声を受信することができる。
また、通信インターフェース140は、第1端末機100の使用者から選択されたアイテムまたは特定テキストを第2端末機200または第3端末機300に送信することができる。または、通信インターフェース140は、第2端末機200または第3端末機300からアイテムまたは特定テキストを受信することができる。
通信インターフェース140は、例えば、3Gモジュール、LTEモジュール、LTE-Aモジュール、Wi-Fiモジュール、ワイギグ(WiGig)モジュール、UWB(Ultra Wide Band)モジュール、またはLANカードなどのような遠距離用ネットワークインターフェースを含むことができる。また、通信インターフェース140は、マグネチック保安出力(MST)モジュール、ブルートゥースモジュール、NFCモジュール、RFIDモジュール、ジグビー(ZigBee)モジュール、Z-Waveモジュール、または赤外線モジュールなどのような近距離用ネットワークインターフェースを含むことができる。また、通信インターフェース140は、その他のネットワークインターフェースを含むことができる。
プロセッサ150またはプロセッサ150に含まれた構成要素のそれぞれは、ソフトウェア(software)またはハードウェア(hardware)形態で具現されることができる。例示的に、ソフトウェアは、機械コード、ファームウェアコード(firmware code)、エンベッディドコード(embedded code)、及びアプリケーション(application)などのようなプログラム実行コマンドとして具現されることができる。ハードウェアは、電気電子回路、プロセッサ、コンピュータ、圧力センサー、慣性センサー、MEMS(microelectromechanical system)、受身素子、またはそれらの組合であり得る。
プロセッサ150は、端末機100の動作を制御することができる。プロセッサ150は、端末機100に含まれたそれぞれの構成要素と互いに連結されることができ、端末機100に含まれたそれぞれの構成要素の動作を制御することができる。プロセッサ150は、入出力インターフェース110によって受信された信号に対する応答として、端末機100の動作を制御することができる。
いくつかの実施形態として、第1端末機100がホスト端末機としてリアルタイム放送のアプリケーションが実行する場合、プロセッサ150は、入出力インターフェース110を介して受信される第1端末機100の使用者の音声を認識することができる。そして、通信インターフェース140を介して特定テキストが受信される場合、プロセッサ150は、特定テキストを第1端末機100の使用者の音声に変換した音声メッセージを生成するために準備することができる。
いくつかの実施形態として、プロセッサ150は、準備された学習モデルを用いて特定テキストを第1端末機100の使用者の音声に変換した音声メッセージを生成することができる。他の実施形態として、プロセッサ150は、第1端末機100の使用者の音声から特徴を抽出し、抽出された特徴を用いて特定テキストを第1端末機100の使用者の音声に変換した音声メッセージを生成することができる。
複数の端末機100~300及びサーバ400の詳細な動作方法は、図3~図9を参照して説明されることができる。
図3は、本発明の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
図1~図3を参照すると、第1端末機100の使用者は、リアルタイム放送のアプリケーションを実行することができる。第1端末機100の使用者は、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第1端末機100の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。
いくつかの実施形態として、第1端末機100の使用者が放送チャンネルを生成して入場すると、第1端末機100のディスプレイ120は、2つの領域121、122に分割されることができる。2つの領域121、122のうち第1領域121は、第1端末機100の使用者に割り当てられることができる。
いくつかの実施形態として、第1端末機100の使用者が音声放送を行う場合、第1領域121には、第1端末機100の使用者が設定したプロフィール写真が表示されることができる。もし、第1端末機100の使用者が映像放送を行う場合、第1領域121には、第1端末機100の使用者が撮影している映像が表示されることができる。
いくつかの実施形態として、第1端末機100の使用者が生成した放送チャンネルに第2端末機200の使用者及び第3端末機300の使用者が入場することができる。第2端末機200の使用者及び第3端末機300の使用者は、第1端末機100の使用者が進行する放送をゲストとして傍聴することができる。
いくつかの実施形態として、第2端末機200の使用者及び第3端末機300の使用者のうちの少なくとも1人は、放送に直接参加することができる。もし、第2端末機200の使用者が放送に直接参加するなら、2つの領域121、122のうち第2領域122は、第2端末機200の使用者に割り当てられることができる。
いくつかの実施形態として、第2端末機200の使用者が音声放送を行う場合、第2領域122には、第2端末機200の使用者が設定したプロフィール写真が表示されることができる。もし、第2端末機200の使用者が映像放送を行う場合、第2領域122には、第2端末機200の使用者が撮影している映像が表示されることができる。
第2端末機200の使用者が放送に直接参加するなら、第1端末機100の使用者及び第2端末機200の使用者は、共に放送を進行することができる。そして、第3端末機300の使用者は、第1端末機100の使用者及び第2端末機200の使用者が進行する放送を傍聴することができる。
図4は、本発明の他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
図3及び図4を参照すると、第2端末機200の使用者または第3端末機300の使用者は、放送中に第1端末機100の使用者にアイテムをプレゼントしてあげることができる。例えば、アイテムは、アプリケーション内で財貨的価値を有することができる。アプリケーションの使用者はアイテムを購入し、購入したアイテムを互いにプレゼントすることができる。
いくつかの実施形態として、第2端末機200の使用者または第3端末機300の使用者は、アイテムギフトアイコン10をタッチすることができる。アイテムギフトアイコン10は、ディスプレイの一部領域に表示されることができる。第2端末機200の使用者または第3端末機300の使用者がアイテムギフトアイコン10を選択すると、アイコンポップアップウィンドウ20が表示されることができる。
いくつかの実施形態として、アイコンポップアップウィンドウ11には少なくとも1つ以上のアイテム21~23が表示され、第2端末機200の使用者または第3端末機300の使用者は、少なくとも1つ以上のアイテム21~23のうちの1つのアイテムを選択することができる。例えば、少なくとも1つ以上のアイテム21~23のそれぞれは、互いに異なる財貨的価値を有することができる。
第2端末機200の使用者または第3端末機300の使用者は、少なくとも1つ以上のアイテム21~23のうちの1つのアイテムを選択することができる。いくつかの実施形態として、第2端末機200の使用者または第3端末機300の使用者は、選択したアイテムと特定テキストを共に送信することができる。例えば、第2端末機200の使用者または第3端末機300の使用者は、「こんにちは」というテキストを入力することができる。第2端末機200の使用者または第3端末機300の使用者は、選択したアイテムと共に「こんにちは」というメッセージを第1端末機100の使用者に送信することができる。
他の実施形態として、第1端末機100の使用者または第3端末機300の使用者は、放送中に第2端末機200の使用者にアイテムをプレゼントしてあげることができる。第2端末機200の使用者または第3端末機300の使用者は、少なくとも1つ以上のアイテム21~23のうちの1つのアイテムを選択することができ、第1端末機100の使用者または第3端末機300の使用者は、選択したアイテムと特定テキストを共に送信することができる。
図5は、本発明のまた他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
図3~図5を参照すると、第1端末機100の使用者または第2端末機の使用者に選択されたアイテムと共に送信された特定テキストは、音声メッセージに変換されて出力されることができる。
いくつかの実施形態として、特定テキストは、特定使用者の声を用いて音声メッセージに変換されることができる。より具体的には、第2端末機200の使用者または第3端末機300のうちのいずれか1つの使用者が第1端末機100の使用者に送信した特定テキストである場合、特定テキストは、第1端末機100の使用者の声を用いて音声メッセージに変換されることができる。
または、第1端末機100の使用者または第3端末機300のうちのいずれか1つの使用者が第2端末機200の使用者に送信した特定テキストである場合、特定テキストは、第2端末機200の使用者の声を用いて音声メッセージに変換されることができる。
または、特定テキストは、特定テキストを送信した使用者の声を用いて音声メッセージに変換されることができる。すなわち、第2端末機200の使用者が第1端末機100の使用者に送信した特定テキストである場合、特定テキストは、第2端末機200の使用者の声を用いて音声メッセージに変換されることができる。
図2を参照すると、特定テキスト及び特定使用者の音声を使用して音声メッセージを生成する動作は、第1端末機100または第2端末機200のプロセッサ150で行われることができる。いくつかの実施形態として、プロセッサ150は、準備された学習モデルを用いて音声メッセージを生成することができる。プロセッサ150が準備された学習モデルを用いて音声メッセージを生成する方法は、図6を参照して説明することができる。
他の実施形態として、プロセッサ150は、特定音声の特徴を抽出し、抽出された特徴を用いて音声メッセージを生成することができる。プロセッサ150が特定音声の特徴を用いて音声メッセージを生成する方法は、図7を参照して説明することができる。
いくつかの実施形態として、第1端末機100の使用者の声を用いて特定テキストを音声メッセージに変換する場合、第1端末機100のプロセッサ150で変換が行われることができる。そして、生成された音声メッセージは、第2端末機200及び第3端末機300に送信されることができる。
他の実施形態として、第2端末機200の使用者の声を用いて特定テキストを音声メッセージに変換する場合、第2端末機200のプロセッサ150で変換が行われることができる。そして、生成された音声メッセージは、第1端末機100及び第3端末機300に送信されることができる。
図6は、本発明の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。
図2~図6を参照すると、S110段階において、第1端末機100の使用者は、リアルタイム放送のチャンネルを開設し、放送を開始することができる。より具体的には、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第1端末機100の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。
S120段階において、第1端末機100のプロセッサ150は、特定使用者の音声を認識することができる。例えば、特定使用者は、第1端末機100の使用者であり得る。いくつかの実施形態として、第1端末機100のプロセッサ150は、放送中に入出力インターフェース110に受信される第1端末機100の使用者の音声を認識することができる。より具体的には、プロセッサ150は、入出力インターフェース110に入力されるオーディオデータのうち第1端末機100の使用者の音声を認識して抽出することができる。
S130段階において、第1端末機100は、通信インターフェース140を介して第1端末機100の使用者が開設したリアルタイム放送のチャンネルに入場したゲストからアイテム及び特定テキストを受信することができる。いくつかの実施形態として、リアルタイム放送のチャンネルに少なくとも1人以上のゲストが参加することができ、そのうち、特定ゲストからアイテム及び特定テキストを受信することができる。受信されたアイテム及び特定テキストは、プロセッサ150に伝達されることができる。
S140段階において、第1端末機100のプロセッサ150は、特定テキストを特定使用者の音声に変換した音声メッセージを生成するためのアルゴリズムを準備することができる。例えば、準備されたアルゴリズムは、特定テキストを特定使用者の音声を用いて音声メッセージに変換するために用いられるデータ認識モデルであり得る。データ認識モデルは、ニューラルネットワーク(Neural Network)を基盤とするモデルであり得る。例えば、学習モデルは、DNN(Deep Neural Network)、RNN(Recurrent Neural Network)、及びBRDNN(Bidirectional Recurrent Deep Neural Network)のようなモデルがデータ認識モデルとして使用されることができるが、これに限定されない。
準備された学習モデルは、特定テキストを特定音声に変換した音声メッセージを生成するための学習モデルであり得る。音声メッセージを生成するための学習モデルは、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した音声メッセージとの間の相関関係について学習された結果であり得る。
例えば、第1端末機100のプロセッサ150は、特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係を学習することができる。端末機100は、学習結果に基づいて人工神経網を訓練して、学習モデルを生成することができる。
他の例として、端末機100は、サーバ400から音声メッセージを生成するための学習モデルを受信することができる。このような場合、サーバ400が特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係を学習した学習モデルを生成し、生成された学習モデルが含まれているアプリケーションを端末機100に提供することができる。
S150段階において、第1端末機100のプロセッサ150は、アルゴリズムを用いて音声メッセージを生成することができる。より具体的には、第1端末機100のプロセッサ150は、特定使用者の音声及び特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。音声メッセージは、特定テキストが特定使用者の音声に変換された結果であり得る。
S160段階において、第1端末機100は、生成された音声メッセージを出力することができる。より具体的には、第1端末機100は、入出力インターフェース110を介して音声メッセージを出力することができる。または第1端末機100は、通信インターフェース140を介して音声メッセージを出力することができる。
図7は、本発明の他の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。
図1~図5及び図7を参照すると、S210段階において、第1端末機100の使用者は、リアルタイム放送のチャンネルを開設し、放送を開始することができる。より具体的には、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第1端末機100の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。
S220段階において、第1端末機100のプロセッサ150は、特定使用者の音声を認識することができる。例えば、特定使用者は、第1端末機100の使用者であり得る。より具体的には、第1端末機100のプロセッサ150は、放送中に入出力インターフェース110に受信される第1端末機100の使用者の音声を認識することができる。また、第1端末機100の使用者の音声は、メモリー130に保存されることができる。
S230段階において、第1端末機100のプロセッサ150は、基準時間以上特定使用者の音声が認識されると、音声の特徴を抽出することができる。例えば、音声特徴は、音声固有の抑揚、周波数帯域、フォルマント(formant)及びピッチ(pitch)などを意味することができる。すなわち、音声特徴は、その音声を作り出すことができる音声の固有特徴を意味することができる。
S240段階において、第1端末機100のプロセッサ150は、抽出された音声特徴に基づいて比較音声を生成することができる。そして、S250段階において、第1端末機100のプロセッサ150は、特定使用者の音声と生成された比較音声を比較することができる。
S260段階において、第1端末機100のプロセッサ150は、比較結果に応じて、音声特徴をメモリー130に保存することができる。いくつかの実施形態として、特定使用者の音声と比較音声との間の誤差が基準値以下であれば、プロセッサ150は、音声特徴をメモリーに保存することができる。例えば、誤差は、特定使用者の音声及び比較音声の間のサンプリング値の差によって計算されることができる。特定使用者の音声及び比較音声の間の誤差を計算する方法は、これに限定されず、様々な方法を用いて計算することができる。
いくつかの実施形態として、音声認識中にノイズが第1端末機100の使用者の音声と認識された場合、抽出された音声特徴を用いて生成された比較音声は、第1端末機100の使用者の音声と誤差が大きくなり得る。したがって、音声特徴を用いて第1端末機100の使用者の音声と類似した音声を生成するために、プロセッサ150は、音声特徴を用いて比較音声を生成し、第1端末機100の使用者の音声と比較音声を比較する過程を行うことができる。
S270段階において、第1端末機100は、通信インターフェース140を介して第1端末機100の使用者が開設したリアルタイム放送のチャンネルに入場したゲスト(使用者)からアイテム及び特定テキストを受信することができる。いくつかの実施形態として、リアルタイム放送のチャンネルに少なくとも1人以上のゲストが参加することができ、その中で特定ゲストからアイテム及び特定テキストを受信することができる。受信されたアイテム及び特定テキストは、プロセッサ150に伝達されることができる。
S280段階において、第1端末機100のプロセッサ150は、特定テキスト及び音声特徴に基づいて音声メッセージを生成して出力することができる。いくつかの実施形態として、プロセッサ150により、音声特徴に基づいて生成された音声メッセージは、特定使用者の音声と類似または同一であり得る。第1端末機100は、入出力インターフェース110を介して音声メッセージを出力することができる。または第1端末機100は、通信インターフェース140を介して音声メッセージを出力することができる。
図8は、本発明の実施形態に係る端末機のプロセッサを示す図である。
図1、図2、図6及び図8を参照すると、第1端末機100のプロセッサ150は、音声認識部151、及びモデル適用部153を含むことができる。図1に示した第2端末機200及び第3端末機300のそれぞれは、第1端末機100と類似または同一に具現されることができる。
音声認識部151は、放送中に第1端末機100の入出力インターフェース110に入力されるオーディオデータのうち第1端末機100の使用者の音声を認識して抽出することができる。いくつかの実施形態として、音声認識部151は、入力されたオーディオデータを分析して、音声区間と非音性区間を区分することができる。音声認識部151は、非音性区間に含まれたオーディオデータを除き、音声区間に含まれたオーディオデータの音声を認識し、モデル適用部153に送信することができる。
モデル適用部153は、第1端末機100の使用者の音声及び外部から受信された特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。いくつかの実施形態として、音声メッセージを生成するための学習モデルは、特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係について学習された結果であり得る。
図9は、本発明の他の実施形態に係る端末機のプロセッサを示す図である。
図1、図2、図7及び図9を参照すると、第1端末機100のプロセッサ150は、音声認識部152、特徴抽出部154、比較部156、及び音声メッセージ生成部158を含むことができる。図1に示した第2端末機200及び第3端末機300のそれぞれは、第1端末機100と類似または同一に具現されることができる。
図9に示した音声認識部152は、図8に示した音声認識部151と類似または同一に動作することができる。音声認識部152は、音声区間に含まれたオーディオデータの音声を認識し、特徴抽出部154に送信することができる。
特徴抽出部154は、第1端末機100の使用者の音声の特徴を抽出することができる。例えば、音声特徴は、音声固有の抑揚、周波数帯域、フォルマント(formant)及びピッチ(pitch)などを意味することができる。すなわち、音声特徴は、その音声を作り出すことができる音声の固有特徴を意味することができる。特徴抽出部154は、抽出された音声特徴を用いて比較音声を生成することができる。そして、特徴抽出部154は、生成された比較音声を比較部156に送信することができる。
比較部156は、第1端末機100の使用者の音声と比較音声を比較することができる。比較部156は、比較結果に応じて音声特徴をメモリー130に保存することができる。
いくつかの実施形態として、第1端末機100の使用者の音声と比較音声との間の誤差が基準値以下であれば、プロセッサ150は、音声特徴をメモリー130に保存することができ、音声メッセージ生成部158に音声特徴を送信することができる。
例えば、誤差は、第1端末機100の使用者の音声と比較音声との間のサンプリング値の差によって計算することができる。第1端末機100の使用者の音声と比較音声との間の誤差を計算する方法はこれに限定されず、様々な方法を用いて計算することができる。
もし、第1端末機100の使用者の音声と比較音声との間の誤差が基準値を超過したら、比較部156は、特徴抽出部154にフィードバック信号を送信することができる。フィードバック信号が特徴抽出部154に受信されると、特徴抽出部154は、第1端末機100の使用者の音声から再び特徴を抽出することができる。
音声メッセージ生成部158は、特定テキスト及び音声特徴に基づいて音声メッセージを生成して出力することができる。
図1~図9を参照すると、本発明の実施形態に係る複数の端末機100~300のそれぞれは、より効果的にリアルタイム放送を行うことができる。
また、複数の端末機100~300のそれぞれは、リアルタイム放送のサービスによって人間関係を拡張できるサービスを提供することができる。
以上で説明された実施形態は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能なコマンドを含む記録媒体の形態でも具現されることができる。コンピュータ読み取り可能媒体は、コンピュータによってアクセスすることができる任意の可用な媒体であることができ、揮発性及び不揮発性媒体、分離型及び非分離型媒体をすべて含むことができる。
また、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体または通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能コマンド、データ構造、プログラムモジュールまたはその他のデータのような情報の保存のための任意の方法または技術で具現された揮発性及び不揮発性、分離型及び非分離型媒体をすべて含むことができる。通信媒体は、典型的にコンピュータ判読可能コマンド、データ構造、プログラムモジュール、または搬送波のような変調されたデータ信号のその他のデータ、またはその他の出力メカニズムを含み、任意の情報伝達媒体を含むことができる。
以上、添付された図面を参照して、本発明の実施形態を説明したが、本発明が属する技術分野における通常の知識を有する者は、本発明がその技術的思想や必須の特徴を変更することなく、他の具体的な形態で実施できるということを理解できるはずである。したがって、以上で記述した実施形態は、すべての面で例示的なものであり、限定的でないものとして理解しなければならない。