JP7720152B2 - Voice actor search system, server, voice actor search program, and voice actor search method - Google Patents
Voice actor search system, server, voice actor search program, and voice actor search methodInfo
- Publication number
- JP7720152B2 JP7720152B2 JP2021025476A JP2021025476A JP7720152B2 JP 7720152 B2 JP7720152 B2 JP 7720152B2 JP 2021025476 A JP2021025476 A JP 2021025476A JP 2021025476 A JP2021025476 A JP 2021025476A JP 7720152 B2 JP7720152 B2 JP 7720152B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice actor
- lines
- actor
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、特にマルチメディアコンテンツの音声データに基づいて声優を検索する声優検索システム、サーバー、声優検索プログラム、及び声優検索方法に関する。 The present invention relates to a voice actor search system, server, voice actor search program, and voice actor search method that search for voice actors based on audio data in particular from multimedia content.
従来から、オーディオ又はビデオ等の種々のマルチメディアコンテンツの識別システムが存在する。このような従来のシステムとして、特許文献1を参照すると、クライアント装置に格納されたコンテンツパターンに基づいてデータストリームのコンテンツのコンテンツ識別を連続して実行し、データストリームのコンテンツの同一性を判定するためにサーバーをクエリーするようにしている。この際、クライアント装置は、メディアストリーム(ラジオ等)を取り込み、そのメディアストリームを識別するために、一致を見つけるためのメディア記録(メディアトラックとしても知られている。)のデータベースの検索を行うようサーバーに要求することができる。
特許文献1の技術は、音声のストリームデータから、楽曲そのものを識別していた。具体的には、ストリームの「フィンガープリント」、「サブフィンガープリント」、「ウォーターマーク」を検索して、曲名そのものを検索していた。
Conventionally, there have been various systems for identifying multimedia content such as audio or video. Patent Document 1 discloses a conventional system in which content identification of a data stream is continuously performed based on content patterns stored in a client device, and the client device queries a server to determine the identity of the content of the data stream. In this case, the client device can capture a media stream (e.g., radio) and request the server to search a database of media records (also known as media tracks) for matches to identify the media stream.
The technology in Patent Document 1 identifies music pieces from audio stream data. Specifically, it searches for the music title itself by searching the "fingerprint,""sub-fingerprint," and "watermark" of the stream.
しかしながら、特許文献1に記載のシステムでは、そのコンテンツ内に含まれる登場人物を誰が演じているか、すなわち声優は誰であるかを検索することはできなかった。 However, the system described in Patent Document 1 was unable to search for who was playing the characters included in the content, i.e., who the voice actors were.
本発明は、このような状況に鑑みてなされたものであって、上述の問題点を解消する声優検索システムを提供することを課題とする。 The present invention was made in light of this situation, and its objective is to provide a voice actor search system that solves the above-mentioned problems.
本発明の声優検索システムは、ユーザーの端末と、該端末に接続されるサーバーとを備える声優検索システムであって、前記端末は、声優の音声が含まれる音声データを取得する音声取得部と、前記音声取得部により取得された前記音声データを前記サーバーへ送信する音声送信部とを備え、前記サーバーは、前記端末から前記音声データを受信する音声受信部と、前記音声受信部により受信された前記音声データをテキストデータに変換する音声変換部と、前記音声変換部により変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定する声優検索部と、前記声優検索部により特定された前記声優に関するコンテンツを前記端末へ提示するコンテンツ提示部と、ネットワーク上から前記声優の台詞を取得してデータベースとして格納する台詞取得部とを備え、前記声優検索部は、前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定し、前記声優の台詞そのままではなく、変換の誤差や前記データベース内のデータの差異も考慮して、DP(Dynamic Programming)により前記声優の台詞をアラインメントして類似度スコアを算出し、自然言語解析の形態素解析による類似度スコアを算出し、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出し、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力し、前記台詞取得部は、前記データベースから前記声優の台詞に含まれる台詞特徴量を算出し、前記台詞特徴量は、声優の役柄についてのお約束、要請された台詞を含む、コンテンツが異なっても、声優の特徴を示す台詞上の特徴を示し、前記声優検索部は、前記テキストデータに含まれる台詞について、前記台詞特徴量に基づいた検索空間を限定し、又は前記台詞特徴量に基づいた検索を行い、前記声優を特定することを特徴とする。
本発明の声優検索システムは、前記台詞取得部は、自然言語解析のAIにより、前記声優の台詞の言い回し、語尾、口調を含む声優の台詞のクセを、台詞特徴量として算出することを特徴とする。
本発明の声優検索システムは、前記音声変換部は、音声データの音声特徴量を取得し、該音声特徴量も前記テキストデータに含め、前記音声特徴量は、声紋認識に用いられる特徴に加え、発声上の特徴、声質、台詞の抑揚、方言や訛りによる発音の特徴も含み、前記声質としては、前記声優の性別、推定年齢、元気系音声か、癒やし系音声かについての特徴を含み声優検索部は、テキストデータに含まれた前記音声特徴量に基づいて、前記声優の台詞を検索することを特徴とする。
本発明のサーバーは、声優検索システムのサーバーであって、ユーザーの端末から声優の音声が含まれる音声データを受信する音声受信部と、前記音声受信部により受信された前記音声データをテキストデータに変換する音声変換部と、前記音声変換部により変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定する声優検索部と、前記声優検索部により特定された前記声優に関するコンテンツを前記端末へ提示するコンテンツ提示部と、ネットワーク上から前記声優の台詞を取得してデータベースとして格納する台詞取得部とを備え、前記声優検索部は、前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定し、前記声優の台詞そのままではなく、変換の誤差や前記データベース内のデータの差異も考慮して、DP(Dynamic Programming)により前記声優の台詞をアラインメントして類似度スコアを算出し、自然言語解析の形態素解析による類似度スコアを算出し、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出し、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力し、前記台詞取得部は、前記データベースから前記声優の台詞に含まれる台詞特徴量を算出し、前記台詞特徴量は、声優の役柄についてのお約束、要請された台詞を含む、コンテンツが異なっても、声優の特徴を示す台詞上の特徴を示し、前記声優検索部は、前記テキストデータに含まれる台詞について、前記台詞特徴量に基づいた検索空間を限定し、又は前記台詞特徴量に基づいた検索を行い、前記声優を特定することを特徴とする。
本発明の声優検索プログラムは、声優検索システムのサーバーにより実行される声優検索プログラムであって、前記サーバーに、ユーザーの端末から声優の音声が含まれる音声データを受信させ、受信された前記音声データをテキストデータに変換させ、変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定させ、ネットワーク上から前記声優の台詞を取得してデータベースとして格納させ、前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定させ、前記声優の台詞そのままではなく、変換の誤差や前記データベース内のデータの差異も考慮して、DP(Dynamic Programming)により前記声優の台詞をアラインメントして類似度スコアを算出し、自然言語解析の形態素解析による類似度スコアを算出し、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出し、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力させ、前記データベースから前記声優の台詞に含まれる台詞特徴量を算出させ、前記台詞特徴量は、声優の役柄についてのお約束、要請された台詞を含む、コンテンツが異なっても、声優の特徴を示す台詞上の特徴を示し、前記テキストデータに含まれる台詞について、前記台詞特徴量に基づいた検索空間を限定し、又は前記台詞特徴量に基づいた検索を行い、前記声優を特定させ、特定された前記声優に関するコンテンツを前記端末へ提示させることを特徴とする。
本発明の声優検索方法は、声優検索システムのサーバーにより実行される声優検索方法であって、前記サーバーは、ユーザーの端末から声優の音声が含まれる音声データを受信し、受信した前記音声データをテキストデータに変換し、変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定し、ネットワーク上から前記声優の台詞を取得してデータベースとして格納し、前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定し、前記声優の台詞そのままではなく、変換の誤差や前記データベース内のデータの差異も考慮して、DP(Dynamic Programming)により前記声優の台詞をアラインメントして類似度スコアを算出し、自然言語解析の形態素解析による類似度スコアを算出し、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出し、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力し、前記データベースから前記声優の台詞に含まれる台詞特徴量を算出し、前記台詞特徴量は、声優の役柄についてのお約束、要請された台詞を含む、コンテンツが異なっても、声優の特徴を示す台詞上の特徴を示し、前記テキストデータに含まれる台詞について、前記台詞特徴量に基づいた検索空間を限定し、又は前記台詞特徴量に基づいた検索を行い、前記声優を特定し、特定された前記声優に関するコンテンツを前記端末へ提示することを特徴とする。
The voice actor search system of the present invention is a voice actor search system comprising a user terminal and a server connected to the terminal, wherein the terminal comprises a voice acquisition unit that acquires voice data containing the voice of a voice actor, and a voice transmission unit that transmits the voice data acquired by the voice acquisition unit to the server, and the server comprises a voice receiving unit that receives the voice data from the terminal, a voice conversion unit that converts the voice data received by the voice receiving unit into text data, a voice actor search unit that searches for lines of the voice actor and identifies the voice actor based on the text data converted by the voice conversion unit, a content presentation unit that presents content related to the voice actor identified by the voice actor search unit to the terminal , and a line acquisition unit that acquires the lines of the voice actor from a network and stores them as a database , and the voice actor search unit identifies the voice actor based on the lines of the voice actor stored in the database and performs DP (Dynamic Propagation) to convert the lines of the voice actor directly, taking into account conversion errors and differences in data in the database. The system aligns the lines of the voice actor using a natural language processing algorithm (SLA) to calculate a similarity score, calculates a similarity score using morphological analysis of natural language analysis, calculates a similarity score using a feature model of the arrangement of words in the lines themselves, and outputs several lines with the highest calculated similarity scores as search results , the line acquisition unit calculates line features contained in the lines of the voice actor from the database, the line features indicating line features that indicate the characteristics of the voice actor even if the content is different, including conventions for the voice actor's role and requested lines, and the voice actor search unit limits a search space based on the line features for lines contained in the text data, or performs a search based on the line features, to identify the voice actor .
The voice actor search system of the present invention is characterized in that the line acquisition unit calculates the voice actor's line habits, including the phrasing, endings, and tone of the lines, as line features using AI for natural language analysis.
In the voice actor search system of the present invention, the voice conversion unit acquires voice features from the voice data and includes these voice features in the text data, and the voice features include, in addition to features used in voiceprint recognition, vocalization features, voice quality, intonation of the lines, and pronunciation features due to dialects and accents, and the voice quality includes features such as the gender of the voice actor, estimated age, and whether the voice is energetic or soothing, and the voice actor search unit searches for the lines of the voice actor based on the voice features included in the text data.
The server of the present invention is a server for a voice actor search system, and includes: a voice receiving unit that receives voice data containing the voice of a voice actor from a user's terminal; a voice conversion unit that converts the voice data received by the voice receiving unit into text data; a voice actor search unit that searches for lines of the voice actor based on the text data converted by the voice conversion unit to identify the voice actor; a content presentation unit that presents content related to the voice actor identified by the voice actor search unit to the terminal; and a line acquisition unit that acquires the lines of the voice actor from a network and stores them as a database . The voice actor search unit identifies the voice actor based on the lines of the voice actor stored in the database, and converts the lines of the voice actor into DP (Dynamic Propagation) lines by taking into consideration conversion errors and differences in data in the database, rather than using the lines of the voice actor directly. The system aligns the lines of the voice actor using a natural language processing algorithm (SLA) to calculate a similarity score, calculates a similarity score using morphological analysis of natural language analysis, calculates a similarity score using a feature model of the arrangement of words in the lines themselves, and outputs several lines with the highest calculated similarity scores as search results , the line acquisition unit calculates line features contained in the lines of the voice actor from the database, the line features indicating line features that indicate the characteristics of the voice actor even if the content is different, including conventions for the voice actor's role and requested lines, and the voice actor search unit limits a search space based on the line features for lines contained in the text data, or performs a search based on the line features, to identify the voice actor .
The voice actor search program of the present invention is a voice actor search program executed by a server of a voice actor search system, and causes the server to receive audio data containing the voice of a voice actor from a user's terminal, convert the received audio data into text data, search for the voice actor's lines based on the converted text data, identify the voice actor, obtain the voice actor's lines from a network and store them as a database, identify the voice actor based on the voice actor's lines stored in the database, and perform DP (Dynamic Propagation) to identify the voice actor based on the voice actor's lines, taking into consideration conversion errors and differences in data in the database rather than using the voice actor's lines directly. the system aligns the lines of the voice actor using a natural language analysis software (NLP) to calculate a similarity score, calculates a similarity score using morphological analysis of natural language analysis, calculates a similarity score using a feature model of the arrangement of words in the lines themselves, outputs several lines with the highest calculated similarity scores as search results, calculates line features contained in the lines of the voice actor from the database, the line features indicate line features that indicate the characteristics of the voice actor even if the content is different, including conventions for the voice actor's role and requested lines, limits a search space based on the line features for the lines contained in the text data, or performs a search based on the line features, identifies the voice actor, and presents content related to the identified voice actor on the terminal.
The voice actor search method of the present invention is a voice actor search method executed by a server of a voice actor search system, in which the server receives audio data containing the voice of a voice actor from a user's terminal, converts the received audio data into text data, searches for the voice actor's lines based on the converted text data to identify the voice actor, acquires the voice actor's lines from a network and stores them as a database, identifies the voice actor based on the voice actor's lines stored in the database, and converts the voice actor's lines into DP (Dynamic Propagation) data, taking into account conversion errors and differences in data in the database rather than just using the voice actor's lines as they are. the system aligns the lines of the voice actor using a natural language processing algorithm (NLP) to calculate a similarity score, calculates a similarity score using morphological analysis of natural language analysis, calculates a similarity score using a feature model of the arrangement of words in the lines themselves, outputs several lines with the highest calculated similarity scores as search results, calculates line features contained in the lines of the voice actor from the database, the line features indicate line features that indicate the characteristics of the voice actor even if the content is different, including conventions for the voice actor's role and requested lines, limits a search space based on the line features for the lines contained in the text data, or performs a search based on the line features, identifies the voice actor, and presents content related to the identified voice actor on the terminal.
本発明によれば、端末から受信した音声データをテキストデータに変換し、このテキストデータに基づいて、声優の台詞を検索して前記声優を特定し、特定された声優に関するコンテンツを端末へ提示することで、声優を検索することが可能な声優検索システムを提供することができる。 This invention provides a voice actor search system that can search for voice actors by converting audio data received from a terminal into text data, searching for the voice actor's lines based on this text data, identifying the voice actor, and presenting content related to the identified voice actor on the terminal.
<実施の形態>
〔声優検索システムXのシステム構成〕
まず、図1を参照して、本発明の実施の形態に係る声優検索システムXのシステム構成について説明する。
声優検索システムXは、サーバー1と、ユーザーの端末2とが、インターネットやイントラネット等のネットワーク5に接続されて構成される。
<Embodiment>
[System configuration of voice actor search system X]
First, with reference to FIG. 1, the system configuration of a voice actor search system X according to an embodiment of the present invention will be described.
The voice actor search system X is configured by connecting a server 1 and a user terminal 2 to a network 5 such as the Internet or an intranet.
サーバー1は、PC(Personal Computer)サーバーや汎用機等である。サーバー1は、各端末2からのクエリーとなるアニメ(Animation)や映画等のマルチメディアコンテンツ(以下、単に「コンテンツ」という。)の音声データ300(図3)を受信して、この音声データ300から声優を検索し、関連するコンテンツを提示する。サーバー1は、いわゆる「クラウド」上のサーバーであってもよい。なお、サーバー1は、イントラネット内のサーバーであってもよい。 Server 1 is a PC (Personal Computer) server, a general-purpose machine, or the like. Server 1 receives audio data 300 (Figure 3) of multimedia content (hereinafter simply referred to as "content") such as animation or movies, which is a query from each terminal 2, searches for voice actors from this audio data 300, and presents related content. Server 1 may also be a server on the so-called "cloud." Server 1 may also be a server within an intranet.
端末2は、声優を検索したいユーザーが用いる携帯電話、スマートフォン、タブレット端末、携帯用PC、据え置き型PC、ゲーム機器、家電製品等のコンピューターである。 Terminal 2 is a computer such as a mobile phone, smartphone, tablet, portable PC, desktop PC, game console, or home appliance used by a user who wants to search for voice actors.
次に、図2を参照して、サーバー1の制御構成について説明する。
サーバー1は、制御部10、記憶部11、及びネットワーク送受信部15等を含む。各部は、制御部10に接続され、制御部10によって動作制御される。
Next, the control configuration of the server 1 will be described with reference to FIG.
The server 1 includes a control unit 10, a storage unit 11, a network transmission/reception unit 15, etc. Each unit is connected to the control unit 10, and the operation thereof is controlled by the control unit 10.
制御部10は、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit、特定用途向けプロセッサー)等の情報処理部である。
制御部10は、記憶部11のROMやHDDに記憶されている制御プログラムを読み出して、この制御プログラムをRAMに展開させて実行することで、後述する機能ブロックの各部として動作させられる。また、制御部10は、図示しない外部の管理端末やコンソールから入力された所定の指示情報に応じて、装置全体の設定や制御を行うことも可能である。
The control unit 10 is an information processing unit such as a CPU (Central Processing Unit), MPU (Micro Processing Unit), DSP (Digital Signal Processor), GPU (Graphics Processing Unit), or ASIC (Application Specific Integrated Circuit).
The control unit 10 reads out a control program stored in the ROM or HDD of the storage unit 11, and loads and executes this control program in the RAM, thereby causing each unit to operate as a functional block, which will be described later. The control unit 10 can also set and control the entire device in accordance with predetermined instruction information input from an external management terminal or console (not shown).
ネットワーク送受信部15は、外部のネットワーク5に接続するためのLANボードや無線送受信機等を含むネットワーク接続部である。本実施形態のネットワーク5には、例えば、LAN、無線LAN、WAN、携帯電話網、音声電話網等で接続される。
ネットワーク送受信部15は、データ通信用の回線ではデータを送受信し、音声電話回線では音声信号を送受信することが可能であってもよい。
The network transceiver 15 is a network connection unit including a LAN board, a wireless transceiver, etc. for connecting to the external network 5. In this embodiment, the network 5 is connected via, for example, a LAN, a wireless LAN, a WAN, a mobile phone network, a voice telephone network, etc.
The network transmission/reception unit 15 may be capable of transmitting and receiving data over a data communication line and transmitting and receiving voice signals over a voice telephone line.
記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリーやHDD(Hard Disk Drive)等の一時的でない記録媒体である。
記憶部11のROMやHDDには声優検索システムXの動作制御を行うための制御プログラム、各種データベース、コンテンツのデータ等が格納されている。この制御プログラムは、ファームウェア(Firmware)、OS(Operating System)、OS上で動作するサービス(Service)やデーモン(Daemon)、デバイスドライバーやミドルウェア、サーバーソフトウェア、アプリケーションソフトウェア(Application Software、以下、単に「アプリ」という。)等を含む。このサービス(デーモン)は、WWW(World Wide Web)サーバー、CGI(Common Gateway Interface)、ASP、サーバーサイドプログラム等を含んでいてもよい。これに加えて、記憶部11は、ユーザーのアカウント設定も記憶していてもよい。
The storage unit 11 is a non-transitory recording medium such as a semiconductor memory such as a read only memory (ROM) or a random access memory (RAM) or a hard disk drive (HDD).
The ROM and HDD of the storage unit 11 store control programs for controlling the operation of the voice actor search system X, various databases, content data, and the like. These control programs include firmware, an operating system (OS), services and daemons that run on the OS, device drivers and middleware, server software, and application software (hereinafter simply referred to as "apps"). These services (daemons) may include a World Wide Web (WWW) server, a Common Gateway Interface (CGI), an ASP, a server-side program, and the like. In addition, the storage unit 11 may also store user account settings.
なお、声優検索システムXにおいて、制御部10は、GPU内蔵CPU、チップ・オン・モジュールパッケージ、SOC(System On a Chip)等のように、一体的に形成されていてもよい。また、制御部10は、RAMやROMやフラッシュメモリー等を内蔵していてもよい。 In the voice actor search system X, the control unit 10 may be formed as an integrated unit, such as a CPU with a built-in GPU, a chip-on-module package, or an SOC (System On a Chip). The control unit 10 may also include built-in RAM, ROM, flash memory, etc.
また、端末2は、マイクロフォン及びA/D(Analog to digital)コンバーター等を含む音声入力部、音声入力部で入力された音声をネットワーク5へ送信するためのネットワーク接続部、全体を制御するCPU等の制御部、及び制御プログラムを格納する記憶部を備えている。 In addition, terminal 2 is equipped with an audio input unit including a microphone and an A/D (Analog to Digital) converter, a network connection unit for transmitting audio input via the audio input unit to network 5, a control unit such as a CPU for overall control, and a memory unit for storing control programs.
〔声優検索システムXの機能構成〕
ここで、図3及び図4を参照し、声優検索システムXの機能構成について説明する。
サーバー1の制御部10は、音声受信部100、音声変換部110、声優検索部120、コンテンツ提示部130、及び台詞取得部140を備えている。
記憶部11は、音声データ300、テキストデータ310、及び声優関連DB320を格納する。
端末2は、音声取得部200及び音声送信部210を備えている。
[Functional configuration of voice actor search system X]
Here, the functional configuration of the voice actor search system X will be described with reference to FIGS.
The control unit 10 of the server 1 includes a voice receiving unit 100 , a voice conversion unit 110 , a voice actor search unit 120 , a content presenting unit 130 , and a dialogue acquiring unit 140 .
The storage unit 11 stores voice data 300, text data 310, and a voice actor related DB 320.
The terminal 2 includes a voice acquisition unit 200 and a voice transmission unit 210 .
音声受信部100は、端末2から音声データ300を受信する。音声受信部100は、ネットワーク送受信部15を介して、端末2により送信された音声データ300を取得し、記憶部に格納する。この際、音声受信部100は、音声データ300が符号化されていた場合、復号してもよい。 The audio receiving unit 100 receives audio data 300 from the terminal 2. The audio receiving unit 100 acquires the audio data 300 transmitted by the terminal 2 via the network transceiver 15 and stores it in the memory unit. At this time, the audio receiving unit 100 may decode the audio data 300 if it has been encoded.
音声変換部110は、音声受信部100により受信された音声データ300をテキストデータ310に変換する。音声変換部110は、取得された音声データ300にFFT(Fast Fourier Transform)等により周波数分析、各種フィルタリング等を行ってヒトの音声のデータを抽出する。この上で、音声変換部110は、畳み込みNN(Neural Network)等の各種AI(Artificial Intelligence)、隠れマルコフモデル、その他の各種音声認識手法を用いて、音声認識を行う。 The voice conversion unit 110 converts the voice data 300 received by the voice receiving unit 100 into text data 310. The voice conversion unit 110 performs frequency analysis using FFT (Fast Fourier Transform) and various filtering processes on the acquired voice data 300 to extract human voice data. The voice conversion unit 110 then performs voice recognition using various AI (Artificial Intelligence) techniques such as convolutional neural networks (NNs), hidden Markov models, and various other voice recognition techniques.
この音声認識の際、音声変換部110は、音声データ300の音声特徴量を取得し、当該音声特徴量もテキストデータ310に含めることが可能である。この音声特徴量は、例えば、声紋認識に用いられる各種の特徴、発声上の特徴、声質、台詞の抑揚、方言や訛りによる発音の特徴等も含む。このうち、声質としては、例えば、声優の性別、推定年齢、抑揚が大きくテンションが高いハキハキした『元気系』音声か、抑揚が少ない『癒やし系』音声か、といった特徴を検出可能であってもよい。この際、音声変換部110は、音声データ300の音声特徴量についても、テキストデータ310に含めることが可能であってもよい。 During this speech recognition, the speech conversion unit 110 acquires speech features of the speech data 300, and can also include these speech features in the text data 310. These speech features include, for example, various features used in voiceprint recognition, vocalization features, voice quality, intonation of lines, pronunciation features due to dialects and accents, etc. Among these, the voice quality may be capable of detecting features such as the gender and estimated age of the voice actor, and whether the voice is a clear, energetic voice with strong intonation and high tension, or a calm, soothing voice. In this case, the speech conversion unit 110 may also be able to include the speech features of the speech data 300 in the text data 310.
声優検索部120は、音声変換部110により変換されたテキストデータ310に基づいて、声優の台詞を検索して声優を特定する。具体的には、声優検索部120は、声優関連DB320に格納された声優の台詞に基づいて、声優を特定することが可能である。この際、声優検索部120は、音声特徴量も用いて、声優の特定を行うことも可能であってもよい。さらに、声優検索部120は、下記で説明する台詞取得部140により算出された台詞特徴量に基づいて、声優を特定することも可能であってもよい。 The voice actor search unit 120 searches for the lines of a voice actor and identifies the voice actor based on the text data 310 converted by the voice conversion unit 110. Specifically, the voice actor search unit 120 can identify a voice actor based on the lines of the voice actor stored in the voice actor-related DB 320. In this case, the voice actor search unit 120 may also be able to identify the voice actor using voice features. Furthermore, the voice actor search unit 120 may also be able to identify a voice actor based on line features calculated by the line acquisition unit 140, which will be described below.
コンテンツ提示部130は、声優検索部120により特定された声優に関するコンテンツを端末2へ提示する。コンテンツ提示部130は、例えば、声優関連DB320を参照し、声優についての検索結果として特定された声優の情報、この声優に関連した、ユーザーが有効的に活用可能な情報を端末2に提示可能である。 The content presentation unit 130 presents to the terminal 2 content related to the voice actor identified by the voice actor search unit 120. The content presentation unit 130 can, for example, refer to the voice actor related DB 320 and present to the terminal 2 information about the voice actor identified as a search result for the voice actor, as well as information related to this voice actor that can be effectively utilized by the user.
台詞取得部140は、ネットワーク5から声優の台詞を取得して声優関連DB320に格納する。台詞取得部140は、例えば、専用のウェブサイトにて、ユーザーに入力された印象的な声優の台詞を声優関連DB320の台詞データ400(図4)に格納する。または、台詞取得部140は、声優のウェブサイトに掲載された台詞を、ネットワーク5を介して、自動的、周期的に取得し、声優関連DB320に格納してもよい。台詞取得部140は、例えば、HTTPプロトコルでwget等でWWWサイトからHTML(Hyper Text Markup Language)やコンテンツを含むデータを取得する、いわゆるクロウラー(Crawler)等のプログラムを用いて、この自動的、周期的な取得を実行してもよい。さらに、台詞取得部140は、取得されたコンテンツの音声データから音声認識を行って、台詞データ400に格納してもよい。
この上で、台詞取得部140は、声優関連DB320に格納された声優の台詞に含まれる台詞特徴量を算出してもよい。この場合、台詞取得部140は、例えば、自然言語処理AIにより台詞の特徴を算出し、声優毎の特徴を算出可能であってもよい。
The line acquisition unit 140 acquires lines of voice actors from the network 5 and stores them in the voice actor-related DB 320. For example, the line acquisition unit 140 stores memorable lines of voice actors entered by users on a dedicated website in the line data 400 ( FIG. 4 ) of the voice actor-related DB 320. Alternatively, the line acquisition unit 140 may automatically and periodically acquire lines posted on the voice actor's website via the network 5 and store them in the voice actor-related DB 320. The line acquisition unit 140 may perform this automatic and periodic acquisition using a program such as a crawler that acquires data including HTML (Hyper Text Markup Language) and content from a WWW site using the HTTP protocol, such as wget. Furthermore, the line acquisition unit 140 may perform voice recognition on the voice data of the acquired content and store the speech data in the line data 400.
Then, the line acquisition unit 140 may calculate line feature amounts included in the lines of the voice actors stored in the voice actor-related DB 320. In this case, the line acquisition unit 140 may calculate line features using, for example, natural language processing AI, and may be able to calculate features for each voice actor.
音声取得部200は、声優の音声が含まれる音声データ300を取得する。本実施形態においては、ユーザーがコンテンツを閲覧中に、端末2のウェブブラウザーや専用アプリ等により指示を行う。すると、音声入力部から音声による信号が音声データ300として入力され、これを音声取得部200が取得する。 The audio acquisition unit 200 acquires audio data 300 containing the voice of a voice actor. In this embodiment, while the user is viewing content, they issue instructions using a web browser or dedicated app on the terminal 2. In response, an audio signal is input as audio data 300 from the audio input unit, which is acquired by the audio acquisition unit 200.
音声送信部210は、音声取得部200により取得された音声データ300をサーバー1へ送信する。音声送信部210は、ネットワーク接続部を介して、ネットワーク5経由で音声データ300をサーバー1へ送信する。この際、音声送信部210は、音声データ300を各種コーデックで符号化して送信することが可能である。音声送信部210は、この符号化の際に、音声データ300を暗号化してもよい。 The audio transmission unit 210 transmits the audio data 300 acquired by the audio acquisition unit 200 to the server 1. The audio transmission unit 210 transmits the audio data 300 to the server 1 via the network connection unit and over the network 5. At this time, the audio transmission unit 210 can encode the audio data 300 using various codecs and transmit it. The audio transmission unit 210 may also encrypt the audio data 300 when encoding it.
音声データ300は、端末2から取得した音声のデータである。この音声データ300は、取得時には、各種コーデックで符号化されていても、暗号化されていてもよい。さらに、音声データ300は、音声認識に必要なヒトの音声の周波数帯の信号のみを含んでいてもよい。 Audio data 300 is audio data acquired from terminal 2. This audio data 300 may be encoded using various codecs or encrypted when acquired. Furthermore, audio data 300 may contain only signals in the frequency band of human speech required for voice recognition.
テキストデータ310は、音声データ300から音声認識されたテキスト(文字)のデータである。本実施形態においては、テキストデータ310は、主に声優の台詞のテキストを含んでいる。さらに、テキストデータ310は、音声変換部110により音声変換された際の音声データ300の音声特徴量についても、テキストのデータとして含んでいてもよい。 Text data 310 is text (character) data obtained by voice recognition from audio data 300. In this embodiment, text data 310 mainly contains the text of the voice actor's lines. Furthermore, text data 310 may also contain, as text data, audio features of audio data 300 when audio conversion is performed by audio conversion unit 110.
声優関連DB320は、テキストデータ310から声優を特定する際に参照される声優の台詞及び関連コンテンツのデータベースである。
声優関連DB320の詳細な構成については後述する。
The voice actor related DB 320 is a database of lines of voice actors and related content that is referenced when identifying a voice actor from the text data 310.
The detailed configuration of the voice actor related DB 320 will be described later.
次に、図4を参照し、声優関連DB320の詳細について説明する。
声優関連DB320は、台詞データ400、音声特徴量データ410、台詞特徴量データ420、及び関連コンテンツデータ430を含む。
Next, the voice actor related DB 320 will be described in detail with reference to FIG.
The voice actor related DB 320 includes line data 400 , voice feature data 410 , line feature data 420 , and related content data 430 .
台詞データ400は、声優の台詞のテキストデータを含むデータベースである。この台詞データ400は、コンテンツの種類、名称、番組の回数等の台詞に付随する各種データも含んだテーブルとして構成されてもよい。 Line data 400 is a database containing text data of lines spoken by voice actors. This line data 400 may also be configured as a table containing various data associated with the lines, such as the type of content, name, and number of episodes.
音声特徴量データ410は、声優毎の音声特徴量を示すデータである。この音声特徴量データ410は、端末2から送信された音声データ300が分析された音声特徴量が蓄積されたものであってもよい。または、音声特徴量データ410は、クロウラーにより取得された音声データ300に基づいた音声特徴量のデータであってもよい。この音声特徴量データ410も、テキスト形式で格納されていてもよい。 The audio feature data 410 is data indicating audio features for each voice actor. This audio feature data 410 may be an accumulation of audio features obtained by analyzing the audio data 300 transmitted from the terminal 2. Alternatively, the audio feature data 410 may be data on audio features based on the audio data 300 acquired by a crawler. This audio feature data 410 may also be stored in text format.
台詞特徴量データ420は、自然言語処理により算出された台詞特徴量を格納するデータベースである。この台詞特徴量データ420は、例えば、声優の特徴を示すように作品が異なっても脚本として記載されたものであっても、声優毎のアドリブ上のクセに基づいた特徴であってもよい。 Line feature data 420 is a database that stores line feature amounts calculated by natural language processing. This line feature data 420 may be, for example, line feature data written as a script across different works that indicates the characteristics of the voice actor, or it may be features based on the ad-lib habits of each voice actor.
関連コンテンツデータ430は、例えば、声優のウェブサイト、ホームページ(Home page)、SNS(Social Network Service)等のアカウント、関連するコンテンツの紹介や販売サイト等のデータを含む。加えて、関連コンテンツデータ430は、コンテンツそのもののファイル、声優の音声データのファイル等も含んでいてもよい。 Related content data 430 includes, for example, data such as the voice actor's website, home page, SNS (Social Network Service) account, and related content introduction and sales sites. In addition, related content data 430 may also include files for the content itself, files for the voice actor's audio data, etc.
この他にも、声優関連DB320は、各声優のコンテンツのデータを格納することが可能であってもよい。 In addition, the voice actor-related DB 320 may be capable of storing content data for each voice actor.
ここで、声優検索システムXのサーバー1の制御部10は、記憶部11に記憶された制御プログラムを実行することで、音声受信部100、音声変換部110、声優検索部120、コンテンツ提示部130、及び台詞取得部140として機能させられる。これらは、サービス(デーモン)として提供されてもよい。
また、端末2の制御部は、記憶部に格納された制御プログラムを実行することで、音声取得部200、及び音声送信部210として機能させられる。
また、上述の声優検索システムXのサーバー1及び端末2の各部は、本発明の声優検索方法を実行するハードウェア資源となる。
なお、上述の機能構成の一部又は任意の組み合わせをICやプログラマブルロジックやFPGA(Field-Programmable Gate Array)等でハードウェア的、回路的に構成してもよい。
Here, the control unit 10 of the server 1 of the voice actor search system X executes a control program stored in the storage unit 11 to function as a voice receiving unit 100, a voice conversion unit 110, a voice actor search unit 120, a content presentation unit 130, and a dialogue acquisition unit 140. These may be provided as services (daemons).
Furthermore, the control unit of the terminal 2 is made to function as a voice acquisition unit 200 and a voice transmission unit 210 by executing a control program stored in the storage unit.
Furthermore, each part of the server 1 and terminal 2 of the voice actor search system X described above serves as a hardware resource for executing the voice actor search method of the present invention.
Note that a part or any combination of the above-described functional configurations may be configured in terms of hardware or circuits using ICs, programmable logic, FPGAs (Field-Programmable Gate Arrays), or the like.
〔声優検索システムXによる声優検索処理〕
次に、図5~図6を参照して、本発明の実施の形態に係る声優検索システムXによる声優検索処理の説明を行う。
本実施形態に係る声優検索処理では、端末2により、声優の音声が含まれる音声データ300を取得する。この上で、音声取得部200により取得された音声データ300を、サーバー1へ送信する。サーバー1においては、ユーザーの端末から声優の音声が含まれる音声データ300を受信する。次に、受信した音声データ300をテキストデータ310に変換する。そして、変換されたテキストデータ310に基づいて、声優の台詞を検索して声優を特定する。この上で、特定された声優に関するコンテンツを端末2へ提示する。
[Voice actor search processing by voice actor search system X]
Next, the voice actor search process performed by the voice actor search system X according to the embodiment of the present invention will be described with reference to FIGS.
In the voice actor search process according to this embodiment, the terminal 2 acquires audio data 300 containing the voice of the voice actor. The audio data 300 acquired by the audio acquisition unit 200 is then transmitted to the server 1. The server 1 receives the audio data 300 containing the voice of the voice actor from the user's terminal. The received audio data 300 is then converted into text data 310. The voice actor's lines are then searched for and the voice actor is identified based on the converted text data 310. Content related to the identified voice actor is then presented to the terminal 2.
本実施形態の声優検索処理は、サーバー1では制御部10が記憶部11に記憶された制御プログラムを、端末2では制御部が記憶部に記憶された制御プログラムを、それぞれ各部と協働し、ハードウェア資源を用いて実行する。
以下で、図5のフローチャートを参照して、声優検索処理の詳細をステップ毎に説明する。
In the voice actor search process of this embodiment, the control unit 10 of the server 1 executes the control program stored in the memory unit 11, and the control unit of the terminal 2 executes the control program stored in the memory unit, each in cooperation with the respective units, using hardware resources.
The voice actor search process will be described in detail below for each step with reference to the flowchart of FIG.
(ステップS201)
まず、端末2の音声取得部200が、音声データ取得処理を行う。
たとえば、ユーザーが、テレビジョン放送やビデオ・オン・デマンド等でコンテンツをテレビ画面や端末2のディスプレイ等(以下、「テレビ等」という。)に表示、スピーカー等から音声再生してコンテンツを鑑賞しているとする。この際、ユーザーは、そこに登場する声優が誰であるか、他にどのような作品に出演しているのか等を知りたいと考え、図示しない検索サイト等で、サーバー1の提供する声優検索のサービスを知ることが可能である。この上で、ユーザーは、サーバー1のサービスのウェブサイトに、ウェブブラウザーや専用アプリ等(以下、単に「アプリ等」という。)によりアクセスする。すると、サーバー1は、コンテンツから音声を送信するよう指示する。
(Step S201)
First, the voice acquisition unit 200 of the terminal 2 performs voice data acquisition processing.
For example, suppose a user is watching content via television broadcasting or video-on-demand, displaying it on a television screen or a display of terminal 2 (hereinafter referred to as "television, etc.") and playing audio from speakers, etc. At this time, the user wants to know who the voice actors are who appear in the content, what other works they have appeared in, etc., and can find out about a voice actor search service provided by server 1 on a search site (not shown). The user then accesses the website of server 1's service using a web browser, a dedicated app, etc. (hereinafter simply referred to as "app, etc."). Server 1 then instructs the server to transmit audio from the content.
ここで、ユーザーは、例えば、テレビ等でコンテンツの声優のセリフが再生されている場面で、アプリ等で「録音」を指示する。または、端末2で再生されているコンテンツについて、ユーザーがアプリ等で「録音」を指示する。
これらの指示を取得すると、音声取得部200は、音声入力部からテレビ等で再生された音声を音声データ300として録音したり、コンテンツのデータから一部を音声データ300としてキャプチャーしたりする。これにより、音声取得部200は、声優の音声が含まれる音声データ300を取得することが可能である。
Here, for example, the user instructs "record" using an app or the like when a voice actor's lines for the content are being played on a television or the like. Alternatively, the user instructs "record" using an app or the like for content being played on terminal 2.
Upon receiving these instructions, the audio acquisition unit 200 records the audio played on a television or the like from the audio input unit as audio data 300, or captures a portion of the content data as audio data 300. This allows the audio acquisition unit 200 to acquire audio data 300 that includes the voice of the voice actor.
(ステップS202)
次に、音声送信部210が、音声データ送信処理を行う。
音声送信部210は、音声取得部200により取得された音声データ300をサーバー1へ送信する。音声送信部210は、この際に、音声送信部210は、音声データ300を音声認識に必要なヒトの音声の周波数帯の信号のみにフィルタリング、圧縮、符号化、及び暗号化等して送信することが可能である。
(Step S202)
Next, the voice transmission unit 210 performs voice data transmission processing.
The voice transmitting unit 210 transmits the voice data 300 acquired by the voice acquiring unit 200 to the server 1. At this time, the voice transmitting unit 210 can filter, compress, encode, encrypt, and so on the voice data 300 to reduce it to only signals in the frequency band of human voice necessary for voice recognition, and then transmit the data.
(ステップS101)
ここで、サーバー1の音声受信部100が、音声データ受信処理を行う。
音声受信部100は、端末2から音声データ300を受信して、記憶部11へ一時的に格納する。この際に、音声受信部100は、復号等も行ってもよい。
(Step S101)
Here, the voice receiving unit 100 of the server 1 performs voice data receiving processing.
The voice receiving unit 100 receives the voice data 300 from the terminal 2 and temporarily stores it in the storage unit 11. At this time, the voice receiving unit 100 may also perform decoding and the like.
(ステップS102)
次に、音声変換部110が、音声テキスト変換処理を行う。
音声変換部110は、受信した音声データ300をテキストデータ310に変換する。音声変換部110は、各種音声認識手法を用いて、音声認識を行うことが可能である。
ここで、音声変換部110は、台詞として意味のある言葉が認識できなかったり、認識の尤度や確度が低かったりした場合は、できるだけ近い言葉を補ったり文脈上の補完をしたりして、適切な文章となるように変換してもよい。
(Step S102)
Next, the speech conversion unit 110 performs speech-to-text conversion processing.
The speech conversion unit 110 converts the received speech data 300 into text data 310. The speech conversion unit 110 is capable of performing speech recognition using various speech recognition methods.
Here, if the speech conversion unit 110 is unable to recognize meaningful words as dialogue or if the likelihood or accuracy of recognition is low, it may convert the dialogue to an appropriate sentence by adding words that are as close as possible or by supplementing the context.
(ステップS103)
次に、音声変換部110が、特徴量付加処理を行う。
音声変換部110は、音声データ300の音声特徴量も算出することが可能である。この上で、音声変換部110は、算出された音声特徴量もテキストデータ310に含める。たとえば、音声変換部110は、音声特徴量として、声紋認識のデータの他に、『イントネーション:関西、北陸』『特徴量:女性、二十~三十代、癒やし系音声』等の特徴情報を付加可能である。
(Step S103)
Next, the speech conversion unit 110 performs a feature addition process.
The speech conversion unit 110 can also calculate speech features of the speech data 300. Then, the speech conversion unit 110 includes the calculated speech features in the text data 310. For example, the speech conversion unit 110 can add, as speech features, feature information such as "intonation: Kansai, Hokuriku" and "feature: female, 20s to 30s, soothing voice" in addition to voiceprint recognition data.
(ステップS104)
次に、声優検索部120が、台詞テキスト声優特定処理を行う。
声優検索部120は、音声変換部110により変換されたテキストデータ310に基づいて、声優関連DB320から台詞を検索し、この台詞に基づいて声優を特定する。
(Step S104)
Next, the voice actor search unit 120 performs a dialogue text voice actor identification process.
The voice actor search unit 120 searches the voice actor related DB 320 for lines based on the text data 310 converted by the voice conversion unit 110, and identifies the voice actor based on the lines.
具体的には、まず、声優検索部120は、声優関連DB320に格納された台詞データ400に基づいて、テキストデータ310に含まれる台詞を検索する。この際に、声優検索部120は、台詞そのままではなく、変換の誤差やデータベース内のデータの差異も考慮して、類似する台詞を検索することが可能であってもよい。より具体的には、声優検索部120は、例えば、DP(Dynamic Programming)等により台詞をアラインメントして、類似度スコアを算出してもよい。または、声優検索部120は、例えば、自然言語解析の形態素解析等による類似度スコアを算出し、類似する台詞を検索してもよい。さらに、声優検索部120は、例えば、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出することも可能である。この上で、声優検索部120は、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力可能である。より具体的には、例えば、声優検索部120は、「多分、こんなこともあろうと思って」というテキストデータ310内の台詞から、台詞データ400に格納された「こんなこともあろうかと」という類似する台詞を検索することが可能であってもよい。 Specifically, the voice actor search unit 120 first searches for lines included in the text data 310 based on the line data 400 stored in the voice actor-related DB 320. In this process, the voice actor search unit 120 may search for similar lines by taking into account conversion errors and differences in data within the database, rather than simply searching for the lines themselves. More specifically, the voice actor search unit 120 may align lines using, for example, dynamic programming (DP) and calculate a similarity score. Alternatively, the voice actor search unit 120 may calculate a similarity score using, for example, morphological analysis of natural language analysis, and search for similar lines. Furthermore, the voice actor search unit 120 may calculate a similarity score using, for example, a feature model of the arrangement of words in the lines themselves. The voice actor search unit 120 can then output, as search results, the lines with the highest calculated similarity scores. More specifically, for example, the voice actor search unit 120 may be able to search for a similar line, "I thought something like this might happen," stored in the line data 400, from the line, "Maybe something like this might happen," in the text data 310.
さらに、声優検索部120は、テキストデータ310に含まれた音声特徴量の特徴情報に基づいて、音声特徴量データ410も考慮した上で、台詞データ400を検索可能であってもよい。より具体的には、音声検索部は、上述の例でいえば、『イントネーション:関西、北陸』『特徴量:女性、二十~三十代、癒やし系音声』に当てはまる声優について検索空間を限定して検索することも可能である。この場合、台詞データ400から類似度スコアが所定閾値より高いようなものが検出されなかった場合、その特徴情報に合致する声優の代表的な台詞を台詞データ400から検索してもよい。 Furthermore, the voice actor search unit 120 may be able to search the dialogue data 400 based on the feature information of the voice features included in the text data 310, taking into account the voice feature data 410. More specifically, in the above example, the voice search unit may narrow the search space and search for voice actors who fit the criteria of "intonation: Kansai, Hokuriku" and "feature: female, 20s to 30s, soothing voice." In this case, if no lines with a similarity score higher than a predetermined threshold are detected in the dialogue data 400, the voice actor's representative lines that match the feature information may be searched for in the dialogue data 400.
さらに加えて、声優検索部120は、テキストデータ310に含まれる台詞について、台詞特徴量データ420に基づいた検索空間の限定を行ってもよい。または、声優検索部120は、この台詞特徴量データ420に基づいた検索を行うことも可能であってもよい。この場合も、台詞データ400で合致する台詞が検出されなかった場合には、台詞特徴量データ420に合致する声優の代表的な台詞を台詞データ400から検索してもよい。 In addition, the voice actor search unit 120 may limit the search space for lines included in the text data 310 based on the line feature data 420. Alternatively, the voice actor search unit 120 may also be able to perform a search based on this line feature data 420. In this case, if no matching lines are detected in the line data 400, the voice actor may search for representative lines by the voice actor that match the line feature data 420 from the line data 400.
声優検索部120は、これらの検索された台詞から、その台詞を話した声優を特定する。この際に、声優検索部120は、匿名(別名)で出演している声優等については特定結果に含めなくてもよい。
声優検索部120は、この検索結果について、声優関連DB320に格納することも可能である。
The voice actor search unit 120 identifies the voice actor who spoke the lines from these searched lines. At this time, the voice actor search unit 120 does not need to include voice actors who appear anonymously (under a different name) in the identification result.
The voice actor search unit 120 can also store the search results in the voice actor related DB 320 .
(ステップS105)
次に、コンテンツ提示部130が、関連コンテンツ提示処理を行う。
コンテンツ提示部130は、声優検索部120により特定された声優について、関連コンテンツデータ430から端末2へ提示するデータ(以下、「検索結果データ」という。)を取得して、端末2へ送信する。具体的には、例えば、コンテンツ提示部130は、関連コンテンツデータ430内の当該声優のデータに基づいたHTML等を含む検索結果データを端末2へ送信することが可能である。この際、コンテンツ提示部130は、関連するハイパーリンク(以下、「リンク」という。)やコンテンツの映像、画像、写真、音声データやこれらのリンク等も付加可能である。
(Step S105)
Next, the content presenting unit 130 performs a related content presenting process.
The content presenting unit 130 acquires data to be presented to the terminal 2 (hereinafter referred to as "search result data") from the related content data 430 for the voice actor identified by the voice actor searching unit 120, and transmits it to the terminal 2. Specifically, for example, the content presenting unit 130 can transmit search result data including HTML, etc. based on the data of the voice actor in the related content data 430 to the terminal 2. At this time, the content presenting unit 130 can also add related hyperlinks (hereinafter referred to as "links"), content videos, images, photographs, audio data, and links thereto.
(ステップS203)
次に、端末2の制御部及び表示部が、結果表示処理を行う。
端末2は、検索結果データをサーバー1から取得して提示する。具体的には、例えば、特定された声優に関する関連コンテンツのデータが、アプリ等の画面として表示部等に表示される。
(Step S203)
Next, the control unit and display unit of the terminal 2 perform a result display process.
The terminal 2 obtains and presents the search result data from the server 1. Specifically, for example, data of related content related to the identified voice actor is displayed on a display unit or the like as a screen of an app or the like.
図6の画面例500は、この検索結果データが描画された一例を示す。この例では、テキストデータ310に含まれる台詞及び音声特徴量データ410に当てはまる声優から、二人の候補声優が検索された例を示す。画面例500では、声優の写真、声優名、所属するエージェント(事務所)とそのウェブサイト(HP)、出演作品の一覧とそのリンク、関連商品のリンク等が提示された例を示す。このうち出演作品の一覧とそのリンクは、クリックすると、その作品のコンテンツをVOD(Video On Demand)で再生可能であってもよい。または、そのリンクは、声優のサンプル音声やユーザーへの特別の台詞等を再生するものであってもよい。さらに、この再生は、動画再生サイトへのリンクであっても、サーバー1に格納されたコンテンツをストリーミングで提供するためのリンクであってもよい。さらに、再生は、コンテンツの電子書籍、音声データ300等の再生を行うことが可能であってもよい。 Screen example 500 in Figure 6 shows an example of how this search result data is rendered. This example shows two candidate voice actors searched for from among the voice actors matching the dialogue and audio feature data 410 contained in text data 310. Screen example 500 shows an example of presenting the voice actor's photo, voice actor name, their agent (agency) and its website, a list of works they have appeared in and links to them, and links to related products. Clicking on the list of works and their links may enable playback of the content of that work via VOD (Video On Demand). Alternatively, the link may play a sample audio of the voice actor or special lines addressed to the user. Furthermore, this playback may be a link to a video playback site or a link to provide streaming content stored on server 1. Furthermore, playback may also be possible for content such as e-books and audio data 300.
また、関連商品は、声優として役を演じるコンテンツそのものではなく、当該声優が声優の名前(ユニット)で活動する作品のリンクを提示してもよい。または、その声優の出演作品の販売サイト、出版社、製作委員会のリンク等を提示することも可能である。
以上により、本発明の実施の形態に係る声優検索処理を終了する。
Furthermore, related products may not be the content itself in which the voice actor plays a role, but rather links to works in which the voice actor is active under the name of the voice actor (or a unit). Alternatively, it is also possible to present links to sales sites, publishers, production committees, etc. for works in which the voice actor appears.
This completes the voice actor search process according to the embodiment of the present invention.
〔声優検索システムXによる台詞取得処理〕
次に、図7~図8を参照して、本発明の実施の形態に係る声優検索システムXによる台詞取得処理の説明を行う。
本実施形態に係る声優検索処理では、ネットワーク上で台詞を取得して声優関連DB320の台詞データ400として格納する。この上で、声優関連DB320から声優の台詞に含まれる台詞特徴量を算出する。
[Line Acquisition Process by Voice Actor Search System X]
Next, the line acquisition process performed by the voice actor search system X according to the embodiment of the present invention will be described with reference to FIGS.
In the voice actor search process according to this embodiment, lines are acquired over a network and stored as line data 400 in the voice actor related DB 320. Then, line feature amounts included in the lines of the voice actors are calculated from the voice actor related DB 320.
本実施形態の台詞取得処理は、サーバー1の制御部10が記憶部11に記憶された制御プログラムを各部と協働し、ハードウェア資源を用いて実行する。
以下で、図7のフローチャートを参照して、台詞取得処理の詳細をステップ毎に説明する。
In the dialogue acquisition process of this embodiment, the control unit 10 of the server 1 executes a control program stored in the storage unit 11 in cooperation with each unit, using hardware resources.
The dialogue acquisition process will be described in detail below for each step with reference to the flowchart of FIG.
(ステップS111)
サーバー1の台詞取得部140は、台詞取得処理を行う。
この処理では、台詞取得部140は、声優の台詞を取得して声優関連DB320に台詞データ400として格納する。
(Step S111)
The line acquisition unit 140 of the server 1 performs a line acquisition process.
In this process, the line acquisition unit 140 acquires the lines of the voice actors and stores them as line data 400 in the voice actor related DB 320 .
たとえば、台詞取得部140は、ネットワーク5に接続された端末2等により、ユーザーに台詞を入力させて、これを取得することが可能である。
具体的には、ユーザーは、サーバー1の台詞を入力させる『みんなの台詞』のようなウェブサイトに、アプリ等によりアクセスする。
すると、サーバー1の台詞取得部140は、ユーザーに台詞を送信するよう指示する。
For example, the line acquisition unit 140 can acquire lines by having a user input them via the terminal 2 connected to the network 5 or the like.
Specifically, the user accesses a website such as "Minna no Taikou"(Everyone's Lines) via an app or the like, which allows the user to input lines for server 1.
Then, the line acquisition unit 140 of the server 1 instructs the user to transmit the lines.
図8の画面例510を参照して、ユーザーに台詞を入力させるフォームの例について説明する。台詞取得部140は、例えば、当該フォームにて、声優名、作品名、キャラクター(登場人物)名、台詞、台詞の特徴(説明、コメント)等を入力させる。さらに、作品の登場回等の付属情報についても入力させることが可能であってもよい。
このフォーム等により入力された情報は、ネットワーク送受信部15を介して台詞取得部140が取得して、声優関連DB320の台詞データ400に格納する。
An example of a form for allowing a user to input lines will be described with reference to the example screen 510 in Fig. 8. The line acquisition unit 140 allows the user to input, for example, the name of a voice actor, the title of a work, the name of a character (appearance), lines, and characteristics of the lines (explanations, comments), etc., in the form. Furthermore, it may be possible to allow the user to input additional information, such as the episode in which the line appears in the work.
The information entered using this form or the like is acquired by the dialogue acquisition unit 140 via the network transmission/reception unit 15 and stored in the dialogue data 400 of the voice actor related DB 320 .
または、台詞取得部140は、声優のウェブサイトに掲載された台詞を、クロウラー等によりネットワーク5を介して周期的に取得し、台詞データ400に格納することが可能であってもよい。これは、声優のウェブサイトには、自らが出演したコンテンツの台詞について提示していることがあるからである。 Alternatively, the dialogue acquisition unit 140 may periodically acquire dialogue posted on the voice actor's website via the network 5 using a crawler or the like, and store the dialogue in the dialogue data 400. This is because the voice actor's website may display dialogue from content in which the voice actor has appeared.
さらに、台詞取得部140は、ネット上の百科事典、コンテンツの説明等のウェブサイトからコンテンツの登場人物と演じている声優とを特定してもよい。この場合、台詞取得部140は、この登場人物の印象的な台詞を、当該コンテンツの評論、SNS等のウェブサイト等から取得して台詞データ400に格納してもよい。たとえば、具体例でいえば、クロウラーにて、作品名『ヒーローテール・オヴ・ギャラクシー』の悪役『ロイ』の声優を特定し、この作品の『名言、台詞まとめサイト』等から台詞を取得して、これを出典とともに台詞データ400に格納してもよい。 Furthermore, the line acquisition unit 140 may identify the characters in the content and the voice actors who play them from websites such as online encyclopedias and content descriptions. In this case, the line acquisition unit 140 may acquire memorable lines from the characters from websites such as reviews of the content and SNS, and store them in the line data 400. For example, as a specific example, a crawler may be used to identify the voice actor for the villain "Roy" in the work "Herotale of the Galaxy," acquire the lines from a "site that compiles famous quotes and lines" for the work, and store these lines together with their sources in the line data 400.
これらの際に、声優のウェブサイト、SNS、評論のウェブサイト等から各声優についての音声の特徴についてのキーワードを取得して、音声特徴量データ410に格納することも可能であってもよい。具体的には、上述の例でいえば、声優の性別、年齢、『癒やし系』等であるとの特徴を音声特徴量データ410に格納することが可能である。 In these cases, it may be possible to obtain keywords about the voice characteristics of each voice actor from the voice actor's website, social media, review websites, etc., and store these in the voice feature data 410. Specifically, in the above example, the voice actor's gender, age, and characteristics such as being "soothing" could be stored in the voice feature data 410.
または、台詞取得部140は、コンテンツの台本のデータを読み込み、各声優の台詞を取得して台詞データ400に格納することも可能である。
さらに、台詞取得部140は、コンテンツそのものから音声のデータを取得し、この音声のデータの音声認識を行い、台詞を認識して、台詞データ400に格納することも可能である。このコンテンツの読み込みも、クロウラーにより検索して半自動的に実行するようにしてもよい。さらに、台詞取得部140は、読み込ませた音声のデータから音声特徴量のデータを算出して、音声特徴量データ410に格納してもよい。
Alternatively, the line acquisition unit 140 can read the script data of the content, acquire the lines of each voice actor, and store them in the line data 400 .
Furthermore, the dialogue acquisition unit 140 can acquire voice data from the content itself, perform voice recognition on this voice data, recognize the lines, and store them in the dialogue data 400. This content loading may also be performed semi-automatically by searching using a crawler. Furthermore, the dialogue acquisition unit 140 may calculate voice feature data from the loaded voice data and store the data in the voice feature data 410.
(ステップS112)
台詞取得部140は、台詞特徴量算出処理を行う。
台詞取得部140は、格納された台詞データ400に基づいて、台詞特徴量を算出する。これは、声優が有名になると、役柄についての『お約束』『要請された台詞』が存在することがあるためである。すなわち、台詞取得部140は、コンテンツが異なっても、声優の特徴を示すような台詞上の特徴である台詞特徴量を抽出可能である。具体的には、台詞取得部140は、自然言語解析のAI等により、声優の台詞の言い回し、語尾、口調等の声優の台詞の「クセ」を、台詞特徴量として算出する。これは、上述の台本上の台詞でも、声優毎のアドリブによる台詞であってもよい。具体的には、例えば、声優が『気取った悪役』を演じることが多く、『~であーるな』等と話すことが多いといった台詞特徴量を算出可能であってもよい。
このように、台詞特徴量データ420を用いて、上述のように検索空間を限定したり、その台詞特徴量による検索をしたりすることも可能である。
以上により、本発明の実施の形態に係る台詞取得処理を終了する。
(Step S112)
The dialogue acquisition unit 140 performs a dialogue feature calculation process.
The line acquisition unit 140 calculates line features based on the stored line data 400. This is because, as a voice actor becomes famous, there may be "conventions" and "requested lines" for the character. In other words, the line acquisition unit 140 can extract line features, which are line features that indicate the characteristics of the voice actor, even across different content. Specifically, the line acquisition unit 140 calculates the "habits" of the voice actor's lines, such as the phrasing, endings, and tone of voice, as line features using AI for natural language analysis. This may be lines from the script or lines ad-libbed by the voice actor. Specifically, for example, it may be possible to calculate a line feature such as a voice actor often playing "pretentious villains" and often saying things like "That's..."
In this way, it is possible to use the dialogue feature data 420 to limit the search space as described above, or to perform a search using the dialogue feature.
This completes the dialogue acquisition process according to the embodiment of the present invention.
以上のように構成することで、以下のような効果を得ることができる。
従来から、アニメや洋画等のコンテンツを閲覧した際に、その出演者に興味を持つことがあった。しかしながら、実写の俳優ではなく、声優が演じていたり、吹き替えを行っていたりすると、その声優自体に興味を持っても、エンドクレジット等で名前を確認し、自ら関連コンテンツを探さなければならないという煩わしさがあった。
しかしながら、特許文献1に記載されたような従来の楽曲の検索システムでは、声優を検索することはできなかった。
The above configuration can provide the following effects.
In the past, when viewing anime, foreign films, and other content, people have often become interested in the actors in the film. However, when a voice actor, rather than a live-action actor, plays or dubs a character, even if you are interested in the voice actor, you have to check their name in the end credits and then search for related content yourself, which can be a hassle.
However, conventional music search systems such as that described in Patent Document 1 are unable to search for voice actors.
これに対して、本発明の実施の形態に係る声優検索システムXは、ユーザーの端末2と、当該端末2に接続されるサーバー1とを備える声優検索システムであって、端末2は、声優の音声が含まれる音声データ300を取得する音声取得部200と、音声取得部200により取得された音声データ300をサーバー1へ送信する音声送信部210とを備え、サーバー1は、端末2から音声データ300を受信する音声受信部100と、音声受信部100により受信された音声データ300をテキストデータ310に変換する音声変換部110と、音声変換部110により変換されたテキストデータ310に基づいて、声優の台詞を検索して声優を特定する声優検索部120と、声優検索部120により特定された声優に関するコンテンツを端末2へ提示するコンテンツ提示部130とを備えることを特徴とする。
このように構成することで、コンテンツに出演する声優を検索可能な声優検索システムを提供することができる。また、声優という観点からコンテンツを更に活用することが可能となる。さらに、声優のファンを増やす効果も期待できる。加えて、ユーザーが興味を持った声優に関連するコンテンツを閲覧することが可能となり、コンテンツ自体もより活用することが可能となる。結果として、コンテンツの市場自体を盛り上げることが可能となる。
In contrast, the voice actor search system X according to an embodiment of the present invention is a voice actor search system comprising a user's terminal 2 and a server 1 connected to the terminal 2, wherein the terminal 2 comprises an audio acquisition unit 200 that acquires audio data 300 containing the voice of the voice actor, and an audio transmission unit 210 that transmits the audio data 300 acquired by the audio acquisition unit 200 to the server 1, and the server 1 comprises an audio receiving unit 100 that receives the audio data 300 from the terminal 2, an audio conversion unit 110 that converts the audio data 300 received by the audio receiving unit 100 into text data 310, a voice actor search unit 120 that searches for the voice actor's lines and identifies the voice actor based on the text data 310 converted by the audio conversion unit 110, and a content presentation unit 130 that presents content related to the voice actor identified by the voice actor search unit 120 to the terminal 2.
By configuring it in this way, it is possible to provide a voice actor search system that allows users to search for voice actors who appear in content. It also makes it possible to further utilize content from the perspective of voice actors. It is also expected to have the effect of increasing the number of voice actor fans. In addition, users will be able to view content related to voice actors that interest them, making it possible to make better use of the content itself. As a result, it is possible to liven up the content market itself.
本発明の実施の形態に係る声優検索システムXでは、サーバー1は、ネットワーク上から声優の台詞を取得して声優関連DB320に台詞データ400として格納する台詞取得部140を更に備え、声優検索部120は、声優関連DB320に格納された台詞データ400に基づいて、声優を特定することを特徴とする。
このように構成することで、ユーザーやクロウラー等で台詞を取得して、これをデータベース化することができる。これにより、声優検索システムXの管理者等がデータベースを全て用意しなくても、声優を検索することができる。よって、コストを削減できる。また、ユーザーが台詞を入力することで、声優検索のサイトを盛り上げることができ、広告収入等も期待できる。さらに、ユーザーにより、印象的な台詞を収集することができ、データベースを拡充することができる。加えて、声優やコンテンツ自体の人気等も把握可能となる。
In the voice actor search system X according to an embodiment of the present invention, the server 1 further includes a line acquisition unit 140 that acquires lines of voice actors from the network and stores them as line data 400 in the voice actor related DB 320, and the voice actor search unit 120 identifies the voice actor based on the line data 400 stored in the voice actor related DB 320.
By configuring it in this way, lines can be acquired by users, crawlers, etc. and stored in a database. This allows voice actors to be searched for without the administrator of the voice actor search system X having to prepare the entire database. This reduces costs. Also, by users inputting lines, the voice actor search site can be made more popular, and advertising revenue can be expected. Furthermore, users can collect memorable lines, which can expand the database. In addition, it is possible to understand the popularity of voice actors and the content itself.
本発明の実施の形態に係る声優検索システムXでは、音声変換部110は、音声データ300の音声特徴量を取得し、当該音声特徴量もテキストデータ310に含めることを特徴とする。
このように構成することで、音声認識による情報に加えて、音声特徴量により声優検索を行うことができる。これにより、声優を特定する精度を高めることができる。または、声優関連DB320にまだ登録されていない声優についても特定可能となる。さらに、特徴量に合った声優を検索結果として提供することで、たとえ特定された声優が実際とは異なっていても、ユーザーの意図に沿った声優を提示できる。これにより、ユーザーの声優に対する関心を高めることができる。
In the voice actor search system X according to the embodiment of the present invention, the voice conversion unit 110 acquires voice features of the voice data 300 and includes the voice features in the text data 310 .
By configuring the system in this way, it is possible to search for voice actors using voice features in addition to information obtained through voice recognition. This increases the accuracy of identifying voice actors. It also makes it possible to identify voice actors who have not yet been registered in the voice actor-related DB 320. Furthermore, by providing a voice actor that matches the features as a search result, it is possible to present a voice actor that matches the user's intention, even if the identified voice actor is different from the actual voice actor. This increases the user's interest in voice actors.
本発明の実施の形態に係る声優検索システムXでは、台詞取得部140は、声優関連DB320から声優の台詞に含まれる台詞特徴量も算出し、声優検索部120は、台詞取得部140により算出された台詞特徴量に基づいて、声優を特定することを特徴とする。
このように構成することで、台詞自体の特徴から声優を検索して特定することが可能となる。これにより、検査空間を限定して検索を効率化し、より適切な声優を検索できる。または、声優の台詞のクセ、役柄についての『お約束』『要請された台詞』等からも声優を検索することができる。
In the voice actor search system X according to an embodiment of the present invention, the line acquisition unit 140 also calculates line features contained in the lines of the voice actor from the voice actor related DB 320, and the voice actor search unit 120 identifies the voice actor based on the line features calculated by the line acquisition unit 140.
This configuration makes it possible to search and identify voice actors based on the characteristics of the lines themselves. This narrows the search space, making the search more efficient and allowing for a more appropriate voice actor to be found. It is also possible to search for voice actors based on their line habits, the "conventions" and "requested lines" of the role, etc.
〔他の実施の形態〕
なお、上述の実施形態においては、サーバー1にて音声認識してテキスト化して検索を行う例について記載した。
しかしながら、端末2のアプリ等において台詞をテキストデータ310に変換したり、別のいわゆるクラウド上のサービスにてテキストデータ310に変換したりしてもよい。さらに、サーバー1にて声優関連DB320を提供し、検索は端末2のアプリ等により行うように構成してもよい。または、端末2のアプリ等のデータとして声優関連DB320を提供し、端末2だけで声優を検索できるように構成してもよい。さらに、アプリ等としては、通常のインストール可能なアプリ、ウェブアプリ、又はサーバー1のウェブサイトへウェブブラウザーからアクセスする一時的なアプリのような構成であってもよい。
このように構成することで、様々な構成に柔軟に対応することができる。
Other Embodiments
In the above embodiment, an example has been described in which the server 1 recognizes voice and converts it into text to perform a search.
However, the lines may be converted into text data 310 in an app or the like on terminal 2, or may be converted into text data 310 by another so-called cloud-based service. Furthermore, the voice actor-related DB 320 may be provided on server 1, and searches may be performed by an app or the like on terminal 2. Alternatively, the voice actor-related DB 320 may be provided as data in an app or the like on terminal 2, so that voice actors can be searched for solely on terminal 2. Furthermore, the app or the like may be configured as a normal installable app, a web app, or a temporary app that accesses the website of server 1 from a web browser.
This configuration allows for flexible adaptation to various configurations.
また、上述の実施形態においては、音声データ300をサーバー1へ送信する構成について記載した。
しかしながら、台詞のテキストデータ310を、直接、ユーザーから入力し、これをサーバー1へ送信して、声優の検索が可能であってもよい。
このように構成することで、ネットワーク5上で流行した台詞やスラング等から、直接、声優を検索することも可能となる。
In the above embodiment, the configuration in which the voice data 300 is transmitted to the server 1 has been described.
However, it may also be possible for the user to directly input the text data 310 of the lines and send it to the server 1 to search for the voice actor.
By configuring it in this way, it becomes possible to directly search for a voice actor based on popular lines, slang, etc. on the network 5.
また、上述の実施形態においては、音声変換部110により音声変換された際の音声データ300の音声特徴量についても、テキストデータ310にテキストとして付加する例について記載した。
しかしながら、この音声特徴量については、数値データのまま検索に用いることが可能であってもよい。この場合、音声特徴量データ410にも、数値データが格納されていてもよい。
このように構成することで、音声特徴量を用いた検索を効率化可能となる。さらに、テキストに変換できないような特徴についても声優を特定するために用いることができる。
In the above embodiment, an example has been described in which the speech feature of the speech data 300 converted by the speech conversion unit 110 is also added to the text data 310 as text.
However, the speech feature may be used for searching as numerical data as it is. In this case, the speech feature data 410 may also store numerical data.
This configuration makes it possible to efficiently search using voice features. Furthermore, features that cannot be converted into text can also be used to identify voice actors.
また、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。 It goes without saying that the configurations and operations of the above-described embodiments are merely examples and can be modified as appropriate without departing from the spirit of the present invention.
1 サーバー
2 端末
5 ネットワーク
10 制御部
11 記憶部
15 ネットワーク送受信部
100 音声受信部
110 音声変換部
120 声優検索部
130 コンテンツ提示部
140 台詞取得部
200 音声取得部
210 音声送信部
300 音声データ
310 テキストデータ
320 声優関連DB
400 台詞データ
410 音声特徴量データ
420 台詞特徴量データ
430 関連コンテンツデータ
500、510 画面例
X 声優検索システム
REFERENCE SIGNS LIST 1 Server 2 Terminal 5 Network 10 Control unit 11 Storage unit 15 Network transmission/reception unit 100 Audio reception unit 110 Audio conversion unit 120 Voice actor search unit 130 Content presentation unit 140 Dialogue acquisition unit 200 Audio acquisition unit 210 Audio transmission unit 300 Audio data 310 Text data 320 Voice actor related DB
400 Dialogue data 410 Voice feature data 420 Dialogue feature data 430 Related content data 500, 510 Screen example X Voice actor search system
Claims (6)
前記端末は、
声優の音声が含まれる音声データを取得する音声取得部と、
前記音声取得部により取得された前記音声データを前記サーバーへ送信する音声送信部とを備え、
前記サーバーは、
前記端末から前記音声データを受信する音声受信部と、
前記音声受信部により受信された前記音声データをテキストデータに変換する音声変換部と、
前記音声変換部により変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定する声優検索部と、
前記声優検索部により特定された前記声優に関するコンテンツを前記端末へ提示するコンテンツ提示部と、
ネットワーク上から前記声優の台詞を取得してデータベースとして格納する台詞取得部とを備え、
前記声優検索部は、前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定し、
前記声優の台詞そのままではなく、変換の誤差や前記データベース内のデータの差異も考慮して、DP(Dynamic Programming)により前記声優の台詞をアラインメントして類似度スコアを算出し、自然言語解析の形態素解析による類似度スコアを算出し、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出し、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力し、
前記台詞取得部は、前記データベースから前記声優の台詞に含まれる台詞特徴量を算出し、
前記台詞特徴量は、声優の役柄についてのお約束、要請された台詞を含む、コンテンツが異なっても、声優の特徴を示す台詞上の特徴を示し、
前記声優検索部は、前記テキストデータに含まれる台詞について、前記台詞特徴量に基づいた検索空間を限定し、又は前記台詞特徴量に基づいた検索を行い、前記声優を特定する
ことを特徴とする声優検索システム。 A voice actor search system comprising a user terminal and a server connected to the terminal,
The terminal
a voice acquisition unit that acquires voice data containing the voice of a voice actor;
a voice transmission unit that transmits the voice data acquired by the voice acquisition unit to the server,
The server
a voice receiving unit that receives the voice data from the terminal;
a voice conversion unit that converts the voice data received by the voice receiving unit into text data;
a voice actor search unit that searches for lines of the voice actor based on the text data converted by the voice conversion unit and identifies the voice actor;
a content presentation unit that presents content related to the voice actor identified by the voice actor search unit to the terminal ;
a line acquisition unit that acquires the lines of the voice actors from a network and stores them as a database ;
the voice actor search unit identifies the voice actor based on the lines of the voice actor stored in the database;
Instead of using the lines of the voice actor as is, the lines of the voice actor are aligned using DP (Dynamic Programming) to calculate a similarity score, taking into account conversion errors and differences in the data in the database, a similarity score is calculated using morphological analysis of natural language analysis, a similarity score is calculated using a feature model of the arrangement of words in the lines themselves, and several lines with the highest calculated similarity scores are output as search results ,
the line acquisition unit calculates line features included in the lines of the voice actor from the database;
The line feature amount indicates line features that indicate the characteristics of the voice actor even if the content is different, including conventions about the role of the voice actor and requested lines,
The voice actor search unit limits a search space based on the line feature amount for lines included in the text data, or performs a search based on the line feature amount, and identifies the voice actor.
A voice actor search system characterized by:
自然言語解析のAIにより、前記声優の台詞の言い回し、語尾、口調を含む声優の台詞のクセを、台詞特徴量として算出する
ことを特徴とする請求項1に記載の声優検索システム。 The line acquisition unit
The voice actor search system according to claim 1 , characterized in that AI for natural language analysis is used to calculate the voice actor's line habits, including the voice actor's line phrasing, endings, and tone of voice, as line features.
前記音声特徴量は、声紋認識に用いられる特徴に加え、発声上の特徴、声質、台詞の抑揚、方言や訛りによる発音の特徴も含み、前記声質としては、前記声優の性別、推定年齢、元気系音声か、癒やし系音声かについての特徴を含み
声優検索部は、テキストデータに含まれた前記音声特徴量に基づいて、前記声優の台詞を検索する
ことを特徴とする請求項1又は2に記載の声優検索システム。 the speech conversion unit acquires speech features of the speech data and includes the speech features in the text data;
The voice features include features used for voiceprint recognition as well as vocalization features, voice quality, intonation of lines, and pronunciation features due to dialects and accents, and the voice quality includes features such as the gender of the voice actor, estimated age, and whether the voice is energetic or soothing.The voice actor search system described in claim 1 or 2 , characterized in that the voice actor search unit searches for lines of the voice actor based on the voice features included in the text data.
ユーザーの端末から声優の音声が含まれる音声データを受信する音声受信部と、
前記音声受信部により受信された前記音声データをテキストデータに変換する音声変換部と、
前記音声変換部により変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定する声優検索部と、
前記声優検索部により特定された前記声優に関するコンテンツを前記端末へ提示するコンテンツ提示部と、
ネットワーク上から前記声優の台詞を取得してデータベースとして格納する台詞取得部とを備え、
前記声優検索部は、前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定し、
前記声優の台詞そのままではなく、変換の誤差や前記データベース内のデータの差異も考慮して、DP(Dynamic Programming)により前記声優の台詞をアラインメントして類似度スコアを算出し、自然言語解析の形態素解析による類似度スコアを算出し、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出し、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力し、
前記台詞取得部は、前記データベースから前記声優の台詞に含まれる台詞特徴量を算出し、
前記台詞特徴量は、声優の役柄についてのお約束、要請された台詞を含む、コンテンツが異なっても、声優の特徴を示す台詞上の特徴を示し、
前記声優検索部は、前記テキストデータに含まれる台詞について、前記台詞特徴量に基づいた検索空間を限定し、又は前記台詞特徴量に基づいた検索を行い、前記声優を特定する
ことを特徴とするサーバー。 A server for a voice actor search system,
an audio receiving unit that receives audio data containing the voice of a voice actor from a user's terminal;
a voice conversion unit that converts the voice data received by the voice receiving unit into text data;
a voice actor search unit that searches for lines of the voice actor based on the text data converted by the voice conversion unit and identifies the voice actor;
a content presentation unit that presents content related to the voice actor identified by the voice actor search unit to the terminal ;
a line acquisition unit that acquires the lines of the voice actors from a network and stores them as a database ;
the voice actor search unit identifies the voice actor based on the lines of the voice actor stored in the database;
Instead of using the lines of the voice actor as is, the lines of the voice actor are aligned using DP (Dynamic Programming) to calculate a similarity score, taking into account conversion errors and differences in the data in the database, a similarity score is calculated using morphological analysis of natural language analysis, a similarity score is calculated using a feature model of the arrangement of words in the lines themselves, and several lines with the highest calculated similarity scores are output as search results ,
the line acquisition unit calculates line features included in the lines of the voice actor from the database;
The line feature amount indicates line features that indicate the characteristics of the voice actor even if the content is different, including conventions about the role of the voice actor and requested lines,
The voice actor search unit limits a search space based on the line feature amount for lines included in the text data, or performs a search based on the line feature amount, and identifies the voice actor.
A server characterized by:
前記サーバーに、
ユーザーの端末から声優の音声が含まれる音声データを受信させ、
受信された前記音声データをテキストデータに変換させ、
変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定させ、
ネットワーク上から前記声優の台詞を取得してデータベースとして格納させ、
前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定させ、
前記声優の台詞そのままではなく、変換の誤差や前記データベース内のデータの差異も考慮して、DP(Dynamic Programming)により前記声優の台詞をアラインメントして類似度スコアを算出し、自然言語解析の形態素解析による類似度スコアを算出し、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出し、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力させ、
前記データベースから前記声優の台詞に含まれる台詞特徴量を算出させ、
前記台詞特徴量は、声優の役柄についてのお約束、要請された台詞を含む、コンテンツが異なっても、声優の特徴を示す台詞上の特徴を示し、
前記テキストデータに含まれる台詞について、前記台詞特徴量に基づいた検索空間を限定し、又は前記台詞特徴量に基づいた検索を行い、前記声優を特定させ、
特定された前記声優に関するコンテンツを前記端末へ提示させる
ことを特徴とする声優検索プログラム。 A voice actor search program executed by a server of a voice actor search system,
The server,
The user's device receives audio data containing the voice of the voice actor,
converting the received voice data into text data;
searching for lines of the voice actor based on the converted text data to identify the voice actor;
The lines of the voice actor are acquired from the network and stored in a database.
Identifying the voice actor based on the lines of the voice actor stored in the database ;
Instead of using the lines of the voice actor as they are, the lines of the voice actor are aligned using DP (Dynamic Programming) to calculate a similarity score, taking into consideration conversion errors and differences in the data in the database, a similarity score is calculated using morphological analysis of natural language analysis, a similarity score is calculated using a feature model of the arrangement of words in the lines themselves, and several lines with the highest calculated similarity scores are output as search results,
Calculating line features included in the lines of the voice actor from the database;
The line feature amount indicates line features that indicate the characteristics of the voice actor even if the content is different, including conventions about the role of the voice actor and requested lines,
For lines included in the text data, a search space is limited based on the line feature amount, or a search is performed based on the line feature amount, and the voice actor is identified;
A voice actor search program that causes the terminal to present content related to the identified voice actor.
前記サーバーは、
ユーザーの端末から声優の音声が含まれる音声データを受信し、
受信した前記音声データをテキストデータに変換し、
変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定し、
ネットワーク上から前記声優の台詞を取得してデータベースとして格納し、
前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定し、
前記声優の台詞そのままではなく、変換の誤差や前記データベース内のデータの差異も考慮して、DP(Dynamic Programming)により前記声優の台詞をアラインメントして類似度スコアを算出し、自然言語解析の形態素解析による類似度スコアを算出し、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出し、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力し、
前記データベースから前記声優の台詞に含まれる台詞特徴量を算出し、
前記台詞特徴量は、声優の役柄についてのお約束、要請された台詞を含む、コンテンツが異なっても、声優の特徴を示す台詞上の特徴を示し、
前記テキストデータに含まれる台詞について、前記台詞特徴量に基づいた検索空間を限定し、又は前記台詞特徴量に基づいた検索を行い、前記声優を特定し、
特定された前記声優に関するコンテンツを前記端末へ提示する
ことを特徴とする声優検索方法。 A voice actor search method executed by a server of a voice actor search system,
The server
Receives audio data containing the voice of the voice actor from the user's device,
converting the received voice data into text data;
searching for lines of the voice actor based on the converted text data to identify the voice actor;
The lines of the voice actors are acquired from the network and stored as a database.
Identifying the voice actor based on the lines of the voice actor stored in the database ;
Instead of using the lines of the voice actor as is, the lines of the voice actor are aligned using DP (Dynamic Programming) to calculate a similarity score, taking into account conversion errors and differences in the data in the database, a similarity score is calculated using morphological analysis of natural language analysis, a similarity score is calculated using a feature model of the arrangement of words in the lines themselves, and several lines with the highest calculated similarity scores are output as search results,
Calculating line features included in the lines of the voice actor from the database;
The line feature amount indicates line features that indicate the characteristics of the voice actor even if the content is different, including conventions about the role of the voice actor and requested lines,
For lines included in the text data, limiting a search space based on the line feature amount or performing a search based on the line feature amount to identify the voice actor;
and presenting content relating to the identified voice actor to the terminal.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021025476A JP7720152B2 (en) | 2021-02-19 | 2021-02-19 | Voice actor search system, server, voice actor search program, and voice actor search method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021025476A JP7720152B2 (en) | 2021-02-19 | 2021-02-19 | Voice actor search system, server, voice actor search program, and voice actor search method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022127369A JP2022127369A (en) | 2022-08-31 |
| JP7720152B2 true JP7720152B2 (en) | 2025-08-07 |
Family
ID=83060357
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021025476A Active JP7720152B2 (en) | 2021-02-19 | 2021-02-19 | Voice actor search system, server, voice actor search program, and voice actor search method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7720152B2 (en) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002073665A (en) | 2000-08-24 | 2002-03-12 | Sony Corp | Product information provision system |
| JP2011141848A (en) | 2010-01-09 | 2011-07-21 | Animate:Kk | Virtual shopping mall system, associating device, and program |
| JP2012205186A (en) | 2011-03-28 | 2012-10-22 | Dentsu Inc | Detail information management system |
| JP2014003610A (en) | 2012-06-14 | 2014-01-09 | Samsung Electronics Co Ltd | Display device, interactive server and response information provision method |
| JP2016017980A (en) | 2014-07-04 | 2016-02-01 | 日本電信電話株式会社 | Voice imitation voice evaluation device, voice imitation voice evaluation method and program |
| JP2016099694A (en) | 2014-11-19 | 2016-05-30 | Kddi株式会社 | Device, program and method for retrieving record that user vaguely remembers |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6176055B2 (en) * | 2013-10-21 | 2017-08-09 | 富士通株式会社 | Voice search apparatus and voice search method |
| JP6765992B2 (en) * | 2017-03-02 | 2020-10-07 | 日本電信電話株式会社 | Hyperspheric spatial language model generator, query likelihood calculator, these methods and programs |
-
2021
- 2021-02-19 JP JP2021025476A patent/JP7720152B2/en active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002073665A (en) | 2000-08-24 | 2002-03-12 | Sony Corp | Product information provision system |
| JP2011141848A (en) | 2010-01-09 | 2011-07-21 | Animate:Kk | Virtual shopping mall system, associating device, and program |
| JP2012205186A (en) | 2011-03-28 | 2012-10-22 | Dentsu Inc | Detail information management system |
| JP2014003610A (en) | 2012-06-14 | 2014-01-09 | Samsung Electronics Co Ltd | Display device, interactive server and response information provision method |
| JP2016017980A (en) | 2014-07-04 | 2016-02-01 | 日本電信電話株式会社 | Voice imitation voice evaluation device, voice imitation voice evaluation method and program |
| JP2016099694A (en) | 2014-11-19 | 2016-05-30 | Kddi株式会社 | Device, program and method for retrieving record that user vaguely remembers |
Non-Patent Citations (1)
| Title |
|---|
| "「このアニメキャラの声優は?」をAIが解決 音声認識でせりふを分析 21年に新サービス",[online],2020年12月23日,[取得日 2024年10月18日], 取得先<https://www.itmedia.co.jp/news/articles/2012/23/news122.html> |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022127369A (en) | 2022-08-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11853370B2 (en) | Scene aware searching | |
| AU2024203113B2 (en) | Audio Processing For Detecting Occurrences Of Crowd Noise In Sporting Event Television Programming | |
| US7620551B2 (en) | Method and apparatus for providing search capability and targeted advertising for audio, image, and video content over the internet | |
| JP7525575B2 (en) | Generate interactive audio tracks from visual content | |
| US8862615B1 (en) | Systems and methods for providing information discovery and retrieval | |
| US8788495B2 (en) | Adding and processing tags with emotion data | |
| JP5781601B2 (en) | Enhanced online video through content detection, search, and information aggregation | |
| JP6971292B2 (en) | Methods, devices, servers, computer-readable storage media and computer programs for aligning paragraphs and images | |
| US11157542B2 (en) | Systems, methods and computer program products for associating media content having different modalities | |
| US20240223640A1 (en) | Multimodal content recognition and contextual advertising and content delivery | |
| US20140255003A1 (en) | Surfacing information about items mentioned or presented in a film in association with viewing the film | |
| US20120324324A1 (en) | Synchronizing recorded audio content and companion content | |
| US10909174B1 (en) | State detection of live feed | |
| WO2017161776A1 (en) | Bullet comment pushing method and device | |
| WO2015097702A1 (en) | System and methods for vocal commenting on selected web pages | |
| CN106888154B (en) | Music sharing method and system | |
| KR102471071B1 (en) | Modification of audio-based computer program output | |
| US11775070B2 (en) | Vibration control method and system for computer device | |
| CN113240447A (en) | Advertisement pushing method and device, storage medium and server | |
| JP7720152B2 (en) | Voice actor search system, server, voice actor search program, and voice actor search method | |
| JP5950737B2 (en) | Information extraction apparatus and program | |
| Mc Gonigle et al. | Integrating a speech interface with YouTube to allow more natural interactions |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240219 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20241016 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241029 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241212 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20250318 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250611 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250708 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250728 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7720152 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |