JP7606866B2 - Genre-specific text collection device and its program - Google Patents
Genre-specific text collection device and its program Download PDFInfo
- Publication number
- JP7606866B2 JP7606866B2 JP2020204235A JP2020204235A JP7606866B2 JP 7606866 B2 JP7606866 B2 JP 7606866B2 JP 2020204235 A JP2020204235 A JP 2020204235A JP 2020204235 A JP2020204235 A JP 2020204235A JP 7606866 B2 JP7606866 B2 JP 7606866B2
- Authority
- JP
- Japan
- Prior art keywords
- genre
- information
- text
- program
- broadcast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ジャンル別にテキストデータを収集するジャンル別テキスト収集装置およびそのプログラムに関する。 The present invention relates to a genre-specific text collection device and a program for collecting text data by genre.
音声認識における言語モデルの構築や自然言語処理の解析には、大量の自然言語文(以下、テキストコーパス)が必要となる。このテキストコーパスを得る手法として、Webページに掲載されているテキストデータを収集する手法がある。この手法は、インターネット上にテキストデータを含めた大量の情報が開示され、かつ、そのほとんどが自由に参照できる状態にあるため、テキストコーパスを得る目的でしばしば活用される。 Building language models for speech recognition and analyzing natural language processing requires a large amount of natural language text (hereafter referred to as a text corpus). One method for obtaining this text corpus is to collect text data posted on web pages. This method is often used to obtain a text corpus, as a large amount of information, including text data, is available on the Internet, and most of it can be accessed freely.
例えば、特許文献1には、事前に収集した音声認識対象のテキストコーパスから、単語セットを選定し、その単語セットを検索エンジンの検索クエリとすることで、インターネットから音声認識対象に関連するテキストデータを収集する手法が開示されている。
For example,
また、他の手法として、特許文献2には、複数の自然言語文を含むテキストコーパスから、事前に準備した単語列テンプレートに合致した単語列を抽出し、変換規則を用いて、目的に沿った形式の単語列に変換することで、特定用途向けのテキストデータを収集する手法が開示されている。 As another method, Patent Document 2 discloses a method for collecting text data for a specific purpose by extracting word strings that match a pre-prepared word string template from a text corpus containing multiple natural language sentences and converting the extracted word strings into a word string in a format suited to the purpose using conversion rules.
また、特許文献3には、放送番組の字幕を、言語モデルの学習データとして収集する手法が開示されている。 Patent document 3 also discloses a method for collecting subtitles of broadcast programs as learning data for a language model.
特許文献1に開示されている手法は、単語セットを選定するための文字列の文書形式を人手で作成する必要がある。そのため、この手法は、ジャンル別にテキストデータを収集するために、ジャンルごとに個別に文書形式を作成する手間が生じる。また、この手法は、収集するテキストデータが文書形式や検索エンジンの精度に依存してしまうという問題がある。
The method disclosed in
特許文献2に開示されている手法も、単語例テンプレートや変形規則を人手で作成する必要があり手間がかかるとともに、収集したテキストデータが単語例テンプレートや変形規則の特性に依存してしまうという問題がある。 The technique disclosed in Patent Document 2 also requires the manual creation of word example templates and transformation rules, which is time-consuming, and has the problem that the collected text data depends on the characteristics of the word example templates and transformation rules.
また、特許文献3に開示されている手法は、放送番組の字幕から大量にテキストデータを収集することができる。しかし、放送番組は、ニュース、情報、ドラマ、アニメ等、様々なジャンルがある。そのため、この手法は、人手を介して、放送番組をジャンル別に選定する必要があり、大量にジャンル別のテキストデータを収集することは困難であった。 The method disclosed in Patent Document 3 can collect a large amount of text data from the subtitles of broadcast programs. However, broadcast programs come in a variety of genres, including news, information, drama, and animation. Therefore, this method requires manual selection of broadcast programs by genre, making it difficult to collect a large amount of text data by genre.
本発明は、このような問題に鑑みてなされたものであり、ジャンルを特定するための文書形式、テンプレート等への依存をなくし、ジャンル別のテキストデータを精度よく大量に収集することが可能なジャンル別テキスト収集装置およびそのプログラムを提供することを課題とする。 The present invention was made in consideration of these problems, and aims to provide a genre-specific text collection device and a program therefor that can accurately collect large amounts of genre-specific text data without relying on document formats, templates, etc. to identify genres.
前記課題を解決するため、本発明に係るジャンル別テキスト収集装置は、デジタル放送に多重化されている字幕テキストからジャンル別のテキストを収集するジャンル別テキスト収集装置であって、放送受信手段と、字幕情報抽出手段と、EPG情報抽出手段と、番組情報特定手段と、テキスト抽出手段と、を備える構成とした。 To solve the above problem, the genre-specific text collection device of the present invention is a genre-specific text collection device that collects genre-specific text from subtitle text multiplexed into digital broadcasting, and is configured to include a broadcast receiving means, a subtitle information extraction means, an EPG information extraction means, a program information identification means, and a text extraction means.
かかる構成において、ジャンル別テキスト収集装置は、放送受信手段によって、デジタル放送を受信し、TS(トランスポートストリーム)信号に復調する。
そして、ジャンル別テキスト収集装置は、字幕情報抽出手段によって、放送受信手段で復調されたTS信号から、字幕テキストと字幕テキストを提示する時間情報とを含む字幕情報を抽出する。なお、字幕情報は、TS信号に多重化され、そのデータ形式は、ARIB(一般社団法人電波産業会)において規格化されている。そのため、字幕情報抽出手段は、TS信号のデータ形式を解析することで、多重化されている字幕情報を抽出することができる。
In such a configuration, the genre-specific text collection device receives digital broadcasts by the broadcast receiving means, and demodulates them into TS (Transport Stream) signals.
The genre-specific text collection device then uses the subtitle information extraction means to extract subtitle information including subtitle text and time information for presenting the subtitle text from the TS signal demodulated by the broadcast receiving means. Note that the subtitle information is multiplexed into the TS signal, and its data format is standardized by ARIB (Association of Radio Industries and Businesses). Therefore, the subtitle information extraction means can extract the multiplexed subtitle information by analyzing the data format of the TS signal.
また、ジャンル別テキスト収集装置は、EPG情報抽出手段によって、TS信号から、放送番組のEPG情報を抽出する。EPG情報は、電子番組表を生成するための情報であって、放送番組の時間情報、ジャンル等が設定されている。このEPG情報も字幕情報と同様、TS信号に多重化され、そのデータ形式は、ARIBにおいて規格化されている。そのため、EPG情報抽出手段は、TS信号のデータ形式を解析することで、多重化されているEPG情報を抽出することができる。 The genre-specific text collection device also uses an EPG information extraction means to extract EPG information of broadcast programs from the TS signal. EPG information is information for generating an electronic program guide, and includes broadcast program time information, genre, etc. Like subtitle information, this EPG information is multiplexed into the TS signal, and its data format is standardized by ARIB. Therefore, the EPG information extraction means can extract the multiplexed EPG information by analyzing the data format of the TS signal.
そして、ジャンル別テキスト収集装置は、番組情報特定手段によって、EPG情報から、放送番組の時間情報およびジャンルを特定する。なお、ジャンルは、各放送局で設定される情報であるが、放送内容を特定する情報であるため、放送局間での差は生じにくい。そのため、EPG情報から抽出するジャンルは、抽出するテキストに対して、精度の高い情報となる。
なお、ジャンルは、上位の項目で分類した上位分類と上位分類を細分化した下位分類とで構成される。そこで、番組情報特定手段は、上位分類のみをジャンルとして特定する。また、EPG情報には、放送番組ごとにジャンルが1または複数設定されている。そこで、番組情報特定手段は、EPG情報にジャンルが複数設定されている場合、放送番組に設定されている最も多い上位分類をジャンルとして特定する。
The genre-specific text collection device then uses the program information identification means to identify the time information and genre of the broadcast program from the EPG information. Note that the genre is information set by each broadcasting station, but since it is information that identifies the broadcast content, there is little difference between broadcasting stations. Therefore, the genre extracted from the EPG information is highly accurate information for the extracted text.
A genre is composed of higher-level categories classified by higher-level items and lower-level categories subdivided into the higher-level categories. Therefore, the program information identifying means identifies only the higher-level categories as genres. Also, one or more genres are set for each broadcast program in the EPG information. Therefore, when multiple genres are set in the EPG information, the program information identifying means identifies the most frequently set higher-level category for the broadcast program as the genre.
そして、ジャンル別テキスト収集装置は、テキスト抽出手段によって、字幕情報から、放送番組の時間情報で特定される時間区間の字幕テキストを抽出し、放送番組のジャンルと対応付けてジャンル別テキストとする。 Then, the genre-specific text collection device uses a text extraction means to extract subtitle text for a time period specified by the time information of the broadcast program from the subtitle information, and associates it with the genre of the broadcast program to generate genre-specific text.
これによって、ジャンル別テキスト収集装置は、EPG情報に基づいて、ジャンル別に字幕のテキストを放送信号から抽出することができる。
なお、ジャンル別テキスト収集装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。
This allows the genre-specific text collection device to extract subtitle text from the broadcast signal by genre based on the EPG information.
The genre-specific text collection device can be operated by a program that causes a computer to function as each of the above-mentioned means.
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、EPG情報に設定されている放送番組のジャンルおよび時間情報に基づいて、ジャンル別に字幕のテキストを大量に収集することができる。
これによって、本発明は、音声認識、自然言語処理等で必要となるジャンルに分類された精度の高いテキストコーパスを、人手による手間を省いて取得することができる。
The present invention provides the following excellent effects.
According to the present invention, it is possible to collect a large amount of subtitle text by genre based on the genre and time information of broadcast programs set in EPG information.
As a result, the present invention can obtain a highly accurate text corpus classified into genres required for speech recognition, natural language processing, and the like, without requiring manual effort.
以下、本発明の実施形態について図面を参照して説明する。
<ジャンル別テキスト収集装置の構成>
図1を参照して、本発明の実施形態に係るジャンル別テキスト収集装置1の構成について説明する。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
<Configuration of genre-specific text collection device>
The configuration of a genre-specific
ジャンル別テキスト収集装置1は、デジタル放送に多重化されている字幕テキストからジャンル別のテキストを収集するものである。
図1に示すように、ジャンル別テキスト収集装置1は、放送受信手段10と、放送情報抽出手段11と、記憶手段12と、番組情報特定手段13と、テキスト抽出手段14と、を備える。
The genre-specific
As shown in FIG. 1, the genre-specific
放送受信手段10は、デジタル放送の放送波を受信し、復調するものである。なお、放送波は、地上デジタル放送、衛星放送、ケーブル放送等、無線、有線を問わない。
放送受信手段10は、デジタル放送の放送波を受信し、復号することで、MPEG-2トランスポートストリーム信号(以下、TS信号という)の放送信号に変換するテレビチューナである。
The broadcast receiving means 10 receives and demodulates digital broadcast waves. The broadcast waves may be terrestrial digital broadcast, satellite broadcast, cable broadcast, or the like, and may be wireless or wired.
The
図2に示すように、TS信号は、映像・音声情報200、字幕情報201、EPG情報202、データ放送情報203等が多重化されている。なお、TS信号は、ARIB(一般社団法人電波産業会)において規格化されている信号であるため、ここでは詳細な説明は省略する。
放送受信手段10は、放送波から、指定されたチャンネルの放送信号を復調する。復調するチャンネル数は、1つに限定されるものではなく、放送受信手段10は、複数のチューナとして構成してもよい。
2, the TS signal is multiplexed with video and
The broadcast receiving means 10 demodulates the broadcast signal of the specified channel from the broadcast wave. The number of channels to be demodulated is not limited to one, and the
なお、ジャンル別テキスト収集装置1は、後記する放送情報抽出手段11において、字幕情報およびEPG情報のみを利用する。そのため、放送受信手段10は、受信する放送形態がフルセグメント放送に限定されず、扱う情報量が少なく、CAS(Conditional Access System:限定受信システム)によるコピー制御等が不要で、安価に入手が可能なワンセグメント放送に対応するテレビチューナであっても構わない。
The genre-specific
放送受信手段10は、復調したTS信号を放送情報抽出手段11に出力する。なお、複数のチャンネルを受信する場合、放送受信手段10は、チャンネルごとにTS信号を放送情報抽出手段11に出力する。 The broadcast receiving means 10 outputs the demodulated TS signal to the broadcast information extraction means 11. When receiving multiple channels, the broadcast receiving means 10 outputs a TS signal for each channel to the broadcast information extraction means 11.
放送情報抽出手段11は、放送受信手段10で復調されたTS信号から、指定された時間区間の字幕情報およびEPG情報を抽出するものである。
指定される時間区間は、ユーザがテキストを収集したい時間区間であって、収集開始時刻(例えば、年月日時分秒で指定)と、収集終了時刻(例えば、年月日時分秒で指定)とで外部から指定される。または、この時間区間は、外部スイッチ等で、開始を指示されてから、終了を指示されるまでの区間であってもよい。または、この時間区間は、開始の指示と時間長を指定されることとしてもよい。
The broadcast information extraction means 11 extracts subtitle information and EPG information for a specified time interval from the TS signal demodulated by the broadcast reception means 10 .
The specified time interval is the time interval during which the user wants to collect text, and is specified externally by the collection start time (e.g., specified by year, month, day, hour, minute, and second) and the collection end time (e.g., specified by year, month, day, hour, minute, and second). Alternatively, this time interval may be the interval from when a start instruction is given by an external switch or the like to when an end instruction is given. Alternatively, this time interval may be specified by a start instruction and a time length.
この時間区間の長さは、1日、1週間、1か月、1年等、自由に設定することができる。なお、放送情報抽出手段11は、図示を省略した計時手段(タイマ)を備え、時間区間の計時を行う。
図1に示すように、放送情報抽出手段11は、字幕情報抽出手段110と、EPG情報抽出手段111と、を備える。
The length of this time period can be freely set to one day, one week, one month, one year, etc. The broadcast information extraction means 11 includes a timing means (timer) (not shown) for timing the time period.
As shown in FIG. 1, the broadcast information extraction means 11 includes a subtitle information extraction means 110 and an EPG information extraction means 111 .
字幕情報抽出手段110は、TS信号から、字幕テキストと字幕テキストを提示する時間情報とを含む字幕情報を抽出するものである。
字幕情報抽出手段110は、TS信号を解析し、指定された時間区間の字幕情報を抽出する。図3に、字幕情報抽出手段110が抽出する字幕情報の一例を示す。
The subtitle information extraction means 110 extracts subtitle information including subtitle text and time information for presenting the subtitle text from the TS signal.
The subtitle information extraction means 110 analyzes the TS signal and extracts subtitle information for a specified time period. An example of the subtitle information extracted by the subtitle information extraction means 110 is shown in FIG.
図3に示すように、字幕情報抽出手段110が抽出する字幕情報は、日付300、開始時刻301および字幕テキスト302である。
日付300は、対応する字幕テキスト302をテレビ画面上に提示する日付(年/月/日)である。
開始時刻301は、対応する字幕テキスト302をテレビ画面上に提示する時刻(時:分:秒)である。
字幕テキスト302は、対応する日付300および開始時刻301にテレビ画面上に提示する字幕の文字列である。
例えば、図3の例では、日付(2020/07/08)の開始時刻(06:00:12)には、「今や時代の先端をゆくメガロポリスに。」が、字幕として使用されることを表している。
As shown in FIG. 3, the subtitle information extracted by the subtitle
Start
The
For example, the example in FIG. 3 indicates that "Now in a cutting-edge megalopolis." will be used as a subtitle at the start time (06:00:12) on the date (2020/07/08).
字幕情報抽出手段110は、抽出した字幕情報を記憶手段12に書き込み記憶する。なお、複数のチャンネルに対応したTS信号の場合、字幕情報抽出手段110は、それぞれのTS信号から字幕情報を抽出し、記憶手段12に記憶する。複数のチャンネルで字幕情報を抽出する場合、字幕情報抽出手段110は、チャンネルごとに記憶領域を分けて記憶手段12に記憶することとしてもよいし、チャンネルを区別することなく記憶することとしてもよい。 The subtitle information extraction means 110 writes and stores the extracted subtitle information in the storage means 12. In the case of a TS signal corresponding to multiple channels, the subtitle information extraction means 110 extracts subtitle information from each TS signal and stores it in the storage means 12. When extracting subtitle information for multiple channels, the subtitle information extraction means 110 may store the information in separate memory areas for each channel in the storage means 12, or may store the information without distinguishing between channels.
EPG情報抽出手段111は、TS信号から、放送番組のEPG(Electronic Program Guide:電子番組表)情報を抽出するものである。
EPG情報抽出手段111は、TS信号を解析し、指定された時間区間のEPG情報を抽出する。図4に、EPG情報抽出手段111が抽出するEPG情報の一例を示す。
The EPG information extraction means 111 extracts EPG (Electronic Program Guide) information of a broadcast program from a TS signal.
The EPG information extraction means 111 analyzes the TS signal and extracts the EPG information for a specified time period. An example of the EPG information extracted by the EPG information extraction means 111 is shown in FIG.
図4に示すように、EPG情報抽出手段111が抽出するEPG情報は、日付400、開始時刻401、時間長402、ジャンル識別子403およびタイトル404である。
日付400は、対応するタイトル404の放送番組が放送される日付(年/月/日)である。
開始時刻401は、対応するタイトル404の放送番組が放送される時刻(時:分:秒)である。
時間長402は、対応するタイトル404の放送番組の番組時間長(時:分:秒)である。
As shown in FIG. 4, the EPG information extracted by the EPG
The
The
The
ジャンル識別子403は、対応するタイトル404の放送番組のジャンルを示す識別子である。ジャンルは、放送番組の内容を分野別に識別するもので、ニュース、スポーツ、ドラマ等である。ここでは、ジャンル識別子を上位の項目で分類した上位分類と、上位分類を細分化した下位分類とで構成されるものとする。例えば、上位分類が“スポーツ”の場合、下位分類は“野球”,“サッカー”等である。ここでは、ジャンル識別子403を16進数2桁で表し、上位桁を上位分類、下位桁を下位分類とする識別子とする。
なお、図4に示すように、1つの放送番組に対して複数のジャンル識別子が設定される場合がある。
The
As shown in FIG. 4, a plurality of genre identifiers may be set for one broadcast program.
タイトル404は、放送番組の番組名である。なお、タイトル404は、放送番組が字幕放送である場合、予め定めた文字(ここでは[字])が付加されている。また、タイトル404は、放送番組が再放送である場合、予め定めた文字(ここでは[再])が付加されている。
例えば、日付(2020/07/08)の開始時刻(06:00:00)には、時間長30分(00:30:00)、ジャンル識別子が“0x25”,“0xa0”,“0x86”であるタイトル“2度目のタイ「バンコク編」[字]”が放送されることを示している。
The
For example, this indicates that a program with the title “Second Time in Thailand: Bangkok Edition” [subtitles]” with a duration of 30 minutes (00:30:00) and genre identifiers of “0x25”, “0xa0”, and “0x86” will be broadcast at a start time (06:00:00) on the date (2020/07/08).
ここで、図5を参照して、ジャンル識別子について詳細に説明する。
ジャンル識別子には、ARIBが規定する標準規格(ARIB STD-B10)を用いることができる。
図5は、ARIB STD-B10 第2部 付録Hで規定しているジャンルの分類項目を示している。
Now, with reference to FIG. 5, the genre identifier will be described in more detail.
The genre identifier can use the standard (ARIB STD-B10) defined by ARIB.
FIG. 5 shows the genre classification items defined in ARIB STD-B10 Part 2, Appendix H.
ジャンル大分類500は、ジャンルの上位分類を示し、ジャンル中分類501は、ジャンル大分類500をさらに分類した下位分類を示す。ここでは、ARIBの用語に合わせて、上位分類をジャンル大分類、下位分類をジャンル中分類と呼ぶ。
ジャンル大分類500は16進数2桁の上位桁の値、ジャンル中分類501は下位桁の値でそれぞれ予め定めた値が定義されている。
The
The
例えば、上位桁の値であるジャンル大分類500の値“0x0”は“ニュース/報道”、“0x1”は“スポーツ”を示している。
また、ジャンル大分類500の値“0x2”の“情報/ワイドショー”の下位桁の値であるジャンル中分類501の値“0x0”は“芸能・ワイドショー”、“0x1”は“ファッション”を示している。
For example, the value "0x0" of the genre
In addition, the value "0x0" of the
ジャンル大分類500を上位桁(上位4ビット)、ジャンル中分類501を下位桁(下位4ビット)とする16進数2桁(8ビット)の値をジャンル識別子とする。
例えば、ジャンル識別子“0x21”は、“情報/ワイドショー”+“ファッション”のジャンルを示す。
図1に戻って、ジャンル別テキスト収集装置1の構成について説明を続ける。
The genre identifier is a 2-digit (8-bit) hexadecimal value with the
For example, the genre identifier "0x21" indicates the genre of "information/variety show" + "fashion."
Returning to FIG. 1, the description of the configuration of the genre-specific
EPG情報抽出手段111は、抽出したEPG情報を記憶手段12に書き込み記憶する。なお、複数のチャンネルに対応したTS信号の場合、EPG情報抽出手段111は、それぞれのTS信号からEPG情報を抽出し、記憶手段12に記憶する。複数のチャンネルでEPG情報を抽出する場合、EPG情報抽出手段111は、チャンネルごとに記憶領域を分けて記憶手段12に記憶することとしてもよいし、チャンネルを区別することなく記憶することとしてもよい。 The EPG information extraction means 111 writes and stores the extracted EPG information in the storage means 12. In the case of a TS signal corresponding to multiple channels, the EPG information extraction means 111 extracts EPG information from each TS signal and stores it in the storage means 12. When extracting EPG information for multiple channels, the EPG information extraction means 111 may store the information in separate storage areas for each channel in the storage means 12, or may store the information without distinguishing between channels.
なお、字幕情報抽出手段110およびEPG情報抽出手段111は、それぞれ、既存の手法で各情報を抽出することができる。例えば、プログラミング言語pythonのライブラリであるariblib(参考:https://pypi.org/project/ariblib/)を用いることができる。 The subtitle information extraction means 110 and the EPG information extraction means 111 can each extract the information using existing methods. For example, ariblib (reference: https://pypi.org/project/ariblib/), a library for the programming language python, can be used.
放送情報抽出手段11は、指定された時間区間の字幕情報およびEPG情報を抽出後、抽出を完了した旨(抽出完了通知)を番組情報特定手段13に通知する。なお、この通知は、ユーザが番組情報特定手段13に指示する場合、必須ではない。 After extracting the subtitle information and EPG information for the specified time period, the broadcast information extraction means 11 notifies the program information identification means 13 that the extraction is complete (extraction completion notification). Note that this notification is not essential if the user instructs the program information identification means 13 to do so.
記憶手段12は、放送情報抽出手段11で抽出された字幕情報(図3参照)およびEPG情報(図4参照)を記憶するものである。
この記憶手段12は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。
The storage means 12 stores the subtitle information (see FIG. 3) and the EPG information (see FIG. 4) extracted by the broadcast information extraction means 11 .
This storage means 12 can be configured with a general storage medium such as a hard disk or a semiconductor memory.
番組情報特定手段13は、EPG情報から、放送番組の時間情報およびジャンルを特定するものである。この番組情報特定手段13は、放送情報抽出手段11から抽出完了通知が通知された段階、あるいは、ユーザから指示された段階で動作する。
番組情報特定手段13は、記憶手段12に記憶されているEPG情報(図4参照)から、放送番組ごとにジャンルを特定するとともに、放送番組の時間情報(ここでは、日付、開始時刻、時間長)を特定する。
The program
The program information identification means 13 identifies the genre of each broadcast program from the EPG information (see Figure 4) stored in the storage means 12, and also identifies the time information of the broadcast program (here, date, start time, and duration).
なお、番組情報特定手段13は、予め設定された分類基準で、放送番組のジャンルを特定する。分類基準は、ジャンルをジャンル大分類(上位分類)で分類するか、ジャンル中分類(下位分類)で分類するか否かである。 The program information identification means 13 identifies the genre of a broadcast program using a preset classification criterion. The classification criterion is whether to classify the genre into a major genre classification (higher classification) or into a medium genre classification (lower classification).
設定された分類基準がジャンル大分類(上位分類)である場合、番組情報特定手段13は、ジャンル識別子のジャンル大分類の値(上位桁)をジャンルの値とする。
また、設定された分類基準がジャンル中分類(下位分類)である場合、番組情報特定手段13は、ジャンル識別子そのものをジャンルの値とする。
以下、分類基準がジャンル大分類である場合と、ジャンル中分類である場合とに分けて具体的に説明する。
When the set classification criterion is a major genre classification (higher classification), the program information specification means 13 sets the value of the major genre classification (higher digits) of the genre identifier as the genre value.
Furthermore, when the set classification criterion is a genre medium classification (sub-classification), the program information specification means 13 sets the genre identifier itself as the genre value.
Below, a specific description will be given of the case where the classification criterion is a major genre classification and the case where the classification criterion is a medium genre classification.
(分類基準がジャンル大分類〔上位分類〕の場合)
分類基準がジャンル大分類(上位分類)である場合、番組情報特定手段13は、放送番組に設定されているジャンル識別子のジャンル中分類である下位桁(下位4ビット)を削除し、ジャンル大分類の上位桁(上位4ビット)を識別子とする。
この識別子が放送番組に1つであれば、番組情報特定手段13は、その識別子を放送番組のジャンルとする。
(When the classification criteria is genre major classification [higher classification])
When the classification criterion is a major genre classification (higher classification), the program information identification means 13 deletes the lower digits (lower 4 bits), which are the genre medium classification of the genre identifier set in the broadcast program, and uses the upper digits (higher 4 bits) of the major genre classification as the identifier.
If there is one such identifier in a broadcast program, the program information specification means 13 determines that identifier as the genre of the broadcast program.
一方、1つの放送番組にジャンル識別子が複数設定され、同じジャンル大分類の上位桁(上位4ビット)の識別子が複数存在する場合、番組情報特定手段13は、その識別子の出現頻度を累計し、最大頻度の識別子を放送番組のジャンルとする。なお、最大頻度の識別子が複数存在する場合、番組情報特定手段13は、EPG情報に設定されているジャンル識別子の順番で最初に出現する識別子を放送番組のジャンルとする。
これによって、放送番組にジャンル識別子が複数設定されている場合でも、この放送番組の主だったジャンルを特定することができる。
On the other hand, if multiple genre identifiers are set for one broadcast program and multiple identifiers with the highest digits (highest 4 bits) of the same major genre classification exist, the program information identification means 13 accumulates the frequency of appearance of the identifiers and determines the identifier with the highest frequency as the genre of the broadcast program. Note that if multiple identifiers with the highest frequency exist, the program information identification means 13 determines the identifier that appears first in the order of genre identifiers set in the EPG information as the genre of the broadcast program.
This makes it possible to identify the main genre of a broadcast program even if multiple genre identifiers are set for the broadcast program.
ただし、最大頻度の識別子が複数存在する場合、番組情報特定手段13は、ジャンルを1つに特定せずに、複数の識別子のジャンルごとに、同じ放送番組の時間情報を対応付けることとしてもよい。 However, if there are multiple identifiers with the highest frequency, the program information identification means 13 may associate the time information of the same broadcast program with each of the multiple identifiers' genres, rather than identifying a single genre.
(分類基準がジャンル中分類〔下位分類〕の場合)
分類基準がジャンル中分類(下位分類)である場合、番組情報特定手段13は、放送番組に設定されているジャンル識別子を放送番組のジャンルとする。
なお、1つの放送番組にジャンル識別子が複数設定されている場合、番組情報特定手段13は、EPG情報に設定されているジャンル識別子の順番で最初に出現するジャンル識別子を放送番組のジャンルとする。
(If the classification criteria is genre classification [sub-classification])
When the classification criterion is a medium genre classification (sub-classification), the program information specification means 13 determines the genre identifier set in the broadcast program as the genre of the broadcast program.
When multiple genre identifiers are set for one broadcast program, the program information identification means 13 determines the genre identifier that appears first in the order of the genre identifiers set in the EPG information as the genre of the broadcast program.
ただし、1つの放送番組にジャンル識別子が複数設定されている場合、番組情報特定手段13は、ジャンルを1つに特定せずに、複数のジャンルごとに、同じ放送番組の時間情報を対応付けることとしてもよい。
このように、番組情報特定手段13は、EPG情報から、放送番組に対応するジャンルを特定し、放送番組のジャンルと時間情報とを、テキスト抽出手段14に出力する。
However, when multiple genre identifiers are set for one broadcast program, the program information identification means 13 may associate the time information of the same broadcast program with each of the multiple genres, rather than identifying a single genre.
In this way, the program
なお、番組情報特定手段13は、EPG情報において放送番組が再放送であると判定した場合、当該放送番組を時間情報およびジャンルを特定する対象から除外することとしてもよい。例えば、番組情報特定手段13は、EPG情報(図4)を参照し、タイトル404に再放送を示す予め定めた文字(ここでは[再])が設定されているか否かにより、放送番組が再放送か否かを判定することができる。
このように、再放送の放送番組を、テキスト抽出を行う対象から除外することで、同じジャンルでの二重のテキスト抽出を防止することができる。
When the program
In this way, by excluding reruns of broadcast programs from the targets for text extraction, it is possible to prevent duplicate text extraction for the same genre.
また、番組情報特定手段13は、EPG情報において放送番組が字幕放送であると判定した場合にのみ当該放送番組の時間情報およびジャンルを特定することとしてもよい。なお、字幕放送ではない放送番組で時間情報およびジャンルを特定しても、字幕情報が存在しないだけで、後段の処理には影響がない。 The program information identification means 13 may identify the time information and genre of a broadcast program only when it has determined that the broadcast program is a subtitled broadcast in the EPG information. Note that even if the time information and genre are identified for a broadcast program that is not a subtitled broadcast, there is no effect on subsequent processing, since the subtitle information simply does not exist.
テキスト抽出手段14は、字幕情報から、放送番組の時間情報で特定される時間区間の字幕テキストを抽出し、放送番組のジャンルと対応付けてジャンル別テキストとして出力するものである。
図1に示すように、テキスト抽出手段14は、字幕テキスト抽出手段140と、整形手段141と、を備える。
The text extraction means 14 extracts subtitle text for a time period specified by time information of a broadcast program from the subtitle information, and outputs the extracted text as genre-specific text in association with the genre of the broadcast program.
As shown in FIG. 1, the
字幕テキスト抽出手段140は、番組情報特定手段13で特定された放送番組のジャンルごとに、放送番組の時間情報に対応する字幕テキストを字幕情報から抽出するものである。
字幕テキスト抽出手段140は、番組情報特定手段13で特定された番組情報に基づいて、記憶手段12に記憶されている字幕情報から、放送番組のジャンルごとに、放送番組の時間情報で特定される時間区間の字幕テキストを抽出する。
The subtitle text extraction means 140 extracts subtitle text corresponding to time information of a broadcast program from the subtitle information for each genre of the broadcast program identified by the program information identification means 13 .
A subtitle text extraction means 140 extracts subtitle text for a time section specified by time information of a broadcast program for each genre of the broadcast program from the subtitle information stored in the storage means 12 based on the program information specified by the program information specification means 13.
例えば、図6に示すような字幕情報が記憶手段12に記憶され、番組情報特定手段13から、ジャンルとして0x02(ジャンル大分類〔上位分類〕)と、時間情報として日付(2020/07/08),開始時刻(06:00:00),時間長(00:30:00)とが通知されたする。
この場合、字幕テキスト抽出手段140は、日付300が2020年7月8日で、開始時刻301が6時から30分間の字幕テキスト302を、ジャンル0x02(情報/ワイドショー)に対応する字幕テキストとして抽出する。他のジャンル0x08(ドキュメンタリ/教養)についても同様である、
For example, suppose that subtitle information such as that shown in Figure 6 is stored in the storage means 12, and the program information identification means 13 notifies the program of 0x02 (major genre classification [higher classification]) as the genre, and the date (2020/07/08), start time (06:00:00), and duration (00:30:00) as the time information.
In this case, the subtitle
このように、記憶手段12に記憶される字幕情報には、時間情報(日付300,開始時刻301)に対応付けて字幕テキスト302が対応付けられているため、字幕テキスト抽出手段140は、番組情報特定手段13から通知されるジャンルおよび時間情報から、ジャンルに対応する字幕テキストを抽出することができる。
字幕テキスト抽出手段140は、抽出したジャンル別の字幕テキストを整形手段141に出力する。
In this way, the subtitle information stored in the storage means 12 is associated with the
The subtitle text extraction means 140 outputs the extracted subtitle text for each genre to the shaping means 141 .
整形手段141は、字幕テキスト抽出手段140で抽出されたジャンル別の字幕テキストから、発話テキスト以外のテキスト(メタ情報)を削除することで、字幕テキストを整形したテキストに変換するものである。 The shaping means 141 converts the subtitle text into shaped text by deleting text (meta information) other than the spoken text from the genre-specific subtitle text extracted by the subtitle text extraction means 140.
字幕に用いられるメタ情報は、話者表記、情景表記等、一定のパターンに集約されている。そのため、整形手段141は、予め定めた正規表現フィルタ処理を行うことで、字幕テキストを整形することができる。 The meta-information used in subtitles is collected into certain patterns, such as speaker notation and scene notation. Therefore, the shaping means 141 can shape the subtitle text by performing a predetermined regular expression filter process.
図7を参照して、整形手段141の正規表現フィルタ処理の一例について説明する。
図7(a)は、話者表記を削除する例である。例えば、“アナ≫”のように、“話者”+”≫”については、整形手段141は、文頭から”≫”の直前までのテキストを話者と判定し、文頭から”≫”を削除する。
図7(b)は、情景表記を削除する例である。例えば、(拍手と歓声)のように丸括弧に囲まれた情景表記文字列については、整形手段141は、丸括弧とともに情景表記文字列を削除する。
An example of the regular expression filter process of the
7A shows an example of deleting a speaker notation. For example, in the case of "speaker" + ">>", such as "Ana>>", the
7B shows an example of deleting a scene description. For example, for a scene description character string enclosed in parentheses, such as (applause and cheers), the
図7(c)は、分断された文節を連結する例である。字幕の場合、場面によって一文の字幕が分断され、次文節に続く表記として、例えば、[⇒]が用いられる。この場合、整形手段141は、“[⇒]”を読点“、”に置換することで、文節を連結する。
図7(d)は、背景音表記を削除する例である。例えば、字幕では、背景音として、電話が鳴っている音を示す記号600、背景で誰かが話している音声を示す記号601等が用いられる。この場合、整形手段141は、背景音を示す記号600,601を削除する。
これによって、整形手段141は、字幕テキストを、字幕特有の表記をなくした発話内容のみのテキストに変換することができる。
図1に戻って、ジャンル別テキスト収集装置1の構成について説明を続ける。
7C is an example of connecting segmented phrases. In the case of subtitles, a sentence of subtitles is divided depending on the scene, and for example, [⇒] is used to indicate that the next segment continues. In this case, the
7D shows an example of deleting background sound notation. For example, in subtitles, a
This enables the
Returning to FIG. 1, the description of the configuration of the genre-specific
整形手段141は、ジャンル別に整形したテキストをジャンル別テキストとして出力する。なお、整形手段141の出力先は、直接接続された、あるいは、ネットワークを介して接続された記憶装置(不図示)等である。 The shaping means 141 outputs the text shaped by genre as genre-specific text. The output destination of the shaping means 141 is a storage device (not shown) that is directly connected or connected via a network.
以上説明したように構成することで、ジャンル別テキスト収集装置1は、放送波を受信するだけで、EPG情報に基づいて、字幕のテキストから、ジャンル別テキストを収集することができる。
また、ジャンルは放送規格に基づいて定められているため、放送局ごとの差が生じにくく、ジャンル別テキスト収集装置1は、言語モデルや自然言語処理の学習に利用可能な良質なテキストコーパスを、ジャンルごとに大量に収集することができる。
With the above-described configuration, the genre-specific
In addition, since genres are defined based on broadcasting standards, differences between broadcasting stations are unlikely to occur, and the genre-specific
なお、ジャンル別テキスト収集装置1は、コンピュータを、前記した各手段として機能させるためのプログラム(ジャンル別テキスト収集プログラム)で動作させることができる。
The genre-specific
<ジャンル別テキスト収集装置の動作>
次に、図8,図9を参照(構成については適宜図1参照)して、本発明の実施形態に係るジャンル別テキスト収集装置1の動作について説明する。
<Operation of the genre-specific text collection device>
Next, the operation of the genre-specific
(全体動作)
まず、図8を参照して、ジャンル別テキスト収集装置1の全体動作について説明する。
ステップS1において、放送受信手段10は、デジタル放送の放送波を受信し、TS信号に復調する。このとき、放送受信手段10は、指定されたチャンネルの放送信号を復調するが、そのチャンネル数は、1または複数である。
(Overall operation)
First, the overall operation of the genre-specific
In step S1, the broadcast receiving means 10 receives a digital broadcast wave and demodulates it into a TS signal. At this time, the broadcast receiving means 10 demodulates a broadcast signal of a specified channel, and the number of channels may be one or more.
ステップS2において、放送情報抽出手段11の字幕情報抽出手段110は、ステップS1で復調されたTS信号を解析し、指定された時間区間の間、TS信号から字幕情報を抽出する。ここでは、字幕情報抽出手段110は、図3に示すように、TS信号から、日付300、開始時刻301および字幕テキスト302を抽出し、記憶手段12に記憶する。
In step S2, the subtitle information extraction means 110 of the broadcast information extraction means 11 analyzes the TS signal demodulated in step S1 and extracts subtitle information from the TS signal for a specified time period. Here, the subtitle information extraction means 110
ステップS3において、放送情報抽出手段11のEPG情報抽出手段111は、ステップS1で復調されたTS信号を解析し、指定された時間区間の間、TS信号からEPG情報を抽出する。ここでは、EPG情報抽出手段111は、図4に示すように、TS信号から日付400、開始時刻401、時間長402、ジャンル識別子403およびタイトル404を抽出し、記憶手段12に記憶する。
なお、ステップS2,S3は、この順に動作させる必要はなく、ステップS3,S2の順、あるいは、ステップS2,S3を並列に動作させてもよい。
In step S3, the EPG information extraction means 111 of the broadcast information extraction means 11 analyzes the TS signal demodulated in step S1 and extracts EPG information from the TS signal for a specified time period. Here, the EPG information extraction means 111
It should be noted that steps S2 and S3 do not necessarily have to be performed in this order, and steps S3 and S2 may be performed in this order, or steps S2 and S3 may be performed in parallel.
ステップS4において、放送情報抽出手段11は、指定された時間区間が完了したか否かを判定する。
ここで、まだ、指定された時間区間が完了していない場合(ステップS4でNo)、ジャンル別テキスト収集装置1は、ステップS2に戻って動作を継続する。
In step S4, the broadcast information extraction means 11 determines whether or not the designated time period has been completed.
If the specified time period has not yet been completed (No in step S4), the genre-specific
一方、指定された時間区間が完了した場合(ステップS4でYes)、ステップS5において、番組情報特定手段13は、ステップS3で記憶手段12に記憶されたEPG情報から、放送番組ごとのEPG情報を読み出す。 On the other hand, if the specified time period has been completed (Yes in step S4), in step S5, the program information identification means 13 reads out the EPG information for each broadcast program from the EPG information stored in the storage means 12 in step S3.
ステップS6において、番組情報特定手段13は、予め設定された分類基準で放送番組のジャンルを特定する。このステップS6のジャンル特定の詳細動作について、後記する(図9参照)。 In step S6, the program information identification means 13 identifies the genre of the broadcast program using preset classification criteria. The detailed operation of identifying the genre in step S6 will be described later (see FIG. 9).
ステップS7において、テキスト抽出手段14の字幕テキスト抽出手段140は、ステップS5で読み出された放送番組ごとのEPG情報に含まれる時間情報(ここでは、日付、開始時刻、時間長)に対応する字幕テキストを、ステップS2で記憶手段12に記憶された字幕情報から抽出する。 In step S7, the subtitle text extraction means 140 of the text extraction means 14 extracts subtitle text corresponding to the time information (here, date, start time, and duration) included in the EPG information for each broadcast program read in step S5 from the subtitle information stored in the storage means 12 in step S2.
ステップS8において、テキスト抽出手段14の整形手段141は、ステップS7で抽出された字幕テキストを、予め定めた正規表現フィルタ処理を行うことで整形する。
ステップS9において、整形手段141は、整形したテキストをステップS6で特定されたジャンルとともにジャンル別テキストとして出力する。
In step S8, the shaping means 141 of the text extraction means 14 shapes the subtitle text extracted in step S7 by performing a predetermined regular expression filter process.
In step S9, the shaping means 141 outputs the shaped text together with the genre identified in step S6 as genre-specific text.
ステップS10において、番組情報特定手段13は、記憶手段12にまだ読み出されていない放送番組のEPG情報が存在するか否かを判定する。
ここで、まだ読み出されていない放送番組のEPG情報が存在する場合(ステップS10でYes)、ジャンル別テキスト収集装置1は、ステップS5に戻って動作を継続する。
一方、EPG情報をすべて読み出した場合(ステップS10でNo)、ジャンル別テキスト収集装置1は、動作を終了する。
In step S10, the program
If there is EPG information of a broadcast program that has not yet been read out (Yes in step S10), the genre-specific
On the other hand, if all the EPG information has been read out (No in step S10), the genre-specific
(ジャンル特定動作)
次に、図9を参照して、番組情報特定手段13が行うステップS6(図8)の動作についてさらに詳細に説明する。
(Genre specific action)
Next, the operation of step S6 (FIG. 8) performed by the program
ステップS61において、番組情報特定手段13は、予め設定された分類基準により、ジャンルを、ジャンル大分類(上位分類)で分類するか、ジャンル中分類(下位分類)で分類するかを判定する。
ここで、ジャンル中分類(下位分類)で分類する場合(ステップS61でNo)、番組情報特定手段13は、ステップS63に動作を進める。
In step S61, the program
If classification is to be made based on the genre medium classification (sub-classification) (No in step S61), the program information specification means 13 advances the operation to step S63.
一方、ジャンル大分類(上位分類)で分類する場合(ステップS61でYes)、ステップS62において、番組情報特定手段13は、ジャンル識別子の下位桁を削除する。
ステップS63において、番組情報特定手段13は、放送番組に設定されているジャンル識別子が1つか否かを判定する。
On the other hand, when classifying by major genre classification (higher classification) (Yes in step S61), in step S62, the program information specification means 13 deletes the lowest digits of the genre identifier.
In step S63, the program
ここで、ジャンル識別子が1つの場合(ステップS63でYes)、ステップS64において、番組情報特定手段13は、そのジャンル識別子(ジャンル大分類の場合、上位桁)を、放送番組のジャンルと特定する。 If there is only one genre identifier (Yes in step S63), in step S64, the program information identification means 13 identifies that genre identifier (the upper digits in the case of a major genre classification) as the genre of the broadcast program.
一方、ジャンル識別子が複数の場合(ステップS63でNo)、ステップS65において、番組情報特定手段13は、複数のジャンル識別子(ジャンル大分類の場合、上位桁)の出現頻度を累計する。
ステップS66において、番組情報特定手段13は、ステップS65で累計した最大頻度のジャンル識別子(ジャンル大分類の場合、上位桁)が1つか否かを判定する。
ここで、最大頻度のジャンル識別子が1つの場合(ステップS66でYes)、ステップS67において、番組情報特定手段13は、最大頻度のジャンル識別子(ジャンル大分類の場合、上位桁)を、放送番組のジャンルと特定する。
On the other hand, if there are multiple genre identifiers (No in step S63), in step S65, the program information identification means 13 accumulates the occurrence frequencies of the multiple genre identifiers (higher digits in the case of major genre classifications).
In step S66, the program
If there is one genre identifier with the highest frequency (Yes in step S66), in step S67, the program information identification means 13 identifies the genre identifier with the highest frequency (the most significant digits in the case of a major genre classification) as the genre of the broadcast program.
一方、最大頻度のジャンル識別子が複数の場合(ステップS66でNo)、ステップS68において、番組情報特定手段13は、放送番組に設定されているEPG情報で最初に出現するジャンル識別子(ジャンル大分類の場合、上位桁)を、放送番組のジャンルと特定する。 On the other hand, if there are multiple genre identifiers with the highest frequency (No in step S66), in step S68, the program information identification means 13 identifies the genre identifier (the most significant digits in the case of a major genre classification) that appears first in the EPG information set for the broadcast program as the genre of the broadcast program.
ステップS64,S67,S68の後、番組情報特定手段13は、ステップS6の動作を終了し、ステップS7(図8)に移行する。
以上の動作により、ジャンル別テキスト収集装置1は、放送波を受信するだけで、EPG情報に基づいて、字幕のテキストから、ジャンル別テキストを収集することができる。
After steps S64, S67 and S68, the program
By the above operation, the genre-specific
1 ジャンル別テキスト収集装置
10 放送受信手段
11 放送情報抽出手段
110 字幕情報抽出手段
111 EPG情報抽出手段
12 記憶手段
13 番組情報特定手段
14 テキスト抽出手段
140 字幕テキスト抽出手段
141 整形手段
REFERENCE SIGNS
Claims (6)
前記デジタル放送を受信し、復調する放送受信手段と、
前記放送受信手段で復調された信号から、前記字幕テキストと前記字幕テキストを提示する時間情報とを含む字幕情報を抽出する字幕情報抽出手段と、
前記復調された信号から、放送番組のEPG情報を抽出するEPG情報抽出手段と、
前記EPG情報から、前記放送番組の時間情報およびジャンルを特定する番組情報特定手段と、
前記字幕情報から、前記放送番組の時間情報で特定される時間区間の字幕テキストを抽出し、前記放送番組のジャンルと対応付けてジャンル別テキストとするテキスト抽出手段と、を備え、
前記ジャンルは、上位の項目で分類した上位分類と前記上位分類を細分化した下位分類とで構成され、前記EPG情報には、前記放送番組ごとに前記ジャンルが1または複数設定され、
前記番組情報特定手段は、前記上位分類のみを前記ジャンルとして特定し、前記EPG情報に前記ジャンルが複数設定されている場合、前記放送番組に設定されている最も多い前記上位分類を前記ジャンルとして特定することを特徴とするジャンル別テキスト収集装置。 A genre-specific text collection device that collects genre-specific text from subtitle text multiplexed in digital broadcasting, comprising:
A broadcast receiving means for receiving and demodulating the digital broadcast;
a subtitle information extraction means for extracting subtitle information including the subtitle text and time information for presenting the subtitle text from the signal demodulated by the broadcast receiving means;
an EPG information extraction means for extracting EPG information of a broadcast program from the demodulated signal;
a program information specifying means for specifying time information and a genre of the broadcast program from the EPG information;
a text extraction means for extracting from the caption information a caption text for a time period specified by time information of the broadcast program, and associating the extracted caption text with a genre of the broadcast program to generate a genre-specific text ,
The genres are composed of higher-level categories classified by higher-level items and lower-level categories subdivided from the higher-level categories, and one or more genres are set for each of the broadcast programs in the EPG information,
The program information identification means identifies only the higher-level classification as the genre, and if multiple genres are set in the EPG information, identifies the higher-level classification that is most frequently set in the broadcast program as the genre .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020204235A JP7606866B2 (en) | 2020-12-09 | 2020-12-09 | Genre-specific text collection device and its program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020204235A JP7606866B2 (en) | 2020-12-09 | 2020-12-09 | Genre-specific text collection device and its program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022091412A JP2022091412A (en) | 2022-06-21 |
| JP7606866B2 true JP7606866B2 (en) | 2024-12-26 |
Family
ID=82067292
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020204235A Active JP7606866B2 (en) | 2020-12-09 | 2020-12-09 | Genre-specific text collection device and its program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7606866B2 (en) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002125169A (en) | 2000-10-18 | 2002-04-26 | Pioneer Electronic Corp | Program guide device and program guide method |
| JP2008022292A (en) | 2006-07-13 | 2008-01-31 | Sony Corp | Performer information search system, performer information acquisition device, performer information search device, method and program thereof |
| JP2010011038A (en) | 2008-06-26 | 2010-01-14 | Sony Corp | Information processing apparatus, information processing method, and computer program |
| JP2012038239A (en) | 2010-08-11 | 2012-02-23 | Sony Corp | Information processing equipment, information processing method and program |
| JP2012216974A (en) | 2011-03-31 | 2012-11-08 | Kddi Corp | Broadcast signal reception device, broadcast signal reception method, and program |
| JP2018180472A (en) | 2017-04-21 | 2018-11-15 | 日本放送協会 | Control device, control method and control program |
-
2020
- 2020-12-09 JP JP2020204235A patent/JP7606866B2/en active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002125169A (en) | 2000-10-18 | 2002-04-26 | Pioneer Electronic Corp | Program guide device and program guide method |
| JP2008022292A (en) | 2006-07-13 | 2008-01-31 | Sony Corp | Performer information search system, performer information acquisition device, performer information search device, method and program thereof |
| JP2010011038A (en) | 2008-06-26 | 2010-01-14 | Sony Corp | Information processing apparatus, information processing method, and computer program |
| JP2012038239A (en) | 2010-08-11 | 2012-02-23 | Sony Corp | Information processing equipment, information processing method and program |
| JP2012216974A (en) | 2011-03-31 | 2012-11-08 | Kddi Corp | Broadcast signal reception device, broadcast signal reception method, and program |
| JP2018180472A (en) | 2017-04-21 | 2018-11-15 | 日本放送協会 | Control device, control method and control program |
Non-Patent Citations (2)
| Title |
|---|
| 安藤 慎太郎,テレビ録画とその字幕を利用した大規模日本語音声コーパスの構築,情報処理学会 研究報告 音声言語情報処理(SLP) 2020-SLP-134 [online],情報処理学会,2020年11月25日,Internet<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=208157&file_id=1&file_no=1> |
| 望月 源,日本語:数億語のコーパスを作って調べてみるとみえてくる頻出語、頻出表現,平成29年度東京外国語大学オープンアカデミー「コーパスから見えることば・文化・社会」,東京外国語大学語学研究所,2019年03月,pp.103-125,Internet<URL:https://www.tufs.ac.jp/common/fs/ilr/images/publications/201903_06_mochizuki.pdf> |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022091412A (en) | 2022-06-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101202864B (en) | Animation reproduction device | |
| KR101419937B1 (en) | A symbol extracting apparatus, a symbol extracting method, and a computer readable recording medium on which a symbol extracting program is recorded | |
| JP3797709B2 (en) | Viewing device and recording device | |
| CN101778233B (en) | Data processing apparatus, data processing method | |
| US8214368B2 (en) | Device, method, and computer-readable recording medium for notifying content scene appearance | |
| JP2002533841A (en) | Personal video classification and search system | |
| US20180012599A1 (en) | Metatagging of captions | |
| JP7137825B2 (en) | Video information provision system | |
| US10176254B2 (en) | Systems, methods, and media for identifying content | |
| JP4937218B2 (en) | Metadata editing apparatus and metadata generation method | |
| US8307403B2 (en) | Triggerless interactive television | |
| JP4656202B2 (en) | Information processing apparatus and method, program, and recording medium | |
| JP2004302175A (en) | System, method, and program for speech recognition | |
| JP2008227909A (en) | Video search device | |
| JP7606866B2 (en) | Genre-specific text collection device and its program | |
| JP4656203B2 (en) | Information processing apparatus and method, program, and recording medium | |
| EP1463059A2 (en) | Recording and reproduction apparatus | |
| JP2001309282A (en) | Broadcast program recording method, broadcast program recording device, and broadcast program recording / playback device | |
| JP4621607B2 (en) | Information processing apparatus and method | |
| KR101100191B1 (en) | Multimedia playback device and multimedia data retrieval method using the same | |
| KR101469021B1 (en) | Category generating program, category generating device, and category generating method | |
| JP2006054517A (en) | Information presenting apparatus, method, and program | |
| US20150063782A1 (en) | Electronic Apparatus, Control Method, and Computer-Readable Storage Medium | |
| KR101401974B1 (en) | Method and apparatus for browsing recorded news programs | |
| JP5135734B2 (en) | Program information display apparatus and method, program, and recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231102 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240920 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241001 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241105 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241119 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241216 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7606866 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |