Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5952241B2 - Information grant apparatus, information grant method, and information grant program - Google Patents
[go: Go Back, main page]

JP5952241B2 - Information grant apparatus, information grant method, and information grant program - Google Patents

Information grant apparatus, information grant method, and information grant program Download PDF

Info

Publication number
JP5952241B2
JP5952241B2 JP2013181731A JP2013181731A JP5952241B2 JP 5952241 B2 JP5952241 B2 JP 5952241B2 JP 2013181731 A JP2013181731 A JP 2013181731A JP 2013181731 A JP2013181731 A JP 2013181731A JP 5952241 B2 JP5952241 B2 JP 5952241B2
Authority
JP
Japan
Prior art keywords
word
time
data
series data
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013181731A
Other languages
Japanese (ja)
Other versions
JP2015049766A (en
Inventor
結城 遠藤
結城 遠藤
佐藤 隆
隆 佐藤
鷲崎 誠司
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013181731A priority Critical patent/JP5952241B2/en
Publication of JP2015049766A publication Critical patent/JP2015049766A/en
Application granted granted Critical
Publication of JP5952241B2 publication Critical patent/JP5952241B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報に別の情報を付与する情報付与装置、特にテレビやVOD(ビデオオンデマンド)等の番組に、内容に関するメタデータを付与する技術に関する。   The present invention relates to an information assigning device that assigns other information to information, and more particularly, to a technique for assigning metadata about contents to a program such as a television or VOD (video on demand).

テレビやVOD等の番組コンテンツに関するメタデータの付与は古くから行われている。音声・字幕・クローズドキャプション等の情報を活用し、文字認識・画像認識・音声認識等の技術を用いて、映像中に出現する人や物や事象を特定し、時系列に沿って、その認識内容を記述し、検索のための索引作成や映像コンテンツの分類が行われてきた。(非特許文献1参照)。   Metadata for program contents such as TV and VOD has been provided for a long time. Using information such as voice, subtitles, closed captions, etc., and using technologies such as character recognition, image recognition, voice recognition, etc., identify people, things and events that appear in the video, and recognize them along a time series. Content has been described, indexing for searching and video content classification have been performed. (Refer nonpatent literature 1).

その後、ソーシャルメディア上での番組視聴者が番組コンテンツに対して入力する発言情報を基に、番組コンテンツに対するメタデータを付与する試みも行われてきている。   Thereafter, attempts have been made to add metadata for program content based on remark information input to program content by program viewers on social media.

例えば、非特許文献2によれば、番組視聴者が興味を持っている場面では、チャットでの発言回数や発言文字列の数が増大するという二つのパラメータを用いて盛り上がりを抽出し、その盛り上がりの中に含まれている発言からキーワードを抽出し、番組コンテンツのメタデータとする手法を提案している。   For example, according to Non-Patent Document 2, in a scene in which a program viewer is interested, a climax is extracted using two parameters that the number of utterances and the number of utterance character strings in a chat increases. We are proposing a method to extract keywords from the comments contained in the video and use it as metadata for program content.

また、非特許文献3によれば、書き込みテキストのエントリ数や、書き込みテキスト中のアスキーアートの出現頻度から、盛り上がり・落胆の感動度数を求めてシーンのインデキシングを行う方法が記載されている。   Non-Patent Document 3 describes a method for indexing a scene by determining the degree of excitement / disappointment from the number of entries of written text and the appearance frequency of ASCII art in the written text.

また特許文献1によれば、番組コンテンツに対するユーザの発言回数だけでなく、発言の引用数等に基づいた、ユーザの重要度を定義し利用することで、より適切なメタデータの付与を行っている。   Further, according to Patent Document 1, more appropriate metadata is given by defining and using the importance level of the user based on not only the number of times the user utters the program content but also the number of citations. Yes.

上記のメタデータ付与の既存技術においては、番組コンテンツに関するチャット情報を利用しているが、例えば他にも、検索ポータルサイトの検索ログを利用する方法が考えられる。検索ログの中には「人、モノ、出来事」に関する話題語が多数含まれており、ユーザはそのような単語を、見たり、聞いたりした際に、検索エンジンで検索を行う傾向がある。例えば、この傾向を利用することで、特許文献2に示すように、ユーザの興味に応じた流行の検索クエリを推薦し、ユーザの情報検索を支援する手法が提案されている。このように、話題語を分析するために、検索ログを利用することは大変有効であると考えられる。   In the above existing technology for giving metadata, chat information related to program content is used. However, for example, a method using a search log of a search portal site is conceivable. The search log contains a large number of topic words related to “people, things, and events”, and the user tends to search with a search engine when they see or hear such words. For example, by using this tendency, as shown in Patent Document 2, a method of recommending a trendy search query according to the user's interest and supporting the user's information search has been proposed. As described above, it is considered to be very effective to use the search log in order to analyze the topic word.

尚、本発明に関連する技術は、例えば特許文献3、非特許文献4、5、6に開示されている。   In addition, the technique relevant to this invention is disclosed by patent document 3, nonpatent literature 4,5,6, for example.

特開2012−173774号公報JP 2012-173774 A 特開2012−59182号公報JP2012-59182A 特開2004−46775号公報JP 2004-46775 A

西尾、外5名、「岩波講座 マルチメディア情報学8 情報の構造化と検索」、岩波書店、2000年、3.1マルチメディア環境とメディア解析Nishio, 5 others, “Iwanami Lecture Multimedia Informatics 8 Information Structuring and Retrieval”, Iwanami Shoten, 2000, 3.1 Multimedia Environment and Media Analysis 大黒、外4名、「インターネットチャットを利用した番組メタデータの自動生成システムの実装と評価」、2005−AVM−18、情報処理学会 研究報告、2005年Daikuro, 4 others, “Implementation and Evaluation of Automatic Program Metadata Generation System Using Internet Chat”, 2005-AVM-18, Information Processing Society of Japan Research Report, 2005 宮森、外2名、「番組実況チャットに基づく視聴者視点を利用した放送番組のビュー生成」、DEWS2005 4B−i9、2005年Miyamori, two others, “Generating Broadcast Program Views Using Viewer Perspectives Based on Program Live Chat”, DEWS 2005 4B-i9, 2005 R.B.Cleveland,W.S.Cleveland,J.E.Mcrae,and I.Terpenning,“STL:A seasonal−trend decomposition procedure based on loess”,Journal of Official Statistics,Vol.6.No.1.1990.pp.3−73.R. B. Cleveland, W.M. S. Cleveland, J.A. E. McRae, and I.M. Terpenning, “STL: A seaside-trend decomposition procedure based on losses,” Journal of Official Statistics, Vol. 6). No. 1.1990. pp. 3-73. H.Liu,J.He,Y.Gu,H.Xiong,and X.Du,“Detecting and Tracking Topics and Events from Web Search Logs”,ACM Transactions on Information Systems(TOIS),Vol.30,No.4,November 2012 ,pp.1−29.H. Liu, J .; He, Y. Gu, H .; Xiong, and X. Du, “Detecting and Tracking Topics and Events from Web Search Logs”, ACM Transactions on Information Systems (TOIS), Vol. 30, no. 4, November 2012, pp. 1-29. G.Salton and M.McGill,“Introduction to Modern Information Retrieval”,McGraw−Hill,1983.G. Salton and M.M. McGill, “Introduction to Modern Information Retrieval”, McGraw-Hill, 1983.

しかしながら、番組コンテンツにメタデータ付与する既存技術が利用しているチャット情報は、もとより番組コンテンツのみを対象に行われたチャットから得られたものである一方で、検索ログは番組コンテンツだけでなく、様々な要因を基に検索された単語を含んでいる。   However, while the chat information used by the existing technology for giving metadata to the program content is originally obtained from the chat conducted only for the program content, the search log is not only the program content, It contains words searched based on various factors.

一般に、検索エンジンにおいて検索された単語の検索数は、周期的な変動を含むものが多い。例えば、レジャー施設に関する単語は、仕事の多い平日よりも休日である週末に多く検索される傾向が強い。そのため、番組コンテンツにおいてレジャー施設が紹介され、関連する単語の検索数が上昇しても、周期的な変動がより大きければ、番組コンテンツに起因する検索数の変動を正しく検出できず、適切な話題語を抽出するのが困難になる。検索ログを利用して、番組コンテンツにメタデータを付与するには、番組コンテンツ以外に起因する検索数の変動をできるだけ取り除くことが重要となる。   In general, the number of words searched by a search engine often includes periodic fluctuations. For example, words related to leisure facilities tend to be searched more often on weekends, which are holidays, than on weekdays when there are many jobs. Therefore, even if leisure facilities are introduced in the program content and the number of related word searches increases, if the periodic fluctuation is larger, the fluctuation in the number of searches caused by the program content cannot be detected correctly, and the appropriate topic It becomes difficult to extract words. In order to add metadata to program content using a search log, it is important to remove as much as possible the variation in the number of searches caused by other than program content.

また、チャット情報や検索ログを利用した既存技術は、チャットの発言数や検索数の増加のみを考慮している。しかし、内容に話題性があるほど、発言数や検索数がより急激に増加するだけでなく、より緩やかに減少していくと考えられる。なぜならば、話題性のある内容は、口コミ等によって、話題が時間と共に拡散し、検索数の持続が予想されるからである。   In addition, existing technologies using chat information and search logs only consider the increase in the number of chat utterances and searches. However, it is considered that the more topical the content, not only the number of utterances and the number of searches increases more rapidly, but also decreases more gradually. This is because the topical content is spread over time by word of mouth or the like, and the number of searches is expected to be sustained.

本発明は上記課題を解決するものであり、その目的は、番組放送に関連する単語をより高精度に抽出して適切なメタデータを付与することができる情報付与装置、方法、プログラムを提供することにある。   The present invention solves the above-described problems, and an object thereof is to provide an information providing apparatus, method, and program capable of extracting words related to program broadcasting with higher accuracy and adding appropriate metadata. There is.

上記課題を解決する本発明の情報付与装置は、番組に関連する情報を付与する情報付与装置であって、番組データから、番組内容に関するテキストデータおよび番組の放送時間を表す日時データを含むメタデータを抽出するメタデータ抽出手段と、前記メタデータ抽出手段により抽出されたテキストデータを形態素解析し、その解析結果から単語データを抽出する単語抽出手段と、前記単語抽出手段により抽出された単語データの各単語が、検索ログやツイッターから得た時系列テキストデータ中に発生した単語発生時間を計算する単語発生時間計算手段と、前記単語抽出手段により抽出された単語データの単語について、前記単語発生時間計算手段により計算された単語発生時間の情報を量子化することで、単語発生頻度に関する時系列データhwi(t)を作成し、前記作成された時系列データhwi(t)から傾向変動成分および周期変動成分を分離して、番組に起因する変動が含まれる不規則変動成分を抽出した時系列データh´wi(t)を作成し、前記作成された時系列データh´wi(t)および前記メタデータ抽出手段により抽出された日時データを用いて、時系列データに基づく単語特徴度を計算し、文書群が格納された文書データベースを参照して文書群に基づく単語特徴度を計算し、前記時系列データに基づく単語特徴度および文書群に基づく単語特徴度を用いて最終的な単語特徴度を計算する単語特徴度計算手段と、前記単語特徴度計算手段により計算された最終的な単語特徴度を用いて、前記単語抽出手段により抽出された単語データから特徴語を、番組に関連する情報として抽出する特徴語抽出手段と、を備えたことを特徴としている。 An information providing apparatus according to the present invention for solving the above-described problem is an information providing apparatus for providing information related to a program, and includes metadata including text data relating to program contents and date / time data representing a broadcast time of the program from the program data. A metadata extracting means for extracting the text data, a morphological analysis of the text data extracted by the metadata extracting means, a word extracting means for extracting word data from the analysis result, and a word data extracted by the word extracting means A word generation time calculation unit that calculates a word generation time generated in time-series text data obtained from a search log or Twitter, and a word generation time for each word in the word data extracted by the word extraction unit. By quantizing the word occurrence time information calculated by the calculation means, a time series data on the word occurrence frequency is obtained. Create a data h wi (t), to separate the trend component and the periodic variation component from the created time series data h wi (t), and extracted irregular fluctuation component included variation due to the program Time-series data h ′ wi (t) is created, and using the created time-series data h ′ wi (t) and date / time data extracted by the metadata extraction means, word feature based on time-series data And calculating a word feature based on the document group with reference to a document database storing the document group, and finally using the word feature based on the time series data and the word feature based on the document group. Using the word feature degree calculating means for calculating the word feature degree and the final word feature degree calculated by the word feature degree calculating means, the feature word is extracted from the word data extracted by the word extracting means into the program. Relation And a feature word extracting means for extracting as information to be performed.

また、前記単語特徴度計算手段は、時系列データに基づく単語特徴度を計算する際に、前記時系列データh´wi(t)および前記日時データを用いて、時系列データの分布から算出した尖度および歪度を含む、時系列データの変動に基づく単語特徴度を計算し、前記計算された時系列データの変動に基づく単語特徴度と単語発生数そのものを考慮した単語特徴度とから前記時系列データに基づく単語特徴度を計算することを特徴としている。 Further, the word feature degree calculating means calculates the word feature degree based on the time series data using the time series data h ′ wi (t) and the date / time data when calculating the word feature degree based on the time series data. Calculate the word feature based on the variation of the time series data including the kurtosis and the skewness, and from the word feature based on the calculated variation of the time series data and the word feature considering the number of occurrence of the word itself It is characterized by calculating word feature based on time series data.

(1)請求項1〜5に記載の発明によれば、検索ログやツイッターから得た時系列テキストデータにおける番組放送以外の変動の原因である、傾向変動成分および周期変動成分を分離し、除去して、番組に起因する変動成分である不規則変動成分を抽出し、それに基づいて計算した単語特徴度を利用しているので、番組放送に関連する単語をより高精度に抽出して適切なメタデータを付与することができる。
(2)請求項2、4、5に記載の発明によれば、前記不規則変動成分として抽出した単語発生頻度に関する時系列データの分布から算出した尖度および歪度に基づいて、単語特徴度を計算しているので、話題性を考慮した適切なメタデータを付与することができる。
(1) According to the first to fifth aspects of the present invention, the trend fluctuation component and the period fluctuation component, which are causes of fluctuations other than the program broadcast in the time series text data obtained from the search log or Twitter, are separated and removed. Then, irregular fluctuation components that are fluctuation components caused by the program are extracted, and the word feature degree calculated based on the irregular fluctuation components is used, so that words related to the program broadcast can be extracted with higher accuracy and appropriate. Metadata can be added.
(2) According to the inventions as set forth in claims 2, 4, and 5, the word feature degree is based on the kurtosis and the skewness calculated from the distribution of the time series data relating to the word occurrence frequency extracted as the irregular fluctuation component. Therefore, appropriate metadata considering topicality can be assigned.

本発明の情報付与装置の一実施形態例を示すブロック図。The block diagram which shows one Example of the information provision apparatus of this invention. 本発明の情報付与方法の一実施形態例を示すフローチャート。The flowchart which shows one embodiment of the information provision method of this invention. 本発明の一実施形態例のメタデータ抽出部で抽出されたデータ例を示す説明図。Explanatory drawing which shows the example of data extracted by the metadata extraction part of one embodiment of this invention. 本発明の一実施形態例の単語発生時間計算部の計算結果例を示す説明図。Explanatory drawing which shows the example of a calculation result of the word generation time calculation part of one embodiment of this invention. 本発明の一実施形態例の単語特徴度計算部が実行する処理のフローチャート。The flowchart of the process which the word feature degree calculation part of one embodiment of this invention performs. 本発明の一実施形態例の単語特徴度計算部が、時系列データから3つの成分を分解する処理の様子を示す説明図。Explanatory drawing which shows the mode of the process which the word feature degree calculation part of one example of this invention decomposes | disassembles three components from time series data. 本発明の一実施形態例の単語特徴度計算部が、生の時系列データから不規則変動成分を抽出した様子を示す説明図。Explanatory drawing which shows a mode that the word feature degree calculation part of one embodiment of this invention extracted the irregular fluctuation component from raw time series data. 抽出される単語群の例を表し、(a)は従来技術によって生の時系列データを用いて抽出した単語群の説明図、(b)は本実施形態例によって不規則変動成分を用いて抽出した単語群の説明図。An example of extracted word groups, (a) is an explanatory diagram of word groups extracted using raw time series data according to the prior art, (b) is extracted using irregular variation components according to this embodiment example FIG. 本発明の一実施形態例において、単語発生数が急上昇した後の減少が緩やかであるほどその話題は重要であるとし、その単語特徴度に大きな値を割り当てる様子を示した説明図。In one embodiment of the present invention, an explanatory diagram showing a state in which a topic is more important as a decrease after a sudden increase in the number of words is generated, and a large value is assigned to the word feature.

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。本発明では、検索ログ等の時系列テキストデータを利用して、番組コンテンツに話題性を考慮した適切なメタデータを付与するものであり、検索ログ等から得た時系列テキストデータを解析し、番組コンテンツ以外の変動の原因を削減することで、より適切な番組コンテンツによる変動度合いを計算する。さらに、検索数の増加だけでなく、減少度合いを考慮することで、より話題性のある語句を抽出する。本発明は、検索ログだけでなく、Twitter(登録商標)等のタイムスタンプを参照できる情報源や時系列テキストデータにも応用が可能である。   Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments. In the present invention, using time-series text data such as a search log, the program content is provided with appropriate metadata in consideration of topicality, analyzing the time-series text data obtained from the search log, By reducing the causes of fluctuations other than program content, the degree of fluctuation due to more appropriate program content is calculated. Furthermore, not only the increase in the number of searches but also the degree of decrease is taken into account to extract more topical phrases. The present invention can be applied not only to search logs but also to information sources such as Twitter (registered trademark) and time series text data that can refer to time stamps.

図1は本発明の一実施形態例による情報付与装置の構成を示すブロック図であり、図2は図1の装置が行う処理全体の流れを示すフローチャートである。   FIG. 1 is a block diagram showing the configuration of an information providing apparatus according to an embodiment of the present invention, and FIG. 2 is a flowchart showing the overall flow of processing performed by the apparatus of FIG.

図1において、本実施形態例の情報付与装置は、メタデータ抽出手段としてのメタデータ抽出部10、単語抽出手段としての形態素解析部20および単語抽出部30、単語発生時間計算手段としての単語発生時間計算部40、単語特徴度計算手段としての単語特徴度計算部50、特徴語抽出手段としての特徴語抽出部60、時系列テキストDB(データベース)70および文書DB(データベース)80を備えている。   In FIG. 1, the information providing apparatus of the present embodiment includes a metadata extraction unit 10 as a metadata extraction unit, a morpheme analysis unit 20 and a word extraction unit 30 as a word extraction unit, and a word generation as a word occurrence time calculation unit. It includes a time calculator 40, a word feature calculator 50 as a word feature calculator, a feature word extractor 60 as a feature word extractor, a time series text DB (database) 70, and a document DB (database) 80. .

図1の情報付与装置は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。   The information providing apparatus in FIG. 1 is configured by a computer, for example, and includes hardware resources of a normal computer, such as a ROM, a RAM, a CPU, an input device, an output device, a communication interface, a hard disk, a recording medium, and a driving device thereof. .

このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、情報付与装置は、図1に示すように、メタデータ抽出部10、形態素解析部20、単語抽出部30、単語発生時間計算部40、単語特徴度計算部50、特徴語抽出部60、時系列テキストDB70および文書DB80を実装する。   As a result of the cooperation between the hardware resource and the software resource (OS, application, etc.), as shown in FIG. 1, the information adding device is a metadata extraction unit 10, a morpheme analysis unit 20, a word extraction unit 30, and a word generation A time calculation unit 40, a word feature degree calculation unit 50, a feature word extraction unit 60, a time series text DB 70, and a document DB 80 are implemented.

前記時系列テキストDB70および文書DB80は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。   It is assumed that the time series text DB 70 and the document DB 80 are constructed in storage means / storage means such as a hard disk or RAM.

次に、上記のように構成された装置の動作を具体的に説明する。まず、メタデータ抽出部10は、例えばWebなどから番組データを取得し、メタデータを抽出する(ステップS210)。ここで抽出するメタデータは、番組内容に関するテキストデータや、番組の放送時間を表す日時データ等を表す。例えば、図3に示すように、テキストデータとして動物園の紹介に関する文章等があり、日時データとして各々の文章に対応する日時情報がある。テキストデータには、クローズドキャプションや電子番組表(EPG)、テロップ文字認識結果、音声認識技術結果等を用いる。   Next, the operation of the apparatus configured as described above will be specifically described. First, the metadata extraction unit 10 acquires program data from the Web, for example, and extracts metadata (step S210). The metadata extracted here represents text data related to the program content, date / time data representing the broadcast time of the program, and the like. For example, as shown in FIG. 3, there are sentences relating to the introduction of a zoo as text data, and date / time information corresponding to each sentence as date / time data. For text data, a closed caption, an electronic program guide (EPG), a telop character recognition result, a speech recognition technology result, and the like are used.

次に、形態素解析部20が、メタデータ抽出部10により抽出されたメタデータにおけるテキストデータを、形態素解析することで、文法上意味を成す最小の単語に分解し、その結果を単語抽出部30に受け渡す(ステップS220)。単語抽出部30は、前記形態素解析結果から単語データを抽出する(ステップS230)。抽出方法は、例えば、形態素解析結果に基づいて名詞等の任意の品詞を抽出したり、特許文献3等で提案されている固有表現抽出手法を用いたりする。   Next, the morpheme analyzer 20 decomposes the text data in the metadata extracted by the metadata extractor 10 into the smallest word that makes grammatical meaning by analyzing the morpheme, and the result is the word extractor 30. (Step S220). The word extraction unit 30 extracts word data from the morpheme analysis result (step S230). As an extraction method, for example, an arbitrary part of speech such as a noun is extracted based on a morphological analysis result, or a specific expression extraction method proposed in Patent Document 3 or the like is used.

続いて、単語発生時間計算部40が、前記抽出した単語データに関する単語発生時間を、時系列テキストDB70を参照し、計算する(ステップS240)。時系列テキストDB70には、検索ログやTwitterのTweet(登録商標)データ等を格納しておく。単語発生時間は、例えば図4に示すように、単語データにおける各々の単語が、検索ログやTweetに発生した日時として計算される。単語発生時間は、一度記憶装置に格納しておき、時系列テキストDB70が更新された際に追記することも可能である。   Subsequently, the word generation time calculation unit 40 calculates the word generation time related to the extracted word data with reference to the time series text DB 70 (step S240). The time series text DB 70 stores a search log, Twitter's Tweet (registered trademark) data, and the like. For example, as shown in FIG. 4, the word occurrence time is calculated as the date and time when each word in the word data occurred in the search log or Tweet. The word occurrence time can be stored once in the storage device and added when the time-series text DB 70 is updated.

前記計算された単語発生時間は、単語特徴度計算部50に受け渡される。その後、単語特徴度計算部50が、前記単語データ、日時データ、単語発生時間および文書DB80を用いて、単語の特徴度を計算し、その結果を特徴語抽出部60へ受け渡す(ステップS250)。特徴語抽出部60は、単語特徴度計算部50によって計算された単語特徴度に応じて、特徴語の抽出を行う(ステップS260)。   The calculated word occurrence time is transferred to the word feature degree calculation unit 50. Thereafter, the word feature degree calculation unit 50 calculates the word feature degree using the word data, the date / time data, the word occurrence time, and the document DB 80, and passes the result to the feature word extraction unit 60 (step S250). . The feature word extraction unit 60 extracts feature words according to the word feature degree calculated by the word feature degree calculation unit 50 (step S260).

単語特徴度計算部50が実行する処理(ステップS250)について、図5のフローチャートを用いて詳細を説明する。   Details of the process (step S250) executed by the word feature degree calculation unit 50 will be described with reference to the flowchart of FIG.

単語特徴度計算部50が取り扱う各パラメータの定義は次のとおりである。   The definition of each parameter handled by the word feature degree calculation unit 50 is as follows.

単語発生数(単語発生頻度)に関する時系列データをhwi(t)とする。 The time series data regarding the number of word occurrences (word occurrence frequency) is defined as h wi (t).

不規則変動成分として抽出された単語発生数(単語発生頻度)に関する時系列データをh´wi(t)とする。 The time series data relating to the number of occurrences of words (word occurrence frequency) extracted as irregular fluctuation components is assumed to be h ′ wi (t).

単語特徴度の定義は以下のとおりである。   The definition of the word feature is as follows.

Figure 0005952241
Figure 0005952241

Figure 0005952241
Figure 0005952241

Figure 0005952241
Figure 0005952241

Figure 0005952241
Figure 0005952241

Figure 0005952241
Figure 0005952241

以下の説明文において、前記各単語特徴度を表現する場合、前記式(1)〜式(5)を用いて表記することとする。   In the following explanation, when expressing each of the word feature degrees, it is expressed using the formulas (1) to (5).

まず、単語データWにおけるインデクスiの単語wi∈Wについて、単語発生時間計算部40から取得した単語発生時間の情報を量子化することで、単語発生数に関する時系列データを計算する(ステップS510,S520)。量子化は、時刻tの前後で単語wiが発生した回数として計算し、計算後の単語発生数に関する時系列データをhwi(t)と表す。 First, with respect to the word wi∈W of the index i in the word data W, the time series data relating to the number of word occurrences is calculated by quantizing the word occurrence time information acquired from the word occurrence time calculation unit 40 (step S510, S520). Quantization is calculated as the number of occurrences of the word wi before and after the time t, and the time series data regarding the number of occurrences of the word after the calculation is represented as h wi (t).

次に、時系列データhwi(t)を図6に示すように傾向変動成分、周期変動成分、不規則変動成分の三つに分解し、図6(d)の不規則変動成分を抽出した時系列データh´wi(t)を作成する(ステップS530)。 Next, the time-series data h wi (t) is decomposed into three components of a trend variation component, a periodic variation component, and an irregular variation component as shown in FIG. 6, and the irregular variation component in FIG. 6 (d) is extracted. Time-series data h ′ wi (t) is created (step S530).

不規則変動成分には番組放送に起因する変動が含まれるため、不規則変動から数値の急上昇を検出することで、番組放送に関連する単語をより高精度に抽出できる。その理由を次に説明する。一般に多くの時系列データは、長期的な変動を示す傾向変動、週・月・四半期等の間隔の周期的な変動を示す周期変動、偶発的な事象によって引き起こされる不規則変動の要因を持つ。今回扱う検索数等の時系列データも、これらの要因を持つものが多い。例えば、レジャー施設に関する単語は、仕事の多い平日よりも休日である週末に多く検索される傾向が強い。つまり、この傾向による検索数の変動は、週間隔で一定の周期性を持つため、周期変動に分類される。   Since irregular fluctuation components include fluctuations resulting from program broadcasts, it is possible to extract words related to program broadcasts with higher accuracy by detecting a sudden increase in numerical values from irregular fluctuations. The reason will be described next. In general, many time-series data have a factor of a trend fluctuation indicating a long-term fluctuation, a periodic fluctuation indicating a periodic fluctuation of an interval such as a week, a month, or a quarter, and an irregular fluctuation caused by an accidental event. Many of the time series data such as the number of searches handled this time also have these factors. For example, words related to leisure facilities tend to be searched more often on weekends, which are holidays, than on weekdays when there are many jobs. That is, the variation in the number of searches due to this tendency is classified as a periodic variation because it has a certain periodicity at weekly intervals.

一方、番組放送においてレジャー施設が紹介された場合、前述の周期変動に加えて、突発的な検索数の変動を生じることが予測される。したがって、周期的に放送される番組のタイトル等は例外であるが、基本的に番組放送によって提供される新しい内容が原因となる検索数の変動は、不規則変動に含まれる。そこで、本発明では、時系列データhwi(t)から、不規則変動成分を抽出し、不規則変動成分を単語特徴度の計算に用いる。 On the other hand, when a leisure facility is introduced in a program broadcast, it is predicted that a sudden change in the number of searches will occur in addition to the above-described periodic fluctuation. Therefore, although the titles of programs that are broadcast periodically are exceptions, fluctuations in the number of searches that are basically caused by new contents provided by program broadcasting are included in irregular fluctuations. Therefore, in the present invention, irregular fluctuation components are extracted from the time series data h wi (t), and the irregular fluctuation components are used for the calculation of the word feature.

具体的に、不規則変動成分を用いることによって得られる効果を、図7および図8の例を用いて説明する。図7には、ある時系列テキストデータにおける単語「ペンギン」、「温泉」、「旭山動物園」の発生頻度に関する、生の時系列データ(図7(a))および、生の時系列データから抽出された不規則変動成分(図7(b))が示されている。   Specifically, the effect obtained by using the irregular fluctuation component will be described with reference to the examples of FIGS. FIG. 7 shows raw time-series data (FIG. 7 (a)) and raw time-series data regarding the occurrence frequency of the words “penguin”, “hot spring”, and “Asahiyama Zoo” in certain time-series text data. The irregular fluctuation component (FIG. 7 (b)) is shown.

ここで、それぞれ単語に関する生の時系列データは以下の性質を持つ。   Here, the raw time-series data for each word has the following properties.

・「ペンギン」は周期的な変動を含まず、番組放送による変動を含む。   ・ "Penguin" does not include periodic fluctuations, but includes fluctuations due to program broadcasts.

・「温泉」は周期的な変動を含み、番組放送による変動を含まない。   ・ “Onsen” includes periodic fluctuations and does not include fluctuations due to program broadcasts.

・「旭山動物園」は周期的な変動および番組放送による変動を含む。   ・ “Asahiyama Zoo” includes periodic fluctuations and fluctuations due to program broadcasts.

これら生の時系列データにおける数値の急上昇を基に特徴語を抽出すると、図8(a)のような結果が得られる。この結果を見ると、数値の急上昇を検出する際に周期変動の影響を受けてしまうことから、実際に番組放送の影響を受けていない「温泉」が上位に抽出されたり、番組放送の影響を最も受けている「ペンギン」が下位に抽出されたりしてしまっていることがわかる。一方で、生の時系列データから周期変動成分が取り除かれた不規則変動成分を用いることで、生のデータをそのまま用いた場合と比べ、図8(b)のように番組放送の影響を受けた単語をより高精度に抽出できる。番組にメタデータを付与する従来の発明は、生の時系列データをそのまま用いている。一方で本発明において、生の時系列データから抽出した不規則変動成分には、番組放送による変動が含まれると仮定し、これを特徴語の抽出に用いるのは初めての試みである。   When feature words are extracted based on a rapid increase in numerical values in these raw time series data, a result as shown in FIG. 8A is obtained. Looking at this result, it is affected by periodic fluctuations when detecting a sudden increase in numerical values, so “hot springs” that are not actually affected by program broadcasts are extracted to the top, or the effects of program broadcasts are affected. It can be seen that the “Penguin” most received has been extracted in the lower order. On the other hand, by using an irregular fluctuation component obtained by removing the cyclic fluctuation component from the raw time series data, compared with the case where the raw data is used as it is, the program broadcasting is affected as shown in FIG. Can be extracted with higher accuracy. The conventional invention for adding metadata to a program uses raw time-series data as it is. On the other hand, in the present invention, it is assumed that irregular fluctuation components extracted from raw time-series data include fluctuations due to program broadcasting, and this is the first attempt to use them for feature word extraction.

不規則変動成分の抽出方法として、例えば時系列データを各要素に分解するSTL(非特許文献4参照)を用いることができる。STLを用いることで、時系列データhwi(t)は各成分の和として定義され、次の式(6)のように分解される。 As an irregular fluctuation component extraction method, for example, STL (see Non-Patent Document 4) that decomposes time-series data into each element can be used. By using the STL, the time series data h wi (t) is defined as the sum of each component and is decomposed as in the following equation (6).

wi(t)=trendwi(t)+seasonalwi(t)+remainderwi(t) (6)
ここで、trendwi(t)は傾向変動、seasonalwi(t)は周期変動、remainderwi(t)は不規則変動を示す。本発明では不規則変動remainderwi(t)を番組放送によって生じた変動として利用することとする。このとき、remainderwi(t)は負の値を含むため、以降では次の式(7)のh´wi(t)を不規則変動成分として用いる。
h wi (t) = trend wi (t) + seasonal wi (t) + remainder wi (t) (6)
Here, trend wi (t) indicates trend variation, seasonal wi (t) indicates periodic variation, and remainder wi (t) indicates irregular variation. In the present invention, irregular fluctuation remainder wi (t) is used as fluctuation caused by program broadcasting. At this time, since remainder wi (t) includes a negative value, h ′ wi (t) in the following equation (7) is used as an irregular fluctuation component.

Figure 0005952241
Figure 0005952241

それに加えて本発明では、急上昇後の減少度合いを考慮することで、長い時間話題になっている単語を抽出する。一般的に、時系列データにおいて、ある時間において顕著に数値が増加している状態はバーストと呼ばれ、バーストを検出する手法は多く提案されている。非特許文献5では、Web上のページURLのクリック数について時系列データを作成し、時系列データから求めたエントロピーを用いることでバーストを検出し、重要なイベントを抽出している。しかしながら、エントロピーによる手法では、一過性の変動を伴う状態をバーストとして検出できるが、大きな変動の後に数値が持続するものを検出できない。例えば、番組で紹介された商品に関する検索数が、急上昇した後すぐに急降下した場合と、急上昇した後、緩やかに減少した場合とでは、前者が重要なイベントとして扱われてしまう。   In addition, in the present invention, a word that has been a hot topic for a long time is extracted by taking into account the degree of decrease after the rapid rise. In general, in a time series data, a state in which a numerical value increases significantly at a certain time is called a burst, and many techniques for detecting a burst have been proposed. In Non-Patent Document 5, time series data is created for the number of clicks on a page URL on the Web, bursts are detected by using entropy obtained from the time series data, and important events are extracted. However, the entropy technique can detect a state with a transient change as a burst, but cannot detect a state whose numerical value persists after a large change. For example, the former is treated as an important event when the number of searches related to a product introduced in a program suddenly drops after a sharp rise, and when the number of searches for a product that has suddenly risen and then gradually decreases.

本発明では、縦軸を単語発生数、横軸を時間とした図9に示すように、単語発生数が急上昇した後の減少が緩やかであるほど、その話題はより広く拡散しており重要な話題であると仮定し、単語特徴度(式(1))により大きな値を割り当てる。   In the present invention, as shown in FIG. 9 where the vertical axis represents the number of occurrences of the word and the horizontal axis represents the time, as the decrease after the sudden increase in the number of occurrences of the word is more gradual, the topic is more widely spread and important Assuming that the topic is a topic, a larger value is assigned to the word feature (formula (1)).

本発明では、時系列データの変動に基づく単語特徴度(式(1))を計算するために、次の仮定(a)および(b)に基づいて、時系列データの分布における尖度や歪度を利用する。
(a)尖度が大きいほど、分布の尖り度合いや集まり度合いが大きくなるため、単語発生数に突発的に大きな変動が起きており、番組放送の影響を大きく受けている。
(b)歪度が大きいほど、分布は例えば図9(c)のように時間軸の正の方向に裾を伸ばすため、対象の単語が長期間検索等され続けており、番組放送の影響を長く受けている。
In the present invention, the kurtosis and distortion in the distribution of the time series data are calculated based on the following assumptions (a) and (b) in order to calculate the word feature degree (formula (1)) based on the fluctuation of the time series data. Utilize degrees.
(A) The greater the kurtosis, the greater the degree of kurtosis and the degree of gathering of the distribution. Therefore, suddenly large fluctuations occur in the number of word occurrences, which are greatly influenced by program broadcasting.
(B) The greater the skewness, the longer the distribution extends in the positive direction of the time axis, for example, as shown in FIG. 9 (c). It ’s been a long time.

具体的には、時系列データの変動に基づく単語特徴度(式(1))を、不規則変動成分として抽出された時系列データh´wi(t)および単語wiに関する放送日時diを用いて、次のように計算する。 Specifically, the word feature degree (formula (1)) based on the fluctuation of the time series data is used as the time series data h ′ wi (t) extracted as irregular fluctuation components and the broadcast date and time di regarding the word wi. Calculate as follows.

Figure 0005952241
Figure 0005952241

前述の特徴度(式(1))は、単語発生数の時間的変動を基に決定されており、数そのものには依存していない。そのため、単語発生数が少なくても、時系列データの分布次第で単語特徴度が大きくなってしまう。非特許文献5では、前述したエントロピーによる手法に加え、ページURLのクリック数に応じてスコアを決定する、Concern Rateを導入することでこれを解決している。本発明も、同様に前記Concern Rateを導入する。   The above-described feature level (formula (1)) is determined based on the temporal variation of the number of word occurrences, and does not depend on the number itself. Therefore, even if the number of generated words is small, the word feature degree becomes large depending on the distribution of the time series data. In Non-Patent Document 5, in addition to the above-described method based on entropy, this is solved by introducing a Concern Rate that determines the score according to the number of clicks on the page URL. The present invention also introduces the above-mentioned Concate Rate.

Figure 0005952241
Figure 0005952241

ここで、αは各特徴度の比重を決めるための任意の定数である。前記式(2)は単語の検索数等の度合いを表しており、単語データWにおけるwiおよびwi以外の検索数を基に値が決められる。前記式(2)は、wiの発生が最も多ければ1に、最も少なければ0になる。   Here, α is an arbitrary constant for determining the specific gravity of each feature. The expression (2) represents the degree of the number of word searches and the like, and the value is determined based on the number of searches other than wi and wi in the word data W. The above equation (2) is 1 when the occurrence of wi is the most, and 0 when the occurrence of the wi is the least.

本発明においては、非特許文献5に開示されているConcern Rateのように、時系列データの頻度に関するスコア(式(2))を用いている点は同様である。一方、本実施形態例はそれに加えて、時系列データの分布に関するスコアとして、尖度や歪度を利用した新しいスコア、すなわち時系列データの変動に基づく単語特徴度(式(1))で定義される単語特徴度を導入している。これによって、既存手法では難しい、バーストの持続を考慮した検出を実現している。   In the present invention, like the Concaten Rate disclosed in Non-Patent Document 5, a score relating to the frequency of time series data (formula (2)) is used. On the other hand, in this embodiment, in addition to that, as a score related to the distribution of time series data, a new score using kurtosis and skewness, that is, a word feature (formula (1)) based on fluctuation of time series data is defined. Introduced word feature degree. This realizes detection that takes into account burst duration, which is difficult with existing methods.

時系列データに基づく単語特徴度(式(1))は、番組放送が人々に与える影響を考慮することで、話題性の高い単語を検出することができる。   The word feature (formula (1)) based on the time-series data can detect a highly topical word by considering the influence of program broadcasting on people.

尚、前記式(8)〜式(14)の計算は図5のステップS540において実行される。   Note that the calculations of the equations (8) to (14) are executed in step S540 in FIG.

さらに本発明では、他の番組と比較して番組特有の特徴語を抽出するために、文書集合に基づく単語特徴度(式(4))を計算し(ステップS550)、それを用いる。これは、時系列データにおいて顕著な変動や単語発生数として表れない単語と、他の重要でない一般的な単語を区別するために有効である。文書集合に基づく単語特徴度(式(4))には、例えば従来の手法であるtf−idf(非特許文献6参照)や特許文献1の手法等を用いることができる。前記単語特徴度(式(4))を計算するため参照する文書DB80に格納する文書コーパスは、例えば、これまでに放送された番組のメタデータを保存し、各番組のメタデータを一つの文書として使用する方法がある。   Further, in the present invention, in order to extract program-specific characteristic words compared with other programs, a word characteristic (expression (4)) based on a document set is calculated (step S550) and used. This is effective in distinguishing words that do not appear as significant fluctuations or word occurrences in time-series data from other unimportant general words. For example, the conventional technique tf-idf (see Non-Patent Document 6) or the technique disclosed in Patent Document 1 can be used for the word feature (formula (4)) based on the document set. The document corpus stored in the document DB 80 to be referred to for calculating the word feature (formula (4)) stores, for example, metadata of programs broadcast so far, and the metadata of each program is stored in one document. There is a method to use as.

最後に、時系列データに基づく単語特徴度(式(3))および文書コーパスに基づく単語特徴度(式(4))を計算した後、次の式(15)に示す最終的な単語特徴度fwiを計算する。 Finally, after calculating the word feature based on the time series data (formula (3)) and the word feature based on the document corpus (formula (4)), the final word feature shown in the following formula (15) f wi is calculated.

Figure 0005952241
Figure 0005952241

ここで、βは各特徴度の比重を決めるための任意の定数である。fwiは全ての単語wi∈Wについて計算される(ステップS560〜S580)。 Here, β is an arbitrary constant for determining the specific gravity of each feature. f wi is calculated for all words wiεW (steps S560 to S580).

以上の処理によって単語特徴度計算部50において計算された最終的な単語特徴度fwiを用いて、特徴語抽出部60が特徴語の抽出を行う(図2のステップS260)。特徴語抽出部60は、例えば図8に示すように単語特徴度fwiの値が大きい順に単語をソートしたリストを作成し、出力する。 The feature word extraction unit 60 extracts feature words using the final word feature degree f wi calculated by the word feature degree calculation unit 50 by the above processing (step S260 in FIG. 2). For example, as shown in FIG. 8, the feature word extraction unit 60 creates and outputs a list in which words are sorted in descending order of the word feature degree f wi .

以上のように本実施形態例では、番組コンテンツへのメタデータ付与に、これまでの番組放送に関するチャットだけでなく、様々な変動要因を含む検索ログやツイッター等の時系列テキストデータを用い、検索ログやツイッターから計算した時系列データを分解し、不規則変動を番組放送が原因となる変動として利用し、時系列データの変動度合いの計算に、急上昇後の数値の減少度合いを考慮するように構成した。   As described above, in this embodiment, metadata is added to program content by using time series text data such as search logs and Twitter including various fluctuation factors as well as chat related to program broadcasting so far. Decompose time series data calculated from logs and Twitter, use irregular fluctuations as fluctuations caused by program broadcasts, and consider the degree of decrease in numbers after a sudden rise in the calculation of the degree of fluctuation in time series data Configured.

これによって、番組コンテンツに話題性を考慮したメタデータを付与することができる。検索エンジンは、関心のある「人、モノ、出来事」に関する語を検索されることが多いため、検索ログは話題となる語を抽出するために大変有用である。しかしながら、検索ログから得た時系列データにおける変動は、番組放送によるものだけでなく、様々な事象に起因している。ツイッター等他の時系列テキストデータに関しても同様の性質を持つものが多い。本実施形態例によれば、検索ログから得た時系列データを分離し、番組放送以外の変動の原因を削減することで、より適切な変動度合いを計算することができる。また、単語発生数の増加だけでなく、減少度合いを考慮することで、より話題性のある語句を抽出することができる。   Thereby, metadata considering the topicality can be given to the program content. Since search engines often search for words related to “persons, things, and events” of interest, the search log is very useful for extracting words that are topics. However, fluctuations in the time series data obtained from the search log are caused not only by the program broadcast but also by various events. Many other time-series text data such as Twitter have similar properties. According to this embodiment, it is possible to calculate a more appropriate degree of fluctuation by separating time-series data obtained from a search log and reducing the cause of fluctuations other than program broadcasting. In addition to the increase in the number of generated words, a more topical phrase can be extracted by considering the degree of decrease.

また、本実施形態の情報付与装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の情報付与方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。   In addition, a part or all of the functions of each unit in the information providing apparatus of the present embodiment can be configured by a computer program, and the program can be executed using the computer to realize the present invention. It goes without saying that the procedure in the information assigning method can be constituted by a computer program, and the program can be executed by the computer, and the computer-readable recording medium, for example, FD, can be realized by the computer. (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact Disk) -ROM, DVD (Digital Versatile D) sk) -ROM, CD-R, CD-RW, HDD, and recorded in a removable disk, or stored, it is possible or distribute. It is also possible to provide the above program through a network such as the Internet or electronic mail.

10…メタデータ抽出部
20…形態素解析部
30…単語抽出部
40…単語発生時間計算部
50…単語特徴度計算部
60…特徴語抽出部
70…時系列テキストDB
80…文書DB
DESCRIPTION OF SYMBOLS 10 ... Metadata extraction part 20 ... Morphological analysis part 30 ... Word extraction part 40 ... Word generation time calculation part 50 ... Word feature degree calculation part 60 ... Feature word extraction part 70 ... Time series text DB
80 ... Document DB

Claims (5)

番組に関連する情報を付与する情報付与装置であって、
番組データから、番組内容に関するテキストデータおよび番組の放送時間を表す日時データを含むメタデータを抽出するメタデータ抽出手段と、
前記メタデータ抽出手段により抽出されたテキストデータを形態素解析し、その解析結果から単語データを抽出する単語抽出手段と、
前記単語抽出手段により抽出された単語データの各単語が、検索ログやツイッターから得た時系列テキストデータ中に発生した単語発生時間を計算する単語発生時間計算手段と、
前記単語抽出手段により抽出された単語データの単語について、前記単語発生時間計算手段により計算された単語発生時間の情報を量子化することで、単語発生頻度に関する時系列データhwi(t)を作成し、前記作成された時系列データhwi(t)から傾向変動成分および周期変動成分を分離して、番組に起因する変動が含まれる不規則変動成分を抽出した時系列データh´wi(t)を作成し、前記作成された時系列データh´wi(t)および前記メタデータ抽出手段により抽出された日時データを用いて、時系列データに基づく単語特徴度を計算し、文書群が格納された文書データベースを参照して文書群に基づく単語特徴度を計算し、前記時系列データに基づく単語特徴度および文書群に基づく単語特徴度を用いて最終的な単語特徴度を計算する単語特徴度計算手段と、
前記単語特徴度計算手段により計算された最終的な単語特徴度を用いて、前記単語抽出手段により抽出された単語データから特徴語を、番組に関連する情報として抽出する特徴語抽出手段と、
を備えたことを特徴とする情報付与装置。
An information granting device for granting information related to a program,
Metadata extraction means for extracting, from program data, metadata including text data relating to program contents and date / time data representing the broadcast time of the program;
Morphological analysis of the text data extracted by the metadata extraction means, and word extraction means for extracting word data from the analysis result;
A word occurrence time calculating means for calculating a word occurrence time for each word of the word data extracted by the word extracting means, which is generated in time-series text data obtained from a search log or Twitter;
Time-series data h wi (t) relating to the word occurrence frequency is created by quantizing the word occurrence time information calculated by the word occurrence time calculation means for the words of the word data extracted by the word extraction means. and separates the trend component and the periodic variation component from the created time series data h wi (t), when extracting the random variation component that contains the variation due to the program series data h'wi (t ), And using the created time series data h ′ wi (t) and the date and time data extracted by the metadata extraction means, the word feature degree based on the time series data is calculated, and the document group is stored. The word feature based on the document group is calculated with reference to the document database, and the final word feature is calculated using the word feature based on the time series data and the word feature based on the document group. A word features calculation means for calculating,
Feature word extraction means for extracting a feature word from the word data extracted by the word extraction means as information related to a program using the final word feature degree calculated by the word feature degree calculation means;
An information providing apparatus comprising:
前記単語特徴度計算手段は、
時系列データに基づく単語特徴度を計算する際に、
前記時系列データh´wi(t)および前記日時データを用いて、時系列データの分布から算出した尖度および歪度を含む、時系列データの変動に基づく単語特徴度を計算し、
前記計算された時系列データの変動に基づく単語特徴度と単語発生数そのものを考慮した単語特徴度とから前記時系列データに基づく単語特徴度を計算する
ことを特徴とする請求項1に記載の情報付与装置。
The word feature degree calculating means includes:
When calculating word features based on time-series data,
Using the time-series data h ′ wi (t) and the date / time data, calculate a word feature based on fluctuations in the time-series data, including kurtosis and skewness calculated from the distribution of the time-series data,
The word feature based on the time series data is calculated from the word feature based on the calculated variation of the time series data and the word feature considering the number of occurrences of words itself. Information grant device.
番組に関連する情報を付与する情報付与方法であって、
メタデータ抽出手段が、番組データから、番組内容に関するテキストデータおよび番組の放送時間を表す日時データを含むメタデータを抽出するステップと、
単語抽出手段が、前記メタデータ抽出手段により抽出されたテキストデータを形態素解析し、その解析結果から単語データを抽出するステップと、
単語発生時間計算手段が、前記単語抽出手段により抽出された単語データの各単語が、検索ログやツイッターから得た時系列テキストデータ中に発生した単語発生時間を計算するステップと、
単語特徴度計算手段が、前記単語抽出手段により抽出された単語データの単語について、前記単語発生時間計算手段により計算された単語発生時間の情報を量子化することで、単語発生頻度に関する時系列データhwi(t)を作成するステップと、
単語特徴度計算手段が、前記作成された時系列データhwi(t)から傾向変動成分および周期変動成分を分離して、番組に起因する変動が含まれる不規則変動成分を抽出した時系列データh´wi(t)を作成するステップと、
単語特徴度計算手段が、前記作成された時系列データh´wi(t)および前記メタデータ抽出手段により抽出された日時データを用いて、時系列データに基づく単語特徴度を計算するステップと、
単語特徴度計算手段が、文書群を格納した文書データベースを参照して文書群に基づく単語特徴度を計算するステップと、
単語特徴度計算手段が、前記時系列データに基づく単語特徴度および文書群に基づく単語特徴度を用いて最終的な単語特徴度を計算するステップと、
特徴語抽出手段が、前記単語特徴度計算手段により計算された最終的な単語特徴度を用いて、前記単語抽出手段により抽出された単語データから特徴語を、番組に関連する情報として抽出するステップと、
を備えたことを特徴とする情報付与方法。
An information providing method for providing information related to a program,
A step of extracting metadata including text data relating to program contents and date / time data representing broadcast time of the program from the program data;
A word extracting unit performs morphological analysis on the text data extracted by the metadata extracting unit, and extracts word data from the analysis result;
A word occurrence time calculating means for calculating a word occurrence time in which each word of the word data extracted by the word extracting means is generated in time-series text data obtained from a search log or Twitter;
The word feature degree calculation means quantizes the word occurrence time information calculated by the word occurrence time calculation means for the words of the word data extracted by the word extraction means, so that time series data relating to the word occurrence frequency is obtained. creating h wi (t);
Time-series data in which the word feature degree calculation means extracts the irregular variation component including the variation caused by the program by separating the trend variation component and the periodic variation component from the created time-series data h wi (t) creating h ′ wi (t);
A word feature degree calculating means calculating a word feature degree based on the time series data using the created time series data h ′ wi (t) and the date and time data extracted by the metadata extracting means;
A word feature degree calculating means for calculating a word feature degree based on a document group with reference to a document database storing the document group;
A word feature calculation means calculating a final word feature using the word feature based on the time-series data and the word feature based on a document group;
A step of extracting a feature word from the word data extracted by the word extraction unit as information related to a program, using the final word feature calculated by the word feature calculation unit; When,
An information providing method characterized by comprising:
前記単語特徴度計算手段が時系列データに基づく単語特徴度を計算するステップは、
前記時系列データh´wi(t)および前記日時データを用いて、時系列データの分布から算出した尖度および歪度を含む、時系列データの変動に基づく単語特徴度を計算し、
前記計算された時系列データの変動に基づく単語特徴度と単語発生数そのものを考慮した単語特徴度とから前記時系列データに基づく単語特徴度を計算する
ことを特徴とする請求項3に記載の情報付与方法。
The step of calculating the word feature based on the time series data by the word feature calculation means,
Using the time-series data h ′ wi (t) and the date / time data, calculate a word feature based on fluctuations in the time-series data, including kurtosis and skewness calculated from the distribution of the time-series data,
The word feature based on the time series data is calculated from the word feature based on the calculated variation of the time series data and the word feature considering the number of occurrences of words itself. Information grant method.
コンピュータを請求項1又は2に記載の各手段として機能させる情報付与プログラム。   The information provision program which makes a computer function as each means of Claim 1 or 2.
JP2013181731A 2013-09-03 2013-09-03 Information grant apparatus, information grant method, and information grant program Active JP5952241B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013181731A JP5952241B2 (en) 2013-09-03 2013-09-03 Information grant apparatus, information grant method, and information grant program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013181731A JP5952241B2 (en) 2013-09-03 2013-09-03 Information grant apparatus, information grant method, and information grant program

Publications (2)

Publication Number Publication Date
JP2015049766A JP2015049766A (en) 2015-03-16
JP5952241B2 true JP5952241B2 (en) 2016-07-13

Family

ID=52699711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013181731A Active JP5952241B2 (en) 2013-09-03 2013-09-03 Information grant apparatus, information grant method, and information grant program

Country Status (1)

Country Link
JP (1) JP5952241B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4800846B2 (en) * 2006-06-01 2011-10-26 日本電信電話株式会社 Topic degree calculation method and apparatus, program, and computer-readable recording medium
JP5392228B2 (en) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド Program search device and program search method
JP2012099021A (en) * 2010-11-04 2012-05-24 Nippon Telegr & Teleph Corp <Ntt> Topic output device, method and program

Also Published As

Publication number Publication date
JP2015049766A (en) 2015-03-16

Similar Documents

Publication Publication Date Title
US20250245267A1 (en) Segmentation Of Video According To Narrative Theme
US20220044139A1 (en) Search system and corresponding method
Martinez et al. Violence rating prediction from movie scripts
JP6429382B2 (en) Content recommendation device and program
CN103020140A (en) Method and device for automatically filtering comment contents of internet users
JP7395377B2 (en) Content search methods, devices, equipment, and storage media
Elsawy et al. Tweetmogaz v2: Identifying news stories in social media
US10291968B2 (en) Synchronization between multimedia flows and social network threads
JP5952241B2 (en) Information grant apparatus, information grant method, and information grant program
KR102275095B1 (en) The informatization method for youtube video metadata for personal media production
JP5102883B2 (en) User utterance extraction apparatus, method and program
JP5400819B2 (en) Scene important point extraction apparatus, scene important point extraction method, and scene important point extraction program
Galuščáková et al. Experiments with segmentation strategies for passage retrieval in audio-visual documents
JP2018180913A (en) Illegal content search device, illegal content search method, and program
Langlois et al. VIRUS: video information retrieval using subtitles
JP6621437B2 (en) Illegal content search device, illegal content search method, and program
JP6625087B2 (en) Illegal content search device and illegal content search method
JP6530002B2 (en) CONTENT SEARCH DEVICE, CONTENT SEARCH METHOD, PROGRAM
Mochizuki et al. Detecting Topics Popular in the Recent Past from a Closed Caption TV Corpus as a Categorized Chronicle Data.
Galuščáková et al. Visual descriptors in methods for video hyperlinking
Kirihara et al. Keyword Extraction from TV Program Viewers' Tweet Based on Neural Embedding Model.
Cheng et al. Mining the reviews of movie trailers on YouTube and comments on Yahoo Movies
Luo et al. Real-time new event detection for video streams
Ariyasu et al. Message analysis algorithms and their application to social tv
Zhao et al. Mining Service Tags with Enriched Information from the Internet

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160609

R150 Certificate of patent or registration of utility model

Ref document number: 5952241

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350