Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6865701B2 - Speech recognition error correction support device and its program - Google Patents
[go: Go Back, main page]

JP6865701B2 - Speech recognition error correction support device and its program - Google Patents

Speech recognition error correction support device and its program Download PDF

Info

Publication number
JP6865701B2
JP6865701B2 JP2018023711A JP2018023711A JP6865701B2 JP 6865701 B2 JP6865701 B2 JP 6865701B2 JP 2018023711 A JP2018023711 A JP 2018023711A JP 2018023711 A JP2018023711 A JP 2018023711A JP 6865701 B2 JP6865701 B2 JP 6865701B2
Authority
JP
Japan
Prior art keywords
voice
error correction
recognition result
segment
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018023711A
Other languages
Japanese (ja)
Other versions
JP2018180519A5 (en
JP2018180519A (en
Inventor
三島 剛
剛 三島
庄衛 佐藤
庄衛 佐藤
麻乃 一木
麻乃 一木
伊藤 均
均 伊藤
愛子 所澤
愛子 所澤
彰夫 小林
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Publication of JP2018180519A publication Critical patent/JP2018180519A/en
Publication of JP2018180519A5 publication Critical patent/JP2018180519A5/ja
Application granted granted Critical
Publication of JP6865701B2 publication Critical patent/JP6865701B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、音声認識の誤り修正を支援する音声認識誤り修正支援装置およびそのプログラムに関する。 The present invention relates to a voice recognition error correction support device that supports voice recognition error correction and a program thereof.

番組取材等で収録した音声素材(映像・音声素材を含む)の音声を文字として利用する場合、音声を文字に書き起こす作業が必須の作業となっている。通常、この作業は、作業者が収録した素材の音声を聴取し、端末のキーボード等で文字を入力することにより行っている。このとき、作業者は、音声の再生と停止を頻繁に繰り返したり、何度も同一箇所の音声を聞き直したりすることになるが、この作業は熟練者であっても素材の収録時間に対して約6倍の作業時間がかかるとも言われている。 When using the audio of audio material (including video and audio material) recorded in program coverage as characters, the work of transcribing the audio into characters is indispensable. Usually, this work is performed by listening to the voice of the material recorded by the worker and inputting characters with the keyboard of the terminal or the like. At this time, the worker frequently repeats playing and stopping the sound, and re-listens to the sound at the same place many times. It is said that it takes about 6 times as long as the work time.

従来、音声の書き起こし作業を支援する技術として、入力された音声を任意の単位に区切った文(セル)ごとに音声認識処理を施し、音声認識処理された認識結果と、これに対応する音声とを比較し、音声認識処理の誤りを修正する技術が開示されている(特許文献1参照)。
この技術は、音声認識処理においてセル単位で音声を再生し、操作者がセル単位で認識結果を修正し、セルの修正を一般的なテキストエディタの操作で行う。また、この技術では、操作者は、特殊な操作を覚える必要はなく、セルの修正後、セルの先頭から音声を再生して、操作者が認識結果を正しく修正したか否かを確認していた。
Conventionally, as a technology to support the voice transcription work, voice recognition processing is performed for each sentence (cell) in which the input voice is divided into arbitrary units, and the recognition result obtained by the voice recognition processing and the corresponding voice A technique for correcting an error in speech recognition processing is disclosed (see Patent Document 1).
In this technique, the voice is reproduced in cell units in the voice recognition process, the operator corrects the recognition result in cell units, and the cells are corrected by operating a general text editor. In addition, with this technology, the operator does not need to remember any special operation, and after modifying the cell, the voice is played from the beginning of the cell to check whether the operator has corrected the recognition result correctly. It was.

また、従来の音声の書き起こし作業を支援する技術として、音声の認識結果を、単語ごとに対応付けて、単語単位で修正する技術が開示されている(特許文献2,3参照)。
この技術は、字幕放送等のリアルタイム性が要求される誤り修正や、誤りの少ない認識結果を修正する場合には有効である。
Further, as a technique for supporting the conventional speech transcription work, a technique for associating speech recognition results for each word and correcting the speech for each word is disclosed (see Patent Documents 2 and 3).
This technique is effective for error correction such as subtitle broadcasting that requires real-time performance and for correcting recognition results with few errors.

特開2015−184564号公報Japanese Unexamined Patent Publication No. 2015-184564 特開2004−226910号公報Japanese Unexamined Patent Publication No. 2004-226910 特開2005−228178号公報Japanese Unexamined Patent Publication No. 2005-228178

特許文献1で開示されている技術は、セル単位で音声の再生および認識結果の修正を行うため、修正箇所が少なくても、修正箇所の音声と修正結果が合致するか否かを確認するために、セルの先頭から音声を再生する必要がある。
そのため、この技術は、セルの途中にある修正対象箇所の音声が再生されるまで、待ち時間が発生してしまうという問題があった。また、この技術は、セル内で、認識結果に対応する音声を操作者が聞き分ける必要があるため、認識結果が悪くなると、音声と修正対象とを対応付けることが困難になってしまうという問題があった。
Since the technique disclosed in Patent Document 1 reproduces the sound and corrects the recognition result on a cell-by-cell basis, it is necessary to confirm whether or not the sound of the corrected part matches the corrected result even if the corrected part is small. In addition, it is necessary to play the sound from the beginning of the cell.
Therefore, this technique has a problem that a waiting time is generated until the sound of the correction target portion in the middle of the cell is reproduced. Further, in this technology, since it is necessary for the operator to distinguish the voice corresponding to the recognition result in the cell, there is a problem that it becomes difficult to associate the voice with the correction target when the recognition result becomes poor. It was.

また、特許文献2,3で開示されている技術のように、音声の認識結果を単語単位で修正する技術では、認識結果の修正と音声の確認とを素早く行うことは可能である。しかし、複数の単語に渡って認識誤りがある場合、順番に単語を指定して修正を行わなければならず、手順が複雑となり、その操作に慣れるまでに時間がかかってしまうという問題があった。 Further, in the technique of correcting the speech recognition result on a word-by-word basis, such as the technique disclosed in Patent Documents 2 and 3, it is possible to quickly correct the recognition result and confirm the speech. However, if there is a recognition error across multiple words, it is necessary to specify the words in order and make corrections, which complicates the procedure and takes time to get used to the operation. ..

そこで、本発明は、音声認識の誤りを修正する際に、修正対象箇所の音声を素早く再生し、簡易な操作で音声認識の誤り修正を行うことが可能な音声認識誤り修正支援装置およびそのプログラムを提供することを課題とする。 Therefore, the present invention is a voice recognition error correction support device and a program thereof, which can quickly reproduce the voice of the correction target portion and correct the voice recognition error with a simple operation when correcting the voice recognition error. The challenge is to provide.

前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、コンテンツの音声に対する音声認識の誤りを修正する音声認識誤り修正支援装置であって、認識結果分割手段と、認識結果表示制御手段と、誤り修正手段と、音声再生手段と、を備える構成とした。 To solve the above problems, the speech recognition error correction support device according to the present invention, there is provided a speech recognition error correction support device for correcting errors in speech recognition for voice content, the recognition result dividing means, recognition The configuration includes a result display control means, an error correction means, and a voice reproduction means.

かかる構成において、音声認識誤り修正支援装置は、認識結果分割手段によって、テキストデータである音声の認識結果と当該認識結果を構成する単語ごとの時間情報とにより、認識結果を予め定めた基準でセグメントに分割する In such a configuration, the voice recognition error correction support device uses the recognition result dividing means to segment the recognition result based on a predetermined standard based on the recognition result of the voice as text data and the time information for each word constituting the recognition result. It is divided into.

そして、音声認識誤り修正支援装置は、認識結果表示制御手段によって、項目情報とともにセグメントに含まれる単語列を表示するか否かを指定するボタンを表示する。また、音声認識誤り修正支援装置は、認識結果表示制御手段によって、ボタンの選択により、編集領域を表示してセグメントの単語列を展開するか、編集領域を非表示とするかの制御を行う。これによって、認識結果表示制御手段は、音声の認識結果をすべて表示するのではなく、項目一覧によって操作者に編集対象のセグメントを指定させ、対象となったセグメントの単語列を編集領域に展開して操作者に提示する。 Then, the speech recognition error correction support device by the recognition result display control means display the Rubo Tan specify whether to display a word sequence contained in the segment with item information. Further, the speech recognition error correction support device, by the recognition result display control means performs the selection of buttons, or to deploy the word sequence of segments to display the editing area, whether the control and hide the editing area .. As a result, the recognition result display control means does not display all the voice recognition results, but causes the operator to specify the segment to be edited by the item list, and expands the word string of the target segment into the editing area. And present it to the operator.

そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集領域でセグメントの誤りを修正する。このとき、誤り修正手段は、編集領域で指定された単語位置からの時間情報に対応するコンテンツの音声を音声再生手段により再生させる。これによって、誤り修正手段は、認識結果またはその修正結果に対応する音声を操作者が素早く確認可能なように、指定された位置の単語から音声を再生する。
なお、音声認識誤り修正支援装置は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
Then, the speech recognition error correction support device by the error correction means corrects the error of the segment in the editing area. In this case, the error correcting means, is reproduced by the audio reproducing means audio Turkey content to correspond to the time information from by word position specified in the editing area. As a result, the error correction means reproduces the voice from the word at the designated position so that the operator can quickly confirm the recognition result or the voice corresponding to the correction result.
The voice recognition error correction support device can be operated by a voice recognition error correction support program for operating the computer as each of the above-mentioned means.

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、素材コンテンツの音声認識結果を分割して、項目の一覧を表示するため、簡易な操作で音声認識の誤りを確認したい認識結果を素早く選択することができる。
また、本発明によれば、編集領域で単語の位置を指定するという簡易な操作で、対応する音声を再生するため、音声認識結果の誤りの発見や、修正確認を素早く行うことができる。
これによって、本発明は、特別なスキルを必要とせずに、音声認識結果の誤りを修正することができる。
The present invention has the following excellent effects.
According to the present invention, since the voice recognition result of the material content is divided and a list of items is displayed, it is possible to quickly select the recognition result for which the voice recognition error is to be confirmed by a simple operation.
Further, according to the present invention, since the corresponding voice is reproduced by a simple operation of designating the position of the word in the editing area, it is possible to quickly find an error in the voice recognition result and confirm the correction.
Thereby, the present invention can correct the error of the speech recognition result without requiring a special skill.

本発明の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。It is a block block diagram which shows the structure of the voice recognition error correction support device which concerns on embodiment of this invention. 素材情報記憶手段が記憶する記憶内容を説明するための説明図である。It is explanatory drawing for demonstrating the memorized content memorized by the material information storage means. 素材コンテンツを選択する素材コンテンツ選択画面の一例を示す画面構成図である。It is a screen block diagram which shows an example of the material content selection screen which selects a material content. 素材コンテンツの音声認識結果を分割した項目の一覧を示す項目一覧画面の一例を示す画面構成図である。It is a screen block diagram which shows an example of the item list screen which shows the list of the item which divided the voice recognition result of the material content. 項目一覧画面で編集領域に音声認識結果を展開した例を示す画面構成図である。It is a screen block diagram which shows the example which expanded the voice recognition result in the edit area on the item list screen. 編集領域における編集作業の一例を説明するための説明図である。It is explanatory drawing for demonstrating an example of an editing work in an editing area. 音声再生に連動して編集領域の単語の表示属性を変更する例を説明するための説明図である。It is explanatory drawing for demonstrating the example which changes the display attribute of a word of an edit area in conjunction with voice reproduction. 編集領域における編集作業の操作内容を提示する例を説明するための説明図である。It is explanatory drawing for demonstrating the example which presents the operation content of the editing work in an editing area. 編集領域における音声の繰り返し再生を指定する例を説明するための説明図である。It is explanatory drawing for demonstrating the example which specifies the repeated reproduction of audio in an editing area. 本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で生成するセグメント情報生成動作を示すフローチャートである。It is a flowchart which shows the segment information generation operation which generates the voice recognition result of the voice recognition error correction support apparatus which concerns on embodiment of this invention in segment units. 本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で表示装置に提示するセグメント情報提示動作を示すフローチャートである。It is a flowchart which shows the segment information presenting operation which presents the voice recognition result of the voice recognition error correction support device which concerns on embodiment of this invention to a display device in segment units. 本発明の実施形態に係る音声認識誤り修正支援装置の音声再生を行いながら認識結果を修正するセグメント修正動作を示すフローチャートである。It is a flowchart which shows the segment correction operation which corrects a recognition result while performing the voice reproduction of the voice recognition error correction support device which concerns on embodiment of this invention. 本発明の変形例の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。It is a block block diagram which shows the structure of the voice recognition error correction support device which concerns on embodiment of the modification of this invention.

以下、本発明の実施形態について図面を参照して説明する。
[音声認識誤り修正支援装置の構成]
最初に、図1を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1の構成について説明する。
音声認識誤り修正支援装置1は、少なくとも音声を含んだ素材コンテンツにおける音声の認識誤りの修正を支援するものである。なお、本実施形態では、素材コンテンツは、映像と音声とからなるコンテンツ、例えば、放送用素材とする。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[Configuration of voice recognition error correction support device]
First, the configuration of the voice recognition error correction support device 1 according to the embodiment of the present invention will be described with reference to FIG.
The voice recognition error correction support device 1 supports correction of voice recognition errors in at least material content including voice. In the present embodiment, the material content is a content composed of video and audio, for example, a broadcasting material.

音声認識誤り修正支援装置1は、図1に示すように、素材コンテンツ入力手段10と、音声認識手段11と、認識結果分割手段12と、項目情報抽出手段13と、素材情報記憶手段14と、編集手段15と、書き起こし結果出力手段16と、を備える。 As shown in FIG. 1, the voice recognition error correction support device 1 includes a material content input means 10, a voice recognition means 11, a recognition result dividing means 12, an item information extraction means 13, a material information storage means 14, and the like. The editing means 15 and the transcription result output means 16 are provided.

素材コンテンツ入力手段10は、素材コンテンツを入力するものである。
素材コンテンツ入力手段10は、例えば、外部の記憶媒体から素材コンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
この素材コンテンツ入力手段10は、入力した素材コンテンツのうち、音声については、音声認識手段11に出力する。また、素材コンテンツ入力手段10は、入力した素材コンテンツ(映像・音声)を、後記する編集手段15における修正作業に使用するため、素材情報記憶手段14に書き込み記憶する。
The material content input means 10 inputs material content.
The material content input means 10 may, for example, input material content from an external storage medium, or may input material content via a communication line.
The material content input means 10 outputs the voice of the input material content to the voice recognition means 11. Further, the material content input means 10 writes and stores the input material content (video / audio) in the material information storage means 14 in order to use it for the correction work in the editing means 15 described later.

なお、素材コンテンツ入力手段10は、素材情報記憶手段14に素材コンテンツを書き込んだ後、音声認識手段11に対して、素材コンテンツの書き込み完了を通知し、音声認識手段11が素材情報記憶手段14から音声を読み出すこととしてもよい。 After writing the material content in the material information storage means 14, the material content input means 10 notifies the voice recognition means 11 of the completion of writing the material content, and the voice recognition means 11 sends the material information storage means 14 to the material information storage means 14. You may read the voice.

音声認識手段11は、素材コンテンツ入力手段10が入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成するものである。
この音声認識手段11は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の先頭からの経過時間を示す時間情報とを生成する。音声認識手段11は、生成した認識結果の単語と時間情報とを認識結果分割手段12に出力する。なお、音声認識手段11における音声認識の手法は、例えば、特開2010−175765等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
The voice recognition means 11 recognizes the voice of the material content input by the material content input means 10 and generates a recognition result which is text data and time information for each word constituting the recognition result.
The voice recognition means 11 performs voice recognition by using a language model, an acoustic model, and a pronunciation dictionary (not shown), and generates a recognized word and time information indicating an elapsed time from the beginning of the voice of the word. The voice recognition means 11 outputs the generated recognition result word and time information to the recognition result dividing means 12. As the voice recognition method in the voice recognition means 11, for example, a method of recognizing a word string from the voice disclosed in Japanese Patent Application Laid-Open No. 2010-175765 and outputting the result may be used.

認識結果分割手段12は、音声認識手段11で認識された認識結果(単語列)を、予め定めた基準で分割するものである。以下、認識結果分割手段12で生成された分割認識結果のそれぞれのかたまりをセグメントとよぶ。
認識結果分割手段12が用いる分割の基準は、任意の基準を予め定めることができる。
例えば、分割の基準として、音声の無音区間を用いることができる。この場合、認識結果分割手段12は、素材情報記憶手段14に記憶されている音声から音響特徴量であるパワー等によって無音区間を検出し、音声認識手段11による認識結果を、無音区間の前後で分割する。
The recognition result dividing means 12 divides the recognition result (word string) recognized by the voice recognition means 11 according to a predetermined standard. Hereinafter, each block of the division recognition results generated by the recognition result division means 12 is referred to as a segment.
Any standard can be predetermined as the division standard used by the recognition result dividing means 12.
For example, a silent section of voice can be used as a reference for division. In this case, the recognition result dividing means 12 detects a silent section from the voice stored in the material information storage means 14 by power or the like, which is an acoustic feature amount, and transmits the recognition result by the voice recognition means 11 before and after the silent section. To divide.

また、例えば、分割の基準として、映像のカット点を用いることができる。この場合、認識結果分割手段12は、素材情報記憶手段14に記憶されている映像から、隣接するフレームの画像特徴が予め定めた基準よりも大きく異なるフレームをカット点として検出し、カット点の時間の前後で認識結果を分割する。 Further, for example, a cut point of an image can be used as a reference for division. In this case, the recognition result dividing means 12 detects as a cut point a frame in which the image features of the adjacent frames are significantly different from the predetermined reference from the video stored in the material information storage means 14, and the time of the cut point is reached. The recognition result is divided before and after.

また、例えば、分割の基準として、素材コンテンツに予め付加されているメタ情報を用いてもよい。メタ情報としては、GPS(Global Positioning System)の位置情報(ジオタグ)等がある。この場合、認識結果分割手段12は、位置情報によって、素材コンテンツを撮影または集音した場所が異なっている時点で、認識結果を分割する。 Further, for example, meta information added in advance to the material content may be used as a reference for division. The meta information includes GPS (Global Positioning System) position information (geotag) and the like. In this case, the recognition result dividing means 12 divides the recognition result at a time when the place where the material content is photographed or the sound is collected differs depending on the position information.

認識結果分割手段12は、音声認識結果を分割したセグメントを、項目情報抽出手段13に出力する。また、認識結果分割手段12は、セグメントごとに、単語とその時間情報とを素材情報記憶手段14に書き込み記憶する。 The recognition result dividing means 12 outputs the segment obtained by dividing the voice recognition result to the item information extracting means 13. Further, the recognition result dividing means 12 writes and stores a word and its time information in the material information storage means 14 for each segment.

項目情報抽出手段13は、認識結果分割手段12で分割されたセグメントごとに、当該セグメントに含まれる特徴単語を項目として抽出するものである。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、項目情報抽出手段13は、TF−IDF法(TF:Term Frequency、単語の出現頻度、IDF:Inverse Document Frequency、逆文書頻度)によりセグメントを特徴付ける単語を抽出する。TF−IDFは、文書(本実施形態では、セグメント)中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
具体的には、項目情報抽出手段13は、セグメントs内の単語wの出現頻度tf(w,s)を、以下の式(1)で算出する。
The item information extracting means 13 extracts the feature words included in the segment as an item for each segment divided by the recognition result dividing means 12.
This characteristic word is a characteristic word contained in the segment. For example, the item information extracting means 13 extracts words that characterize a segment by the TF-IDF method (TF: Term Frequency, word appearance frequency, IDF: Inverse Document Frequency, reverse document frequency). TF-IDF is a kind of weight related to a word in a document (segment in this embodiment), and is mainly used in fields such as information retrieval and sentence summarization.
Specifically, the item information extraction means 13 calculates the appearance frequency tf (w, s) of the word w in the segment s by the following equation (1).

Figure 0006865701
Figure 0006865701

この式(1)で、nw,sは、ある単語wのセグメントs内での出現回数、Σt∈st,sは、セグメントs内のすべての単語の出現回数の和を示す。
また、項目情報抽出手段13は、ある単語wの逆文書頻度idf(w)を、以下の式(2)で算出する。
In this formula (1), n w, s is the number of occurrences of in segment s of a word w, Σ t∈s n t, s represents the sum of all the number of occurrences of a word in the segment s.
Further, the item information extraction means 13 calculates the inverse document frequency idf (w) of a certain word w by the following equation (2).

Figure 0006865701
Figure 0006865701

この式(2)で、Nは、素材コンテンツ内の全セグメント数、df(w)は、ある単語wが出現する素材コンテンツのセグメントの数(総セグメント数〔総文書数〕)を示す。
そして、項目情報抽出手段13は、セグメント内の各単語について、以下の式(3)に示すように、式(1)のtf値と式(2)のidf値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。
In this formula (2), N indicates the total number of segments in the material content, and df (w) indicates the number of segments of the material content in which a certain word w appears (total number of segments [total number of documents]).
Then, the item information extraction means 13 has the largest product of the tf value of the equation (1) and the idf value of the equation (2) for each word in the segment, as shown in the following equation (3). Alternatively, a word larger than a predetermined reference value is set as a characteristic word of the segment.

Figure 0006865701
Figure 0006865701

項目情報抽出手段13は、抽出した項目を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
なお、項目情報抽出手段13は、TF−IDF法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。
The item information extraction means 13 writes and stores the extracted items in the material information storage means 14 in association with the segments.
The item information extracting means 13 may perform morphological analysis of the segment and extract nouns and proper nouns as feature words without using the TF-IDF method.

また、項目情報抽出手段13は、素材コンテンツが映像を含んでいる場合、特徴単語以外に、セグメントに対応する時間区間の映像からサムネイル画像を抽出してもよい。例えば、項目情報抽出手段13は、セグメントに対応する時間区間の映像の先頭フレームをサムネイル画像として抽出する。項目情報抽出手段13は、抽出したサムネイル画像を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。 Further, when the material content includes an image, the item information extracting means 13 may extract a thumbnail image from the image of the time interval corresponding to the segment in addition to the feature word. For example, the item information extracting means 13 extracts the first frame of the video in the time interval corresponding to the segment as a thumbnail image. The item information extraction means 13 writes and stores the extracted thumbnail image in the material information storage means 14 in association with the segment.

素材情報記憶手段(記憶手段)14は、音声認識の誤りを修正する対象となる素材コンテンツと、素材コンテンツをセグメントに分割した各種情報とを記憶するものである。この素材情報記憶手段14は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。 The material information storage means (storage means) 14 stores material content to be corrected for an error in voice recognition and various types of information obtained by dividing the material content into segments. The material information storage means 14 can be composed of a general storage medium such as a hard disk or a semiconductor memory.

ここで、図2を参照(適宜図1参照)して、素材情報記憶手段14が記憶する素材情報について具体的に説明する。
図2に示すように、素材情報記憶手段14は、音声認識誤りを修正する対象となる素材コンテンツ(映像・音声)A,B…を記憶する。この素材コンテンツ(映像・音声)A,B…は、素材コンテンツ入力手段10によって、記憶されたものである。
Here, the material information stored in the material information storage means 14 will be specifically described with reference to FIG. 2 (see FIG. 1 as appropriate).
As shown in FIG. 2, the material information storage means 14 stores material contents (video / audio) A, B ... To be corrected for a voice recognition error. The material contents (video / audio) A, B ... Are stored by the material content input means 10.

また、図2に示すように、素材情報記憶手段14は、素材コンテンツごとに、音声認識結果をセグメントに分割した情報を記憶する。
図2の例では、素材コンテンツの識別情報(ここでは、ファイル名A,B,…)ごとに、セグメント(識別情報a1,a2,…,b1,…)を対応付けている。
各セグメントは、単語wと時間情報tとを複数含み、それぞれは対応付けられている。
このセグメントごとの単語wおよび時間情報tは、音声認識手段11で対応付けられた単語および時間情報を、認識結果分割手段12が分割した情報である。
Further, as shown in FIG. 2, the material information storage means 14 stores information obtained by dividing the voice recognition result into segments for each material content.
In the example of FIG. 2, segments (identification information a1, a2, ..., b1, ...) Are associated with each identification information (here, file names A, B, ...) Of the material content.
Each segment contains a plurality of words w and time information t, and each segment is associated with each other.
The word w and the time information t for each segment are information obtained by dividing the word and time information associated with the voice recognition means 11 by the recognition result dividing means 12.

また、各セグメントは、項目kとサムネイル画像gとを含む。項目kは、項目情報抽出手段13が抽出した特徴単語である。サムネイル画像gは、項目情報抽出手段13が当該セグメントの先頭の時間情報に対応した、素材コンテンツの映像から抽出したフレーム画像である。
なお、ここでは、素材コンテンツと、素材コンテンツの音声認識結果を分割したセグメントとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図1に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
In addition, each segment includes an item k and a thumbnail image g. Item k is a feature word extracted by the item information extracting means 13. The thumbnail image g is a frame image extracted from the video of the material content by the item information extracting means 13 corresponding to the time information at the beginning of the segment.
Here, the material content and the segment obtained by dividing the voice recognition result of the material content are stored in the same storage means, but may be stored in different storage means.
Returning to FIG. 1, the configuration of the voice recognition error correction support device 1 will be continued.

編集手段15は、外部に接続された修正端末(入力装置2、表示装置3、スピーカ4)を用いて、操作者が、素材情報記憶手段14に記憶されている音声認識結果を修正するものである。なお、修正端末の表示装置3は、タッチパネルを備える構成としてもよい。
編集手段15は、図1に示すように、素材コンテンツ選択手段150と、認識結果表示制御手段151と、誤り修正手段152と、映像/音声再生手段153と、を備える。
The editing means 15 is for the operator to correct the voice recognition result stored in the material information storage means 14 by using the correction terminals (input device 2, display device 3, speaker 4) connected to the outside. is there. The display device 3 of the correction terminal may be configured to include a touch panel.
As shown in FIG. 1, the editing means 15 includes a material content selection means 150, a recognition result display control means 151, an error correction means 152, and a video / audio reproduction means 153.

素材コンテンツ選択手段150は、修正対象となる素材コンテンツを選択するものである。例えば、素材コンテンツ選択手段150は、図3に示すように、素材情報記憶手段14に記憶されている素材コンテンツA,B,Cのいずれかを選択するための選択ボタン301を含んだ素材コンテンツ選択画面30を表示装置3に表示する。そして、素材コンテンツ選択手段150は、素材コンテンツ選択画面30上の選択ボタン301の押下により、修正対象となる素材コンテンツを選択する。素材コンテンツ選択手段150は、選択された素材コンテンツのファイル名等の識別情報を、認識結果表示制御手段151に出力する。 The material content selection means 150 selects the material content to be modified. For example, as shown in FIG. 3, the material content selection means 150 includes a material content selection button 301 for selecting any of the material contents A, B, and C stored in the material information storage means 14. The screen 30 is displayed on the display device 3. Then, the material content selection means 150 selects the material content to be corrected by pressing the selection button 301 on the material content selection screen 30. The material content selection means 150 outputs identification information such as a file name of the selected material content to the recognition result display control means 151.

認識結果表示制御手段151は、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを表示し、選択ボタンの押下により、セグメントの単語列を表示するか否かを制御するものである。 The recognition result display control means 151 displays an item and a selection button for specifying whether or not to display the word string included in the segment for each segment, and displays the word string of the segment by pressing the selection button. It controls whether or not.

ここで、図4および図5を参照(適宜図1参照)して、認識結果表示制御手段151が表示する画面例について、その制御内容とともに説明する。
図4に示すように、認識結果表示制御手段151は、項目一覧画面31を表示装置3の画面上に表示する。
項目一覧画面31は、選択ボタン311と、項目表示欄312と、サムネイル画像表示領域313と、タイムテーブル表示欄314と、スクロールバー表示欄315と、で構成される。
Here, a screen example displayed by the recognition result display control means 151 will be described together with the control contents with reference to FIGS. 4 and 5 (see FIG. 1 as appropriate).
As shown in FIG. 4, the recognition result display control means 151 displays the item list screen 31 on the screen of the display device 3.
The item list screen 31 is composed of a selection button 311, an item display field 312, a thumbnail image display area 313, a timetable display field 314, and a scroll bar display field 315.

選択ボタン311は、セグメントごとに単語列を表示するか否かの選択を行うボタンである。
項目表示欄312は、セグメント内で抽出された項目を表示する領域である。認識結果表示制御手段151は、素材情報記憶手段14から、当該セグメントに対応する項目(図2の項目k)を読み出して、項目表示欄312に表示する。
サムネイル画像表示領域313は、セグメント内で抽出されたサムネイル画像を表示する領域である。認識結果表示制御手段151は、素材情報記憶手段14から、当該セグメントに対応するサムネイル画像(図2のサムネイル画像g)を読み出して、サムネイル画像表示領域313に表示する。
The selection button 311 is a button for selecting whether or not to display a word string for each segment.
The item display field 312 is an area for displaying the items extracted in the segment. The recognition result display control means 151 reads out the item (item k in FIG. 2) corresponding to the segment from the material information storage means 14, and displays it in the item display column 312.
The thumbnail image display area 313 is an area for displaying the thumbnail image extracted in the segment. The recognition result display control means 151 reads out a thumbnail image (thumbnail image g in FIG. 2) corresponding to the segment from the material information storage means 14, and displays it in the thumbnail image display area 313.

タイムテーブル表示欄314は、素材コンテンツの時間軸上におけるセグメント位置を示すタイムテーブルを表示する欄である。認識結果表示制御手段151は、素材情報記憶手段14のセグメントの時間情報(図2の時間情報t)を参照して、タイムテーブルを生成し表示する。
スクロールバー表示欄315は、項目一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。認識結果表示制御手段151は、スクロールバーの上下によって、画面上の項目一覧を更新する。
このように、項目一覧画面31を表示することで、操作者は、項目を確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。
The timetable display column 314 is a column for displaying a timetable indicating the segment position on the time axis of the material content. The recognition result display control means 151 generates and displays a time table with reference to the time information (time information t in FIG. 2) of the segment of the material information storage means 14.
The scroll bar display field 315 is a field for displaying a scroll bar indicating which part of the segment is displayed when the item list does not fit on the screen. The recognition result display control means 151 updates the item list on the screen by moving the scroll bar up and down.
By displaying the item list screen 31 in this way, the operator can confirm the items, and can easily select the segment for which the voice recognition result is to be confirmed, as compared with the case where the voice recognition result is displayed at once. can do.

この項目一覧画面31において、操作者が行う入力装置2のマウスのクリック、あるいは、表示装置3のタッチパネルへのタッチによる選択ボタン(図4中、「open」)311の押下により、認識結果表示制御手段151は、項目一覧画面31において、セグメントの単語列の修正を行う編集領域316(図5参照)を表示する。 On this item list screen 31, recognition result display control is performed by clicking the mouse of the input device 2 performed by the operator or pressing the selection button (“open” in FIG. 4) 311 by touching the touch panel of the display device 3. The means 151 displays an editing area 316 (see FIG. 5) for correcting a word string of a segment on the item list screen 31.

図5は、編集領域316を表示した項目一覧画面31Bを示す画面例である。
この項目一覧画面31Bは、図4で説明した項目一覧画面31に対して、選択されたセグメントにおいて、動画表示領域313Bと、編集領域316とが表示される。
FIG. 5 is a screen example showing the item list screen 31B displaying the edit area 316.
In the item list screen 31B, the moving image display area 313B and the editing area 316 are displayed in the selected segment with respect to the item list screen 31 described with reference to FIG.

動画表示領域313Bは、セグメントに対応する素材コンテンツを再生する領域である。認識結果表示制御手段151は、当該セグメントが選択されたタイミングで、素材情報記憶手段14のセグメントの時間情報(図2の時間情報t)を参照して、対応する素材コンテンツの映像の先頭フレームを動画表示領域313Bに表示する。この動画表示領域313Bの画像領域をマウス等でクリック、あるいは再生開始ボタンstを押下されることで、認識結果表示制御手段151は、映像/音声再生手段153に当該素材コンテンツの再生を指示する。 The moving image display area 313B is an area for reproducing the material content corresponding to the segment. The recognition result display control means 151 refers to the time information (time information t in FIG. 2) of the segment of the material information storage means 14 at the timing when the segment is selected, and sets the first frame of the video of the corresponding material content. It is displayed in the moving image display area 313B. By clicking the image area of the moving image display area 313B with a mouse or the like or pressing the reproduction start button st, the recognition result display control means 151 instructs the video / audio reproduction means 153 to reproduce the material content.

編集領域316は、セグメントに対応する単語列を表示し、編集対象となる領域である。認識結果表示制御手段151は、編集領域316に、素材情報記憶手段14に記憶されている当該セグメントに対応する単語列(図2の単語wの列)を展開する。
なお、このとき、認識結果表示制御手段151は、選択ボタン311を、編集領域316を非表示とするボタン(図4中、「close」)とする。そして、選択ボタン(図4中、「close」)311の押下により、認識結果表示制御手段151は、編集領域316を非表示とし、動画表示領域313Bをサムネイル画像表示領域313として、図4の項目一覧画面31に表示を戻す。
図1に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
The editing area 316 is an area to be edited by displaying the word string corresponding to the segment. The recognition result display control means 151 develops a word string (row of the word w in FIG. 2) corresponding to the segment stored in the material information storage means 14 in the editing area 316.
At this time, the recognition result display control means 151 uses the selection button 311 as a button (“close” in FIG. 4) for hiding the editing area 316. Then, by pressing the selection button (“close” in FIG. 4) 311 the recognition result display control means 151 hides the editing area 316, sets the moving image display area 313B as the thumbnail image display area 313, and sets the item in FIG. The display is returned to the list screen 31.
Returning to FIG. 1, the configuration of the voice recognition error correction support device 1 will be continued.

誤り修正手段152は、操作者の編集操作により、編集領域316(図5)において、セグメントの単語列の誤りを修正するものである。この誤り修正手段152は、単語列を修正する編集動作においては、一般的なテキストエディタ(スクリーンエディタ)として機能する。ただし、誤り修正手段152は、単語列を修正する際に、音声を再生する機能を有する。 The error correction means 152 corrects an error in the word string of the segment in the editing area 316 (FIG. 5) by the editing operation of the operator. The error correction means 152 functions as a general text editor (screen editor) in the editing operation for correcting the word string. However, the error correction means 152 has a function of reproducing a voice when correcting a word string.

具体的には、誤り修正手段152は、編集領域316(図5)において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段152は、音声の再生を停止する。 Specifically, the error correction means 152 reproduces the voice from the selected word in the editing area 316 (FIG. 5) by clicking the mouse or touching the touch panel. Further, during the sound reproduction, the error correction means 152 stops the sound reproduction by selecting an arbitrary position again.

図6は、編集領域における編集作業の一例を説明するための説明図である。
例えば、図6の編集領域316において、「3月」が選択された場合、誤り修正手段152は、素材情報記憶手段14のセグメントの時間情報(図2の時間情報t)を参照して、対応する素材セグメントの位置から音声を再生するように、映像/音声再生手段153に指示する。なお、このとき、音声に連動して、動画表示領域313B(図5)において、音声再生の時間に対応する映像を再生することとしてもよい。
ここで、操作者が、誤り(ここでは、「ハタ寒い」)を発見して修正箇所をマウスでクリック等することで、誤り修正手段152は、音声再生を停止してカーソルCを表示する。そして、誤り修正手段152は、操作者の編集操作により、誤りである「ハタ寒い」を「肌寒い」と修正する。そして、誤り修正手段152は、素材情報記憶手段14に記憶されている誤りのあった単語を、修正後の単語に置き換える。これによって、音声認識誤り修正支援装置1は、操作者による修正後の保存操作を省略することができる。
FIG. 6 is an explanatory diagram for explaining an example of editing work in the editing area.
For example, when "March" is selected in the editing area 316 of FIG. 6, the error correction means 152 refers to the time information of the segment of the material information storage means 14 (time information t of FIG. 2) and responds. The video / audio reproduction means 153 is instructed to reproduce the audio from the position of the material segment to be used. At this time, in conjunction with the audio, the video corresponding to the audio reproduction time may be reproduced in the moving image display area 313B (FIG. 5).
Here, when the operator finds an error (here, "grouper cold") and clicks the corrected portion with the mouse, the error correcting means 152 stops the voice reproduction and displays the cursor C. Then, the error correction means 152 corrects the error "grouper cold" as "chilly" by the editing operation of the operator. Then, the error correction means 152 replaces the erroneous word stored in the material information storage means 14 with the corrected word. As a result, the voice recognition error correction support device 1 can omit the save operation after correction by the operator.

また、誤り修正手段152は、マウスクリック等で指定された単語位置から音声を再生する。
図7は、音声再生に連動して編集領域の単語の表示属性を変更する例を説明するための説明図である。例えば、図7に示すように、編集領域316において、音声の再生を開始したい箇所をマウス等で選択された場合、誤り修正手段152は、素材情報記憶手段14のセグメントの時間情報(図2の時間情報t)を参照し、選択した単語から再生停止の指示があるまで音声を再生するように、映像/音声再生手段153に指示する。
そして、誤り修正手段152は、図7に示すように、音声の再生位置とセグメント中の再生有無とを明示するように、音声の再生に連動して、再生される音声に対応する各単語の表示部分の表示属性を変更する。例えば、誤り修正手段152は、音声に対応する単語を、白黒反転または予め定めた色でカラー表示する。
Further, the error correction means 152 reproduces the sound from the word position designated by a mouse click or the like.
FIG. 7 is an explanatory diagram for explaining an example of changing the display attribute of a word in the editing area in conjunction with voice reproduction. For example, as shown in FIG. 7, when a portion in the editing area 316 where the sound reproduction is to be started is selected with a mouse or the like, the error correction means 152 uses the time information of the segment of the material information storage means 14 (FIG. 2). With reference to the time information t), the video / audio reproduction means 153 is instructed to reproduce the audio from the selected word until the instruction to stop the reproduction is given.
Then, as shown in FIG. 7, the error correction means 152 indicates each word corresponding to the reproduced voice in conjunction with the reproduction of the voice so as to clearly indicate the reproduction position of the voice and the presence / absence of reproduction in the segment. Change the display attribute of the display part. For example, the error correction means 152 displays the word corresponding to the voice in black-and-white inversion or in a predetermined color.

このとき、誤り修正手段152は、操作者が行った操作のフィードバック情報を画面上に提示する。例えば、図8に示すように、誤り修正手段152は、選択された単語位置に音声の再生開始を示すポップアップメッセージpop1を表示し、音声が停止した単語位置に音声の再生終了を示すポップアップメッセージpop2を表示する。これによって、操作者が不慣れであっても、自身の操作内容を把握することができ、安心して操作を行うことができる。 At this time, the error correction means 152 presents feedback information of the operation performed by the operator on the screen. For example, as shown in FIG. 8, the error correction means 152 displays a pop-up message pop1 indicating the start of voice reproduction at the selected word position, and pop-up message pop2 indicating the end of voice reproduction at the word position where the voice has stopped. Is displayed. As a result, even if the operator is unfamiliar, he / she can grasp his / her own operation contents and can perform the operation with peace of mind.

また、誤り修正手段152は、指定された単語または単語列に対応する音声を繰り返し再生することもできる。
例えば、図9に示すように、編集領域316において、音声を再生したい単語または単語列をマウス等で選択(図中、白黒反転領域)することで、誤り修正手段152は、ポップアップメニューpmを表示し、「繰り返し再生」を選択されることで、対応する単語または単語列の音声を繰り返し再生する。
図1に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
Further, the error correction means 152 can repeatedly reproduce the voice corresponding to the designated word or word string.
For example, as shown in FIG. 9, in the editing area 316, by selecting a word or a word string for which voice is to be reproduced with a mouse or the like (black and white inverted area in the figure), the error correction means 152 displays a pop-up menu pm. Then, by selecting "Repeat playback", the sound of the corresponding word or word string is repeatedly played.
Returning to FIG. 1, the configuration of the voice recognition error correction support device 1 will be continued.

映像/音声再生手段153は、素材コンテンツの映像および音声を再生するものである。この映像/音声再生手段153は、認識結果表示制御手段151または誤り修正手段152から指定された位置から、素材コンテンツ(映像・音声)を再生する。 The video / audio reproduction means 153 reproduces the video and audio of the material content. The video / audio reproduction means 153 reproduces the material content (video / audio) from the position designated by the recognition result display control means 151 or the error correction means 152.

書き起こし結果出力手段16は、編集手段15で修正された音声認識結果(書き起こし結果)を、外部に出力するものである。
この書き起こし結果出力手段16は、素材コンテンツのファイル名、または、素材コンテンツ内のセグメントの識別番号を指定されることで、素材情報記憶手段14に記憶されている該当する素材コンテンツまたはセグメントの単語列を読み出して出力する。
The transcription result output means 16 outputs the voice recognition result (transcription result) corrected by the editing means 15 to the outside.
The transcription result output means 16 specifies the file name of the material content or the identification number of the segment in the material content, and the word of the corresponding material content or segment stored in the material information storage means 14. Read the column and output it.

以上説明したように音声認識誤り修正支援装置1を構成することで、音声認識誤り修正支援装置1は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。また、音声認識誤り修正支援装置1は、素材コンテンツに対して、セグメント単位で部分的に誤り修正を行うことができる。
なお、音声認識誤り修正支援装置1は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
By configuring the voice recognition error correction support device 1 as described above, the voice recognition error correction support device 1 can confirm the recognition result word and the original voice by a simple text editing operation. , Speech recognition errors can be corrected. In addition, the voice recognition error correction support device 1 can partially correct errors in the material content on a segment-by-segment basis.
The voice recognition error correction support device 1 can be operated by a voice recognition error correction support program for operating the computer as each of the above-mentioned means.

[音声認識誤り修正支援装置の動作]
次に、図10〜図12を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1の動作について説明する。なお、ここでは、音声認識誤り修正支援装置1の動作として、素材コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で表示装置3に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。
[Operation of voice recognition error correction support device]
Next, the operation of the voice recognition error correction support device 1 according to the embodiment of the present invention will be described with reference to FIGS. 10 to 12. Here, as the operation of the voice recognition error correction support device 1, the segment information generation operation of generating the recognition result by voice recognition for the material content in segment units and the recognition result are presented to the display device 3 in segment units. The segment information presentation operation and the segment correction operation for correcting the recognition result while performing voice reproduction will be described.

(セグメント情報生成動作)
まず、図10を参照(適宜図1参照)して、音声認識誤り修正支援装置1のセグメント情報生成動作について説明する。
ステップS1において、素材コンテンツ入力手段10は、音声認識を行う素材コンテンツを入力する。このとき、素材コンテンツ入力手段10は、入力した素材コンテンツを素材情報記憶手段14に書き込み記憶する。
(Segment information generation operation)
First, the segment information generation operation of the voice recognition error correction support device 1 will be described with reference to FIG. 10 (see FIG. 1 as appropriate).
In step S1, the material content input means 10 inputs the material content for voice recognition. At this time, the material content input means 10 writes and stores the input material content in the material information storage means 14.

ステップS2において、音声認識手段11は、ステップS1で入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて生成する。 In step S2, the voice recognition means 11 recognizes the voice of the material content input in step S1 and generates the recognition result which is text data and the time information for each word constituting the recognition result in association with each other.

ステップS3において、認識結果分割手段12は、ステップS2で認識された認識結果を、予め定めた基準、例えば、映像のカット点、音声の無音区間等によりセグメントに分割する。このとき、認識結果分割手段12は、セグメント単位で、認識結果の単語と時間情報とを対応付けて、素材コンテンツを素材情報記憶手段14に書き込み記憶する。 In step S3, the recognition result dividing means 12 divides the recognition result recognized in step S2 into segments according to a predetermined reference, for example, a video cut point, a silent section of audio, or the like. At this time, the recognition result dividing means 12 writes and stores the material content in the material information storage means 14 in association with the word of the recognition result and the time information in segment units.

ステップS4において、項目情報抽出手段13は、ステップS3で分割されたセグメントごとに、セグメントに含まれる特徴単語を項目として抽出するとともに、セグメントに対応する映像からサムネイル画像を抽出する。このとき、項目情報抽出手段13は、抽出した項目およびサムネイル画像を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
以上の動作によって、音声認識誤り修正支援装置1は、図2に示すように、素材情報記憶手段14に、素材コンテンツと、素材コンテンツをセグメントに分割した各種情報とを記憶する。
In step S4, the item information extracting means 13 extracts the feature word included in the segment as an item for each segment divided in step S3, and extracts the thumbnail image from the video corresponding to the segment. At this time, the item information extraction means 13 writes and stores the extracted items and thumbnail images in the material information storage means 14 in association with the segments.
As a result of the above operation, the voice recognition error correction support device 1 stores the material content and various information obtained by dividing the material content into segments in the material information storage means 14, as shown in FIG.

(セグメント情報提示動作)
次に、図11を参照(適宜図1参照)して、音声認識誤り修正支援装置1のセグメント情報提示動作について説明する。
ステップS10において、素材コンテンツ選択手段150は、素材情報記憶手段14に記憶されている素材コンテンツのいずれかを選択するための選択ボタンを含んだ素材コンテンツ選択画面30(図3参照)を表示装置3に表示する。
(Segment information presentation operation)
Next, the segment information presentation operation of the voice recognition error correction support device 1 will be described with reference to FIG. 11 (see FIG. 1 as appropriate).
In step S10, the material content selection means 150 displays the material content selection screen 30 (see FIG. 3) including a selection button for selecting any of the material contents stored in the material information storage means 14. Display in.

ステップS11において、素材コンテンツ選択手段150は、画面上で選択ボタンが押下されるまで待機し(ステップS11でNo)、選択ボタンが押下された場合(ステップS11でYes)、ステップS12以降の制御を行う認識結果表示制御手段151に制御を移す。 In step S11, the material content selection means 150 waits until the selection button is pressed on the screen (No in step S11), and when the selection button is pressed (Yes in step S11), controls after step S12. Control is transferred to the recognition result display control means 151 to be performed.

ステップS12において、認識結果表示制御手段151は、素材情報記憶手段14に記憶されている各種の情報に基づいて、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを含んだ項目一覧画面31(図4参照)を表示装置3に表示する。 In step S12, the recognition result display control means 151 specifies whether to display an item and a word string included in the segment for each segment based on various information stored in the material information storage means 14. The item list screen 31 (see FIG. 4) including the selection button to be selected is displayed on the display device 3.

ステップS13において、認識結果表示制御手段151は、項目一覧画面で選択ボタン(open)が押下されるまで待機する(ステップS13でNo)。
一方、選択ボタン(open)が押下された場合(ステップS13でYes)、ステップS14において、認識結果表示制御手段151は、図5に示すように、選択されたセグメントに対応して編集領域316を表示し、素材情報記憶手段14に記憶されている当該セグメントに対応する認識結果である単語列を編集領域316に展開する。
In step S13, the recognition result display control means 151 waits until the selection button (open) is pressed on the item list screen (No in step S13).
On the other hand, when the selection button (open) is pressed (Yes in step S13), in step S14, the recognition result display control means 151 sets the editing area 316 corresponding to the selected segment as shown in FIG. The word string which is the recognition result corresponding to the segment which is displayed and stored in the material information storage means 14 is expanded in the editing area 316.

この動作以降、音声認識誤り修正支援装置1は、操作者が画面上で編集結果を修正可能な状態に移行する。なお、選択ボタン(open)の押下により編集領域316を表示した場合、認識結果表示制御手段151は、任意のタイミングで、選択ボタン(close)の押下により編集領域316を非表示とすることができるが、この非表示の動作については図示を省略した。また、項目一覧画面31B(図5参照)の動画表示領域313Bにおける素材コンテンツの再生動作についてもここでは説明を省略する。
以上の動作によって、音声認識誤り修正支援装置1は、素材コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。
After this operation, the voice recognition error correction support device 1 shifts to a state in which the operator can correct the editing result on the screen. When the edit area 316 is displayed by pressing the selection button (open), the recognition result display control means 151 can hide the edit area 316 by pressing the select button (close) at an arbitrary timing. However, the illustration of this non-display operation is omitted. Further, the description of the reproduction operation of the material content in the moving image display area 313B of the item list screen 31B (see FIG. 5) will be omitted here.
By the above operation, the voice recognition error correction support device 1 can correct the voice recognition error in the material content in segment units.

(セグメント修正動作)
次に、図12を参照(適宜図1参照)して、音声認識誤り修正支援装置1のセグメント修正動作について説明する。なお、セグメント修正動作は、操作者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。
(Segment correction operation)
Next, the segment correction operation of the voice recognition error correction support device 1 will be described with reference to FIG. 12 (see FIG. 1 as appropriate). Since the segment correction operation is an arbitrary procedure performed by the operator, an example of an operation in which the voice reproduction and the correction operation are performed together will be described here.

ステップS20において、誤り修正手段152は、操作者のマウスのクリック、あるいは、タッチパネルへのタッチにより、編集領域316(図5)内の音声を再生したい単語または単語列を選択する。このとき、誤り修正手段152は、映像/音声再生手段153を介して、素材情報記憶手段14のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を再生する。これによって、操作者は、音声と音声認識された単語列とを対比して確認することができる。 In step S20, the error correction means 152 selects a word or a word string for which voice is to be reproduced in the editing area 316 (FIG. 5) by clicking the mouse of the operator or touching the touch panel. At this time, the error correction means 152 refers to the time information of the segment of the material information storage means 14 via the video / audio reproduction means 153, and reproduces the sound of the time corresponding to the word or the word string. This allows the operator to compare and confirm the voice and the voice-recognized word string.

ステップS21において、誤り修正手段152は、操作者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正箇所の位置の指定を受け付ける。このとき、誤り修正手段152は、音声が単語列の末尾まで再生されていない、あるいは、繰り返し再生中で、音声が再生中であれば、音声の再生を停止する。 In step S21, the error correction means 152 accepts the designation of the position of the correction portion by clicking the mouse of the operator or touching the touch panel. At this time, the error correction means 152 stops the reproduction of the sound if the sound has not been reproduced to the end of the word string, or if the sound is being repeatedly reproduced and the sound is being reproduced.

ステップS22において、誤り修正手段152は、編集領域の指定された位置にカーソルを表示して、文字削除、文字挿入等の操作者の編集作業により、認識誤りを修正する。ここで、誤り修正手段152は、素材情報記憶手段14の単語を修正結果で更新する。 In step S22, the error correction means 152 displays a cursor at a designated position in the editing area, and corrects the recognition error by the operator's editing work such as character deletion and character insertion. Here, the error correction means 152 updates the word of the material information storage means 14 with the correction result.

ステップS23において、誤り修正手段152は、操作者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正を行った箇所の位置の指定を受け付ける。このとき、誤り修正手段152は、映像/音声再生手段153を介して、素材情報記憶手段14のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を再生する。これによって、操作者は、修正結果が正しいか否かを確認することができる。 In step S23, the error correction means 152 accepts the designation of the position of the corrected portion by clicking the mouse of the operator or touching the touch panel. At this time, the error correction means 152 refers to the time information of the segment of the material information storage means 14 via the video / audio reproduction means 153, and reproduces the sound of the time corresponding to the word or the word string. As a result, the operator can confirm whether or not the correction result is correct.

なお、図示を省略しているが、ステップS23における操作者の確認で、修正箇所がまだ正しく修正されていない場合、ステップS21に戻って、動作を繰り返す。
以上の動作によって、音声認識誤り修正支援装置1は、音声認識の誤りを修正する際に、修正対象箇所の音声を素早く再生し、簡易な操作で音声認識の誤り修正することができる。
Although not shown, if the operator has confirmed in step S23 that the corrected portion has not yet been corrected correctly, the process returns to step S21 and the operation is repeated.
By the above operation, the voice recognition error correction support device 1 can quickly reproduce the voice of the correction target portion when correcting the voice recognition error, and can correct the voice recognition error with a simple operation.

以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、素材コンテンツを、映像および音声を含んだものとして説明したが、音声のみの素材コンテンツであっても構わない。
その場合、項目情報抽出手段13は、項目のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像/音声再生手段153は、音声のみを再生する音声再生手段とすればよい。
Although the embodiment of the present invention has been described above, the present invention is not limited to this embodiment.
Here, the material content has been described as including video and audio, but the material content may be audio only.
In that case, the item information extracting means 13 may extract only the items and not the thumbnail images. Further, the video / audio reproduction means 153 may be an audio reproduction means for reproducing only the audio.

また、ここでは、音声認識誤り修正支援装置1に、直接、修正端末(入力装置2、表示装置3、スピーカ4)を接続する構成としたが、これらは、ネットワークを介して接続する形態であっても構わない。 Further, here, the correction terminal (input device 2, display device 3, speaker 4) is directly connected to the voice recognition error correction support device 1, but these are in the form of being connected via a network. It doesn't matter.

また、音声認識誤り修正支援装置1は、修正端末を複数備える構成であっても構わない。その場合、認識結果表示制御手段151は、ある修正端末が修正を行っているセグメントについて、他の修正端末が修正対象として選択しないように排他制御し、例えば、他の修正端末において、選択ボタンを表示しないようにする。 Further, the voice recognition error correction support device 1 may be configured to include a plurality of correction terminals. In that case, the recognition result display control means 151 exclusively controls the segment being modified by one modification terminal so that another modification terminal does not select it as a modification target. For example, in another modification terminal, a selection button is pressed. Hide it.

また、音声認識誤り修正支援装置1の編集手段15は、認識結果を修正するサーバとして、画面制御を行うユーザインタフェースを提供し、ネットワークを介して接続された複数の修正端末が、当該ユーザインタフェースを介して動作するクライアントとして機能させることとしてもよい。これによって、ネットワークを介して、複数の地点で、音声認識の誤りを修正することができる。 Further, the editing means 15 of the voice recognition error correction support device 1 provides a user interface for performing screen control as a server for correcting the recognition result, and a plurality of correction terminals connected via a network use the user interface. It may be made to function as a client that operates through. This makes it possible to correct voice recognition errors at multiple points via the network.

また、音声認識誤り修正支援装置1は、音声認識手段11を外部に備えてもよい。
例えば、図13に示す音声認識誤り修正支援装置1Bの構成としてもよい。音声認識誤り修正支援装置1Bは、音声認識誤り修正支援装置1(図1)の音声認識手段11を音声認識装置として外部に備える。この場合、認識結果分割手段12は、音声認識手段11から出力される音声の認識結果と当該認識結果を構成する単語ごとの時間情報とを、入力インタフェースである認識結果入力手段17を介して入力すればよい。
なお、音声認識誤り修正支援装置1Bも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
Further, the voice recognition error correction support device 1 may be provided with the voice recognition means 11 externally.
For example, the voice recognition error correction support device 1B shown in FIG. 13 may be configured. The voice recognition error correction support device 1B is externally provided with the voice recognition means 11 of the voice recognition error correction support device 1 (FIG. 1) as a voice recognition device. In this case, the recognition result dividing means 12 inputs the voice recognition result output from the voice recognition means 11 and the time information for each word constituting the recognition result via the recognition result input means 17 which is an input interface. do it.
The voice recognition error correction support device 1B can also be operated by the voice recognition error correction support program for operating the computer as each of the above-mentioned means.

1,1B 音声認識誤り修正支援装置
10 素材コンテンツ入力手段
11 音声認識手段
12 認識結果分割手段
13 項目情報抽出手段
14 素材情報記憶手段(記憶手段)
15 編集手段
150 素材コンテンツ選択手段
151 認識結果表示制御手段
152 誤り修正手段
153 映像/音声再生手段(音声再生手段)
16 書き起こし結果出力手段
17 認識結果入力手段
1,1B Voice recognition error correction support device 10 Material content input means 11 Voice recognition means 12 Recognition result division means 13 Item information extraction means 14 Material information storage means (memory means)
15 Editing means 150 Material content selection means 151 Recognition result display control means 152 Error correction means 153 Video / audio reproduction means (audio reproduction means)
16 Transcription result output means 17 Recognition result input means

Claims (9)

コンテンツに含まれる音声に対する音声認識の誤りを修正する音声認識誤り修正支援装置であって、
テキストデータである前記音声の認識結果と当該認識結果を構成する単語ごとの時間情報とにより、前記認識結果を予め定めた基準でセグメントに分割する認識結果分割手段と、
項目情報とともに前記セグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、前記ボタンの選択により、編集領域を表示して前記セグメントの単語列を展開するか、前記編集領域を非表示とするかの制御を行う認識結果表示制御手段と、
前記編集領域で前記セグメントの誤りを修正する誤り修正手段と、
前記編集領域の前記セグメントに対応する音声を再生する音声再生手段と、を備え、
前記認識結果分割手段は、前記コンテンツに含まれる位置情報または時間情報の変化点で、前記認識結果を分割し、
前記誤り修正手段は、前記編集領域で指定された単語位置からの前記時間情報に対応する前記コンテンツの音声を前記音声再生手段により再生させることを特徴とする音声認識誤り修正支援装置。
It is a voice recognition error correction support device that corrects voice recognition errors in the voice contained in the content.
A recognition result dividing means for dividing the recognition result into segments according to a predetermined standard based on the recognition result of the voice which is text data and the time information for each word constituting the recognition result.
A button for specifying whether or not to display the word string included in the segment is displayed together with the item information, and by selecting the button, the edit area is displayed and the word string of the segment is expanded, or the edit area is displayed. A recognition result display control means that controls whether to hide or not,
An error correction means for correcting an error in the segment in the editing area,
A sound reproduction means for reproducing the sound corresponding to the segment of the editing area is provided.
The recognition result dividing means divides the recognition result at the change point of the position information or the time information included in the content.
The error correction means is a voice recognition error correction support device, characterized in that the voice of the content corresponding to the time information from the word position designated in the editing area is reproduced by the voice reproduction means.
コンテンツに含まれる音声に対する音声認識の誤りを修正する音声認識誤り修正支援装置であって、
テキストデータである前記音声の認識結果と当該認識結果を構成する単語ごとの時間情報とにより、前記認識結果を予め定めた基準でセグメントに分割する認識結果分割手段と、
項目情報とともに前記セグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、前記ボタンの選択により、編集領域を表示して前記セグメントの単語列を展開するか、前記編集領域を非表示とするかの制御を行う認識結果表示制御手段と、
前記編集領域で前記セグメントの誤りを修正する誤り修正手段と、
前記編集領域の前記セグメントに対応する音声を再生する音声再生手段と、を備え、
前記コンテンツは映像を含み、前記認識結果分割手段は、前記映像のカット点で、前記認識結果を分割し、
前記誤り修正手段は、前記編集領域で指定された単語位置からの前記時間情報に対応する前記コンテンツの音声を前記音声再生手段により再生させることを特徴とする音声認識誤り修正支援装置。
It is a voice recognition error correction support device that corrects voice recognition errors in the voice contained in the content.
A recognition result dividing means for dividing the recognition result into segments according to a predetermined standard based on the recognition result of the voice which is text data and the time information for each word constituting the recognition result.
A button for specifying whether or not to display the word string included in the segment is displayed together with the item information, and by selecting the button, the edit area is displayed and the word string of the segment is expanded, or the edit area is displayed. A recognition result display control means that controls whether to hide or not,
An error correction means for correcting an error in the segment in the editing area,
A sound reproduction means for reproducing the sound corresponding to the segment of the editing area is provided.
The content includes an image, and the recognition result dividing means divides the recognition result at a cut point of the image.
The error correction means is a voice recognition error correction support device, characterized in that the voice of the content corresponding to the time information from the word position designated in the editing area is reproduced by the voice reproduction means.
コンテンツに含まれる音声に対する音声認識の誤りを修正する音声認識誤り修正支援装置であって、
テキストデータである前記音声の認識結果と当該認識結果を構成する単語ごとの時間情報とにより、前記認識結果を予め定めた基準でセグメントに分割する認識結果分割手段と、
項目情報とともに前記セグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、前記ボタンの選択により、編集領域を表示して前記セグメントの単語列を展開するか、前記編集領域を非表示とするかの制御を行う認識結果表示制御手段と、
前記編集領域で前記セグメントの誤りを修正する誤り修正手段と、
前記編集領域の前記セグメントに対応する音声を再生する音声再生手段と、
複数の前記セグメントに含まれる単語から、前記セグメントごとに、TF−IDF法により特徴単語を前記項目情報として抽出する項目情報抽出手段と、を備え、
前記認識結果表示制御手段は、前記セグメントに含まれる単語列を表示するか否かを指定するボタンを含んだ前記項目情報の一覧を表示し、
前記誤り修正手段は、前記編集領域で指定された単語位置からの前記時間情報に対応する前記コンテンツの音声を前記音声再生手段により再生させることを特徴とする音声認識誤り修正支援装置。
It is a voice recognition error correction support device that corrects voice recognition errors in the voice contained in the content.
A recognition result dividing means for dividing the recognition result into segments according to a predetermined standard based on the recognition result of the voice which is text data and the time information for each word constituting the recognition result.
A button for specifying whether or not to display the word string included in the segment is displayed together with the item information, and by selecting the button, the edit area is displayed and the word string of the segment is expanded, or the edit area is displayed. A recognition result display control means that controls whether to hide or not,
An error correction means for correcting an error in the segment in the editing area,
An audio reproduction means for reproducing the audio corresponding to the segment in the editing area, and
Each of the segments is provided with an item information extraction means for extracting a feature word as the item information by the TF-IDF method from the words included in the plurality of the segments.
The recognition result display control means displays a list of the item information including a button for specifying whether or not to display the word string included in the segment.
The error correction means is a voice recognition error correction support device, characterized in that the voice of the content corresponding to the time information from the word position designated in the editing area is reproduced by the voice reproduction means.
コンテンツに含まれる音声に対する音声認識の誤りを修正する音声認識誤り修正支援装置であって、
テキストデータである前記音声の認識結果と当該認識結果を構成する単語ごとの時間情報とにより、前記認識結果を予め定めた基準でセグメントに分割する認識結果分割手段と、
項目情報とともに前記セグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、前記ボタンの選択により、編集領域を表示して前記セグメントの単語列を展開するか、前記編集領域を非表示とするかの制御を行う認識結果表示制御手段と、
前記編集領域で前記セグメントの誤りを修正する誤り修正手段と、
前記編集領域の前記セグメントに対応する音声を再生する音声再生手段と、を備え、
前記誤り修正手段は、前記編集領域で指定された単語位置からの前記時間情報に対応する前記コンテンツの音声を前記音声再生手段により再生させ、前記コンテンツの音声再生中に前記編集領域の任意の単語位置を指定されることで、前記音声再生手段における音声の再生を停止させ、前記編集領域で指定された単語位置に音声の再生開始を示すポップアップメッセージを表示し、音声が停止した単語位置に音声の再生終了を示すポップアップメッセージを表示することを特徴とする音声認識誤り修正支援装置。
It is a voice recognition error correction support device that corrects voice recognition errors in the voice contained in the content.
A recognition result dividing means for dividing the recognition result into segments according to a predetermined standard based on the recognition result of the voice which is text data and the time information for each word constituting the recognition result.
A button for specifying whether or not to display the word string included in the segment is displayed together with the item information, and by selecting the button, the edit area is displayed and the word string of the segment is expanded, or the edit area is displayed. A recognition result display control means that controls whether to hide or not,
An error correction means for correcting an error in the segment in the editing area,
A sound reproduction means for reproducing the sound corresponding to the segment of the editing area is provided.
The error correction means reproduces the sound of the content corresponding to the time information from the word position designated in the editing area by the sound reproduction means , and any word in the editing area during the sound reproduction of the content. By designating the position, the playback of the voice in the voice reproduction means is stopped, a pop-up message indicating the start of voice playback is displayed at the word position specified in the editing area, and the voice is displayed at the word position where the voice is stopped. speech recognition error correction support device according to claim you to view the pop-up message indicating the playback end.
前記誤り修正手段は、前記コンテンツの音声再生中に前記編集領域の任意の単語位置を指定されることで、前記音声再生手段における音声の再生を停止することを特徴とする請求項1から請求項のいずれか一項に記載の音声認識誤り修正支援装置。 Claims 1 to claim 1, wherein the error correction means stops the reproduction of the voice in the voice reproduction means by designating an arbitrary word position in the editing area during the voice reproduction of the content. The voice recognition error correction support device according to any one of 3. 前記誤り修正手段は、前記コンテンツの音声再生に連動して、再生される音声に対応する前記編集領域の単語の表示属性を変更することを特徴とする請求項1から請求項のいずれか一項に記載の音声認識誤り修正支援装置。 Any one of claims 1 to 5 , wherein the error correction means changes the display attribute of a word in the editing area corresponding to the reproduced voice in conjunction with the voice reproduction of the content. The voice recognition error correction support device described in the section. 前記誤り修正手段は、前記編集領域で指定された単語または指定区間の単語列の前記時間情報に対応する前記コンテンツの音声を、前記音声再生手段により、繰り返して再生することを特徴とする請求項1から請求項6のいずれか一項に記載の音声認識誤り修正支援装置。 The claim is characterized in that the error correction means repeatedly reproduces the voice of the content corresponding to the time information of the word designated in the editing area or the word string of the designated section by the voice reproducing means. The voice recognition error correction support device according to any one of claims 1 to 6. コンテンツに含まれる音声に対する音声認識の誤りを修正する音声認識誤り修正支援装置であって、
テキストデータである前記音声の認識結果と当該認識結果を構成する単語ごとの時間情報とにより、前記認識結果を発話内容の切り替わりごとのセグメントに分割する認識結果分割手段と、
項目情報とともに前記セグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、前記ボタンの選択により、編集領域を表示して前記セグメントの単語列を展開するか、前記編集領域を非表示とするかの制御を行う認識結果表示制御手段と、
前記編集領域で前記セグメントの誤りを修正する誤り修正手段と、
前記編集領域の前記セグメントに対応する音声を再生する音声再生手段と、を備え、
前記誤り修正手段は、前記編集領域で指定された単語位置からの前記時間情報に対応する前記コンテンツの音声を前記音声再生手段により再生させることを特徴とする音声認識誤り修正支援装置。
It is a voice recognition error correction support device that corrects voice recognition errors in the voice contained in the content.
A recognition result dividing means for dividing the recognition result into segments for each change in the utterance content based on the recognition result of the voice which is text data and the time information for each word constituting the recognition result.
A button for specifying whether or not to display the word string included in the segment is displayed together with the item information, and by selecting the button, the edit area is displayed and the word string of the segment is expanded, or the edit area is displayed. A recognition result display control means that controls whether to hide or not,
An error correction means for correcting an error in the segment in the editing area,
A sound reproduction means for reproducing the sound corresponding to the segment of the editing area is provided.
The error correction means is a voice recognition error correction support device, characterized in that the voice of the content corresponding to the time information from the word position designated in the editing area is reproduced by the voice reproduction means.
コンピュータを、請求項1から請求項のいずれか一項に記載の音声認識誤り修正支援装置として機能させるための音声認識誤り修正支援プログラム。 A voice recognition error correction support program for causing a computer to function as the voice recognition error correction support device according to any one of claims 1 to 8.
JP2018023711A 2017-04-18 2018-02-14 Speech recognition error correction support device and its program Active JP6865701B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017082196 2017-04-18
JP2017082196 2017-04-18

Publications (3)

Publication Number Publication Date
JP2018180519A JP2018180519A (en) 2018-11-15
JP2018180519A5 JP2018180519A5 (en) 2020-11-19
JP6865701B2 true JP6865701B2 (en) 2021-04-28

Family

ID=64275398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018023711A Active JP6865701B2 (en) 2017-04-18 2018-02-14 Speech recognition error correction support device and its program

Country Status (1)

Country Link
JP (1) JP6865701B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021009243A (en) * 2019-07-02 2021-01-28 コニカミノルタ株式会社 Image forming device and program for controlling it
JP7424801B2 (en) * 2019-11-12 2024-01-30 株式会社Tbsテレビ Video editing output control device using text data, video editing output method using text data, and program
JP7634940B2 (en) * 2020-02-14 2025-02-25 カシオ計算機株式会社 Electronic device, playback method, and playback program
CN111467198B (en) * 2020-04-28 2022-12-09 天赋光彩医疗科技(苏州)有限公司 Eyesight improving and consciousness restoring instrument

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282291A (en) * 2000-03-31 2001-10-12 Sanyo Electric Co Ltd Voice data processor
JP2006330170A (en) * 2005-05-24 2006-12-07 Nhk Engineering Services Inc Recorded document creation support system
JP2006202321A (en) * 2006-03-07 2006-08-03 Sony Corp Information processing apparatus, information processing method, and program
US8392186B2 (en) * 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
JP5799621B2 (en) * 2011-07-11 2015-10-28 ソニー株式会社 Information processing apparatus, information processing method, and program
JP5740368B2 (en) * 2012-08-28 2015-06-24 日本電信電話株式会社 Discriminative speech recognition accuracy estimation apparatus, discriminative speech recognition accuracy estimation method, and program

Also Published As

Publication number Publication date
JP2018180519A (en) 2018-11-15

Similar Documents

Publication Publication Date Title
JP6242773B2 (en) Conference information storage device, method and program
US6148304A (en) Navigating multimedia content using a graphical user interface with multiple display regions
JP4127668B2 (en) Information processing apparatus, information processing method, and program
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
US20080079693A1 (en) Apparatus for displaying presentation information
JP6865701B2 (en) Speech recognition error correction support device and its program
US20150278181A1 (en) Method and system for creating multimedia presentation prototypes
CN114157823A (en) Information processing apparatus, information processing method, and computer-readable medium
KR102093938B1 (en) System for learning languages using the video selected by the learners and learning contents production method thereof
JP2004266576A (en) Media data storage device and media data storage processing program
JP2005228178A (en) System and program for supporting preparation of written text
JP4741406B2 (en) Nonlinear editing apparatus and program thereof
US11119727B1 (en) Digital tutorial generation system
JP6949075B2 (en) Speech recognition error correction support device and its program
JP2005341182A (en) Cooking recipe editing and presentating system
JP2018180519A5 (en)
JP7369739B2 (en) Video summarization device, video summarization method, and program
CN104699745B (en) Instantaneous speech power and speech output method
CN110782899B (en) Information processing device, storage medium and information processing method
JP2001272990A (en) Interaction recording and editing device
WO2019069997A1 (en) Information processing device, screen output method, and program
JP7481863B2 (en) Speech recognition error correction support device, program, and method
JP2020140374A (en) Electronic book reproducing device and digital book reproducing program
JP7119857B2 (en) Editing program, editing method and editing device
KR102636708B1 (en) Electronic terminal apparatus which is able to produce a sign language presentation video for a presentation document, and the operating method thereof

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201005

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201005

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210406

R150 Certificate of patent or registration of utility model

Ref document number: 6865701

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250