JP7243145B2 - Information processing device, information processing system and information processing method - Google Patents
Information processing device, information processing system and information processing method Download PDFInfo
- Publication number
- JP7243145B2 JP7243145B2 JP2018221642A JP2018221642A JP7243145B2 JP 7243145 B2 JP7243145 B2 JP 7243145B2 JP 2018221642 A JP2018221642 A JP 2018221642A JP 2018221642 A JP2018221642 A JP 2018221642A JP 7243145 B2 JP7243145 B2 JP 7243145B2
- Authority
- JP
- Japan
- Prior art keywords
- message
- information processing
- similarity
- voice
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
本発明は、情報処理装置、情報処理システム及び情報処理方法に関する。 The present invention relates to an information processing device, an information processing system, and an information processing method.
会議中に議事録を手入力で作成する場合、発言の抜け、漏れ又は個人の主観が入ることがある。一方、会議音声を録音し後日文字に起こして議事録を作成する場合、大きな労力と時間が必要であった。そこで、議事録作成の労力を低減するため、リアルタイムに会議中の音声認識を行い、文章化することで会議中に抜け又は漏れのない議事録作成の支援を行う会議支援システムが知られている(例えば特許文献1)。 When manually creating minutes during a meeting, omissions, omissions, or individual subjectivity may be entered. On the other hand, recording conference voices and transcribing them into characters at a later date to create minutes requires a great deal of labor and time. Therefore, in order to reduce the labor required to create minutes, there is known a meeting support system that performs voice recognition during a meeting in real time and converts it into text to support the creation of minutes without omissions or omissions during the meeting. (For example, Patent Document 1).
しかしながら、従来の音声認識を利用した会議支援システムにおいては、音声認識精度向上のために高性能なマイクあるいは集音性が優れたマイク等が必要であり、使用環境を構築するためのコストが大きかった。 However, conventional conference support systems that use speech recognition require high-performance microphones or microphones with excellent sound-collecting properties in order to improve the accuracy of speech recognition. rice field.
また、会議参加者が個々にマイクで音声を認識すると、それぞれのマイクで音声認識が実行されるため、会議支援システムとしては発言者の発言が重複して取得されてしまうことがあった。また、同一の発言が繰り返された場合及び複数の会議参加者が同時に発言した場合に正しく議事録を取得することが困難であった。一方、発言者のみの音声を取得するために使用される遮音性を有するマイクは、高価かつ複雑な装置であり、会議支援システムの運用を困難にするものであった。 In addition, when conference participants individually recognize their voices with microphones, the voice recognition is performed with each microphone, so that the conference support system may acquire the speaker's utterances redundantly. In addition, it is difficult to obtain the minutes correctly when the same speech is repeated or when a plurality of conference participants speak at the same time. On the other hand, the sound-insulating microphone used to capture the voice of only the speaker is an expensive and complicated device, making the operation of the conference support system difficult.
本発明は、上記の点に鑑みてなされたものであって、同一の音源から音声を複数のマイクで同時に取得した場合であっても、一名の発言として処理することを目的とする。 SUMMARY OF THE INVENTION The present invention has been made in view of the above points, and it is an object of the present invention to process the speech as one person's utterance even when the speech is simultaneously acquired by a plurality of microphones from the same sound source.
そこで上記課題を解決するため、情報処理装置は、複数の情報処理端末と接続され、情報処理端末において取得された音声が音声認識されることにより得られたテキスト及び前記音声の取得が開始された時刻を含むメッセージを取得する取得部と、前記取得部により取得された第1のメッセージに含まれるテキストと、前記取得部により取得され、前記第1のメッセージに含まれる前記時刻以前の前記時刻を有する第2のメッセージに含まれるテキストとの類似度を算出する第1の算出部と、前記第1の算出部により算出される類似度に基づいて、前記第1のメッセージを記録するか否かを決定する決定部と、前記音声の音声波形の類似度を算出する第2の算出部とを有し、前記第1の算出部により算出される類似度により類似していると判定された場合、前記第2の算出部は、前記第1のメッセージに含まれる音声波形と、前記第2のメッセージに含まれる音声波形との類似度を算出し、前記決定部は、前記第2の算出部により算出される類似度に基づいて、前記第1のメッセージを記録するか否かを決定する。 Therefore, in order to solve the above problem, an information processing apparatus is connected to a plurality of information processing terminals, and acquisition of the text and the voice obtained by recognizing the voice acquired by the information processing terminal is started. an acquisition unit that acquires a message including a time, text included in a first message acquired by the acquisition unit, and the time before the time included in the first message acquired by the acquisition unit; a first calculator that calculates a degree of similarity with a text included in a second message; and whether or not to record the first message based on the degree of similarity calculated by the first calculator and a second calculation unit for calculating the similarity of the speech waveform of the speech, and when it is determined that the similarity is similar by the similarity calculated by the first calculation unit , the second calculation unit calculates a similarity between a speech waveform included in the first message and a speech waveform included in the second message, and the determination unit performs the second calculation unit It is determined whether to record the first message based on the similarity calculated by .
同一の音源から音声を複数のマイクで同時に取得した場合であっても、一名の発言として処理することができる。 Even when voices are simultaneously acquired from the same sound source by a plurality of microphones, they can be processed as utterances by one person.
以下、図面に基づいて本発明の実施の形態を説明する。 BEST MODE FOR CARRYING OUT THE INVENTION An embodiment of the present invention will be described below based on the drawings.
図1は、本発明の実施の形態における情報処理システム1の構成例を示す図である。図1に示されるように、本発明の実施の形態における情報処理システム1は、情報処理装置10及びクライアント20を有する。情報処理システム1は、例えば会議の音声を入力とし、リアルタイムに議事録を出力することが可能な会議支援システムである。
FIG. 1 is a diagram showing a configuration example of an
情報処理装置10は、サーバ等のコンピュータであり、後述するプログラムによって機能を実現する装置である。他の例として、情報処理装置10は、会議システム専用装置、電子ホワイトボード又はプロジェクタ等であってもよい。図1に示されるように情報処理装置10は、各クライアント20から音声波形と、当該音声波形をクライアント20で音声認識した結果であるテキストメッセージとを少なくとも受信し、フィルタ処理を行った後のテキストメッセージをクライアント20に送信する。なお、各クライアントからは音声波形のみを受信して、当該音声波形の音声認識を情報処理装置10が行ってもよい。さらに、情報処理装置10は、議事録作成に付随する情報として、参加者と発言数の統計表示を行う機能を有してもよい。
The
クライアント20は、少なくともマイク及び表示装置を備えたPC(Personal Computer)等のコンピュータであり、後述するプログラムによって機能を実現する装置であり、情報処理端末ともいう。クライアント20は、情報処理端末を複数含む。他の例として、クライアント20は、タブレット型端末、スマートフォン、PDA(Personal Digital Assistant)、携帯電話、ウェアラブルPC、ゲーム機器又はカーナビゲーション端末等であってもよい。
The
図2は、本発明の実施の形態における情報処理システム1を説明するための図である。本発明の実施の形態における情報処理システム1は、リアルタイム議事録支援サービスを提供することができる。リアルタイム議事録支援サービスとは、会議で行われる発言を音声認識によりテキストに起こして議事録を生成し、リアルタイムで会議参加者にフィードバックするサービスである。
FIG. 2 is a diagram for explaining the
図2に示されるように、情報処理システム1において、チャット形式による発言の記録及び編集が可能である。また、参加者と発言数の統計表示が可能である。また、音声認識による入力が使用可能であり、音声認識に外部エンジンを活用することもできる。また、チェック機能で、議事録発行をサポートすることができる。チェック機能とは、例えば、会議中に重要であると判断された内容について、印を付与し、会議終了後の振り返りをサポートする機能である。また、ユーザが設定したビジネスチャットサービスへの同期が想定される。また、会議終了時にタギング情報に基づいたサマライズと、取得された生データとをパッキングして、メール等にエクスポートすることができる。タギング情報とは、例えば、キーワードを含んでもよい。サマライズは、キーワードを含む発言に基づいてもよい。
As shown in FIG. 2, in the
なお、図2に示される画面は、会議参加者ごとに設置されているクライアント20での画面であり、当該画面は、例えば外出しているユーザのスマートフォン又は会議室以外に在席しているユーザのPCにおいて、閲覧及びコメントが可能であってもよい。
It should be noted that the screen shown in FIG. 2 is a screen on the
図3は、本発明の実施の形態における情報処理装置10のハードウェア構成例を示す図である。図3に示される情報処理装置10は、それぞれ相互に接続されているプロセッサ11、記憶装置12、補助記憶装置13、入出力インタフェース14及び通信インタフェース15等を有する。
FIG. 3 is a diagram showing a hardware configuration example of the
情報処理装置10での処理を実現するプログラムは、補助記憶装置13に格納される。補助記憶装置13は、インストールされたプログラムを保持すると共に、必要なデータを保持する。
A program that implements processing in the
記憶装置12は、プロセッサ11からの起動指示に従い、補助記憶装置13からプログラムを読み出して格納する。プロセッサ11は、記憶装置12に格納されたプログラムを実行することによって情報処理装置10に係る機能を実現する。
The
入出力インタフェース14は、マイク、USB(Universal Serial Bus)機器、ハードウェアキー、状態通知用LED、液晶ディスプレイ等の様々な入出力装置との接続を行うためのインタフェースである。
The input/
通信インタフェース15は、クライアント20、メールサーバ、スマートフォン又はPC等と通信を行うための有線又は無線のインタフェースである。
The
なお、クライアント20も図3と同様のハードウェア構成を有していてもよい。クライアント20は、さらに入出力インタフェース14に接続されるマイクを有していてもよい。
Note that the
以下、本発明の第1の実施の形態について説明する。図4は、第1の実施の形態における情報処理装置10の機能構成例を示す図である。図4に示されるように、情報処理装置10は、情報受信部101、メッセージ保管部102、メッセージ類似度計算部103、音声保管部104、音声類似度計算部105及び類似メッセージ決定部106を有する。情報処理装置10が有する各機能部は、図3に示される補助記憶装置13から記憶装置12上に展開されたプログラムを実行するプロセッサ11によって実現される。
A first embodiment of the present invention will be described below. FIG. 4 is a diagram showing a functional configuration example of the
情報受信部101は、図3に示される通信インタフェース15によって実現され、各クライアント20から、音声波形及び当該音声波形をクライアント20で音声認識した結果であるテキストメッセージを少なくとも受信する。また、音声波形及びテキストメッセージには、音声が取得されたマイクID及び音声が取得開始された時刻を示す情報が付与されている。なお、各クライアント20で、時刻は所定の精度で同期されており、音声が取得された時刻は、同期された時刻で計測されてもよい。マイクIDは、クライアント20を識別する情報であってもよいし、マイク自体を識別する情報であってもよい。
The
メッセージ保管部102は、情報受信部101からテキストメッセージを受信し、保管する。所定の期間にクライアント20から受信したテキストメッセージが、メッセージ保管部102に蓄積される。メッセージ保管部102は、テキストメッセージと、付随するマイクID及び音声が取得開始された時刻とを、関連付けて保管してもよい。
The
メッセージ類似度計算部103は、受信したテキストメッセージが、メッセージ保管部102に蓄積されているテキストメッセージと類似しているか否かを、例えば最小編集距離アルゴリズムを用いて判定する。
The message
図5は、第1の実施の形態における最小編集距離アルゴリズムを説明するための図である。最小編集距離アルゴリズムとは、文字の類似度を比較するアルゴリズムである。図5に示されるように、ある文字列に対して「挿入」、「削除」又は「置換」の3つの処理を行い、他の文字列に一致させることができる最小回数を編集回数として距離と定義する。文字列間の距離が少ないほうが、類似度が高いと判定される。 FIG. 5 is a diagram for explaining the minimum edit distance algorithm in the first embodiment. A minimum edit distance algorithm is an algorithm that compares the degree of similarity between characters. As shown in FIG. 5, the distance is defined as the minimum number of times that a character string can be matched with another character string by performing three processes of "insertion", "delete" or "replacement". Define. It is determined that the smaller the distance between character strings, the higher the degree of similarity.
図5に示される「挿入」は、「しんし」に、2文字「ぶん」が挿入されて、「しんぶんし」となる例である。2文字すなわち2回「挿入」されているため、「しんし」と「しんぶんし」の距離は2となる。 "Insert" shown in FIG. 5 is an example in which two characters "bun" are inserted into "shinbunshi" to form "shinbunshi". The distance between "shinbunshi" and "shinbunshi" is two, because two characters, that is, are "inserted" twice.
図5に示される「削除」は、「しんし」の末尾の「し」が削除されて「しん」となる例である。1文字すなわち1回「削除」されているため、「しんし」と「しん」の距離は1となる。 "Deletion" shown in FIG. 5 is an example in which "shi" at the end of "shinshi" is deleted to become "shin". Since one character is "deleted" once, the distance between "shin" and "shin" is one.
図5に示される「置換」は、「しんし」の「ん」が、「か」に置換されて「しかし」となる例である。1文字すなわち1回「置換」されているため、「しんし」と「しかし」の距離は1となる。 "Replacement" shown in FIG. 5 is an example in which "n" of "shinshi" is replaced with "ka" to form "but". The distance between "shinshi" and "but" is 1 because there is one character, that is, one "replacement".
図4に戻る。メッセージ類似度計算部103において、新規に受信したテキストメッセージが、蓄積されているテキストメッセージと類似しているか否かを判定した結果は、類似メッセージ決定部106に送信される。なお、類似度の判定に用いる最小編集距離アルゴリズムは一例であって、他のアルゴリズムによってテキストメッセージの類似度を判定してもよい。
Return to FIG. The message
音声保管部104は、情報受信部101から音声波形を受信し、保管する。所定の期間にクライアント20から受信した音声波形が、音声保管部104に蓄積される。音声保管部104は、音声波形と、付随するマイクID及び音声が取得開始された時刻とを、関連付けて保管してもよい。
The
音声類似度計算部105は、受信した音声波形が、音声保管部104に蓄積されている音声波形と類似しているか否かを、例えば周波数解析して相互相関関数を用いて判定する。
The speech
図6は、第1の実施の形態における音声波形の類似度を算出する方法の例を示す図である。図6に示されるように、音声波形を周波数変換して相互相関関数にて類似度を計算する方法である。ただし、以下の手法は、一般的な周波数解析の例であり、音声波形の類似度の計算は下記のアルゴリズムに限定されない。 FIG. 6 is a diagram showing an example of a method of calculating the similarity of speech waveforms according to the first embodiment. As shown in FIG. 6, this is a method of frequency-converting the voice waveform and calculating the degree of similarity using the cross-correlation function. However, the method below is an example of general frequency analysis, and the calculation of the similarity of speech waveforms is not limited to the algorithm below.
図6左図の音声波形を、フーリエ変換したものが、図6右図である。例えば、類似度を算出する対象である音声波形がc(t)及びd(t)であって、それぞれをフーリエ変換したものがC(k)及びD(k)であったとすると、以下の数1によって、音声波形の類似度を算出する。数1のXが大きいほど、類似度が高くなる。
The right figure in FIG. 6 is obtained by Fourier transforming the speech waveform in the left figure in FIG. For example, if the speech waveforms for which the similarity is to be calculated are c(t) and d(t), and the Fourier transforms of them are C(k) and D(k), then the following
図4に戻る。音声類似度計算部105において、新規に受信した音声波形が、蓄積されている音声波形と類似しているか否かを判定した結果は、類似メッセージ決定部106に送信される。なお、類似度の判定に図6で説明した相互相関関数を用いる方法は一例であって、他のアルゴリズムによって音声波形の類似度を判定してもよい。
Return to FIG. The speech
類似メッセージ決定部106において、メッセージ類似度計算部103及び音声類似度計算部105から受信した判定結果に基づいて、クライアント20にフィルタ後のメッセージを送信する。詳細は後述する。
The similar
図7は、第1の実施の形態における情報処理方法を説明するためのフローチャートである。図7において、情報処理装置10において、クライアント20から新規メッセージを取得した場合の処理を説明する。
FIG. 7 is a flow chart for explaining the information processing method according to the first embodiment. Referring to FIG. 7, processing when a new message is acquired from the
ステップS11において、情報受信部101は、クライアント20から新規メッセージを取得する。新規メッセージには、音声波形、当該音声波形をクライアント20で音声認識した結果であるテキストメッセージ、当該音声が取得されたマイクID及び音声取得開始時刻を示す情報が含まれる。さらに、新規メッセージには、メッセージを識別するための識別子が含まれてもよい。また、新規メッセージは、最新のメッセージである。すなわち、新規メッセージは、メッセージ保管部102又は音声保管部104に保管されているいずれのメッセージよりも遅い音声取得開始時刻を有するものとする。
In step S<b>11 , the
続くステップS12において、メッセージ類似度計算部103は、メッセージ保管部102に保管されているテキストメッセージを参照し、新規メッセージに含まれるテキストメッセージと、直近に類似したテキストメッセージがあるかを判定する(S13)。直近とは、同一の音源から複数のマイクにおいてメッセージが取得される可能性のある期間より長い期間が設定される。例えば、会議室に配置されているマイク間の最大距離が20mであった場合、想定される最大遅延の20m/340m/s=0.0588sより長い期間として60ms等と定めてもよい。340m/sは、音速の例である。メッセージ類似度計算部103は、新規メッセージに含まれる音声取得開始時刻から、上記の例では60ms以内の音声取得開始時刻を有するメッセージのテキストメッセージに対する類似度を判定する。
In the subsequent step S12, the message
直近にメッセージが取得されていた場合、例えば図5で説明した最小編集距離アルゴリズムを用いて、新規メッセージのテキストメッセージと、保管されているテキストメッセージ間の類似度を算出する。類似度を判定するテキストメッセージは複数であってもよい。メッセージ類似度計算部103は、テキストメッセージ間の最小編集距離が所定の閾値未満であるか否かに基づいて、類似するか否かを判定する。類似している場合(S13のYES)、ステップS14に進み、類似していない場合(S13のNO)ステップS18に進む。
If the message was recently retrieved, the similarity between the text message of the new message and the stored text message is calculated using, for example, the minimum edit distance algorithm described in FIG. A plurality of text messages may be used for similarity determination. The message
ステップS14において、メッセージ類似度計算部103は、類似していると判定されたメッセージの音声保管部104に保管されている音声ログを参照し、新規メッセージに含まれる音声波形と類似度が高いかを判定する。例えば図6で説明した音声波形の類似度を算出する方法を用いて、新規音声波形と、保管されている音声波形間の類似度を算出する。類似度を判定する音声波形は複数であってもよい。メッセージ類似度計算部103は、音声波形間の類似度が所定の閾値未満であるか否かに基づいて、類似するか否かを判定する。類似している場合(S15のYES)、ステップS16に進み、類似していない場合(S15のNO)ステップS18に進む。
In step S14, the message
ステップS16において、ステップS15で音声波形の類似度が高いと判定された過去メッセージの音量と、新規メッセージの音量とを比較する。新規メッセージの音量が大きい場合(S16のYES)、ステップS17に進む。過去メッセージの音量が大きい場合(S16のNO)、ステップS19に進む。 In step S16, the volume of the past message determined to have high similarity in voice waveform in step S15 is compared with the volume of the new message. If the volume of the new message is high (YES in S16), the process proceeds to step S17. If the past message volume is high (NO in S16), the process proceeds to step S19.
ステップS17において、過去メッセージに除去フラグをセットする。メッセージ保管部102及び音声保管部104に保管されている除去フラグがセットされた過去メッセージは、以後類似度の判定には使用されない。
In step S17, a removal flag is set in the past message. The past messages with the removal flag set stored in the
ステップS18において、新規メッセージ及び除去フラグがセットされた過去メッセージをすべてのクライアント20に通知する。クライアント20において、「除去フラグ」がセットされたメッセージが通知された場合、当該メッセージは画面に表示されなくともよい。ステップS18において、新規メッセージは、メッセージの識別子、マイクID及びテキストメッセージの一部又は全部がクライアント20に通知されてもよい。なお、ステップS18において、除去フラグがセットされた過去メッセージは、メッセージの識別子及び除去フラグのみがクライアント20に通知されてもよいし、さらにマイクID及びテキストメッセージの一部又は全部が通知されてもよい。また、除去フラグがセットされた過去メッセージは、クライアント20に通知されなくてもよい。通知された新規メッセージは、議事録に記録される。
In step S18, all
ステップS19において、新規メッセージに除去フラグをセットする。メッセージ保管部102及び音声保管部104に保管されている除去フラグがセットされた新規メッセージは、保管されなくてもよい。
In step S19, a removal flag is set for the new message. New messages with the removal flag set stored in the
ステップS20において、新規メッセージ及び除去フラグをセットした過去メッセージをすべてのクライアント20に通知する。クライアント20において、「除去フラグ」がセットされたメッセージが通知された場合、当該メッセージは画面に表示されなくともよい。ステップS20において、新規メッセージは、メッセージの識別子、マイクID及びテキストメッセージの一部又は全部がクライアント20に通知されてもよい。除去フラグがセットされた新規メッセージは、メッセージの識別子及び除去フラグのみがクライアント20に通知されてもよいし、さらにマイクID及びテキストメッセージの一部又は全部が通知されてもよい。 また、除去フラグがセットされた新規メッセージは、クライアント20に通知されなくてもよい。通知された除去フラグがセットされていない新規メッセージは、議事録に記録される。
In step S20, all
なお、図7で説明したフローチャートにおいて、ステップS13で新規メッセージと直近に類似したメッセージが存在した場合(S13のYES)、ステップS19に進み、新規メッセージに除去フラグをセットしてもよい。 In the flowchart described in FIG. 7, if there is a message that is most recently similar to the new message in step S13 (YES in S13), the process may proceed to step S19 to set the removal flag for the new message.
上述のように、第1の実施の形態によれば、情報処理装置10は、各クライアント20から取得した最新の新規メッセージと、過去に取得されたメッセージとのテキストメッセージの類似度を比較する。テキストメッセージが類似しているメッセージが存在する場合、情報処理装置10は、さらに音声波形の類似度を比較する。音声波形が類似しているメッセージが存在する場合、情報処理装置10は、さらに音声波形の音量を比較し、音量が大きいメッセージを議事録に記録する。
As described above, according to the first embodiment, the
すなわち、同一の音源から音声を複数のマイクで同時に取得した場合であっても、一名の発言として処理することができる。したがって、会議支援システムにおいて生成される議事録の可読性が向上し、情報処理装置10はクライアント20に備えられる複数のマイクに音声が入力されることによるノイズとなるメッセージを除去することが可能になり、高価なマイク等のハードウェアが不要になる。
That is, even when voices are simultaneously acquired from the same sound source by a plurality of microphones, they can be processed as utterances by one person. Therefore, the readability of the minutes generated in the conference support system is improved, and the
次に、本発明の第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第1の実施の形態と同様であってもよい。 Next, a second embodiment of the invention will be described. 2nd Embodiment demonstrates a different point from 1st Embodiment. Therefore, points that are not particularly mentioned may be the same as those in the first embodiment.
図8は、第2の実施の形態における情報処理装置10の機能構成例を示す図である。図8に示されるように、情報処理装置10は、情報受信部111、重複メッセージ候補保管部112、全メッセージ保管部113、メッセージ類似度判定部114及びメッセージフィルタリング部115を有する。情報処理装置10が有する各機能部は、図3に示される補助記憶装置13から記憶装置12上に展開されたプログラムを実行するプロセッサ11によって実現される。
FIG. 8 is a diagram showing a functional configuration example of the
情報受信部111は、図4に示される情報受信部101の機能に加えて、時間領域で重複する可能性があるメッセージを抽出する機能を有する。情報受信部110は、抽出された重複する可能性があるメッセージを重複メッセージ候補保管部112に送信する。例えば、あるメッセージの音声の取得が開始された時刻から音声の取得が完了した時刻までの期間が、他のメッセージの音声の取得が開始された時刻から音声の取得が完了した時刻までの期間と重複する場合に、重複する可能性があるメッセージとして抽出される。また、情報受信部110は、すべてのメッセージを全メッセージ保管部113に送信する。
重複メッセージ候補保管部112は、情報受信部110からテキストメッセージを受信し、保管する。所定の期間にクライアント20から受信したテキストメッセージのうち、時間領域で重複する可能性があるメッセージが、重複メッセージ候補保管部112に蓄積される。図8に示される例では、メッセージ2及びメッセージ3が、時間領域で重複する可能性があるメッセージである。重複メッセージ候補保管部112は、テキストメッセージと、付随するマイクID、音声が取得開始された時刻及び取得完了した時刻を、関連付けて記録してもよい。
The duplicate message
全メッセージ保管部113は、情報受信部110からテキストメッセージを受信し、保管する。クライアント20から受信したテキストメッセージが、全メッセージ保管部113に蓄積される。全メッセージ保管部113は、テキストメッセージと、付随するマイクID、音声が取得開始された時刻及び取得完了した時刻を、関連付けて記録してもよい。全メッセージ保管部113は、フィルタがオンに設定されていないメッセージを、全クライアントに送信する。
The all
メッセージ類似度判定部114は、図4に示されるメッセージ類似度計算部103、音声類似度計算部105及び類似メッセージ決定部106の機能を有する。すなわち、メッセージ類似度判定部114は、テキストメッセージと音声データに基づいて、あるメッセージと他のメッセージが類似するか否かを判定することができる。メッセージ類似度判定部114は、重複メッセージ候補保管部112又は全メッセージ保管部113から取得したメッセージが類似するか否かを判定した結果をメッセージフィルタリング部115に送信する。
The message
メッセージフィルタリング部115は、メッセージ類似度判定部114から取得したメッセージが類似するか否かを判定した結果及びメッセージが取得された時間が重複しているか否かを判定した結果に基づいて、メッセージにフィルタを追加する機能を有する。メッセージフィルタリング部115から、全メッセージ保管部113にメッセージにフィルタを追加する通知が送信され、全メッセージ保管部113は、対象メッセージのフィルタをオンにする。図8に示される例では、メッセージ3のフィルタがオンに設定され、メッセージ3はクライアントに送信されない。
The
図9は、第2の実施の形態における情報処理の例(1)を説明するためのシーケンス図である。ステップS21において、クライアント20Aは、音声認識を開始したことを情報処理装置10に通知する。続いて、情報処理装置10は、クライアント20Aが音声認識を開始した時刻を記録し、音声認識中であることを認識する(S22)。続いて、ステップS23において、クライアント20Aは、音声認識を終了したこと及びメッセージを情報処理装置10に通知する。情報処理装置10は、クライアント20Aが音声認識を終了した時刻を記録し、音声認識が終了したことを認識する。続いて、情報処理装置10は、メッセージをすべてのクライアント20に通知する(S24)。
FIG. 9 is a sequence diagram for explaining example (1) of information processing in the second embodiment. In step S21, the
図10は、第2の実施の形態における情報処理の例(2)を説明するためのシーケンス図である。ステップS31において、クライアント20Aは、音声認識を開始したことを情報処理装置10に通知する。続いて、情報処理装置10は、クライアント20Aが音声認識を開始した時刻を記録し、音声認識中であることを認識する(S32)。ステップS33において、クライアント20Bは、音声認識を開始したことを情報処理装置10に通知する。続いて、情報処理装置10は、クライアント20Aが音声認識を開始した時刻を記録し、音声認識中であることを認識して、クライアント20Aとクライアント20Bとの音声認識中である時間が重複していることを検知する(S34)。
FIG. 10 is a sequence diagram for explaining example (2) of information processing in the second embodiment. In step S31, the
ステップS35において、クライアント20Bは、音声認識を終了したこと及びメッセージBを情報処理装置10に通知する。情報処理装置10は、クライアント20Bが音声認識を終了した時刻を記録し、音声認識が終了したことを認識して、クライアント20Aとクライアント20Bとの音声認識中である時間が重複が解消されたことを検知することができる。ステップS36において、クライアント20Aは、音声認識を終了したこと及びメッセージAを情報処理装置10に通知する。情報処理装置10は、クライアント20Aが音声認識を終了した時刻を記録し、音声認識が終了したことを認識する。ここで、情報処理装置10は、メッセージAが取得された期間及びメッセージBが取得された期間を認識している。ステップS37において、情報処理装置10は、ステップS32及びステップS34で取得したメッセージAが取得された期間及びメッセージBが取得された期間に基づいて、メッセージAとメッセージBが時間領域で重複している可能性のあるメッセージであるか否かを判定する。情報処理装置10は、メッセージAとメッセージBが重複している可能性がある場合、図7に示されるフローチャートと同様の処理を行って、除去フラグがセットされたメッセージにフィルタを追加する。一方、情報処理装置10は、メッセージAとメッセージBが重複している可能性がない場合、メッセージA及びメッセージBにフィルタを追加しない。ステップS38において、情報処理装置10は、フィルタリングされていないメッセージをすべてのクライアント20に通知し、議事録に記録する。
In step S<b>35 , the
なお、図10に示される情報処理において、処理するメッセージは2つに限られず、3つ以上のメッセージが処理されてもよい。取得された期間が重複している可能性があるメッセージが3つ以上の場合、ステップS37において図7に示されるフローチャートと同様の処理を行って、除去フラグがセットされたメッセージにフィルタを追加する。 In the information processing shown in FIG. 10, the number of messages to be processed is not limited to two, and three or more messages may be processed. If there are three or more messages for which there is a possibility that the acquired period overlaps, the same processing as in the flowchart shown in FIG. 7 is performed in step S37 to add a filter to the messages with the removal flag set. .
図11は、従来の情報処理の例(1)を示す図である。図11に示されるように、各マイクで個人の音声を識別するシステムでは、同時に複数のマイクで同一の人物の発言を取得した場合に、音声認識結果に基づいて適切なメッセージを出力することができない。 FIG. 11 is a diagram showing an example (1) of conventional information processing. As shown in FIG. 11, in a system that recognizes the voice of an individual with each microphone, it is possible to output an appropriate message based on the voice recognition result when the speech of the same person is acquired simultaneously with a plurality of microphones. Can not.
図12は、第2の実施の形態における情報処理の例(1)を示す図である。図12に示されるように、音声認識が重複した時間を考慮して、重複している可能性があるメッセージを判別する。重複している可能性があるメッセージに、図7に示される情報処理方法を行うことで、複数マイクでの音声混濁を防ぐことができる。 FIG. 12 is a diagram illustrating example (1) of information processing in the second embodiment. As shown in FIG. 12, the times when speech recognition overlaps are considered to determine potentially overlapping messages. By applying the information processing method shown in FIG. 7 to messages that may be duplicated, it is possible to prevent voice turbidity with multiple microphones.
図13は、従来の情報処理の例(2)を示す図である。図13に示されるように、音声認識結果の類似度を考慮しない場合、かつ、同じ時間に異なる人が発言をした場合、1つの発言を採用するため、別々の発言をメッセージとして出力することができない。 FIG. 13 is a diagram showing an example (2) of conventional information processing. As shown in FIG. 13, when the similarity of speech recognition results is not taken into account and when different people make statements at the same time, one statement is adopted, so different statements can be output as messages. Can not.
図14は、第2の実施の形態における情報処理の例(2)を示す図である。音声認識結果の類似度及び音声認識が重複した時間を考慮することにより、同じ時間に異なる人が発言をした場合であっても、それぞれに正しいメッセージを出力することができる。 FIG. 14 is a diagram illustrating example (2) of information processing in the second embodiment. By considering the degree of similarity of speech recognition results and the time when speech recognition overlaps, correct messages can be output to each person even if different people speak at the same time.
上述のように、第2の実施の形態によれば、情報処理装置10は、各クライアント20から取得した最新の新規メッセージと、過去に取得されたメッセージとのテキストメッセージの類似度を比較する。テキストメッセージが類似しているメッセージが存在する場合、情報処理装置10は、さらに音声波形の類似度を比較する。音声波形が類似しているメッセージが存在する場合、情報処理装置10は、さらに音声波形の音量を比較し、音量が大きいメッセージを議事録に記録する。さらに、音声認識が重複した時間に基づいてメッセージのフィルタリングを行うことで、同じ時間に異なる人が発言をした場合であっても、それぞれに正しいメッセージを出力することができる。
As described above, according to the second embodiment, the
なお、本発明の実施の形態において、情報受信部101は、取得部の一例である。メッセージ類似度計算部103は、第1の算出部の一例である。類似メッセージ決定部106は、決定部の一例である。音声類似度計算部105は、第2の算出部の一例である。クライアント20が備えるマイクは、音声取得部の一例である。クライアント20が備える表示装置は、表示部の一例である。
In addition, in the embodiment of the present invention, the
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the embodiments of the present invention have been described in detail above, the present invention is not limited to such specific embodiments, and various modifications can be made within the scope of the gist of the invention described in the claims.・Changes are possible.
10 情報処理装置
11 プロセッサ
12 記憶装置
13 補助記憶装置
14 入出力インタフェース
15 通信インタフェース
20 情報処理端末(クライアント)
101 情報受信部
102 メッセージ保管部
103 メッセージ類似度計算部
104 音声保管部
105 音声類似度計算部
106 類似メッセージ決定部
111 情報受信部
112 重複メッセージ候補保管部
113 全メッセージ保管部
114 メッセージ類似度判定部
115 メッセージフィルタリング部
10
101
Claims (10)
情報処理端末において取得された音声が音声認識されることにより得られたテキスト及び前記音声の取得が開始された時刻を含むメッセージを取得する取得部と、
前記取得部により取得された第1のメッセージに含まれるテキストと、前記取得部により取得され、前記第1のメッセージに含まれる前記時刻以前の前記時刻を有する第2のメッセージに含まれるテキストとの類似度を算出する第1の算出部と、
前記第1の算出部により算出される類似度に基づいて、前記第1のメッセージを記録するか否かを決定する決定部と、
前記音声の音声波形の類似度を算出する第2の算出部とを有し、
前記第1の算出部により算出される類似度により類似していると判定された場合、前記第2の算出部は、前記第1のメッセージに含まれる音声波形と、前記第2のメッセージに含まれる音声波形との類似度を算出し、
前記決定部は、前記第2の算出部により算出される類似度に基づいて、前記第1のメッ
セージを記録するか否かを決定する情報処理装置。 An information processing device connected to a plurality of information processing terminals,
an acquisition unit configured to acquire a text obtained by recognizing a voice acquired by an information processing terminal and a message including a time when acquisition of the voice is started;
Text included in the first message acquired by the acquisition unit and text included in the second message acquired by the acquisition unit and having the time before the time included in the first message a first calculator that calculates the degree of similarity;
a determination unit that determines whether to record the first message based on the similarity calculated by the first calculation unit;
a second calculator that calculates the similarity of the speech waveform of the speech;
If the degree of similarity calculated by the first calculation unit determines that the similarity is similar, the second calculation unit calculates the voice waveform included in the first message and the voice waveform included in the second message. Calculate the similarity with the speech waveform that is
The information processing apparatus, wherein the determination unit determines whether to record the first message based on the degree of similarity calculated by the second calculation unit.
刻とは、所定の期間に含まれる請求項1記載の情報処理装置。 2. The information processing apparatus according to claim 1, wherein said time included in said first message and said time included in said second message are included in a predetermined period.
記決定部は、前記第1のメッセージを記録すると決定する請求項1記載の情報処理装置。 2. The information processing apparatus according to claim 1, wherein when the similarity calculated by the first calculation unit determines that the similarity is not similar, the determination unit determines to record the first message.
記決定部は、前記第1のメッセージを記録すると決定する請求項1記載の情報処理装置。 2. The information processing apparatus according to claim 1, wherein, when the degree of similarity calculated by the second calculation unit determines that the similarity is not similar, the determination unit determines to record the first message.
第1のメッセージに含まれる音声波形と、前記第2のメッセージに含まれる音声波形とに
基づいて音量を判定し、前記第1のメッセージの音量のほうが大きいとき、前記決定部は
、前記第1のメッセージを記録し、前記第2のメッセージを削除すると決定する請求項4
記載の情報処理装置。 If the degree of similarity calculated by the second calculation unit determines that the similarity is similar, the volume is determined based on the voice waveform included in the first message and the voice waveform included in the second message. and when the volume of the first message is louder, the decision unit decides to record the first message and delete the second message.
The information processing device described.
第1のメッセージに含まれる音声波形と、前記第2のメッセージに含まれる音声波形とに
基づいて音量を判定し、前記第2のメッセージの音量のほうが大きい場合に、前記決定部
は、前記第2のメッセージを記録し、前記第1のメッセージを削除すると決定する請求項
4記載の情報処理装置。 If the degree of similarity calculated by the second calculation unit determines that the similarity is similar, the volume is determined based on the voice waveform included in the first message and the voice waveform included in the second message. 5 . The information processing apparatus according to claim 4 , wherein when the volume of the second message is louder, the decision unit decides to record the second message and delete the first message.
前記決定部は、前記第1のメッセージが取得された期間と、前記第2のメッセージが取
得された期間とが重複している場合、前記第1の算出部により算出される類似度に基づい
て、前記第1のメッセージを記録するか否かを決定する請求項1記載の情報処理装置。 The acquisition unit acquires a time when the acquisition of the voice of the first message is finished and a time when the acquisition of the voice of the second message is finished, and obtains a period during which the first message is obtained and obtain a time period during which the second message was obtained;
If the period during which the first message was acquired and the period during which the second message was acquired overlap, the determining unit determines, based on the degree of similarity calculated by the first calculating unit 2. The information processing apparatus according to claim 1, wherein the information processing apparatus determines whether or not to record the first message.
前記決定部は、前記第1のメッセージが取得された期間と、前記第2のメッセージが取
得された期間とが重複していない場合、前記第1のメッセージ及び前記第2のメッセージ
を記録することを決定する請求項1記載の情報処理装置。 The acquisition unit acquires a time when the acquisition of the voice of the first message is finished and a time when the acquisition of the voice of the second message is finished, and obtains a period during which the first message is obtained and obtain a time period during which the second message was obtained;
The determining unit records the first message and the second message when the period during which the first message is acquired and the period during which the second message is acquired do not overlap. 2. The information processing apparatus according to claim 1, wherein
前記情報処理装置は、
情報処理端末において取得された音声が音声認識されることにより得られたテキスト及
び前記音声の取得が開始された時刻を含むメッセージを取得する取得部と、
前記取得部により取得された第1のメッセージに含まれるテキストと、前記取得部によ
り取得され、前記第1のメッセージに含まれる前記時刻以前の前記時刻を有する第2のメ
ッセージに含まれるテキストとの類似度を算出する第1の算出部と、
前記第1の算出部により算出される類似度に基づいて、前記第1のメッセージを記録す
るか否かを決定し、記録すると決定された前記第1のメッセージの一部又は全部を複数の
前記情報処理端末に送信する決定部と、
前記音声の音声波形の類似度を算出する第2の算出部とを有し、
前記第1の算出部により算出される類似度により類似していると判定された場合、前記第2の算出部は、前記第1のメッセージに含まれる音声波形と、前記第2のメッセージに含まれる音声波形との類似度を算出し、
前記決定部は、前記第2の算出部により算出される類似度に基づいて、前記第1のメッ
セージを記録するか否かを決定し、
前記情報処理端末は、
音声を取得する音声取得部と、
前記メッセージに含まれるテキストを表示する表示部とを有する情報処理システム。 An information processing system including an information processing device connected to a plurality of information processing terminals,
The information processing device is
an acquisition unit configured to acquire a text obtained by recognizing a voice acquired by an information processing terminal and a message including a time when acquisition of the voice is started;
Text included in the first message acquired by the acquisition unit and text included in the second message acquired by the acquisition unit and having the time before the time included in the first message a first calculator that calculates the degree of similarity;
determining whether or not to record the first message based on the degree of similarity calculated by the first calculating unit; a determination unit that transmits to the information processing terminal;
a second calculator that calculates the similarity of the speech waveform of the speech;
If the degree of similarity calculated by the first calculation unit determines that the similarity is similar, the second calculation unit calculates the voice waveform included in the first message and the voice waveform included in the second message. Calculate the similarity with the speech waveform that is
The determination unit determines whether to record the first message based on the similarity calculated by the second calculation unit;
The information processing terminal
an audio acquisition unit that acquires audio;
and a display for displaying text included in the message.
情報処理端末において取得された音声が音声認識されることにより得られたテキスト及
び前記音声の取得が開始された時刻を含むメッセージを取得する取得手順と、
前記取得手順により取得された第1のメッセージに含まれるテキストと、前記取得手順
により取得され、前記第1のメッセージに含まれる前記時刻以前の前記時刻を有する第2
のメッセージに含まれるテキストとの類似度を算出する第1の算出手順と、
前記算出手順により算出される類似度に基づいて、前記第1のメッセージを記録するか
否かを決定する決定手順と、
前記音声の音声波形の類似度を算出する第2の算出手順とを実行し、
前記第1の算出手順により算出される類似度により類似していると判定された場合、前記第2の算出手順は、前記第1のメッセージに含まれる音声波形と、前記第2のメッセージに含まれる音声波形との類似度を算出し、
前記決定手順は、前記第2の算出手順により算出される類似度に基づいて、前記第1のメッセージを記録するか否かを決定する情報処理方法。 An information processing method executed by an information processing device connected to a plurality of information processing terminals,
an acquisition procedure for acquiring a text obtained by recognizing a voice acquired by an information processing terminal and a message including a time at which acquisition of the voice is started;
a text included in the first message obtained by the obtaining procedure; and a second text obtained by the obtaining procedure and having the time before the time included in the first message.
A first calculation procedure for calculating the similarity with the text included in the message of
a decision procedure for deciding whether to record the first message based on the similarity calculated by the calculation procedure;
and a second calculation procedure for calculating the similarity of the speech waveform of the speech,
If the degree of similarity calculated by the first calculation procedure determines that the similarity is similar, the second calculation procedure calculates the speech waveform included in the first message and the speech waveform included in the second message. Calculate the similarity with the speech waveform that is
The information processing method, wherein the determination procedure determines whether or not to record the first message based on the degree of similarity calculated by the second calculation procedure .
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018051175 | 2018-03-19 | ||
| JP2018051175 | 2018-03-19 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019164327A JP2019164327A (en) | 2019-09-26 |
| JP7243145B2 true JP7243145B2 (en) | 2023-03-22 |
Family
ID=68066188
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018221642A Active JP7243145B2 (en) | 2018-03-19 | 2018-11-27 | Information processing device, information processing system and information processing method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7243145B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7586693B2 (en) * | 2020-12-01 | 2024-11-19 | コニカミノルタプラネタリウム株式会社 | Control Systems and Control Devices |
| CN116564282A (en) * | 2023-05-15 | 2023-08-08 | 北京明略昭辉科技有限公司 | Method, device, electronic device and storage medium for determining repeated recording segments |
| CN118486309B (en) * | 2024-07-02 | 2025-03-18 | 南京诺飞尔信息科技有限公司 | A smart laboratory management method based on AI voice control |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008309856A (en) | 2007-06-12 | 2008-12-25 | Yamaha Corp | Speech recognition device and conference system |
| WO2010113438A1 (en) | 2009-03-31 | 2010-10-07 | 日本電気株式会社 | Speech recognition processing system and speech recognition processing method |
| JP2014176033A (en) | 2013-03-12 | 2014-09-22 | Ricoh Co Ltd | Communication system, communication method and program |
| JP2016029466A (en) | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | Control method for voice recognition text conversion system and control method for portable terminal |
-
2018
- 2018-11-27 JP JP2018221642A patent/JP7243145B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008309856A (en) | 2007-06-12 | 2008-12-25 | Yamaha Corp | Speech recognition device and conference system |
| WO2010113438A1 (en) | 2009-03-31 | 2010-10-07 | 日本電気株式会社 | Speech recognition processing system and speech recognition processing method |
| JP2014176033A (en) | 2013-03-12 | 2014-09-22 | Ricoh Co Ltd | Communication system, communication method and program |
| JP2016029466A (en) | 2014-07-16 | 2016-03-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | Control method for voice recognition text conversion system and control method for portable terminal |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2019164327A (en) | 2019-09-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12165653B2 (en) | Matching speakers to meeting audio | |
| US11417343B2 (en) | Automatic speaker identification in calls using multiple speaker-identification parameters | |
| CN108766418A (en) | Sound end recognition methods, device and equipment | |
| JP6618992B2 (en) | Statement presentation device, statement presentation method, and program | |
| JP6469252B2 (en) | Account addition method, terminal, server, and computer storage medium | |
| WO2020147407A1 (en) | Conference record generation method and apparatus, storage medium and computer device | |
| CN108920640B (en) | Context acquisition method and device based on voice interaction | |
| CN105975569A (en) | Voice processing method and terminal | |
| JP7243145B2 (en) | Information processing device, information processing system and information processing method | |
| US11600279B2 (en) | Transcription of communications | |
| TW201624467A (en) | Conference recording device and method for automatically generating conference record | |
| US11699043B2 (en) | Determination of transcription accuracy | |
| CN111933144A (en) | Conference voice transcription method and device for post-creation of voiceprint and storage medium | |
| TW201624468A (en) | Conference recording device and method for automatically generating conference record | |
| CN109326285A (en) | Voice information processing method, device and non-transient computer readable storage medium | |
| CN111128212A (en) | Mixed speech separation method and device | |
| CN111223487B (en) | Information processing method and electronic equipment | |
| CN114067807B (en) | Audio data processing method, device and electronic equipment | |
| CN108665901B (en) | Phoneme/syllable extraction method and device | |
| JP6429294B2 (en) | Speech recognition processing apparatus, speech recognition processing method, and program | |
| CN116153328A (en) | Audio data processing method, system, storage medium and electronic equipment | |
| CN113782026A (en) | An information processing method, apparatus, medium and equipment | |
| CN105810208A (en) | Meeting recording device and method thereof for automatically generating meeting record | |
| CN110808062A (en) | Mixed voice separation method and device | |
| US20240212690A1 (en) | Method for outputting voice transcript, voice transcript generating system, and computer-program product |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210819 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220203 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220413 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220517 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220706 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221011 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221114 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230220 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 7243145 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |