JP7614749B2 - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP7614749B2 JP7614749B2 JP2020109840A JP2020109840A JP7614749B2 JP 7614749 B2 JP7614749 B2 JP 7614749B2 JP 2020109840 A JP2020109840 A JP 2020109840A JP 2020109840 A JP2020109840 A JP 2020109840A JP 7614749 B2 JP7614749 B2 JP 7614749B2
- Authority
- JP
- Japan
- Prior art keywords
- playback
- information
- audio
- output
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
- Television Signal Processing For Recording (AREA)
Description
本発明は、映像と音響を同期して再生する技術に関する。 The present invention relates to a technology for playing video and audio in sync.
映像データと音響データを含むコンテンツの再生においては、映像と音のずれが視聴者に違和感を与えてしまうため、映像と音を同期させることが求められる。特許文献1には、指定された再生速度で音声を再生する話速変換機能の利用時に、音の再生位置を示す時間情報に対応する映像データを検索して再生することで、映像と音のずれを小さくすることが開示されている。 When playing content that includes video data and audio data, it is necessary to synchronize the video and audio because any delay between the video and audio can cause viewers to feel uncomfortable. Patent Document 1 discloses that when using a speech speed conversion function that plays audio at a specified playback speed, the video data corresponding to time information indicating the playback position of the audio is searched for and played, thereby reducing the delay between the video and audio.
映像データと音響データを含むコンテンツを変速再生する場合には、映像と音の再生速度を同じタイミングで同じ速度に変更することで、映像と音を同期させたまま変速再生することができる。しかしながら、再生速度を変更可能な時点が映像データと音響データで異なる場合には、何れか一方の再生速度が他方より遅れて変化するため、映像と音のずれが生じてしまう。 When playing content that includes video data and audio data at variable speeds, the video and audio playback speeds can be changed to the same speed at the same time, allowing the video and audio to be played back in sync. However, if the playback speed can be changed at different times for the video data and the audio data, the playback speed of one will change later than the other, resulting in a delay between the video and audio.
本発明は上記の課題に鑑み、映像データと音響データを含むコンテンツの再生速度を変化させる場合における映像と音のずれを抑制することを目的とする。 In view of the above problems, the present invention aims to reduce the misalignment between video and audio when changing the playback speed of content that includes video data and audio data.
上記の課題を解決するため、本発明に係る情報処理装置は、例えば以下の構成を有する。すなわち、情報処理装置は、映像データと音響データとを含むコンテンツの再生速度と前記コンテンツの再生期間に含まれる再生位置とを示す再生情報を取得する取得手段と、前記映像データを構成する複数のフレームのうち前記取得手段により取得された前記再生情報が示す再生位置に応じたフレーム以降の部分の前記映像データを、前記再生情報が示す再生速度に応じた再生速度で出力する映像出力手段と、前記音響データを構成する複数の音響ブロックのうち前記取得手段により取得された前記再生情報が示す再生位置に応じた音響ブロック以降の部分の前記音響データを、前記再生情報が示す再生速度に応じた再生速度で出力する音響出力手段と、前記映像出力手段により出力される前記映像データと前記音響出力手段により出力される前記音響データとの間の時間的なずれを検出する検出手段と、前記音響出力手段により出力される前記音響データの再生速度を、前記検出手段により検出された前記ずれに基づいて、前記ずれが小さくなるように変更する変更手段と、を有する。 In order to solve the above problem, the information processing device according to the present invention has, for example, the following configuration. That is, the information processing device has an acquisition means for acquiring playback information indicating the playback speed of content including video data and audio data and the playback position included in the playback period of the content, a video output means for outputting the video data of a portion of the video data after the frame corresponding to the playback position indicated by the playback information acquired by the acquisition means from among the multiple frames constituting the video data at a playback speed corresponding to the playback speed indicated by the playback information, an audio output means for outputting the audio data of a portion of the audio blocks constituting the audio data after the audio block corresponding to the playback position indicated by the playback information acquired by the acquisition means from among the multiple audio blocks constituting the audio data at a playback speed corresponding to the playback speed indicated by the playback information, a detection means for detecting a time lag between the video data output by the video output means and the audio data output by the audio output means, and a change means for changing the playback speed of the audio data output by the audio output means so that the lag is reduced based on the lag detected by the detection means.
本発明によれば、映像データと音響データを含むコンテンツの再生速度を変化させる場合における映像と音のずれを抑制することができる。 The present invention makes it possible to reduce the misalignment between video and audio when changing the playback speed of content that includes video and audio data.
[システム構成]
図1は、本実施形態に係る情報処理装置10の構成例を示す図である。情報処理装置10は、蓄積された映像データと音響データとを、指定された再生速度に従って出力するシステムである。情報処理装置10は、再生情報入力部1、データ読み出し制御部2、映像データ蓄積部3、音響データ蓄積部4、時間ずれ算出部5、音響再生制御部6、再生速度変換部7、映像時間抽出部8、及び音響時間抽出部9を有する。
[System configuration]
1 is a diagram showing an example of the configuration of an information processing device 10 according to this embodiment. The information processing device 10 is a system that outputs stored video data and audio data according to a specified playback speed. The information processing device 10 has a playback information input unit 1, a data read control unit 2, a video data storage unit 3, an audio data storage unit 4, a time lag calculation unit 5, an audio playback control unit 6, a playback
再生情報入力部1は、映像データと音響データとを含むコンテンツの再生に係る再生情報を、データ読み出し制御部2および音響再生制御部6に出力する。再生情報には、コンテンツの再生期間に含まれる再生を開始する位置(時点)を示す再生位置情報と、コンテンツの再生速度を示す再生速度情報が含まれる。再生位置情報は、蓄積された映像データおよび音響データの読み出し位置を決定するために用いられる情報であり、例えばタイムコードで表現される。再生速度情報は、映像データおよび音響データの再生速度を決定するために用いられる情報であり、例えば等倍速再生を示す1.0、2倍速再生を示す2.0、及び0.5倍速再生を示す0.5のように、再生速度の倍率で表現される。再生情報は、再生情報入力部1から出力映像のフレームレートと同じ周期で出力される。例えば出力映像のフレームレートが60fpsの場合、再生情報は60分の1秒周期で出力される。 The playback information input unit 1 outputs playback information related to the playback of content including video data and audio data to the data read control unit 2 and audio playback control unit 6. The playback information includes playback position information indicating the position (time point) at which playback starts within the playback period of the content, and playback speed information indicating the playback speed of the content. The playback position information is information used to determine the read position of the accumulated video data and audio data, and is expressed, for example, by a time code. The playback speed information is information used to determine the playback speed of the video data and audio data, and is expressed, for example, by a playback speed multiplier, such as 1.0 indicating normal speed playback, 2.0 indicating double speed playback, and 0.5 indicating 0.5 times speed playback. The playback information is output from the playback information input unit 1 at the same cycle as the frame rate of the output video. For example, if the frame rate of the output video is 60 fps, the playback information is output at a cycle of 1/60th of a second.
なお、再生情報には、再生位置情報と再生速度情報に限らずその他の情報が含まれていてもよい。再生速度情報および再生位置情報の形式は、上記の例に限定されない。また、再生情報の出力タイミングも上記の例に限定されない。出力される再生情報の内容は、情報処理装置10に対して行われたユーザ操作に基づいて決定される。例えば、コンテンツの再生中にコンテンツの再生速度を変化させるための操作が行われた場合、再生情報は当該操作により指定された再生速度と当該操作のタイミングに応じた再生位置とを示す。ただしこれに限らず、情報処理装置10が外部の装置から受信した情報に基づいて再生情報の内容が決定されてもよい。 The playback information may include other information in addition to the playback position information and playback speed information. The format of the playback speed information and playback position information is not limited to the above example. The output timing of the playback information is also not limited to the above example. The content of the playback information to be output is determined based on a user operation performed on the information processing device 10. For example, if an operation is performed to change the playback speed of content while the content is being played back, the playback information indicates the playback speed specified by the operation and the playback position according to the timing of the operation. However, the present invention is not limited to this, and the content of the playback information may be determined based on information received by the information processing device 10 from an external device.
データ読み出し制御部2は、映像データ蓄積部3と音響データ蓄積部4に対し、再生位置情報を出力する。映像データ蓄積部3には、動画を構成する複数のフレームからなる映像データが蓄積されており、各フレームにはそのフレームに対応する時点を示すタイムスタンプが付与されている。映像データ蓄積部3は、データ読み出し制御部2から入力された再生位置情報と映像データの各フレームに付与されたタイムスタンプとを照合し、再生位置情報に合致するタイムスタンプを有するフレームのデータを出力する。また、映像データ蓄積部3は、出力されたフレームに付与されたタイムスタンプを映像時間抽出部8に出力する。映像データ蓄積部3による映像出力の出力先は、例えばディスプレイや外部の記憶装置等であるが、これに限定されない。
The data read control unit 2 outputs playback position information to the video data storage unit 3 and the audio data storage unit 4. The video data storage unit 3 stores video data consisting of multiple frames that make up a video, and each frame is assigned a timestamp indicating the time point corresponding to that frame. The video data storage unit 3 compares the playback position information input from the data read control unit 2 with the timestamp assigned to each frame of the video data, and outputs data of a frame having a timestamp that matches the playback position information. The video data storage unit 3 also outputs the timestamp assigned to the output frame to the video
データ読み出し制御部2から映像データ蓄積部3へ出力される再生位置情報は、再生速度情報が示す再生速度に応じて制御される。例えば再生速度が2.0倍の場合、映像データ蓄積部3へ入力される再生位置情報は2フレーム分ずつ増加し、再生速度が0.5倍の場合、映像データ蓄積部3へは同じ時点を示す再生位置情報が2回ずつ入力される。このようにして入力される再生位置情報に応じた映像フレームが映像データ蓄積部3から一定のフレームレートで出力されることにより、映像の高速再生および低速再生が実現される。 The playback position information output from the data read control unit 2 to the video data storage unit 3 is controlled according to the playback speed indicated by the playback speed information. For example, when the playback speed is 2.0x, the playback position information input to the video data storage unit 3 increases by two frames, and when the playback speed is 0.5x, playback position information indicating the same point in time is input twice to the video data storage unit 3. Video frames according to the playback position information input in this way are output from the video data storage unit 3 at a constant frame rate, thereby achieving high-speed and low-speed video playback.
音響データ蓄積部4には、連続する複数の期間にそれぞれ対応する複数の音響ブロックからなる音響データが蓄積されており、各音響ブロックにはその音響ブロックに対応する時点を示すタイムスタンプが付与されている。音響データ蓄積部4は、データ読み出し制御部2から入力された再生位置情報と各音響ブロックのタイムスタンプを照合し、再生位置情報に合致するタイムスタンプを有する音響ブロックのデータとそのタイムスタンプを再生速度変換部7へ出力する。なお、音響データ蓄積部4は、データ読み出し制御部2から入力された初めの再生位置情報に対応する音響ブロックを出力した後は、その後入力される再生位置情報によらず、時間的に連続する音響ブロックを順に出力する。
The sound data storage unit 4 stores sound data consisting of a number of sound blocks corresponding to a number of consecutive time periods, and each sound block is assigned a time stamp indicating the time point corresponding to that sound block. The sound data storage unit 4 compares the playback position information input from the data read control unit 2 with the time stamp of each sound block, and outputs the data of the sound block having a time stamp matching the playback position information and that time stamp to the playback
音響再生制御部6は、再生情報入力部1から入力された再生速度情報と時間ずれ算出部5から入力された時間ずれ量に基づき音響再生速度を決定し、決定した音響再生速度を再生速度変換部7に出力する。再生速度変換部7は、音響データ蓄積部4から入力された音響データに対し、音響再生制御部6から入力された音響再生速度に応じて再生速度の変換処理を行い、変換後の音響データとタイムスタンプを出力する。また、再生速度変換部7は、出力された音響データに対応するタイムスタンプを音響時間抽出部9に出力する。再生速度変換部7による音響出力の出力先は、例えばスピーカや外部の記憶装置等であるが、これに限定されない。
The sound playback control unit 6 determines the sound playback speed based on the playback speed information input from the playback information input unit 1 and the time lag amount input from the time lag calculation unit 5, and outputs the determined sound playback speed to the playback
映像時間抽出部8は、映像データ蓄積部3から入力された映像データのタイムスタンプが示す時点の情報を、映像時間情報として時間ずれ算出部5に出力する。音響時間抽出部9は、再生速度変換部7から入力された音響データのタイムスタンプが示す時点の情報を、音響時間情報として時間ずれ算出部5に出力する。時間ずれ算出部5は、映像時間抽出部8から入力された映像時間情報と音響時間抽出部9から入力された音響時間情報に基づき映像と音の時間ずれ量を算出し、算出した時間ずれ量を音響再生制御部6へ出力する。
The video
本実施形態では、音響ブロックに対応する期間長は映像データの1フレームに対応する期間長と一致していないものとする。そのため、再生情報入力部1から出力される再生速度情報が変化した場合に、その再生速度が映像データに反映されるタイミングと音響データに反映されるタイミングとが異なる場合があり、これにより映像と音とのずれが生じる。 In this embodiment, the period length corresponding to an audio block does not match the period length corresponding to one frame of video data. Therefore, when the playback speed information output from the playback information input unit 1 changes, the timing at which the playback speed is reflected in the video data and the timing at which it is reflected in the audio data may differ, resulting in a misalignment between the video and audio.
例えば、コンテンツの再生中に再生速度を変化させる指示が行われた場合を考える。ここで、再生情報入力部1から出力されるコンテンツの再生情報において、再生位置01:00:00:00から再生位置01:00:10:10までの間の再生速度情報は再生速度1.0を示すものとする。そして、再生位置01:00:10:11から再生位置01:00:20:10までの間の再生速度情報は再生速度2.0を示すものとする。映像データのタイムスタンプは再生位置情報と同様の形式で付与されている。このとき、映像データ蓄積部3は、再生位置01:00:10:10までの部分の映像データは1フレームずつ出力し、再生位置01:00:10:11に対応するフレーム以降の部分の映像データは2フレームずつ出力する。 For example, consider a case where an instruction to change the playback speed is given while content is being played back. Here, in the content playback information output from the playback information input unit 1, the playback speed information from playback position 01:00:00:00 to playback position 01:00:10:10 indicates a playback speed of 1.0. And the playback speed information from playback position 01:00:10:11 to playback position 01:00:20:10 indicates a playback speed of 2.0. The timestamp of the video data is assigned in the same format as the playback position information. In this case, the video data storage unit 3 outputs the video data up to playback position 01:00:10:10 one frame at a time, and outputs the video data from the frame corresponding to playback position 01:00:10:11 onwards two frames at a time.
一方、音響ブロックに対応する期間長は再生位置情報の時間単位と一致せず、再生位置01:00:10:11と同一の時点から始まる音響ブロックが存在しない。そのため、再生位置01:00:10:11に対応する時点以降の時点を開始時点とする音響ブロックのうち開始時点が最も早い音響ブロック以降の部分の音響データが2倍速で再生される。そして、映像が2倍速になる再生位置01:00:10:11に対応する時点と、2倍速で再生される最初の音響ブロックの開始時点との差がt秒であったとすると、t秒分だけ音が映像より遅れることになる。 However, the period length corresponding to the audio block does not match the time unit of the playback position information, and there is no audio block that starts at the same time as playback position 01:00:10:11. Therefore, of the audio blocks whose starting time is after the time corresponding to playback position 01:00:10:11, the audio data from the audio block with the earliest starting time onwards is played at double speed. And if the difference between the time corresponding to playback position 01:00:10:11, where the video becomes double speed, and the start time of the first audio block played at double speed is t seconds, then the sound will lag behind the video by t seconds.
そこで情報処理装置10は、時間ずれ算出部5によりこのような映像データと音響データとの間の時間的なずれを検出し、そのずれが小さくなるように音響再生制御部6により音響データの再生速度の変更を行うことで、映像と音のずれを抑制する。なお、音響ブロックに対応する期間長が映像データの1フレームに対応する期間長と一致する場合であっても、音響ブロックの開始時点と映像フレームに対応する時点とがずれていれば、上記の例と同様に映像データと音響データとの時間的なずれが生じうる。このような場合でも、本実施形態を適用することで映像と音のずれを抑制できる。 The information processing device 10 therefore detects such a time lag between the video data and the audio data using the time lag calculation unit 5, and changes the playback speed of the audio data using the audio playback control unit 6 so as to reduce the lag, thereby suppressing the lag between the video and audio. Note that even if the period length corresponding to an audio block matches the period length corresponding to one frame of video data, if there is a lag between the start point of the audio block and the time corresponding to the video frame, a time lag between the video data and the audio data may occur as in the above example. Even in such cases, the lag between the video and audio can be suppressed by applying this embodiment.
図1に示す情報処理装置10の各構成要素は、専用のハードウェアにより実現することができる。ただしこれに限らず、情報処理装置10の構成要素の一部又は全部をソフトウェアにより構成しても良い。この場合の情報処理装置のハードウェア構成例を図4に示す。 Each of the components of the information processing device 10 shown in FIG. 1 can be realized by dedicated hardware. However, this is not limited to the above, and some or all of the components of the information processing device 10 may be configured by software. An example of the hardware configuration of the information processing device in this case is shown in FIG. 4.
CPU501は、RAM502やROM503に格納されているコンピュータプログラムやデータを用いて情報処理装置10全体の制御を行い、図1に示した各構成要素に対応する処理を実行する。RAM502は、外部記憶装置504からロードされたコンピュータプログラムやデータや、I/F507を介して外部から取得したデータなどを一時的に記憶するためのエリアを有する。更に、RAM502は、CPU501が各種の処理を実行する際に用いるワークエリアを有する。即ち、RAM502は、フレームメモリとして割り当てられたり、その他の各種のエリアを適宜提供したりすることができる。ROM503には、コンピュータの設定データや、ブートプログラムなどが格納されている。操作部506は、キーボードやマウスなどにより構成されており、ユーザの操作に応じた各種の指示をCPU501に対して入力することができる。出力部505は、CPU501による処理結果を出力する。出力部505は、例えば液晶ディスプレイやスピーカで構成される。
The
外部記憶装置504は、ハードディスクドライブ装置などで構成される、大容量の情報記憶装置である。外部記憶装置504には、OS(オペレーティングシステム)や、図1に示した各部の機能をCPU501に実現させるためのコンピュータプログラムが保存されている。また、外部記憶装置504には、処理対象としての映像データや音響データが格納されてもよい。外部記憶装置504に保存されているコンピュータプログラムやデータは、CPU501による制御に従って適宜、RAM502にロードされ、CPU501による処理対象となる。I/F507には、LANやインターネット等のネットワーク、投影装置や表示装置などの他の機器を接続することができ、情報処理装置10はこのI/F507を介して様々な情報を取得したり、送出したりすることができる。バス508は情報処理装置10を構成する上述の各処理部を繋ぐ。
The
上述のように、情報処理装置10の機能はCPU501が中心となって実現することができる。なお、情報処理装置10がCPU501とは異なる1又は複数の専用のハードウェアを有し、CPU501による処理の少なくとも一部を専用のハードウェアが実行してもよい。そのような専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。
As described above, the functions of the information processing device 10 can be realized mainly by the
[動作フロー]
以下では、再生速度変換後の音と映像の時間ずれ量を算出し、算出した時間ずれ量に基づいて音響再生速度を制御する処理の流れについて、図2及び図3を用いて説明する。図2は、時間ずれ算出部5が音と映像の時間ずれ量を算出する処理を示すフローチャートである。図2に示す処理は、CPU501がROM503に格納されたプログラムをRAM502に展開して実行することで実現される。なお、図2に示す処理の少なくとも一部を、CPU501とは異なる1又は複数の専用のハードウェアにより実現してもよい。図3に示すフローチャートの処理も同様である。図2に示す処理は、映像データと音響データを含むコンテンツの出力を開始するための指示が情報処理装置10に入力されたタイミングで開始される。ただし、図2に示す処理の開始タイミングはこれに限定されない。
[Operation flow]
In the following, the flow of the process of calculating the time lag between the sound and the video after the playback speed conversion and controlling the sound playback speed based on the calculated time lag will be described with reference to Figs. 2 and 3. Fig. 2 is a flowchart showing the process of the time lag calculation unit 5 calculating the time lag between the sound and the video. The process shown in Fig. 2 is realized by the
S201では、時間ずれ算出部5が記憶している映像時間情報および音響時間情報が無効な値で初期化される。S202では、時間ずれ算出部5が映像時間抽出部8から有効な映像時間情報を受信したかを判断する。有効な映像時間情報を受信した場合はS203に進み、受信しなかった場合はS207へ進む。S203では、受信した映像時間情報が記憶される。
In S201, the video time information and audio time information stored in the time lag calculation unit 5 are initialized to invalid values. In S202, the time lag calculation unit 5 determines whether valid video time information has been received from the video
S207では、時間ずれ算出部5が音響時間抽出部9から有効な音響時間情報を受信したかを判断する。有効な音響時間情報を受信した場合はS208に進み、受信しなかった場合はS209へ進む。S208では、受信した音響時間情報が記憶される。S209では、終了指示が入力されたかが判断される。終了指示が入力された場合は処理を終了し、入力しなかった場合はS202へ戻る。 In S207, the time lag calculation unit 5 determines whether valid acoustic time information has been received from the acoustic time extraction unit 9. If valid acoustic time information has been received, the process proceeds to S208, and if not, the process proceeds to S209. In S208, the received acoustic time information is stored. In S209, it is determined whether an end instruction has been input. If an end instruction has been input, the process ends, and if not, the process returns to S202.
S204では、記憶されている映像時間情報と音響時間情報が有効か無効か判断される。いずれの情報も有効な場合はS205へ進み、いずれかが無効な場合はS202に戻る。S205では、記憶された映像時間情報が示す時点と音響時間情報が示す時点との時間ずれ量が算出される。具体的には、音響時間情報が値から映像時間情報が示す値を差し引いた値が、時間ずれ量として算出される。なお、これらの時間情報が示す値は、大きい値であるほど遅い時点に対応する。S206では、算出された時間ずれ量が音響再生制御部6に出力される。 In S204, it is determined whether the stored video time information and audio time information are valid or invalid. If both pieces of information are valid, the process proceeds to S205, and if either is invalid, the process returns to S202. In S205, the amount of time lag between the point indicated by the stored video time information and the point indicated by the audio time information is calculated. Specifically, the amount of time lag is calculated by subtracting the value indicated by the video time information from the value of the audio time information. Note that the larger the value indicated by these pieces of time information, the later the point in time it corresponds to. In S206, the calculated amount of time lag is output to the audio playback control unit 6.
図3は、音響再生制御部6が音響データの再生速度を制御する処理を示すフローチャートである。図3に示す処理は、映像データと音響データを含むコンテンツの出力を開始するための指示が情報処理装置10に入力されたタイミングで開始される。ただし、図3に示す処理の開始タイミングはこれに限定されない。 Figure 3 is a flowchart showing the process in which the sound playback control unit 6 controls the playback speed of sound data. The process shown in Figure 3 is started when an instruction to start outputting content including video data and sound data is input to the information processing device 10. However, the start timing of the process shown in Figure 3 is not limited to this.
S301では、音響再生制御部6が記憶している再生速度情報および時間ずれ量が無効な値で初期化され、速度オフセットが0に初期化される。S302では、音響再生制御部6が再生情報入力部1から再生速度情報を受信したかを判断する。 有効な再生速度情報を受信した場合はS303に進み、受信しなかった場合はS305へ進む。S303では、再生速度情報と速度オフセットに基づいて音響再生速度が算出される。速度オフセットについては後述する。S304では、算出された音響再生速度が再生速度変換部7に出力される。
In S301, the playback speed information and time lag amount stored in the sound playback control unit 6 are initialized to invalid values, and the speed offset is initialized to 0. In S302, the sound playback control unit 6 determines whether it has received playback speed information from the playback information input unit 1. If valid playback speed information has been received, the process proceeds to S303, and if not, the process proceeds to S305. In S303, the sound playback speed is calculated based on the playback speed information and the speed offset. The speed offset will be described later. In S304, the calculated sound playback speed is output to the playback
S305では、音響再生制御部6が時間ずれ算出部5から時間ずれ量を受信したかを判断する。有効な時間ずれ量を受信した場合はS306に進み、受信しなかった場合はS308へ進む。S306では、音響データの再生位置が映像データの再生位置より先に進んでいるかが判断される。具体的には、時間ずれ量と閾値が比較され、時間ずれ量が閾値より大きい場合(映像に対する音響の進みが大きい場合)にはS307へ進み、時間ずれ量が閾値より小さい場合はS309へ進む。 In S305, the sound playback control unit 6 determines whether it has received a time lag from the time lag calculation unit 5. If a valid time lag has been received, the process proceeds to S306; if not, the process proceeds to S308. In S306, it is determined whether the playback position of the sound data is ahead of the playback position of the video data. Specifically, the time lag is compared with a threshold value, and if the time lag is greater than the threshold value (if the sound is leading the video significantly), the process proceeds to S307; if the time lag is less than the threshold value, the process proceeds to S309.
S306において用いられる閾値は0又は正の値であり、情報処理装置10に予め設定されている。例えばこの閾値は、人間が音に対する映像の遅れを認識可能なずれ量である27msに設定されてもよい。ただし閾値はこれに限定されず、映像データや音響データの内容に応じて閾値が自動で設定されてもよい。 The threshold value used in S306 is 0 or a positive value, and is set in advance in the information processing device 10. For example, this threshold value may be set to 27 ms, which is the amount of delay at which a human can recognize a delay between the image and the sound. However, the threshold value is not limited to this, and may be set automatically depending on the content of the image data and audio data.
S307では、音響データの再生速度を下げることで音に対する映像の遅れを小さくするために、速度オフセットが負の値に設定される。速度オフセットは、音響再生速度の調整に係る変更量を示す値であり、S303においては再生速度情報が示す値に速度オフセットを加算した値が音響再生速度として算出される。すなわち、速度オフセットが正である場合には再生速度情報により示される再生速度よりも音響再生速度が速くなり、速度オフセットが負である場合には再生速度情報により示される再生速度よりも音響再生速度が遅くなる。S307において速度オフセットは予め定められた値に設定されてもよいし、時間ずれ量の絶対値が大きいほど速度オフセットの絶対値が大きくなるように設定されてもよい。 In S307, the speed offset is set to a negative value in order to reduce the delay between the video and the sound by slowing down the playback speed of the audio data. The speed offset is a value indicating the amount of change related to the adjustment of the audio playback speed, and in S303, the value indicated by the playback speed information plus the speed offset is calculated as the audio playback speed. In other words, if the speed offset is positive, the audio playback speed is faster than the playback speed indicated by the playback speed information, and if the speed offset is negative, the audio playback speed is slower than the playback speed indicated by the playback speed information. In S307, the speed offset may be set to a predetermined value, or may be set so that the absolute value of the speed offset increases as the absolute value of the time lag increases.
S309では、音響データの再生位置が映像データの再生位置より遅れているかが判断される。具体的には、時間ずれ量と閾値が比較され、時間ずれ量が閾値より小さい場合(映像に対する音響の遅れが大きい場合)にはS310へ進み、時間ずれ量が閾値より大きい場合はS311へ進む。S309において用いられる閾値は0又は負の値であり、情報処理装置10に予め設定されている。例えばこの閾値は、人間が映像に対する音の遅れを認識可能なずれ量であるー60msに設定されてもよい。ただし閾値はこれに限定されず、映像データや音響データの内容に応じて閾値が自動で設定されてもよい。 In S309, it is determined whether the playback position of the audio data lags behind the playback position of the video data. Specifically, the amount of time lag is compared with a threshold, and if the amount of time lag is smaller than the threshold (if the delay of the audio relative to the video is large), the process proceeds to S310, and if the amount of time lag is larger than the threshold, the process proceeds to S311. The threshold used in S309 is 0 or a negative value, and is set in advance in the information processing device 10. For example, this threshold may be set to -60 ms, which is the amount of lag that allows humans to recognize the delay of the audio relative to the video. However, the threshold is not limited to this, and the threshold may be set automatically depending on the content of the video data and audio data.
S310では、音響データの再生速度を上げることで映像に対する音の遅れを小さくするために、速度オフセットが正の値に設定される。S310において速度オフセットは予め定められた値に設定されてもよいし、時間ずれ量の絶対値が大きいほど速度オフセットの絶対値が大きくなるように設定されてもよい。一方、S311では、音と映像が十分に同期しているため、速度オフセットが0に設定される。S308では、終了指示が入力されたかが判断される。終了指示が入力された場合は処理を終了し、入力しなかった場合はS302へ戻る。 In S310, the speed offset is set to a positive value in order to reduce the delay of the sound relative to the video by increasing the playback speed of the audio data. In S310, the speed offset may be set to a predetermined value, or may be set so that the absolute value of the speed offset increases as the absolute value of the time lag increases. On the other hand, in S311, since the sound and video are sufficiently synchronized, the speed offset is set to 0. In S308, it is determined whether an end command has been input. If an end command has been input, the process ends, and if not, the process returns to S302.
以上のように、映像と音のずれの大きさに応じた速度オフセットを用いて音響データの再生速度を調整することにより、映像と音のずれを小さくすることができる。これにより、コンテンツを視聴するユーザに与える違和感を減少させることができる。 As described above, by adjusting the playback speed of the audio data using a speed offset that corresponds to the magnitude of the delay between the video and audio, the delay between the video and audio can be reduced. This reduces the sense of discomfort felt by users watching the content.
上述した実施形態では、映像データのタイムスタンプに対応する映像時間情報と音響データのタイムスタンプに対応する音響時間情報とを比較することで時間ずれ量を算出し、算出された時間ずれ量に基づいて音響再生速度を制御するものとした。ただし、音響再生速度を調整するための時間ずれ量の算出方法はこれに限定されない。例えば、再生情報入力部1から出力される再生位置情報が映像データのタイムスタンプと同様の形式である場合、時間ずれ算出部5は、再生情報が示す再生位置と音響時間情報が示す時点との間のずれ量を映像と音の時間ずれ量として算出することができる。この場合、再生情報入力部1が時間ずれ算出部5に再生情報を出力すればよく、情報処理装置10は映像時間抽出部8を有していなくてもよい。このような構成によれば、映像時間情報抽出部にかかるコストを削減することができる。
In the above-described embodiment, the time lag is calculated by comparing video time information corresponding to the timestamp of the video data with audio time information corresponding to the timestamp of the audio data, and the audio playback speed is controlled based on the calculated time lag. However, the method of calculating the time lag for adjusting the audio playback speed is not limited to this. For example, if the playback position information output from the playback information input unit 1 has the same format as the timestamp of the video data, the time lag calculation unit 5 can calculate the amount of lag between the playback position indicated by the playback information and the time point indicated by the audio time information as the amount of time lag between the video and the audio. In this case, it is sufficient for the playback information input unit 1 to output the playback information to the time lag calculation unit 5, and the information processing device 10 does not need to have a video
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC等)によっても実現可能である。また、そのプログラムをコンピュータにより読み取り可能な記録媒体に記録して提供してもよい。 The present invention can also be realized by supplying a program that realizes one or more of the functions of the above-mentioned embodiments to a system or device via a network or storage medium, and having one or more processors in the computer of the system or device read and execute the program. It can also be realized by a circuit (e.g., an ASIC) that realizes one or more functions. The program may also be provided by recording it on a computer-readable storage medium.
10 情報処理装置 10 Information processing device
Claims (15)
前記映像データを構成する複数のフレームのうち前記取得手段により取得された前記再生情報が示す再生位置に応じたフレーム以降の部分の前記映像データを、前記再生情報が示す再生速度に応じた再生速度で出力する映像出力手段と、
前記音響データを構成する複数の音響ブロックのうち前記取得手段により取得された前記再生情報が示す再生位置に応じた音響ブロック以降の部分の前記音響データを、前記再生情報が示す再生速度に応じた再生速度で出力する音響出力手段と、
前記映像出力手段により出力される前記映像データと前記音響出力手段により出力される前記音響データとの間の時間的なずれを検出する検出手段と、
前記音響出力手段により出力される前記音響データの再生速度を、前記検出手段により検出された前記ずれに基づいて、前記ずれが小さくなるように変更する変更手段と、を有することを特徴とする情報処理装置。 an acquisition means for acquiring playback information indicating a playback speed of a content including video data and audio data and a playback position included in a playback period of the content;
a video output means for outputting the video data of a portion subsequent to the frame corresponding to the playback position indicated by the playback information acquired by the acquisition means, among the plurality of frames constituting the video data, at a playback speed corresponding to the playback speed indicated by the playback information;
a sound output means for outputting the sound data of a portion subsequent to the sound block corresponding to the playback position indicated by the playback information acquired by the acquisition means, among the plurality of sound blocks constituting the sound data, at a playback speed corresponding to the playback speed indicated by the playback information;
a detection means for detecting a time lag between the video data output by the video output means and the audio data output by the audio output means;
a change means for changing a reproduction speed of the sound data output by the sound output means based on the deviation detected by the detection means so as to reduce the deviation.
前記映像出力手段は、出力する前記映像データの再生速度を、前記再生情報が示す再生位置に応じたフレームから前記再生速度が示す再生速度に応じて変化させ、
前記音響出力手段は、出力する前記音響データの再生速度を、前記再生情報が示す再生位置に応じた音響ブロックから前記再生速度が示す再生速度に応じて変化させることを特徴とする請求項1又は2に記載の情報処理装置。 the acquiring means acquires the playback information based on an instruction to change a playback speed of the content during playback of the content;
the video output means changes a playback speed of the video data to be output in accordance with a playback speed indicated by the playback information, from a frame corresponding to a playback position indicated by the playback information;
3. The information processing apparatus according to claim 1, wherein the sound output means changes a playback speed of the sound data to be output in accordance with a playback speed indicated by the playback information from a sound block corresponding to a playback position indicated by the playback information.
前記取得手段により取得された再生情報は、前記操作に応じて指定された再生速度と前記操作のタイミングに応じた再生位置とを示すことを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。 the acquiring means acquires the playback information based on an operation for instructing a change in a playback speed of the content, the operation being performed during playback of the content;
4. The information processing apparatus according to claim 1, wherein the reproduction information acquired by the acquisition means indicates a reproduction speed designated in response to the operation and a reproduction position in response to a timing of the operation.
前記映像データを構成する複数のフレームのうち前記取得工程において取得された前記再生情報が示す再生位置に応じたフレーム以降の部分の前記映像データを、前記再生情報が示す再生速度に応じた再生速度で出力する映像出力工程と、
前記音響データを構成する複数の音響ブロックのうち前記取得工程において取得された前記再生情報が示す再生位置に応じた音響ブロック以降の部分の前記音響データを、前記再生情報が示す再生速度に応じた再生速度で出力する音響出力工程と、
前記映像出力工程において出力される前記映像データと前記音響出力工程において出力される前記音響データとの間の時間的なずれを検出する検出工程と、
前記音響出力工程において出力される前記音響データの再生速度を、前記検出工程において検出された前記ずれに基づいて、前記ずれが小さくなるように変更する変更工程と、を有することを特徴とする情報処理方法。 an acquisition step of acquiring playback information indicating a playback speed of a content including video data and audio data and a playback position included in a playback period of the content;
a video output step of outputting, from among a plurality of frames constituting the video data, a portion of the video data subsequent to the frame corresponding to the playback position indicated by the playback information acquired in the acquisition step, at a playback speed corresponding to the playback speed indicated by the playback information;
a sound output step of outputting the sound data of a portion subsequent to the sound block corresponding to the playback position indicated by the playback information acquired in the acquisition step among the plurality of sound blocks constituting the sound data, at a playback speed corresponding to the playback speed indicated by the playback information;
a detection step of detecting a time lag between the video data output in the video output step and the audio data output in the audio output step;
a change step of changing a playback speed of the acoustic data outputted in the acoustic output step so as to reduce the deviation based on the deviation detected in the detection step.
前記映像出力工程において出力される前記映像データの再生速度が、前記再生情報が示す再生位置に応じたフレームから前記再生速度が示す再生速度に応じて変化し、
前記音響出力工程において出力される前記音響データの再生速度が、前記再生情報が示す再生位置に応じた音響ブロックから前記再生速度が示す再生速度に応じて変化することを特徴とする請求項12又は13に記載の情報処理方法。 In the acquiring step, the playback information is acquired based on an instruction to change a playback speed of the content during playback of the content,
a playback speed of the video data output in the video output step is changed according to a playback speed indicated by the playback information from a frame corresponding to a playback position indicated by the playback information;
14. The information processing method according to claim 12, wherein the playback speed of the sound data output in the sound output step is changed according to the playback speed indicated by the playback information from a sound block corresponding to the playback position indicated by the playback information.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020109840A JP7614749B2 (en) | 2020-06-25 | 2020-06-25 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020109840A JP7614749B2 (en) | 2020-06-25 | 2020-06-25 | Information processing device, information processing method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022007110A JP2022007110A (en) | 2022-01-13 |
| JP7614749B2 true JP7614749B2 (en) | 2025-01-16 |
Family
ID=80111031
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020109840A Active JP7614749B2 (en) | 2020-06-25 | 2020-06-25 | Information processing device, information processing method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7614749B2 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012050046A (en) | 2010-08-30 | 2012-03-08 | Yamaha Corp | Information processor, acoustic processor, acoustic processing system and program |
| US20150332732A1 (en) | 2014-05-16 | 2015-11-19 | Comcast Cable Communications, Llc | Audio Modification for Adjustable Playback Rate |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06259093A (en) * | 1993-03-08 | 1994-09-16 | Fujitsu Ltd | Method and apparatus for converting playback speed of digital audio data |
| JPH07219970A (en) * | 1993-12-20 | 1995-08-18 | Xerox Corp | Method and apparatus for reproduction in acceleration format |
| JPH0990985A (en) * | 1995-09-22 | 1997-04-04 | Olympus Optical Co Ltd | Voice reproducing device |
| JP3895014B2 (en) * | 1997-09-19 | 2007-03-22 | パイオニア株式会社 | Video playback device and karaoke device |
-
2020
- 2020-06-25 JP JP2020109840A patent/JP7614749B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012050046A (en) | 2010-08-30 | 2012-03-08 | Yamaha Corp | Information processor, acoustic processor, acoustic processing system and program |
| US20150332732A1 (en) | 2014-05-16 | 2015-11-19 | Comcast Cable Communications, Llc | Audio Modification for Adjustable Playback Rate |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022007110A (en) | 2022-01-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3130464B2 (en) | Data decryption device | |
| KR100290331B1 (en) | Synchronous playback device for audio-video signals | |
| JP3063838B2 (en) | Audio / video synchronous playback apparatus and method | |
| US6985966B1 (en) | Resynchronizing globally unsynchronized multimedia streams | |
| JPH11191286A (en) | Synchronizing method for audio and video signals and digital video processor | |
| JPH10507597A (en) | Programmable audio-video synchronization method and apparatus for multimedia systems | |
| KR20140145584A (en) | Method and system of playing online video at a speed variable in real time | |
| CN114302192B (en) | Sound and picture synchronization method and device, vehicle and storage medium | |
| US7054544B1 (en) | System, method and record medium for audio-video synchronous playback | |
| US7738772B2 (en) | Apparatus and method for synchronizing video data and audio data having different predetermined frame lengths | |
| JP2005123789A (en) | AV synchronization system | |
| JP7614749B2 (en) | Information processing device, information processing method, and program | |
| JP3100308B2 (en) | Image and audio information playback system | |
| JP2007324850A (en) | Stream data processing apparatus and stream data processing method | |
| JP3159098B2 (en) | Synchronized playback device for image and audio | |
| JP2000078531A (en) | Audio data editing method and editing system | |
| WO2018173312A1 (en) | Virtual reality viewing system, reproduction synchronizing method, and virtual reality viewing program | |
| JP4359024B2 (en) | Synchronous control method and apparatus, synchronous playback apparatus and television receiver using the same | |
| JP2013005423A (en) | Video reproducer, video reproduction method and program | |
| KR100207687B1 (en) | Decoder for use in mpeg system and audio/video synchronization method | |
| JP3063682B2 (en) | Video / audio decoder having audio playback time control function | |
| KR102191387B1 (en) | Multi-stream image processing apparatus and method of the same | |
| CN108769559B (en) | Multimedia file synchronization method and device | |
| JPH04208782A (en) | Synchronizing device for image information processing system | |
| JPH10308936A (en) | Video distribution system, data distribution method and medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20200713 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230623 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20231213 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240820 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241011 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241203 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241227 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7614749 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |