JP4878437B2 - オーディオサムネイルを生成するためのシステムおよび方法 - Google Patents
オーディオサムネイルを生成するためのシステムおよび方法 Download PDFInfo
- Publication number
- JP4878437B2 JP4878437B2 JP2005047144A JP2005047144A JP4878437B2 JP 4878437 B2 JP4878437 B2 JP 4878437B2 JP 2005047144 A JP2005047144 A JP 2005047144A JP 2005047144 A JP2005047144 A JP 2005047144A JP 4878437 B2 JP4878437 B2 JP 4878437B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- clusters
- fingerprint
- fingerprints
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/64—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99939—Privileged access
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Electrophonic Musical Instruments (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Description
110 オーディオファイル
120 サマライザ/サムネイルジェネレータ
130 アナライザ
140 オーディオサムネイル
150 ニーモニックディテクタ
200 特徴計算
210 フィンガープリント
220 スペクトルエネルギー
230 スペクトル平坦性
710 動作環境
712 コンピュータ
714 処理ユニット
716 システムメモリ
718 バス
720 揮発性
722 不揮発性
724 ディスクストレージ
726 インターフェース
728 オペレーティングシステム
730 アプリケーション
732 モジュール
734 データ
736 入力装置
738 インターフェースポート
740 出力装置
742 出力アダプタ
744 リモートコンピュータ
746 メモリストレージ
748 ネットワークインターフェース
750 通信接続
800 コンピューティング環境
810 クライアント
830 サーバ
840 サーバデータストア
850 通信フレームワーク
860 クライアントデータストア
Claims (37)
- オーディオ情報を要約するためのシステムであって、
オーディオをフレームに変換するアナライザと、
前記フレームをフィンガープリントに変換するフィンガープリンティングコンポーネントであって、各フィンガープリントが複数のフレームに部分的に基づくフィンガープリンティングコンポーネントと、
フィンガープリント間の類似性を計算する類似性ディテクタであって、前記類似性ディテクタは、クラスタリング機能を備え、前記クラスタリング機能は、類似性を示す初期のしきい値にかなうすべてのフィンガープリントに基づいてフィンガープリントのクラスタの1つまたは複数の集合を生成する、類似性ディテクタと、
フィンガープリント間の少なくとも2つのギャップを有するクラスタの集合からオーディオファイルのサムネイルを生成するヒューリスティックモジュールであって、ギャップは、クラスタの集合内のフィンガープリントが順次的な時間順序で配置されるとき所定のしきい値を超える2つの隣接するフィンガープリント間の時間間隔である、ヒューリスティックモジュールと
を備えたことを特徴とするシステム。 - 前記ヒューリスティックモジュールは、前記サムネイルに適したオーディオのセグメントの判定を助けるために、エネルギーコンポーネントおよび平坦性コンポーネントの少なくとも1つを備えたことを特徴とする請求項1に記載のシステム。
- 前記ヒューリスティックモジュールを用いて、音声コーラスを楽器演奏部分に優先して自動的に選択することを特徴とする請求項2に記載のシステム。
- 前記フィンガープリントによって適当なコーラスが見つからない場合、前記エネルギーコンポーネントおよび前記平坦性コンポーネントを用いることを特徴とする請求項2に記載のシステム。
- オーディオクリップの始めと終わりにある無音をエネルギーベースのしきい値を介して取り除くコンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
- 前記フィンガープリンティングコンポーネントは、オーディオクリップの各フィンガープリントから他のフィンガープリントへの平均ユークリッド距離が1であるように、正規化コンポーネントをさらに備えたことを特徴とする請求項1に記載のシステム。
- 前記アナライザは、オーディオフレームの1組のスペクトルマグニチュードを計算することを特徴とする請求項1に記載のシステム。
- 各フレームについて、そのフレーム内の周波数成分あたりの平均エネルギーをオーディオファイル中のフレームにわたるその量の平均で割ることによって平均の正規化したエネルギーEを計算することを特徴とする請求項7に記載のシステム。
- オーディオファイルの中央部分を選択して、前記オーディオファイル中に現れる静かな前奏およびフェード部の影響を軽減するコンポーネントをさらに備えたことを特徴とする請求項8に記載のシステム。
- 前記平坦性コンポーネントは、周波数成分ごとにスペクトルマグニチュードに加える数を用いて、対数を決定するときの数値の問題を軽減することを特徴とする請求項2に記載のシステム。
- 前記平坦性コンポーネントは、前記スペクトルマグニチュードの対数正規化幾何平均として計算されるフレーム量を含むことを特徴とする請求項10に記載のシステム。
- 前記正規化は、フレームあたりのマグニチュードのフレームあたりの対数算術平均を前記幾何平均から引くことによって行われることを特徴とする請求項11に記載のシステム。
- 前記ヒューリスティックモジュールは、オーディオのサムネイルを生成するクラスタの集合を、前記クラスタの集合について判定される平均スペクトル品質値または前記クラスタの集合について判定されるクラスタの拡がりの品質値の少なくとも1つに基づいて選択することを特徴とする請求項1に記載のシステム。
- 前記ヒューリスティックモジュールは、前記クラスタの集合について判定される平均スペクトル品質値および前記クラスタの集合について判定されるクラスタの拡がりの品質値の2乗の和についての最も高い値を有するクラスタの集合を選択することを特徴とする請求項13に記載のシステム。
- 前記初期のしきい値は、フィンガープリント間の正規化されたユークリッド距離であることを特徴とする請求項1に記載のシステム。
- クラスタは、2つのギャップの間に横たわるか、フィンガープリントのシーケンスのはじまりと前記シーケンスの最初のギャップとの間に横たわるか、前記シーケンスの最後のギャップとフィンガープリントのシーケンスのおわりとの間に横たわるクラスタの集合におけるフィンガープリントのグループであることを特徴とする請求項1に記載のシステム。
- オーディオファイルをフレームに変換するための手段と、
前記オーディオファイルをフィンガープリンティングし、複数のフレームに部分的に基づいてフィンガープリントを生成するための手段と、
予め定義された類似性しきい値にかなうすべてのフィンガープリントに基づいてフィンガープリントのクラスタの1つまたは複数の集合を生成する手段と、
フィンガープリント間の少なくとも2つのギャップを有するクラスタの集合を選択することによってオーディオサムネイルを生成するための手段であって、ギャップは、クラスタの集合内のフィンガープリントが順次的な時間順序で配置されるとき所定のしきい値を超える2つの隣接するフィンガープリント間の時間間隔であることと
を備えたことを特徴とする自動サムネイルジェネレータ。 - オーディオサムネイルを生成する方法であって、
複数のオーディオフィンガープリントを生成することであって、各オーディオフィンガープリントが複数のオーディオフレームに部分的に基づくことと、
類似性しきい値にかなうすべてのフィンガープリントに基づいてフィンガープリントのクラスタの1つまたは複数の集合を生成することと、
フィンガープリント間の少なくとも2つのギャップを有するクラスタの集合に基づいてサムネイルを作成することであって、ギャップは、クラスタの集合内のフィンガープリントが順次的な時間順序で配置されるとき所定のしきい値を超える2つの隣接するフィンガープリント間の時間間隔であることと
を備えることを特徴とする方法。 - 前記フィンガープリントのクラスタの1つまたは複数の集合を生成することは、前記ギャップに基づいてクラスタの集合内のフィンガープリントをフィンガープリントクラスタにクラスタリングすることを備えることを特徴とする請求項18に記載の方法。
- 前記類似性しきい値は、フィンガープリント間の正規化されたユークリッド距離であることを特徴とする請求項18に記載の方法。
- 前記類似性しきい値、オーディオファイルに基づいて適応的に選ばれ、2つのフィンガープリントが同じクラスタ集合に属するかどうかの判定を助けるのに使用されることを特徴とする請求項18に記載の方法。
- 前記クラスタリングすることは、一時に1つのフィンガープリントを検討することによって動作することを特徴とする請求項19に記載の方法。
- クラスタがオーディオファイルを通して時間的にどのくらい均一に拡がっているかを記述するパラメータ(D)を判定することをさらに備えることを特徴とする請求項19に記載の方法。
- 前記オーディオサムネイルを作成することは、少なくともパラメータ(D)に基づいてオーディオサムネイルを生成するクラスタの集合を選択することを備えることを特徴とする請求項23に記載の方法。
- 任意のNについて、(D)が1の最大値および0の最小値をとるようにオフセットおよびスケーリングファクタを判定することをさらに備えることを特徴とする請求項25に記載の方法。
- ある集合中のフィンガープリントの平均スペクトル品質を判定することをさらに備えることを特徴とする請求項25に記載の方法。
- ある集合の平均スペクトル平坦性と、パラメータDとを組み合わせて、複数のクラスタ集合のうちから最良のクラスタ集合を判定することを特徴とする請求項27に記載の方法。
- 前記平均のスペクトル平坦性およびパラメータDを組み合わせて各クラスタ集合に関連付けられた単一のパラメータとし、それによって前記パラメータの外部値を有する集合を前記最良の集合とするように選択することを特徴とする請求項28に記載の方法。
- 最良のクラスタ集合が選択されると、前記クラスタ集合内の最良のフィンガープリントは、オーディオサムネイルの所要時間にほぼ等しい所要時間について、そのオーディオの周辺が最大のスペクトルエネルギーまたはスペクトル平坦性を有するフィンガープリントとして判定されることを特徴とする請求項29に記載の方法。
- 前記作成することは、オーディオファイルで繰り返される前記オーディオファイル内のオーディオの最長のセクションを判定することによってクラスタを判定することをさらに備えることを特徴とする請求項18に記載の方法。
- 前記作成することは、
曲の始めまたは終わりに近いクラスタを排除することと、
所定のウィンドウ中の任意のフィンガープリントについてエネルギーがあるしきい値を下回るクラスタを排除することと、
所定のウィンドウ中の平均スペクトル平坦性の尺度が最大となるフィンガープリントを選択すること
の少なくとも1つをさらに備えることを特徴とする請求項18に記載の方法。 - 前記作成することは、オーディオファイル中の時間オフセットを指定することによってサムネイルを生成することをさらに備えることを特徴とする請求項18に記載の方法。
- 前記作成することは、オーディオサムネイルの始めまたは終わりを自動的にフェーディングすることをさらに備えることを特徴とする請求項18に記載の方法。
- 前記生成することは、オーディオファイルを少なくとも2つの層で処理することをさらに備え、第1の層の出力は小さなウィンドウにわたって計算された対数スペクトルに基づき、第2の層は前記第1の層により生成されたベクトルをまとめることによって計算されたベクトルに関して動作することを特徴とする請求項18に記載の方法。
- 先行する層よりも後続する層でより広い時間ウィンドウを提供することをさらに備えることを特徴とする請求項35に記載の方法。
- 前記層の少なくとも1つを用いて時間的ミスアラインメントを補償することをさらに備えることを特徴とする請求項36に記載の方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US10/785,560 | 2004-02-24 | ||
| US10/785,560 US7379875B2 (en) | 2003-10-24 | 2004-02-24 | Systems and methods for generating audio thumbnails |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2005250472A JP2005250472A (ja) | 2005-09-15 |
| JP4878437B2 true JP4878437B2 (ja) | 2012-02-15 |
Family
ID=34750474
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005047144A Expired - Fee Related JP4878437B2 (ja) | 2004-02-24 | 2005-02-23 | オーディオサムネイルを生成するためのシステムおよび方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US7379875B2 (ja) |
| EP (1) | EP1571670B1 (ja) |
| JP (1) | JP4878437B2 (ja) |
| KR (1) | KR101117933B1 (ja) |
| CN (1) | CN100461168C (ja) |
Families Citing this family (65)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8554681B1 (en) * | 2003-11-03 | 2013-10-08 | James W. Wieder | Providing “identified” compositions and digital-works |
| US7953504B2 (en) * | 2004-05-14 | 2011-05-31 | Synaptics Incorporated | Method and apparatus for selecting an audio track based upon audio excerpts |
| DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
| DE102004047032A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen |
| DE602005021047D1 (de) * | 2005-01-21 | 2010-06-17 | Unltd Media Gmbh | Vervahren zum Erzeugen eines Abdrucks eines Audiosignals |
| TWI269268B (en) * | 2005-01-24 | 2006-12-21 | Delta Electronics Inc | Speech recognizing method and system |
| EP1905035B1 (en) * | 2005-07-19 | 2013-07-03 | Samsung Electronics Co., Ltd. | Audio reproduction method and apparatus supporting audio thumbnail function |
| KR100733145B1 (ko) * | 2005-09-15 | 2007-06-27 | 한국과학기술원 | 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템 |
| KR100715949B1 (ko) * | 2005-11-11 | 2007-05-08 | 삼성전자주식회사 | 고속 음악 무드 분류 방법 및 그 장치 |
| KR100725018B1 (ko) * | 2005-11-24 | 2007-06-07 | 삼성전자주식회사 | 음악 내용 자동 요약 방법 및 그 장치 |
| KR100782825B1 (ko) * | 2005-12-01 | 2007-12-06 | 삼성전자주식회사 | 오디오 컨텐츠 선택 정보 제공 방법 및 장치와 그 방법을수행하는 프로그램이 기록된 기록매체 |
| US8126706B2 (en) * | 2005-12-09 | 2012-02-28 | Acoustic Technologies, Inc. | Music detector for echo cancellation and noise reduction |
| WO2007068119A1 (en) * | 2005-12-13 | 2007-06-21 | Audio Pod Inc. | Segmentation and transmission of audio streams |
| US9319720B2 (en) | 2005-12-13 | 2016-04-19 | Audio Pod Inc. | System and method for rendering digital content using time offsets |
| US11128489B2 (en) | 2017-07-18 | 2021-09-21 | Nicira, Inc. | Maintaining data-plane connectivity between hosts |
| KR100749045B1 (ko) * | 2006-01-26 | 2007-08-13 | 삼성전자주식회사 | 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치 |
| KR100717387B1 (ko) * | 2006-01-26 | 2007-05-11 | 삼성전자주식회사 | 유사곡 검색 방법 및 그 장치 |
| US8316081B2 (en) | 2006-04-13 | 2012-11-20 | Domingo Enterprises, Llc | Portable media player enabled to obtain previews of a user's media collection |
| US7603434B2 (en) * | 2006-04-13 | 2009-10-13 | Domingo Enterprises, Llc | Central system providing previews of a user's media collection to a portable media player |
| US20070245378A1 (en) * | 2006-04-13 | 2007-10-18 | Concert Technology Corporation | User system providing previews to an associated portable media player |
| KR100764346B1 (ko) * | 2006-08-01 | 2007-10-08 | 한국정보통신대학교 산학협력단 | 구간유사도 기반의 자동 음악요약 방법 및 시스템 |
| US20080046406A1 (en) * | 2006-08-15 | 2008-02-21 | Microsoft Corporation | Audio and video thumbnails |
| US7659471B2 (en) * | 2007-03-28 | 2010-02-09 | Nokia Corporation | System and method for music data repetition functionality |
| WO2009001139A1 (en) * | 2007-06-28 | 2008-12-31 | Taptu Ltd | Audio thumbnail |
| US8208643B2 (en) * | 2007-06-29 | 2012-06-26 | Tong Zhang | Generating music thumbnails and identifying related song structure |
| US20090006551A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Dynamic awareness of people |
| US8650094B2 (en) * | 2008-05-07 | 2014-02-11 | Microsoft Corporation | Music recommendation using emotional allocation modeling |
| US8344233B2 (en) * | 2008-05-07 | 2013-01-01 | Microsoft Corporation | Scalable music recommendation by search |
| KR100995839B1 (ko) * | 2008-08-08 | 2010-11-22 | 주식회사 아이토비 | 멀티미디어 디지털 콘텐츠의 축약정보 추출시스템과 축약 정보를 활용한 다중 멀티미디어 콘텐츠 디스플레이 시스템 및 그 방법 |
| WO2010036889A1 (en) * | 2008-09-25 | 2010-04-01 | Bakbone Software, Inc. | Remote backup and restore |
| US8452586B2 (en) * | 2008-12-02 | 2013-05-28 | Soundhound, Inc. | Identifying music from peaks of a reference sound fingerprint |
| US8433431B1 (en) | 2008-12-02 | 2013-04-30 | Soundhound, Inc. | Displaying text to end users in coordination with audio playback |
| US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
| WO2010135623A1 (en) * | 2009-05-21 | 2010-11-25 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
| US20110258211A1 (en) * | 2010-04-18 | 2011-10-20 | Kalisky Ofer | System and method for synchronous matching of media samples with broadcast media streams |
| US9047371B2 (en) | 2010-07-29 | 2015-06-02 | Soundhound, Inc. | System and method for matching a query against a broadcast stream |
| CN102467939B (zh) * | 2010-11-04 | 2014-08-13 | 北京彩云在线技术开发有限公司 | 一种歌曲音频切割装置及方法 |
| US9449024B2 (en) * | 2010-11-19 | 2016-09-20 | Microsoft Technology Licensing, Llc | File kinship for multimedia data tracking |
| WO2012091938A1 (en) * | 2010-12-30 | 2012-07-05 | Dolby Laboratories Licensing Corporation | Ranking representative segments in media data |
| WO2012119140A2 (en) * | 2011-03-03 | 2012-09-07 | Edwards Tyson Lavar | System for autononous detection and separation of common elements within data, and methods and devices associated therewith |
| US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
| WO2012163013A1 (zh) * | 2011-10-19 | 2012-12-06 | 华为技术有限公司 | 音乐查询方法和装置 |
| CN103093761B (zh) * | 2011-11-01 | 2017-02-01 | 深圳市世纪光速信息技术有限公司 | 音频指纹检索方法及装置 |
| US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
| US20140074466A1 (en) * | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
| CN103020174B (zh) * | 2012-11-28 | 2016-01-06 | 华为技术有限公司 | 相似性分析方法、装置及系统 |
| US9065971B2 (en) * | 2012-12-19 | 2015-06-23 | Microsoft Technology Licensing, Llc | Video and audio tagging for active speaker detection |
| US10122983B1 (en) * | 2013-03-05 | 2018-11-06 | Google Llc | Creating a video for an audio file |
| US9679583B2 (en) * | 2013-03-15 | 2017-06-13 | Facebook, Inc. | Managing silence in audio signal identification |
| KR101419764B1 (ko) * | 2013-06-07 | 2014-07-17 | 정영민 | 휴대단말기의 음성 이모티콘 제어방법 |
| US9053711B1 (en) | 2013-09-10 | 2015-06-09 | Ampersand, Inc. | Method of matching a digitized stream of audio signals to a known audio recording |
| US10014006B1 (en) | 2013-09-10 | 2018-07-03 | Ampersand, Inc. | Method of determining whether a phone call is answered by a human or by an automated device |
| EP2879047A3 (en) * | 2013-11-28 | 2015-12-16 | LG Electronics Inc. | Mobile terminal and controlling method thereof |
| US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
| US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
| US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
| WO2015133782A1 (ko) | 2014-03-03 | 2015-09-11 | 삼성전자 주식회사 | 컨텐츠 분석 방법 및 디바이스 |
| EP3114584B1 (en) | 2014-03-04 | 2021-06-23 | Interactive Intelligence Group, Inc. | Optimization of audio fingerprint search |
| US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
| US9606766B2 (en) * | 2015-04-28 | 2017-03-28 | International Business Machines Corporation | Creating an audio file sample based upon user preferences |
| CN105976828A (zh) * | 2016-04-19 | 2016-09-28 | 乐视控股(北京)有限公司 | 一种声音区分方法和终端 |
| US10089994B1 (en) * | 2018-01-15 | 2018-10-02 | Alex Radzishevsky | Acoustic fingerprint extraction and matching |
| US11062693B1 (en) * | 2019-06-20 | 2021-07-13 | West Corporation | Silence calculator |
| CN112346684A (zh) * | 2020-10-20 | 2021-02-09 | 深圳Tcl新技术有限公司 | 数据的显示方法、装置、电视和计算机可读存储介质 |
| US12562161B2 (en) * | 2023-01-25 | 2026-02-24 | International Business Machines Corporation | Automated content highlighting based on spoken commands |
Family Cites Families (30)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4241329A (en) * | 1978-04-27 | 1980-12-23 | Dialog Systems, Inc. | Continuous speech recognition method for improving false alarm rates |
| US4567606A (en) * | 1982-11-03 | 1986-01-28 | International Telephone And Telegraph Corporation | Data processing apparatus and method for use in speech recognition |
| WO1992015090A1 (en) * | 1991-02-22 | 1992-09-03 | Seaway Technologies, Inc. | Acoustic method and apparatus for identifying human sonic sources |
| CA2483324C (en) * | 1991-06-11 | 2008-05-06 | Qualcomm Incorporated | Estimation of background noise in a variable rate vocoder |
| US5386493A (en) * | 1992-09-25 | 1995-01-31 | Apple Computer, Inc. | Apparatus and method for playing back audio at faster or slower rates without pitch distortion |
| US6505160B1 (en) * | 1995-07-27 | 2003-01-07 | Digimarc Corporation | Connected audio and other media objects |
| US5781888A (en) * | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
| US6493709B1 (en) * | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
| DE19861167A1 (de) * | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
| US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
| US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
| US7013301B2 (en) * | 2003-09-23 | 2006-03-14 | Predixis Corporation | Audio fingerprinting system and method |
| US6606744B1 (en) * | 1999-11-22 | 2003-08-12 | Accenture, Llp | Providing collaborative installation management in a network-based supply chain environment |
| US6535851B1 (en) * | 2000-03-24 | 2003-03-18 | Speechworks, International, Inc. | Segmentation approach for speech recognition systems |
| US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
| US6963975B1 (en) * | 2000-08-11 | 2005-11-08 | Microsoft Corporation | System and method for audio fingerprinting |
| US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
| US6763136B1 (en) * | 2000-09-19 | 2004-07-13 | Bae Systems Mission Solutions, Inc. | Method and apparatus for determining spectral similarity |
| KR100367700B1 (ko) * | 2000-11-22 | 2003-01-10 | 엘지전자 주식회사 | 음성부호화기의 유/무성음정보 추정방법 |
| JP3736394B2 (ja) * | 2001-07-10 | 2006-01-18 | 松下電器産業株式会社 | 画像圧縮装置 |
| US7328153B2 (en) * | 2001-07-20 | 2008-02-05 | Gracenote, Inc. | Automatic identification of sound recordings |
| US6845357B2 (en) * | 2001-07-24 | 2005-01-18 | Honeywell International Inc. | Pattern recognition using an observable operator model |
| US7068723B2 (en) * | 2002-02-28 | 2006-06-27 | Fuji Xerox Co., Ltd. | Method for automatically producing optimal summaries of linear media |
| US6933432B2 (en) * | 2002-03-28 | 2005-08-23 | Koninklijke Philips Electronics N.V. | Media player with “DJ” mode |
| US7082394B2 (en) * | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
| US20030191764A1 (en) * | 2002-08-06 | 2003-10-09 | Isaac Richards | System and method for acoustic fingerpringting |
| US7386357B2 (en) * | 2002-09-30 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | System and method for generating an audio thumbnail of an audio track |
| US7284004B2 (en) * | 2002-10-15 | 2007-10-16 | Fuji Xerox Co., Ltd. | Summarization of digital files |
| US7233832B2 (en) * | 2003-04-04 | 2007-06-19 | Apple Inc. | Method and apparatus for expanding audio data |
| US20040260682A1 (en) * | 2003-06-19 | 2004-12-23 | Microsoft Corporation | System and method for identifying content and managing information corresponding to objects in a signal |
-
2004
- 2004-02-24 US US10/785,560 patent/US7379875B2/en not_active Expired - Fee Related
-
2005
- 2005-02-10 EP EP05100943.9A patent/EP1571670B1/en not_active Expired - Lifetime
- 2005-02-22 KR KR1020050014598A patent/KR101117933B1/ko not_active Expired - Fee Related
- 2005-02-23 JP JP2005047144A patent/JP4878437B2/ja not_active Expired - Fee Related
- 2005-02-24 CN CNB2005100528668A patent/CN100461168C/zh not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| US7379875B2 (en) | 2008-05-27 |
| KR20060043080A (ko) | 2006-05-15 |
| US20050091062A1 (en) | 2005-04-28 |
| CN100461168C (zh) | 2009-02-11 |
| CN1661600A (zh) | 2005-08-31 |
| EP1571670A2 (en) | 2005-09-07 |
| EP1571670A3 (en) | 2011-01-12 |
| EP1571670B1 (en) | 2018-12-19 |
| JP2005250472A (ja) | 2005-09-15 |
| KR101117933B1 (ko) | 2012-03-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4878437B2 (ja) | オーディオサムネイルを生成するためのシステムおよび方法 | |
| JP4345321B2 (ja) | 線形メディアの最適要約を自動作成する方法および情報を格納する情報格納メディアを備える製品 | |
| US8082279B2 (en) | System and methods for providing adaptive media property classification | |
| US7532943B2 (en) | System and methods for providing automatic classification of media entities according to sonic properties | |
| US6910035B2 (en) | System and methods for providing automatic classification of media entities according to consonance properties | |
| US7065416B2 (en) | System and methods for providing automatic classification of media entities according to melodic movement properties | |
| US7326848B2 (en) | System and methods for providing automatic classification of media entities according to tempo properties | |
| US5918223A (en) | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information | |
| US7277766B1 (en) | Method and system for analyzing digital audio files | |
| US7522967B2 (en) | Audio summary based audio processing | |
| US8073854B2 (en) | Determining the similarity of music using cultural and acoustic information | |
| US20130275421A1 (en) | Repetition Detection in Media Data | |
| US20080208891A1 (en) | System and methods for recognizing sound and music signals in high noise and distortion | |
| JP2005322401A (ja) | メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム | |
| WO2004029927A2 (en) | System and method for generating an audio thumbnail of an audio track | |
| Hargreaves et al. | Structural segmentation of multitrack audio | |
| WO2015114216A2 (en) | Audio signal analysis | |
| Smith et al. | Audio properties of perceived boundaries in music | |
| KR101002732B1 (ko) | 온라인을 통한 디지털 컨텐츠 관리 시스템 | |
| Sharma et al. | Audio songs classification based on music patterns | |
| Doherty et al. | Pattern matching techniques for replacing missing sections of audio streamed across wireless networks | |
| Kaiser et al. | Adaptive temporal modeling of audio features in the context of music structure segmentation |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080207 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100903 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101202 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110317 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110419 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110819 |
|
| RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20110822 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110822 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110909 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111128 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4878437 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |