JP5225331B2 - データ抽出装置及び方法 - Google Patents
データ抽出装置及び方法 Download PDFInfo
- Publication number
- JP5225331B2 JP5225331B2 JP2010150011A JP2010150011A JP5225331B2 JP 5225331 B2 JP5225331 B2 JP 5225331B2 JP 2010150011 A JP2010150011 A JP 2010150011A JP 2010150011 A JP2010150011 A JP 2010150011A JP 5225331 B2 JP5225331 B2 JP 5225331B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- path
- extraction
- common
- search path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<html>
<head>
<title>牛肉を使った料理</title>
</head>
<body>
<h1>カレーライスの作り方</h1>
<dl>
<dt>牛肉</dt><dd>200g</dd>
<dt><img src=“curry.jpg”>カレールー</dt><dd>1/2パック</dd>
<dt>ニンジン</dt><dd>1本</dd>
<dt>タマネギ</dt><dd>2個</dd>
<dt>ジャガイモ</dt><dd>2個</dd>
</dl>
</body>
<body>
<h1>牛肉のおろし大根ソースの作り方</h1>
<dl>
<dt><img src=“tokusan_gyuu.jpg”>牛肩ロース肉</dt><dd>400g</dd>
<dt>大根</dt><dd>150g</dd>
<dt>もやし</dt><dd>200g</dd>
<dt>ピーマン</dt><dd>2個</dd>
</dl>
</body>
</html>
11 目的ノード受付部
12 祖先ノード特定部
13 パス抽出部
14 検索パス生成部
15 データ抽出部
31 ウェブデータDB
50 ウェブサーバ
70 インターネット
Claims (5)
- HTML文書を記憶するHTML文書記憶手段と、
前記HTML文書記憶手段に記憶された前記HTML文書を構成するノードのうち、二つ以上の目的ノードの指定を受け付ける目的ノード受付手段と、
前記目的ノード受付手段によって受け付けられた全ての前記目的ノードに共通の上位ノードである共通祖先ノードを特定する祖先ノード特定手段と、
前記祖先ノード特定手段によって特定された前記共通祖先ノードから指定された前記目的ノードまでの全てのパスを抽出するパス抽出手段と、
前記パス抽出手段によって抽出された前記パス及び前記HTML文書を構成するノードの繰り返し構造に基づき、抽出対象となる抽出目的ノードの抽出ルールを示す、前記共通祖先ノードから当該抽出目的ノードまでの検索パスを生成する検索パス生成手段と、
前記共通祖先ノードを含む前記HTML文書から、前記検索パス生成手段によって生成された前記検索パスに従って抽出される前記抽出目的ノードを抽出するデータ抽出手段と、
を含むデータ抽出装置。 - 前記検索パス生成手段は、前記パス抽出手段が抽出した前記全てのパスに基づいて、複数のパターンにマッチするワイルドカードを一部に含む表現を有する前記検索パスを生成する請求項1に記載のデータ抽出装置。
- 前記検索パス生成手段は、前記パス抽出手段が抽出した前記全てのパスについてDP(Dynamic Programming)マッチングを行って、前記ワイルドカードを一部に含む表現を有する検索パスを生成する請求項2に記載のデータ抽出装置。
- 前記祖先ノード特定手段は、
前記指定を受け付けた二つ以上の前記目的ノードのうちの前記HTML文書の下位の前記目的ノードから順に組み合わせて、二つの前記目的ノードの共通上位ノードである第1の共通ノードを求める手段と、
二つの前記第1の共通ノードの共通上位ノードである第2の共通ノードを求める手段と、
前記共通上位ノードが一つになるまでこれを繰り返し、当該一つの共通上位ノードを前記共通祖先ノードとして特定する手段と、を含み、
前記パス抽出手段は、
前記共通祖先ノードから一段下位の共通上位ノードまでのパスを抽出する手段と、
前記一段下位の前記共通上位ノードが前記抽出目的ノードでない場合には、前記一段下位の共通上位ノードからさらに一段下位の共通上位ノードまでのパスを抽出する手段と、
さらに、これを繰り返し、前記抽出目的ノードまでのパスを抽出する繰り返し手段と、を含み、
前記検索パス生成手段は、
前記共通祖先ノードから一段下位の共通上位ノードまでの検索パスを、前記抽出されたパスのDPマッチングを行って生成する手段と、
前記一段下位の共通上位ノードが前記抽出目的ノードでない場合には、前記一段下位の共通上位ノードからさらに一段下位の共通上位ノードまでの検索パスを、前記抽出された前記パスのDPマッチングを行って、生成する手段と、
さらに、これを繰り返し、前記抽出目的ノードまでの検索パスを生成する手段と、を含む、
請求項1に記載のデータ抽出装置。 - HTML文書を記憶するHTML文書記憶手段を有するデータ抽出装置が実行する方法であって、
前記HTML文書記憶手段に記憶された前記HTML文書を構成するノードのうち、二つ以上の目的ノードの指定を受け付ける目的ノード受付ステップと、
前記目的ノード受付ステップにおいて受け付けられた全ての前記目的ノードに共通の上位ノードである共通祖先ノードを特定する祖先ノード特定ステップと、
前記祖先ノード特定ステップにおいて特定された前記共通祖先ノードから指定された前記目的ノードまでの全てのパスを抽出するパス抽出ステップと、
前記パス抽出ステップにおいて抽出された前記パス及び前記HTML文書を構成するノードの繰り返し構造に基づき、抽出対象となる抽出目的ノードの抽出ルールを示す、前記共通祖先ノードから当該抽出目的ノードまでの検索パスを生成する検索パス生成ステップと、
前記共通祖先ノードを含む前記HTML文書から、前記検索パス生成ステップにおいて生成された前記検索パスに従って抽出される前記抽出目的ノードを抽出するデータ抽出ステップと、を含む方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010150011A JP5225331B2 (ja) | 2010-06-30 | 2010-06-30 | データ抽出装置及び方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010150011A JP5225331B2 (ja) | 2010-06-30 | 2010-06-30 | データ抽出装置及び方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012014412A JP2012014412A (ja) | 2012-01-19 |
| JP5225331B2 true JP5225331B2 (ja) | 2013-07-03 |
Family
ID=45600770
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010150011A Active JP5225331B2 (ja) | 2010-06-30 | 2010-06-30 | データ抽出装置及び方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5225331B2 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5820770B2 (ja) * | 2012-05-21 | 2015-11-24 | 日本電信電話株式会社 | 本文抽出装置及び方法及びプログラム |
| SG11201703829SA (en) * | 2014-11-14 | 2017-06-29 | Fujitsu Ltd | Recording medium, data acquisition method, and data acquisition device |
| KR102862253B1 (ko) | 2022-12-28 | 2025-09-22 | 주식회사 레인보우브레인 | 온라인 마켓 상에서의 판매 정보 수집 시스템 및 방법 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4267336B2 (ja) * | 2003-01-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造パターン候補を生成する方法、システムおよびプログラム |
| JP2007047974A (ja) * | 2005-08-09 | 2007-02-22 | Hokkaido Univ | 情報抽出装置および情報抽出方法 |
| JP4593580B2 (ja) * | 2007-03-05 | 2010-12-08 | 株式会社エヌジェーケー | Xmlデータ用操作ボタンの生成方法 |
-
2010
- 2010-06-30 JP JP2010150011A patent/JP5225331B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2012014412A (ja) | 2012-01-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4437500B2 (ja) | データをタグ情報に対応付けて管理する技術 | |
| JP5497022B2 (ja) | 入力文字列からのリソースロケータの提案 | |
| JP5469244B2 (ja) | 選択的なコンテンツ抽出 | |
| JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
| US20130339840A1 (en) | System and method for logical chunking and restructuring websites | |
| TW201514845A (zh) | 從網頁擷取標題及主體 | |
| JP2015225371A (ja) | 関連ノードを探索する方法、並びに、そのコンピュータ、及びコンピュータ・プログラム | |
| TWI433028B (zh) | 顯示螢幕上促進物件選擇之方法、裝置及程式 | |
| JP5989170B2 (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
| RU2562397C2 (ru) | Способ и устройство для добавления адреса гиперссылки в закладку | |
| JP5225331B2 (ja) | データ抽出装置及び方法 | |
| JP5056133B2 (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
| US9875298B2 (en) | Automatic generation of a search query | |
| JP2009086944A (ja) | 情報処理装置および情報処理プログラム | |
| JP5881937B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| JP5196569B2 (ja) | コンテンツ検索装置、コンテンツ検索方法及びプログラム | |
| JP2016045552A (ja) | 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置 | |
| JP2010117941A (ja) | Web文書主要コンテンツ抽出装置及びプログラム | |
| KR100907709B1 (ko) | 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법 | |
| JP2020091607A (ja) | 検索システム、及び検索方法 | |
| JP6696119B2 (ja) | 変換装置、変換方法、及び変換プログラム | |
| KR101421819B1 (ko) | 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법 | |
| JP5068356B2 (ja) | ブログ本文特定装置及びブログ本文特定方法 | |
| CN115203605A (zh) | 网页主内容列表识别方法和装置 | |
| JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130312 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5225331 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |