JP5536066B2 - 要素の符号化方法と装置 - Google Patents
要素の符号化方法と装置 Download PDFInfo
- Publication number
- JP5536066B2 JP5536066B2 JP2011525563A JP2011525563A JP5536066B2 JP 5536066 B2 JP5536066 B2 JP 5536066B2 JP 2011525563 A JP2011525563 A JP 2011525563A JP 2011525563 A JP2011525563 A JP 2011525563A JP 5536066 B2 JP5536066 B2 JP 5536066B2
- Authority
- JP
- Japan
- Prior art keywords
- structure information
- encoded
- current element
- data
- data structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/146—Coding or compression of tree-structured data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Document Processing Apparatus (AREA)
Description
<?xml version="1.0" encoding="ISO-8859-1"?>
<schema targetNamespace="urn:thomson:SchemaExample"
xmlns="http://www.w3.org/2001/XMLSchema"
xmlns:s="urn:thomson:SchemaExample"
xmlns:xs="http://www.w3.org/2001/XMLSchema"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<element name="testSchema">
<complexType>
<choice maxOccurs="100">
<element name="e1" type="xs:string"/>
<element name="e2" type="xs:string"/>
<element name="e3" type="xs:string"/>
<element name="e4" type="xs:string"/>
<element name="e5" type="xs:string"/>
</choice>
</complexType>
</element>
</schema>
以下は、上記のXMLスキーマによるインスタンスの例である。
<?xml version="1.0" encoding="ISO-8859-1" ?>
<s:testSchema xmlns:s="urn:thomson:SchemaExample"
xmlns:b="urn:thomson:SchemaB" xmlns:a="urn:thomson:SchemaA"
xmlns:c="urn:thomson:SchemaC"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="urn:thomson:SchemaExample ./SchemaExample.xsd">
<e1>AAAA</e1>
<e1>BBBB</e1>
<e1>CCCC</e1>
<e1>DDDD</e1>
<e1>EEEE</e1>
</s:testSchema>
このXMLインスタンスでは、異なるデータ値でe1が5回繰り返されることが分かる。従来のスキーマベースの圧縮方法では、要素e1の同じ構造情報が、符号化ビットストリームにおいて5回繰り返される。これは冗長である。
0000 0100 #要素数
000 #位置コード
0 #タイプキャストフラグ
0 0100 #ストリングサイズ
0100 0001 0100 0001 0100 0001 0100 0001 #ストリング値
000 #位置コード
0 #タイプキャストフラグ
0 0100
0100 0010 0100 0010 0100 0010 0100 0010 #ストリング値
000 #位置コード
0 #タイプキャストフラグ
0 0100 #ストリングサイズ
0100 0011 0100 0011 0100 0011 0100 0011 #ストリング値
000 #位置コード
0 #タイプキャストフラグ
0 0100 #ストリングサイズ
0100 0100 0100 0100 0100 0100 0100 0100 #ストリング値
000 #位置コード
0 #タイプキャストフラグ
0 0100 #ストリングサイズ
0100 0101 0100 0101 0100 0101 0100 0101 #ストリング値
000
本発明の実施形態による出力を以下に示す:
0000 0100 #要素数
000 #位置コード
0 #タイプキャストフラグ
0 0100 #ストリングサイズ
0100 0001 0100 0001 0100 0001 0100 0001 #ストリング値
1 #リピートフラグ
0 0100 #ストリングサイズ
0100 0010 0100 0010 0100 0010 0100 0010 #ストリング値
1 #リピートフラグ
0 0100 #ストリングサイズ
0100 0011 0100 0011 0100 0011 0100 0011 #ストリング値
1 #リピートフラグ
0 0100 #ストリングサイズ
0100 0100 0100 0100 0100 0100 0100 0100 #ストリング値
1 #リピートフラグ
0 0100 #ストリングサイズ
0100 0101 0100 0101 0100 0101 0100 0101 #ストリング値
000
上記の実験データから分かるように、冗長な構造情報が減少した。
Claims (11)
- 各要素がデータ構造情報と少なくとも1つのデータ値とを有する一組の要素を、前記一組の要素の各々の構造を画定し、有限状態オートマトンの生成に用いられるスキーマコンポーネントを用いて符号化する方法であって、
符号化装置の側において、
前記符号化装置のプロセッサが、符号化するカレント要素を選択するステップと、
前記プロセッサが、前記カレント要素が先行符号化要素と同じデータ構造情報を有するか判断するステップと、
前記判断が否定的であれば、前記プロセッサが、前記カレント要素に対応する有限状態オートマトンを取得し、前記プロセッサが、前記有限状態オートマトンを用いて、前記カレント要素のデータ構造情報と前記カレント要素の少なくとも1つのデータ値とを符号化するステップと、
前記判断が肯定的であれば、前記プロセッサが、前記カレント要素の少なくとも1つのデータ値を符号化し、前記カレント要素が前記先行符号化要素と同じデータ構造情報を有することを示す、前記カレント要素に関連した表示値を提供するステップとを有することを特徴とする方法。 - 前記カレント要素が前記先行符号化要素と同じデータ構造情報を有するか判断する前に、
前記プロセッサが、前記カレント要素と前記先行符号化要素とが前記一組のスキーマコンポーネントのうちの同じスキーマコンポーネントに対応するか判断するステップと、
前記判断が否定的であれば、前記プロセッサが、前記有限状態オートマトンを用いて、前記カレント要素のデータ構造情報と前記カレント要素の前記少なくとも1つのデータ値とを符号化するステップと、
前記判断が肯定的であれば、前記カレント要素が前記先行符号化要素と同じデータ構造情報を有するか判断するステップに進むステップとをさらに有することを特徴とする、請求項1に記載の方法。 - 前記カレント要素が前記先行符号化要素と同じデータ構造情報を有するか判断するステップは、さらに、
前記プロセッサが、前記カレント要素の符号化された構造情報が前記先行符号化要素の符号化された構造情報か判断するステップを有する、
ことを特徴とする、請求項1に記載の方法。 - 前記カレント要素の符号化された構造情報が前記先行符号化要素の符号化された構造情報と同じか判断するステップの前に、
前記プロセッサが、前記一組のスキーマコンポーネントを用いて、前記カレント要素の要素定義情報が前記先行符号化要素の要素定義情報と同じか判断する、要素定義情報は前記一組のスキーマコンポーネントの一要素の詳細構造の定義に用いられる情報である、ステップと、
前記判断が否定的であれば、前記プロセッサが、前記有限状態オートマトンを用いて、前記カレント要素のデータ構造情報と、前記カレント情報の少なくとも1つのデータ値とを符号化するステップと、
前記判断が肯定的であれば、前記カレント要素の符号化された構造情報が前記先行符号化要素の符号化された構造情報と同じか判断するステップに進むステップと
をさらに有することを特徴とする、請求項3に記載の方法。 - 前記一組の要素を、前記一組のスキーマコンポーネントに関連するファイルまたはその一部から受け取る、前記ファイルまたはその一部は記憶手段に記憶されることを特徴とする、請求項1ないし4いずれか一項に記載の方法。
- 各要素がデータ構造情報と少なくとも1つのデータ値とを有する一組の要素の符号化データを、前記一組の要素の各々の構造を画定するスキーマコンポーネントを用いて復号する方法であって、
復号装置の側において、
前記復号装置のプロセッサが、復号するカレント要素の符号化データを選択するステップと、
前記カレント要素が先行復号要素と同じデータ構造情報を有することを示す前記カレント要素の前記符号化データの一部に基づいて、前記カレント要素が前記先行復号要素と同じデータ構造情報を有すると判断したとき、前記プロセッサが、前記符号化データを復号することにより前記少なくとも1つのデータ値を求め、前記プロセッサが、前記先行復号要素のデータ構造情報を用いることにより前記カレント要素のデータ構造情報を求めるステップとを有する方法。 - 前記カレント要素が前記先行復号要素と異なるデータ構造情報を有するとき、前記プロセッサが、前記カレント要素の前記符号化データを復号することにより、前記少なくとも1つのデータ値と前記データ構造情報とを求めるステップをさらに有することを特徴とする、請求項6に記載の方法。
- 各要素がデータ構造情報と少なくとも1つのデータ値とを有する一組の要素を、前記一組の要素の各々の構造を画定し、有限状態オートマトンの生成に用いられるスキーマコンポーネントを用いて符号化する符号化装置であって、
前記一組のスキーマコンポーネントから求めて一要素のデータ構造情報を符号化する有限状態オートマトンを提供するように構成された符号かツールモジュールと、
データを受け取るように構成された入力モジュールと、
符号化するカレント要素が先行符号化要素と同じデータ構造情報を有するか判断し、前記判断が否定的であれば、前記符号化ツールモジュールにより提供される前記カレント要素に対応する有限状態オートマトンを用いて、前記カレント要素のデータ構造情報と前記少なくとも1つのデータ値とを符号化し、前記判断が肯定的であれば、前記カレント要素の少なくとも1つのデータ値を符号化し、前記カレント要素が前記先行符号化要素と同じデータ構造情報を有することを示す表示値を提供するように構成されたプロセッサとを有することを特徴とする符号化装置。 - 前記カレント要素と前記先行符号化要素とは前記一組のスキーマコンポーネントのうちの同じスキーマコンポーネントに対応し、前記プロセッサは前記一組のスキーマコンポーネントを利用して前記データ構造情報を符号化することを特徴とする、請求項8に記載の符号化装置。
- 各要素がデータ構造情報と少なくとも1つのデータ値とを有する一組の要素の符号化データを、前記一組の要素の各々の構造を画定するスキーマコンポーネントを用いて復号する復号装置であって、
復号するカレント要素の符号化データを受け取るように構成された入力モジュールと、
前記カレント要素が先行復号要素と同じデータ構造情報を有することを示す前記カレント要素の前記符号化データの一部に基づいて、前記カレント要素が前記先行復号要素と同じデータ構造情報を有するかどうか判断し、前記判断が肯定的であれば、前記符号化データを復号することにより前記少なくとも1つのデータ値を求め、前記先行復号要素のデータ構造情報を用いることにより前記カレント要素のデータ構造情報を求めるように構成されたプロセッサとを有することを特徴とする復号装置。 - 前記プロセッサは、前記判断が否定的であれば、前記カレント要素の符号化データを復号することにより、前記カレント要素の前記少なくとも1つのデータ値と前記データ構造情報とを求めるようにさらに構成されていることを特徴とする、請求項10に記載の復号装置。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP08305534.3 | 2008-09-08 | ||
| EP08305534A EP2161667A1 (en) | 2008-09-08 | 2008-09-08 | Method and device for encoding elements |
| PCT/EP2009/061479 WO2010026223A1 (en) | 2008-09-08 | 2009-09-04 | Method and device for encoding elements |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012502337A JP2012502337A (ja) | 2012-01-26 |
| JP5536066B2 true JP5536066B2 (ja) | 2014-07-02 |
Family
ID=41090333
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011525563A Expired - Fee Related JP5536066B2 (ja) | 2008-09-08 | 2009-09-04 | 要素の符号化方法と装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US8193952B2 (ja) |
| EP (2) | EP2161667A1 (ja) |
| JP (1) | JP5536066B2 (ja) |
| CN (1) | CN102119384B (ja) |
| WO (1) | WO2010026223A1 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10311137B2 (en) | 2015-03-05 | 2019-06-04 | Fujitsu Limited | Grammar generation for augmented datatypes for efficient extensible markup language interchange |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FR2813743B1 (fr) * | 2000-09-06 | 2003-01-03 | Claude Seyrat | Procede de compression/decompression de documents structures |
| JP3894280B2 (ja) * | 2001-02-02 | 2007-03-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Xmlデータの符号化方法、符号化されたxmlデータの復号化方法、xmlデータの符号化システム、符号化されたxmlデータの復号化システム、プログラムおよび記録媒体 |
| US7158990B1 (en) * | 2002-05-31 | 2007-01-02 | Oracle International Corporation | Methods and apparatus for data conversion |
| JP2005148970A (ja) * | 2003-11-13 | 2005-06-09 | Meidensha Corp | データ変換方法 |
| JP2005284903A (ja) * | 2004-03-30 | 2005-10-13 | Matsushita Electric Ind Co Ltd | 文書符号化装置、文書復号化装置、文書符号化方法及び文書復号化方法 |
| JP2005332274A (ja) * | 2004-05-20 | 2005-12-02 | Toshiba Corp | 動画像中のオブジェクトに関するメタデータストリームのデータ構造、検索方法及び再生方法 |
| US8346737B2 (en) * | 2005-03-21 | 2013-01-01 | Oracle International Corporation | Encoding of hierarchically organized data for efficient storage and processing |
| TWI295446B (en) * | 2005-12-30 | 2008-04-01 | Ind Tech Res Inst | Executing system and executing method of intelligent rule base service |
| CN100458793C (zh) * | 2007-05-10 | 2009-02-04 | 浪潮集团山东通用软件有限公司 | 数据访问层Xml格式数据与关系数据间的映射转换方法 |
| KR20090017030A (ko) * | 2007-08-13 | 2009-02-18 | 삼성전자주식회사 | 메타데이터 인코딩/디코딩 방법 및 장치 |
-
2008
- 2008-09-08 EP EP08305534A patent/EP2161667A1/en not_active Withdrawn
-
2009
- 2009-09-04 EP EP09811130.5A patent/EP2327028B1/en active Active
- 2009-09-04 WO PCT/EP2009/061479 patent/WO2010026223A1/en not_active Ceased
- 2009-09-04 US US12/737,936 patent/US8193952B2/en active Active
- 2009-09-04 JP JP2011525563A patent/JP5536066B2/ja not_active Expired - Fee Related
- 2009-09-04 CN CN200980131070.8A patent/CN102119384B/zh active Active
Also Published As
| Publication number | Publication date |
|---|---|
| CN102119384B (zh) | 2014-06-11 |
| EP2161667A1 (en) | 2010-03-10 |
| WO2010026223A1 (en) | 2010-03-11 |
| EP2327028B1 (en) | 2023-06-28 |
| EP2327028A1 (en) | 2011-06-01 |
| US20110148673A1 (en) | 2011-06-23 |
| CN102119384A (zh) | 2011-07-06 |
| JP2012502337A (ja) | 2012-01-26 |
| US8193952B2 (en) | 2012-06-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6825781B2 (en) | Method and system for compressing structured descriptions of documents | |
| JP3973557B2 (ja) | 構造化された文書を圧縮/伸長する方法 | |
| US20110283183A1 (en) | Method for compressing/decompressing structured documents | |
| US8892991B2 (en) | Encoder compiler, computer readable medium, and communication device | |
| JP2004524606A (ja) | 構造化文書をいくつかの部分に分割する方法 | |
| US8849726B2 (en) | Information processing apparatus and control method for the same | |
| JP3865694B2 (ja) | 構造化文書の木構造におけるパスの符号化および復号化方法 | |
| JP4997777B2 (ja) | デリミタを減少させる方法及びシステム | |
| US20040111677A1 (en) | Efficient means for creating MPEG-4 intermedia format from MPEG-4 textual representation | |
| JP5044942B2 (ja) | 文書分析において受付状態を決定するシステム及び方法 | |
| CN101427571A (zh) | 从mpeg-4中间格式创建mpeg-4文本表示的方法 | |
| JP5789236B2 (ja) | 構造化文書分析方法、構造化文書分析プログラム、および構造化文書分析システム | |
| JP5377818B2 (ja) | コンパイル済みスキーマに順次アクセスする方法とシステム | |
| JP5536066B2 (ja) | 要素の符号化方法と装置 | |
| JP5044943B2 (ja) | データ文書の高速符号化方法及びシステム | |
| JP4776389B2 (ja) | 符号化文書復号方法及びシステム | |
| US20060259167A1 (en) | Method for compressing and decompressing structured documents | |
| KR100968083B1 (ko) | 구조화된 문서들, 특히 xml 문서들을인코딩/디코딩하기 위한 방법 및 장치 | |
| JP2006221655A (ja) | スキーマをコンパイルする方法とシステム | |
| JP4668273B2 (ja) | Xmlを基礎とする文書の符号化のための方法 | |
| JP2008536423A (ja) | ツリーデータ構造を処理する方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120321 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130513 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130903 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140423 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5536066 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |