JP6078437B2 - Personal information anonymization system - Google Patents
Personal information anonymization system Download PDFInfo
- Publication number
- JP6078437B2 JP6078437B2 JP2013177035A JP2013177035A JP6078437B2 JP 6078437 B2 JP6078437 B2 JP 6078437B2 JP 2013177035 A JP2013177035 A JP 2013177035A JP 2013177035 A JP2013177035 A JP 2013177035A JP 6078437 B2 JP6078437 B2 JP 6078437B2
- Authority
- JP
- Japan
- Prior art keywords
- anonymization
- layer
- generalized hierarchy
- identifier
- hierarchy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、パーソナル情報を匿名化するパーソナル情報匿名化システムに関する。 The present invention relates to a personal information anonymization system that anonymizes personal information.
クラウドコンピューティングや分散処理技術の発展により、これまで企業や団体で蓄積されてきた大量のデータの分析や利活用が現実的な時間で可能となってきている。一方で、これらのデータは多くの場合、氏名や住所のような個人を特定できる情報や、年齢・職業・学歴といった必ずしも個人を特定できないが、個人に関する情報を含んでいる。このような情報はパーソナル情報と呼ばれる。パーソナル情報の利活用は、プライバシー侵害を防止するため、プライバシー保護に配慮して行う必要がある。 With the development of cloud computing and distributed processing technology, it has become possible to analyze and utilize a large amount of data accumulated by companies and organizations so far in a realistic time. On the other hand, in many cases, these data include information that can identify an individual such as a name and an address, and information about an individual that cannot necessarily identify an individual such as age, occupation, and educational background. Such information is called personal information. Utilization of personal information must be done with consideration for privacy protection in order to prevent privacy infringement.
このプライバシーの保護は、個人情報保護法で定める個人情報を削除するだけでは実現できない。例えば、パーソナル情報から、識別番号のようなそれ自体で個人を特定できる情報を削除したとしても、年齢・国籍・職業といった、それ単独では個人を特定できない属性を組み合わせることで個人を特定できることがある。このような、組み合わせることで個人の特定が可能になる属性は準識別子と呼ばれる。準識別子の組み合わせによって個人を特定することを防ぐ技術として、k匿名化がある。k匿名化は、パーソナル情報の準識別子の組み合わせが文書中に所定の匿名化閾値k件以上現れるように属性値を曖昧化する技術である。例えば、k匿名化では、「31歳・日本人・システムエンジニア」という属性値の組み合わせを「30代・日本人・IT」というように曖昧化する。 This privacy protection cannot be realized simply by deleting personal information defined by the Personal Information Protection Law. For example, even if information that can identify an individual such as an identification number is deleted from personal information, an individual may be identified by combining attributes such as age, nationality, and occupation that cannot be identified by itself. . Such attributes that can be identified by combining them are called quasi-identifiers. As a technique for preventing an individual from being identified by a combination of quasi-identifiers, there is k anonymization. k anonymization is a technique for obscure attribute values so that a combination of quasi-identifiers of personal information appears in a document over a predetermined anonymization threshold value k. For example, in k-anonymization, a combination of attribute values “31 years old, Japanese, system engineer” is obscured as “30s, Japanese, IT”.
パーソナル情報の匿名化技術であるk匿名化では、パーソナル情報の準識別子の属性値を曖昧化するために、一般化階層というデータ構造を使用する。特許文献1に示す技術を用いて、パーソナル情報の準識別子の属性値の出現頻度に従ってこの一般化階層を生成することができる。このようにして得られる一般化階層を用いてk匿名化を実施することにより、情報の精度落ちを抑えることができる。
In k anonymization that is an anonymization technique of personal information, a data structure called a generalized hierarchy is used to obscure the attribute value of the quasi-identifier of personal information. This generalized hierarchy can be generated according to the appearance frequency of the attribute value of the quasi-identifier of personal information using the technique shown in
一般化階層はルートを頂点とする木構造のノードで構成されており、いくつかの層に分かれている。このような一般化階層を構成する層をレイヤと呼ぶ。
パーソナル情報とこのパーソナル情報の準識別子とこの準識別子の一般化階層のレイヤの組み合わせとを決めると、その組み合わせに従ってパーソナル情報を匿名化することができる。この準識別子の一般化階層のレイヤの組み合わせを匿名化プランと呼ぶ。パーソナル情報とその準識別子の一般化階層を与え、k匿名化閾値を決めたとき、このk匿名化閾値を満たすことのできる匿名化プランは一般に複数ある。したがって、その中から最適な匿名化プランを選択する必要がある。匿名化プランの選択については、非特許文献1に示す方法が知られている。この方法では、指定したk匿名化閾値との近さや一般化階層のレイヤの低さなどに基づいて匿名化プランを選択している。
The generalized hierarchy is composed of tree-structured nodes with the root at the top, and is divided into several layers. Such a layer constituting the generalized hierarchy is called a layer.
When the personal information, the quasi-identifier of the personal information, and the combination of the layers of the generalized hierarchy of the quasi-identifier are determined, the personal information can be anonymized according to the combination. This combination of the layers of the generalized hierarchy of quasi-identifiers is called an anonymization plan. When a generalized hierarchy of personal information and its quasi-identifier is given and a k-anonymization threshold is determined, there are generally a plurality of anonymization plans that can satisfy this k-anonymization threshold. Therefore, it is necessary to select an optimal anonymization plan from among them. Regarding the selection of the anonymization plan, the method shown in Non-Patent
k匿名化によって得られる匿名化データの品質は一般化階層や匿名化プランに依存するため、一般化階層の編集による影響を把握できるようにする必要がある。この匿名化データの品質を表す指標として損失情報量がある。損失情報量を計算する技術はいくつか提案されているが、属性値の出現頻度を基にした情報エントロピーとして損失情報量を計算する技術が、同じく特許文献1で提案されている。この技術には、匿名化対象のパーソナル情報に即した情報量の評価ができるという特長がある。
Since the quality of the anonymized data obtained by k anonymization depends on the generalization hierarchy and the anonymization plan, it is necessary to be able to grasp the influence by the editing of the generalization hierarchy. There is a loss information amount as an index representing the quality of the anonymized data. Several techniques for calculating the loss information amount have been proposed, but a technique for calculating the loss information amount as information entropy based on the appearance frequency of the attribute value is also proposed in
特許文献1に示す技術を用いて得られる一般化階層は、情報の精度落ちを抑えることができる反面、必ずしも分析目的に適したものになるとは限らない。例えば、「仏(フランス)」と「中(中国)」という国籍の準識別子の属性値が1つ上のレイヤで「仏中(フランスおよび中国)」という属性値に一般化された場合、この一般化は、匿名化データを用いた分析において、国籍が表す国の世界的な地域区分を重視する場合には適切ではない。
一方で、利用者が特許文献1に示すような技術を用いず、自らの手で一般化階層を作成した場合、その一般化階層を用いて匿名化を一度実行しないと情報がどの程度落ちるのかが分からないため、分析目的に適した匿名化データが得られるとは限らない。
The generalized hierarchy obtained by using the technique shown in
On the other hand, if the user does not use the technique shown in
本発明は、分析目的に適した匿名化データを得るために一般化階層を編集することができるパーソナル情報匿名化システムを提供することを目的とする。 An object of the present invention is to provide a personal information anonymization system capable of editing a generalized hierarchy in order to obtain anonymized data suitable for analysis purposes.
上記課題を解決するために、本発明のパーソナル情報匿名化システムは、
匿名化される対象である複数の準識別子の属性値の組み合わせを含む匿名化対象データに基づいて、当該準識別子毎に、前記匿名化対象データに含まれる属性値および当該属性値の出現頻度を有する複数のノードを含む最下層のレイヤと、下層のレイヤに比べて匿名化の程度が同一またはより高い属性値および当該属性値の出現頻度を有する1つ以上のノードを含むレイヤとによって構成される木構造の一般化階層を作成する一般化階層作成手段と、
利用者による準識別子の指定に応答して、指定された当該準識別子の一般化階層を利用者に提示する一般化階層提示手段と、
利用者による編集の指示に応じて、前記一般化階層提示手段によって提示された一般化階層を、木構造を保ちながら更新し、更新された一般化階層を利用者に再提示する一般化階層編集手段と、
利用者による各準識別子の一般化階層のレイヤの指定に応答して、前記匿名化対象データに含まれる各準識別子の属性値が当該指定された各準識別子の一般化階層のレイヤに属するノードの属性値に置き換えられた匿名化データを作成する匿名化手段と、
を備えることを特徴とする。
In order to solve the above problems, the personal information anonymization system of the present invention is:
Based on the anonymization target data including a combination of attribute values of a plurality of quasi-identifiers to be anonymized, for each quasi-identifier, the attribute value included in the anonymization target data and the appearance frequency of the attribute value A lowermost layer including a plurality of nodes, and a layer including one or more nodes having an attribute value having the same or higher degree of anonymization as compared to the lower layer and an appearance frequency of the attribute value. A generalized hierarchy creating means for creating a generalized hierarchy of a tree structure,
In response to the designation of the quasi-identifier by the user, a generalized hierarchy presentation means for presenting the generalized hierarchy of the designated quasi-identifier to the user;
Generalized hierarchy editing in which the generalized hierarchy presented by the generalized hierarchy presenting means is updated while maintaining a tree structure in accordance with an editing instruction by the user, and the updated generalized hierarchy is re-presented to the user. Means,
In response to designation of the generalized hierarchy layer of each semi-identifier by the user, the attribute value of each semi-identifier included in the anonymization target data belongs to the general hierarchy layer of the designated semi-identifier Anonymization means for creating anonymized data replaced with attribute values of
It is characterized by providing.
好ましくは、本発明のパーソナル情報匿名化システムは、
前記一般化階層の各レイヤの情報損失指標を求める損失指標算出手段を備え、
前記一般化階層提示手段と前記一般化階層編集手段が、前記損失指標算出手段によって求められた前記一般化階層に含まれる各レイヤの情報損失指標を利用者に提示する、
ことを特徴とする。
Preferably, the personal information anonymization system of the present invention is
A loss index calculating means for determining an information loss index of each layer of the generalized hierarchy;
The generalized hierarchy presenting means and the generalized hierarchy editing means present the information loss index of each layer included in the generalized hierarchy obtained by the loss index calculating means to the user;
It is characterized by that.
好ましくは、本発明のパーソナル情報匿名化システムは、
前記匿名化手段が、前記匿名化データに含まれる各準識別子の属性値の組み合わせの出現頻度が利用者によって指定されたk匿名化閾値を満たすように前記匿名化データを修正することを特徴とする請求項1または2に記載のパーソナル情報匿名化システム。
Preferably, the personal information anonymization system of the present invention is
The anonymization means modifies the anonymization data so that an appearance frequency of a combination of attribute values of each quasi-identifier included in the anonymization data satisfies a k anonymization threshold specified by a user. The personal information anonymization system according to
好ましくは、本発明のパーソナル情報匿名化システムは、
前記一般化階層編集手段における編集が、ノードの名前の変更と、ノードの移動と、レイヤの追加と、レイヤの削除とを含むことを特徴とする。
Preferably, the personal information anonymization system of the present invention is
The editing in the generalized hierarchy editing means includes a node name change, a node movement, a layer addition, and a layer deletion.
本発明によれば、分析目的に適した匿名化データを得るために一般化階層を編集することができる。 According to the present invention, the generalized hierarchy can be edited in order to obtain anonymized data suitable for analysis purposes.
以下、本発明の実施形態に係るパーソナル情報匿名化システムについて添付図面を参照しながら説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。
なお、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。
Hereinafter, a personal information anonymization system according to an embodiment of the present invention will be described with reference to the accompanying drawings. However, it should be noted that this embodiment is merely an example for realizing the present invention, and does not limit the technical scope of the present invention.
In all the drawings for explaining the embodiments, common constituent elements are denoted by the same reference numerals, and repeated explanation is omitted.
(全体構成)
図1は、本発明の実施形態に係るパーソナル情報匿名化システム100の構成の一例を示す。
パーソナル情報匿名化システム100は、インターネット等のネットワーク180に接続されている。また、ネットワーク180には、一般化階層編集受付装置170が接続されている。パーソナル情報匿名化システム100と一般化階層編集受付装置170は、ネットワーク180を介して相互に通信することができる。
一般化階層編集受付装置170は、一般化階層を編集するユーザインタフェースを利用者に提供する。一般化階層編集受付装置170は、例えば、パーソナルコンピュータで実現される。一般化階層編集受付装置170は、例えば、Webブラウザに表示されるWebページとしてユーザインタフェースを実現してもよいし、Java(登録商標)のグラフィカルユーザインタフェース部品であるSWT(Standard Widget Toolkit)を用いたクライアントサーバアプリケーションのウィンドウとしてユーザインタフェースを実現してもよい。
(overall structure)
FIG. 1 shows an example of the configuration of a personal
The personal
The generalized hierarchy
パーソナル情報匿名化システム100は、匿名化装置101とパーソナル情報管理装置150とを含む。
匿名化装置101は、アプリケーションサーバ等であって、CPU(Central Processing Unit)と、RAM(Random Access Memory)等で構成される主メモリと、ハードディスク等で構成される記憶装置とを備える。
匿名化装置101の記憶装置には、匿名化プログラムが格納されている。
匿名化装置101のCPUが、匿名化プログラムを記憶装置から主メモリに読み込んで実行することによって、ユーザインタフェース部110と、一般化階層作成部111と、一般化階層提示部112と、一般化階層編集部113と、匿名化後頻度表算出部114と、損失指標算出部115と、一般化階層保存部116と、匿名化処理部117との各部の機能が実現される。一時記憶部120は、匿名化装置101の主メモリまたは記憶装置に設けられた記憶領域である。
パーソナル情報管理装置150は、データベース製品上のストレージとして実現される。パーソナル情報管理装置150の実現方法は関係データベース、キーバリュー型分散データベースなどが考えられる。パーソナル情報管理装置150は、匿名化対象データ151と、管理データ152と、一般化階層データ153と、準識別子タプル頻度データ154と、匿名化データ155とを管理する。
なお、匿名化装置101とパーソナル情報管理装置150は、同一のコンピュータで実現されてもよいし、別々のコンピュータで実現されてもよい。
The personal
The
The storage device of the
The CPU of the
The personal
The
ユーザインタフェース部110は、後述するように、図2に示す一般化階層編集画面200を一般化階層編集受付装置170に表示させる。一般化階層編集受付装置170が一般化階層編集画面200上で入力された各種情報を匿名化装置101に送信すると、ユーザインタフェース部110はその情報を受信して他の各部に渡す。
一般化階層作成部111は、匿名化対象データの名前、匿名化対象データが格納されているデータファイルの場所、k匿名化閾値、および属性情報などの情報を受け付けると、データファイルを取得する。そして、一般化階層作成部111は、データファイルから匿名化対象データと一般化階層データと準識別子タプル頻度データとを作成し、パーソナル情報管理装置150に匿名化対象データ151と管理データ152と一般化階層データ153と準識別子タプル頻度データ154とを書き込む。
一般化階層提示部112は、一般化階層編集受付装置200を用いる利用者による準識別子の指定を受け付けると、指定された準識別子の一般化階層データ153をパーソナル情報管理装置150から読み出して木構造に展開し、一時記憶部120に保存する。そして、一般化階層提示部112は、一時記憶部120に保存されている一般化階層等を一般化階層編集受付装置170の一般化階層編集画面上に表示させる。なお、「一般化階層等を一般化階層編集受付装置170の一般化階層編集画面上に表示させる」ことは、本発明における「指定された準識別子の一般化階層を利用者に提示する」ことの一例である。
一般化階層編集部113は、利用者による編集の指示に応じて、一般化階層提示部112によって提示された一般化階層を、木構造を保ちながら更新する。
As will be described later, the
Generalization
When the generalized
The generalized
匿名化後頻度表算出部114は、匿名化対象データの準識別子の属性値を匿名化したときの準識別子の組み合わせの出現頻度を算出し、匿名化換後の準識別子の組み合わせとその出現頻度とを含む匿名化後タプル頻度表を出力する。
損失指標算出部115は、匿名化後頻度表算出部114により出力される匿名化後タプル頻度表を基に、匿名化前後の情報量を計算して匿名化前のデータからどれだけ情報の精度が落ちたかを表す情報損失指標である情報損失率を計算する。
The post-anonymization frequency
The loss
一般化階層保存部116は、利用者の保存操作に応じて一時記憶部120に保存されている一般化階層をパーソナル情報管理装置150の一般化階層データ153として書き込む。
匿名化処理部117は、利用者による匿名化要求に応答して匿名化対象データから匿名化データを求める。そして、匿名化処理部117は、利用者によって指定されたk匿名化閾値を満たすように匿名化データを修正してパーソナル情報管理装置150の匿名化データ155として書き込む。
なお、一般化階層作成部111は本発明の一般階層作成手段の一例であり、一般化階層提示部112は本発明の一般化階層提示手段の一例であり、一般化階層編集部113は本発明の一般化階層編集手段の一例であり、匿名化処理部117は本発明の匿名化手段の一例であり、匿名化後頻度表算出部114は本発明の匿名化後頻度表算出手段の一例である。
The generalized
The
The generalized
(一般化階層編集受付装置)
一般化階層編集受付装置170は、図2に示す一般化階層編集画面200をディスプレイに表示する。
一般化階層編集画面200は、メニューバー210と、匿名化設定表示エリア250と、損失指標評価エリア260と、一般化階層エディタ270とを含む。
メニューバー210には、項目として「データ」と「一般化階層」が表示される。メニューバー210をマウスで左クリックするなどの操作によって、「データ−取込」メニュー220を選択すると、図3に示す匿名化対象データ取込ダイアログ221がディスプレイ上に開く。後述するように、匿名化対象データ取込ダイアログ221上でデータ名とデータファイルのパスを指定し、k匿名化閾値を設定し、匿名化対象データの属性と準識別子の情報を選択することができる。
また、メニューバー210をマウスで左クリックするなどの操作によって「データ−匿名化」メニュー230を選択すると、図4に示す匿名化実行ダイアログ231がディスプレイ上に開く。
また、メニューバー210をマウスで左クリックするなどの操作によって「一般階層化−保存」メニュー240を選択することにより、一般化階層を情報管理装置150の一般化階層データ153に保存することができる。
(Generalized hierarchy editing reception device)
The generalized hierarchy
Generalized
In the
When the “data-anonymization”
Further, the generalized hierarchy can be saved in the
匿名化設定表示エリア250は、匿名化対象データ取込ダイアログ221上で設定されたデータ名とk匿名化閾値と匿名化対象データの属性の一覧と匿名化対象データの準識別子の一覧とを表示する。図2では属性の一覧と準識別子の一覧とを別々の領域に表示しているが、同一の領域に表示して準識別子にあたる属性だけを太字で示すなどの方法で強調表示してもよい。また、属性の領域と準識別子の領域の間に、準識別子の追加や削除を実行するボタンを設けてもよい。
The anonymization
損失指標評価エリア260は、匿名化実行ダイアログ231上で選択された一般化階層のレイヤをすべての準識別子について表示し、また、それらのレイヤを用いて匿名化を実行したときの情報損失率を表示する。
匿名化実行ダイアログ231上で準識別子の一般化階層のレイヤが選択されると、匿名化後頻度表算出部114は、選択されたレイヤに応じて匿名化後タプル頻度表を算出し、この匿名化後タプル頻度表を基に情報損失率を求める。情報損失率は、後述する式1から式9に定める方法によって算出される。
The loss
When the layer of the quasi-identifier generalized hierarchy is selected on the
一般化階層エディタ270は、準識別子ごとに一般化階層を表示し、準識別子の属性値または一般化(匿名化)された属性値とその出現頻度、および各レイヤでの情報損失率(IL:Information Loss rate)を表示する。ここで、出現頻度とは、例えば、準識別子の属性値が匿名化対象データに現れる回数をいう。また、一般化階層エディタ270は、利用者によるノードの移動やノード名変更、レイヤの追加や削除などの編集操作に応じて一般化階層や情報損失率の表示を更新する。
The
一般化階層は、匿名化対象データに含まれる準識別子の属性値およびその出現頻度を有する複数のノードを含む最下層のレイヤと、下層のレイヤに比べて匿名化の程度が同一またはより高い属性値およびその出現頻度を有する1つ以上のノードを含むレイヤとによって構成される。
例えば、図2中の一般化階層エディタ270には、あるパーソナル情報について「国籍」という準識別子の一般化階層が表示されている。各ボックスの上段は「国籍」という準識別子の属性値または一般化(匿名化)された属性値を表し、下段はその出現頻度を表す。
一般化階層は2個以上任意個のレイヤL0,…,LJ−1から構成され、各々のレイヤは1個以上任意個のノードを持つ。さらに、隣接するレイヤ間には親子関係がある。つまり、j=0,…,J−2に対して、LjはLj+1の子レイヤ、Lj+1はLjの親レイヤである。さらに、各々のレイヤに属するノードは、上位レイヤに高々1つの親ノードを、下位レイヤに0個以上任意個の子ノードを持つ。ノードが親ノードを持たないのは、該ノードが属するレイヤが最上層のレイヤLJ−1、つまりルートレイヤであるときである。ノードが子ノードを持たないのは、そのノードが属するレイヤが最下層のレイヤL0、つまりリーフレイヤであるときである。また、ルートレイヤに含まれるノードをルートノード、リーフレイヤに含まれるノードをリーフノードという。
The generalization hierarchy is an attribute value of the quasi-identifier included in the data to be anonymized and an attribute having the same or higher degree of anonymization than the lowermost layer including a plurality of nodes having the appearance frequency and the lower layer A layer including one or more nodes having a value and its frequency of appearance.
For example, the
The generalized hierarchy is composed of two or more arbitrary layers L 0 ,..., L J−1 , and each layer has one or more arbitrary nodes. Furthermore, there is a parent-child relationship between adjacent layers. That, j = 0, ..., with respect to J-2, L j is L j + 1 of the child layers, L j + 1 is the parent layer of the L j. Further, the nodes belonging to each layer have at most one parent node in the upper layer and 0 or more arbitrary child nodes in the lower layer. The node does not have a parent node when the layer to which the node belongs is the uppermost layer L J−1 , that is, the root layer. The node has no child node when the layer to which the node belongs is the lowest layer L 0 , that is, the leaf layer. A node included in the root layer is referred to as a root node, and a node included in the leaf layer is referred to as a leaf node.
図2中の一般化階層エディタ270に表示されている例では、第5レイヤがルートレイヤであり、ルートノードの属性値は「仏中英独米日」である。また、第0レイヤがリーフレイヤであり、リーフノードの属性値は「仏」、「中」、「英」、「独」、「米」、および「日」である。第0レイヤは、匿名化する前の属性値各々を有するノードを含む。なお、例えば、「日」は第0レイヤから第4レイヤまでに含まれるが、第0レイヤの「日」がリーフノードであり、第1レイヤから第4レイヤまでの「日」はリーフノードではない。
以下では、あるレイヤのノード(親ノード)につながる上層のレイヤのノードを祖先ノードという。第5レイヤの「仏中英独米日」、第4レイヤの「仏中英独米」、および第3レイヤの「仏中英独」は、第2レイヤのノード「仏中英」の祖先ノードである。また、あるレイヤのノード(親ノード)につながる下層のレイヤのノードを子孫ノードという。たとえば、第1レイヤの「仏中」と「英」および第0レイヤの「仏」と「中」と「英」は、第2レイヤの親ノード「仏中英」の子孫ノードである。また、第0〜第3レイヤのノード「日」は、第4レイヤの親ノード「日」の子孫ノードである。
In the example displayed in the
Hereinafter, an upper layer node connected to a node (parent node) of a certain layer is referred to as an ancestor node. The fifth layer, “French, Chinese, English, and US”, the fourth layer, “French, Chinese, English, and US”, and the third layer, “French, Chinese, English, and German,” It is a node. A node in a lower layer connected to a node (parent node) of a certain layer is called a descendant node. For example, “French Chinese” and “English” in the first layer and “French”, “Central”, and “English” in the 0th layer are descendant nodes of the parent node “French Chinese in English” in the second layer. Also, the node “day” of the 0th to third layers is a descendant node of the parent node “day” of the fourth layer.
(一般化階層エディタにおける編集)
一般化階層エディタ270上でマウスにより右クリックするなどの操作によって、コンテキストメニューを開くことができる。コンテキストメニューでは、「ノード名変更」、「ノード移動」、「レイヤ追加(上)」、「レイヤ追加(下)」および「レイヤ削除」等の各操作を行うことができる。
図5は、一般化階層エディタ270上に表示されるコンテキストメニューで選択可能な項目の一例を示す。選択可能な項目はレイヤに依存するが、加えてノード上で右クリックしたかそれ以外の空白エリア(以下、非ノードという。)で右クリックしたかにも依存する。
図5において、Nはルートレイヤのレイヤ番号であり、1以上の整数値を取る。一般化階層のレイヤの総数が2(N=1)である場合は、第1レイヤはルートレイヤである。この場合、ルートノードに対する操作を行うときは、図5におけるレイヤ「1」の場合とレイヤ「N」の場合のANDを適用する。たとえば、第1階層でノードを選択したとき、レイヤ「1」の場合では「ノード移動」は○になっているが、レイヤ「N」の場合では「ノード移動」は×になっているので、「ノード移動」は選択できない。一般化階層のレイヤの総数が3(N=2)である場合、第1レイヤはルートレイヤではない。この場合に第1レイヤに対する操作を行うときは、図5におけるレイヤ「1」の場合を適用する。一般化階層のレイヤの総数が3(N=2)である場合は、第2レイヤがルートレイヤである。この場合、ルートノードに対する操作を行うときは、図5におけるレイヤ「N」の場合を適用する。
例えば、図5によれば、一般化階層のレイヤの総数が2以上のときに第1レイヤ上のノードで右クリックしたときは「ノード名変更」と「ノード移動」が選択可能である。一方、第1レイヤの非ノード(ノードがないところ、すなわち空白エリア)で右クリックしたときは「レイヤ追加(上)」「レイヤ追加(下)」「レイヤ削除」が選択可能である。
(Edit in generalized hierarchy editor)
The context menu can be opened by an operation such as right-clicking on the
FIG. 5 shows an example of items that can be selected from the context menu displayed on the
In FIG. 5, N is the layer number of the root layer and takes an integer value of 1 or more. When the total number of layers in the generalized hierarchy is 2 (N = 1), the first layer is the root layer. In this case, when performing an operation on the root node, the AND in the case of the layer “1” and the layer “N” in FIG. 5 is applied. For example, when a node is selected in the first hierarchy, “node movement” is ○ in the case of layer “1”, but “node movement” is × in layer “N”. “Move node” cannot be selected. When the total number of layers in the generalized hierarchy is 3 (N = 2), the first layer is not a root layer. In this case, when an operation is performed on the first layer, the case of the layer “1” in FIG. 5 is applied. When the total number of layers in the generalized hierarchy is 3 (N = 2), the second layer is the root layer. In this case, when performing an operation on the root node, the case of the layer “N” in FIG. 5 is applied.
For example, according to FIG. 5, when the total number of layers in the generalized hierarchy is two or more, “node name change” and “node movement” can be selected when right-clicking on a node on the first layer. On the other hand, when right-clicking on a non-node of the first layer (where there is no node, that is, a blank area), “add layer (above)”, “add layer (below)”, and “delete layer” can be selected.
図6は、「ノード名変更」の一例を示す。図6の例では第2レイヤの米をアメリカに変更している。
「ノード名変更」操作を行う場合、まず一般化階層エディタ270に表示されているノードをマウスで右クリックするとコンテキストメニューが表示される。次に、そのコンテキストメニュー上に表示されている「ノード名変更」をマウスで左クリックして選択する。これにより、一般化階層エディタ270上でこの選択されたノードのノード名を直接入力できるようになるので、キーボード等を用いて変更後のノード名を入力する。なお、ノード名変更後、ノード名を変更されたノードの祖先ノードや子孫ノード(リーフノードは除く)など、改名を推奨するノードを強調表示することとしてもよい。強調表示の方法としては、例えばノード名を赤色で表示したり、太線で表示する等の方法が考えられる。強調表示の例として、図6に改名を推奨するノードのボックスの枠線を太線化する例を示す。
「ノード名変更」では編集前後でノード間の階層構造は変わらないため、情報損失率は変わらない。
FIG. 6 shows an example of “change node name”. In the example of FIG. 6, the second layer of rice is changed to the United States.
When performing a “change node name” operation, a context menu is displayed when a node displayed in the
In “change node name”, the hierarchical structure between nodes does not change before and after editing, so the information loss rate does not change.
「ノード移動」操作を行う場合、まず一般化階層エディタ270に表示されているノードをマウスで右クリックするとコンテキストメニューが表示される。次に、そのコンテキストメニュー上に表示されている「ノード移動」をマウスで左クリックして選択する。そして、移動先の親ノードをマウスで左クリックする。
ノード移動は、移動対象ノードの子孫ノードも含めて階層構造を保ちながら移動する。その際、一般化階層は元のデータの属性値を曖昧化する階層であるので、レイヤ0にすべての匿名化前の属性値を持つ必要がある。このため、「ノード移動」は、移動元と移動先の階層によって以下の3種類に分けられる。
(1)移動によって階層が上がる場合:移動するノードの子孫ノードも一緒に移動し、移動するノードの末端にあるノードを第0レイヤまで伸ばす。第1レイヤのノード「中」を第3レイヤの「日」の下のレイヤ(第2レイヤ)に移動する例を図7に示す。
(2)移動によって階層が変わらない場合:移動するノードを子孫ノードごと移動する。第1レイヤのノード「中」を第2レイヤの「日」の下のレイヤ(第1レイヤ)に移動する例を図8に示す。
(3)移動によって階層が下がる場合:移動するノードを子孫ノードごと移動する。ただし、このまま移動すると、移動するノードの末端にあるノードが第0レイヤよりも下に位置してしまうので、移動前の第0レイヤからはみ出す分だけ下に階層を増やし、その最下層を改めて第0レイヤとする。さらに、移動するノードの子孫ノードに含まれないリーフノードは新しい第0レイヤまで伸ばす。第1レイヤのノード「仏独」を第1レイヤの「英」の下のレイヤ(第0レイヤ)に移動する例を図9に示す。
なお、ノード移動後、改名を推奨するノードを強調表示することとしてもよい。強調表示の例として、図7〜図9に改名を推奨するノードのボックスの枠線を太線化する例を示す。
When performing the “move node” operation, a context menu is displayed when the node displayed in the
The node movement is performed while maintaining the hierarchical structure including the descendant nodes of the movement target node. At this time, since the generalized hierarchy is a hierarchy that obfuscates the attribute values of the original data, it is necessary to have all the attribute values before anonymization in
(1) When the hierarchy is increased by movement: The descendant nodes of the moving node are moved together, and the node at the end of the moving node is extended to the 0th layer. FIG. 7 shows an example in which the node “medium” in the first layer is moved to a layer (second layer) below “day” in the third layer.
(2) When the hierarchy does not change due to movement: The node to be moved is moved together with the descendant nodes. FIG. 8 shows an example in which the node “medium” of the first layer is moved to a layer (first layer) below “day” of the second layer.
(3) When the hierarchy is lowered by the movement: The moving node is moved together with the descendant nodes. However, if it moves as it is, the node at the end of the moving node will be located below the 0th layer, so the hierarchy will be increased by the amount that protrudes from the 0th layer before the movement, and the lowest layer will be changed again. 0 layers are assumed. Further, the leaf nodes not included in the descendant nodes of the moving node are extended to the new 0th layer. FIG. 9 shows an example in which the node “French and German” in the first layer is moved to a layer (0th layer) below “English” in the first layer.
Note that, after a node is moved, a node that is recommended to be renamed may be highlighted. As an example of highlighting, FIGS. 7 to 9 show examples in which the box line of a node whose name is recommended is thickened.
また、図5に示すように、第0レイヤのノード、つまりリーフノードの移動も可能である。例えば、図2の一般化階層エディタ270に例示されている一般化階層において、ノード「中」を第1レイヤ以上のノード「日」の下に移動し、移動先の親ノードを「アジア」に改名するというような操作が考えられる。この操作によるリーフノードの移動が行われると、移動されたリーフノードは第0レイヤまで子孫ノードが伸び、同じ属性値を持つリーフノードが作成される。
ただし、「ノード移動」では、リーフノードを親ノードに指定することはできない。リーフノードは匿名化される前の生の属性値を表しているので、リーフノードが他の生の属性値を子孫に持つことは考えられないからである。
また、あるノードをその子孫ノードの下に移動することはできない。このような移動を可能とすると、ノードの親子関係が循環してしまうからである。この点は、Windows(登録商標)のエクスプローラで、あるフォルダをそのサブフォルダの下に移動する操作はできないのと同様である。
「ノード移動」では、ノード移動完了後に情報損失率を再計算し、再計算された情報損失率を一般化階層エディタ270に表示する。
Further, as shown in FIG. 5, the node of the 0th layer, that is, the leaf node can also be moved. For example, in the generalized hierarchy illustrated in the
However, in “node movement”, a leaf node cannot be designated as a parent node. This is because a leaf node represents a raw attribute value before being anonymized, and it is unlikely that a leaf node has another raw attribute value as a descendant.
A node cannot be moved under its descendant nodes. This is because when such movement is possible, the parent-child relationship of the nodes circulates. This is the same as the Windows (registered trademark) Explorer cannot be used to move a folder under the subfolder.
In the “node movement”, the information loss rate is recalculated after the node movement is completed, and the recalculated information loss rate is displayed on the
「レイヤ追加(上)」、「レイヤ追加(下)」または「レイヤ削除」操作を行う場合、まず一般化階層エディタ270に表示されているレイヤの非ノード(ノードがないところ、すなわち空白エリア)をマウスで右クリックするとコンテキストメニューが表示される。次に、そのコンテキストメニュー上に表示されている「レイヤ追加(上)」、「レイヤ追加(下)」および「レイヤ削除」のいずれかをマウスで左クリックして選択する。
「レイヤ追加(上)」では、選択したレイヤの上に新しくレイヤを作成する。新しいレイヤのノードは、選択したレイヤのノードがそのまま現れる。選択したレイヤと新しいレイヤでのノード間の親子関係は、同じ名前のノード同士が親子になる。新しいレイヤとその親レイヤのノード間の親子関係は、レイヤ追加前の選択したレイヤとその親レイヤの親子関係を引き継ぐ。
ただし、ルートレイヤの上には新しいレイヤを作成できない。
「レイヤ追加(上)」では追加したレイヤでの情報損失率は、選択したレイヤのそれと同じである。
When performing “add layer (above)”, “add layer (below)”, or “delete layer” operation, first the non-node of the layer displayed in the generalized hierarchy editor 270 (where there is no node, ie, a blank area) Right-click with the mouse to display the context menu. Next, one of “add layer (top)”, “add layer (bottom)” and “delete layer” displayed on the context menu is selected by left-clicking with the mouse.
In “Add layer (upper)”, a new layer is created on the selected layer. As the new layer node, the node of the selected layer appears as it is. In the parent-child relationship between the nodes in the selected layer and the new layer, the nodes having the same name become the parent-child. The parent-child relationship between the node of the new layer and its parent layer inherits the parent-child relationship of the selected layer and its parent layer before adding the layer.
However, a new layer cannot be created above the root layer.
In “add layer (upper)”, the information loss rate in the added layer is the same as that of the selected layer.
「レイヤ追加(下)」では、選択したレイヤの下に新しくレイヤを作成する。新しいレイヤのノードは、選択したレイヤの子レイヤにあったノードがそのまま現れる。新しいレイヤの子レイヤと新しいレイヤでのノード間の親子関係は、同じ名前のノード同士が親子になる。新しいレイヤとその親レイヤのノード間の親子関係は、レイヤ追加前の選択したレイヤとその子レイヤの親子関係を引き継ぐ。
ただし、リーフレイヤの下には新しいレイヤを作成できない。
「レイヤ追加(下)」では追加したレイヤでの情報損失率は、選択したレイヤのレイヤ追加前の子レイヤのそれと同じである。
In “Add layer (lower)”, a new layer is created under the selected layer. As the node of the new layer, the node that was in the child layer of the selected layer appears as it is. In the parent-child relationship between the child layer of the new layer and the node in the new layer, the nodes having the same name become the parent-child. The parent-child relationship between the node of the new layer and its parent layer inherits the parent-child relationship of the selected layer and its child layer before adding the layer.
However, a new layer cannot be created under the leaf layer.
In “add layer (lower)”, the information loss rate in the added layer is the same as that of the child layer of the selected layer before adding the layer.
「レイヤ削除」では、選択したレイヤを削除する。削除するレイヤの一つ下のレイヤと一つ上のレイヤとの子孫関係が、レイヤ削除後の一般化階層での親子関係になる。
ただし、ルートレイヤとリーフレイヤの削除はできない。
「レイヤ削除」では編集前後でリーフレイヤと他レイヤとの子孫関係は変わらないため、情報損失率は変わらない。
In “delete layer”, the selected layer is deleted. The descendant relationship between the layer immediately below the layer to be deleted and the layer above is the parent-child relationship in the generalized hierarchy after the layer is deleted.
However, the root layer and leaf layer cannot be deleted.
In the “delete layer”, since the descendant relationship between the leaf layer and other layers does not change before and after editing, the information loss rate does not change.
(匿名化対象データ)
匿名化対象データ151は、図10に示すような表形式をとる。匿名化対象データ151のレコードは、レコードの識別子であるキーと、レコードの属性であるいくつかの列を有する。ここでは、KEYという列が識別子であり、他に年齢、国籍、専攻及び通勤時間といった列を持つ。本実施形態ではこれらの列のうち、年齢、国籍及び専攻を準識別子とする。
(Data to be anonymized)
The
(管理データ)
管理データ152は、図11に示すように、データ名と、k匿名化閾値と、列情報と、一般化階層情報とを有する。
データ名は、匿名化対象のデータの名前である。
k匿名化閾値は、データ名が表す匿名化対象データ151をk匿名化するときの閾値である。
列情報は、匿名化対象データ151が持つ属性情報である。列情報は、属性の名前と型を持ち、準識別子かどうかを表すフラグ(準識別子である場合True、準識別子でない場合False)を持つ属性情報のリストである。
一般化階層情報は、準識別子の名前を示す準識別子名と、準識別子に対する一般化階層名とを含む情報のリストである。ここで、一般化階層名は、パーソナル情報管理装置150の一般化階層データ153でのテーブル名に対応している。一般化階層のデータは、一般化階層データ153の中にテーブルとして書き込まれる。一般化階層名は、そのテーブルの名前であり、例えば、データ名と準識別子名を一定の区切り文字で結合したものである。また、別々の準識別子の一般化階層のデータを同じテーブルに格納することもできる。この場合も一般化階層名はテーブル名に対応しており、同じテーブルに格納された一般化階層のデータに共通の一般化階層名が付与される。この場合の一般化階層名は、例えば、データ名の後に一定のサフィックスを結合したものとすることができる。
図2の一般化階層エディタ270上で、管理データ152のデータ名に紐づく一般化階層を編集することができる。
(Management data)
As shown in FIG. 11, the management data 152 includes a data name, a k anonymization threshold value, column information, and generalized hierarchy information.
The data name is the name of the data to be anonymized.
The k anonymization threshold is a threshold for anonymizing the
The column information is attribute information that the
The generalized hierarchy information is a list of information including a quasi-identifier name indicating the name of the quasi-identifier and a generalized hierarchy name for the quasi-identifier. Here, the generalized hierarchy name corresponds to the table name in the
The generalized hierarchy associated with the data name of the management data 152 can be edited on the
(一般化階層データ)
一般化階層データ153は、図12に示すように、準識別子名と、オブジェクトIDと、値と、頻度とを有する。一般化階層データ153は、準識別子名とオブジェクトIDをキーとする表である。
オブジェクトIDは、一般化階層の属性値または親子関係の識別子であり、属性値の識別子はNXXXの形式で、親子関係の識別子はPNYYYの形式である。ここで、属性値の識別子「NXXX」に対する値は、その識別子「NXXX」で特定される属性値である。また、オブジェクトID「PNYYY」に対する値は、ノード「NYYY」の親ノードのオブジェクトIDである。
頻度は、属性値の出現頻度を示す。出現頻度は、オブジェクトID「NXXX」に対してのみ存在し、オブジェクトID「PNYYY」に対する出現頻度は空欄である。
例えば、図12の1行目は、図2の一般化階層エディタ270中に示される一般化階層例におけるリーフレイヤの最も左のノードに対応しており、準識別子「国籍」のノード「N001」は属性値「仏」を持ち、その出現頻度は「5」であることを表す。同様に図12の2行目は図2の一般化階層エディタ270中に示される一般化階層例における第1レイヤの最も左のノードに対応しており、準識別子「国籍」のノード「N002」は属性値「仏中」を持ち、その出現頻度は「10」であることを表す。図12の3行目はオブジェクトID「N001」のノード「仏」の親がオブジェクトID「N002」のノード「仏中」であることを表す。
(Generalized hierarchy data)
As shown in FIG. 12, the generalized
The object ID is an attribute value of the generalized hierarchy or an identifier of the parent-child relationship, the identifier of the attribute value is in the format of NXXX, and the identifier of the parent-child relationship is in the format of PNYYY. Here, the value of the attribute value identifier “NXXX” is the attribute value specified by the identifier “NXXX”. The value for the object ID “PNYYY” is the object ID of the parent node of the node “NYYY”.
The frequency indicates the appearance frequency of the attribute value. The appearance frequency exists only for the object ID “NXXX”, and the appearance frequency for the object ID “PNYYY” is blank.
For example, the first line of FIG. 12 corresponds to the leftmost node of the leaf layer in the generalized hierarchy example shown in the
(準識別子タプル頻度データ)
準識別子タプル頻度データ154は、図13に示すように、匿名化対象データの準識別子の値の組み合わせと、頻度とを有する。頻度は、準識別子の値の組み合わせがその匿名化対象データに現れる回数を示す。準識別子タプル頻度データ154は、匿名化対象データ151を基に予め算出されている。
準識別子タプル頻度データ154のデータ形式は、一般化階層を用いて匿名化対象データをk匿名化して得られる匿名化データの準識別子の値の組み合わせに対する頻度を表現する匿名化後タプル頻度表にも使用される。
(Quasi-identifier tuple frequency data)
As shown in FIG. 13, the quasi-identifier
The data format of the quasi-identifier
次に、匿名化後頻度表算出部114と損失指標算出部115について説明するが、これらの両部の処理は、図20の一般化階層作成処理の後で実行される。
(匿名化後頻度表算出処理)
図14は、匿名化後頻度表算出部114における匿名化後頻度表算出処理の流れの一例を示す。
匿名化後頻度表算出部114は、図12の一般化階層データ153と、図13の準識別子タプル頻度データ154とをパーソナル情報管理装置150から主メモリに読み出す(S101)。そして、匿名化後頻度表算出部114は、読み出した準識別子タプル頻度データ154に含まれる全件のデータについて1件ずつ以下の処理を繰り返し、図16に示す匿名化後タプル頻度表300を算出する(S102)。
具体的には、匿名化後頻度表算出部114は、準識別子タプル頻度データ154から、現在のレコードのキーを取得する(S103)。このキーは、読み出した一般化階層データ153により構成される一般化階層におけるリーフノードの属性値を組み合わせたものである。例えば、図13の(27,日,地球物理学)というようなものになる。
次に、匿名化後頻度表算出部114は、このキーに含まれる属性値を、指定された各準識別子のレイヤの属性値に置き換えて新しいキーを作成する(S104)。なお、各準識別子のレイヤの指定は図4の匿名化実行ダイアログ231上で行うことができる。また、後述する一般化階層提示処理と一般化階層編集処理の実行中には、一般化階層エディタ270上に一般化階層が表示される準識別子についてはレイヤの指定がリーフレイヤからルートレイヤまで自動で更新される。例えば、前述のキー(27,日,地球物理学)を、図15に示す一般化階層の例を用いて、年齢・国籍および専攻の各属性値を第1レイヤの各属性値で置換したとき、置換されたキーは(20代,日,理系)となる。
次に、匿名化後頻度表算出部114は、置換されたキーに対して匿名化後タプル頻度表300に該当するキーのエントリがあるか確認し(S105)、エントリがなければ(S106:Yes)、頻度の値0でエントリを作成する(S107)。続いて、匿名化後頻度表算出部114は、置換されたキーに対する匿名化後タプル頻度表300のエントリを取得し、その頻度の値に置換されたキーに対応する現在のレコードのキーに対する準識別子タプル頻度データ154の頻度の値を加算して、匿名化後タプル頻度表300のエントリを更新する(S108)。これを準識別子タプル頻度データ154に含まれる全件のデータに対して繰り返す(S102)。
匿名化後頻度表算出部114は、例えば、図13の準識別子タプル頻度データ154と図15の一般化階層を用い、年齢・国籍及び専攻の一般化階層のレイヤをすべて第1レイヤで指定したとき、図16に示す匿名化後タプル頻度表300を出力する。
Next, the post-anonymization frequency
(Anonymized frequency table calculation process)
FIG. 14 shows an exemplary flow of the post-anonymization frequency table calculation process in the post-anonymization frequency
The post-anonymization frequency
Specifically, the post-anonymization frequency
Next, the post-anonymization frequency
Next, the post-anonymization frequency
The anonymized frequency
(損失指標算出部)
図17は、損失指標算出部115における損失指標算出処理の流れの一例を示す。
損失指標算出部115の入力は、準識別子タプル頻度データ154、および匿名化後頻度表算出部114で求められた匿名化後タプル頻度表300である。
損失指標算出部115は、まず、準識別子タプル頻度データ154を準識別子ごとに集計して全ての準識別子の属性値の出現頻度を求めることにより、準識別子ごとの頻度表F1,…,FNを作成する(S201)。ここで、準識別子ごとの頻度表は、匿名化対象データ151と単一の準識別子を決めたときの、その準識別子の属性値と出現頻度との対応関係を示す。例えば、図13の準識別子タプル頻度データ154からは図18のような準識別子ごとの頻度表が得られる。
次に、損失指標算出部115は、匿名化後タプル頻度表300から、各準識別子について指定されたレイヤを対象として準識別子ごとの匿名化後頻度表G1,…,GNを求める(S202)。なお、各準識別子のレイヤの指定は図4の匿名化実行ダイアログ231上で行うことができる。また、後述する一般化階層提示処理と一般化階層編集処理の実行中には、一般化階層エディタ270上に一般化階層が表示される準識別子についてはレイヤの指定がリーフレイヤからルートレイヤまで自動で更新される。ここで、準識別子ごとの匿名化後頻度表は、匿名化データと単一の準識別子を決めたときの、該準識別子の匿名化属性値と出現頻度との対応関係を示す。この出現頻度は、匿名化後タプル頻度表300から特定の準識別子について頻度を集計することによって求められる。例えば、図13の準識別子タプル頻度データ154と図15の一般化階層を用い、すべての一般化階層で第1レイヤを指定したとき、図19のような準識別子ごとの匿名化後頻度表が得られる。
次に、損失指標算出部115は、準識別子ごとの頻度表F1,…,FNと匿名化対象データの全レコード数Rから匿名化前情報量を求める。ここで、匿名化前情報量は、匿名化実行ダイアログ231等で全ての準識別子についてリーフレイヤが指定されたときの情報量に相当する。匿名化前情報量の算出式は以下の数1から数4のとおりである。なお、これ以降に現れる式において、対数関数logの底は2であるとするが、システム内で統一されていれば、10やネイピア数などの1を超える任意の正の数でよい。
(Loss index calculation part)
FIG. 17 shows an example of the flow of loss index calculation processing in the loss
The inputs of the loss
The loss
Next, the loss
Next, the loss
次に、損失指標算出部115は、準識別子ごとの匿名化後頻度表G1,…,GNと匿名化対象データの全レコード数Rから匿名化後情報量を求める(S204)。ここで、匿名化後情報量は、各準識別子について指定されたレイヤで匿名化された場合の情報量である。各準識別子のレイヤの指定は匿名化実行ダイアログ231等で行うことができる。また、後述する一般化階層提示処理と一般化階層編集処理の実行中には、一般化階層エディタ270上に一般化階層が表示される準識別子についてはレイヤの指定がリーフレイヤからルートレイヤまで自動で更新される。匿名化後情報量の算出式は以下の数5から数8のとおりである。
Next, the loss
最後に、損失指標算出部115は、ここまでに求めた匿名化前情報量と匿名化後情報量から、数9に従って情報損失率を求める(S205)。なお、情報損失率は本発明の情報損失指標の一例である。
(一般化階層作成処理)
図20は、一般化階層作成処理の流れの一例を示す。
利用者が一般化階層編集受付装置170に表示されている一般化階層編集画面200上で、「データ−取込」メニュー220を選択する(S301)と、図3の匿名化対象データ取込ダイアログ221が開く(S302)。利用者は匿名化対象データ取込ダイアログ221上で、データ名、データファイルのパス、k匿名化閾値、および列情報を入力する。列情報としては、取り込もうとしているデータファイルを基に作成される匿名化対象データを構成する各列の名前、型を指定し、さらに各列の中から準識別子として使用する列を指定する。利用者がデータ名、データファイルのパス、k匿名化閾値、および列情報を入力して取込ボタンを押すと、一般化階層編集受付装置170は、データファイルを指定されたパスから読み出して、データ名、データファイル、k匿名化閾値、および列情報を含む匿名化対象データ取込要求を匿名化装置101に送信する(S303)。
匿名化装置101がデータ名、データファイル、k匿名化閾値、および列情報を含む匿名化対象データ取込要求を受信する(S304)と、一般化階層作成部111は、受信したデータファイルから匿名化される対象である複数の準識別子の属性値の組み合わせを含む匿名化対象データを作成し、作成された匿名化対象データをパーソナル情報管理装置150の匿名化対象データ151として書き込む(S305)。
次に、一般化階層作成部111は、その匿名化対象データ151と列情報により指定された準識別子を基に、準識別子毎に、匿名化対象データ151に含まれる属性値およびその出現頻度を有する複数のノードを含む最下層のレイヤと、下層のレイヤに比べて匿名化の程度が同一またはより高い属性値およびその出現頻度を有する1つ以上のノードを含むレイヤとによって構成される木構造の一般化階層を作成し、パーソナル情報管理装置150の一般化階層データ153として書き込む(S306)。ここでの一般化階層の自動生成は、特許文献1に示すような技術を用いる。
(Generalized hierarchy creation process)
FIG. 20 shows an example of the flow of the generalized hierarchy creation process.
When the user selects the “data-capture”
When the
Next, based on the
そして、一般化階層作成部111は、匿名化対象データ151を基に準識別子タプル頻度データを求め、パーソナル情報管理装置150の準識別子タプル頻度データ154に書き込む(S307)。さらに、一般化階層作成部111は、受信したデータ名、k匿名化閾値、および列情報を基に、パーソナル情報管理装置150の管理データ152を書き込む(S308)。ここで、一般化階層名には例えば、パーソナル情報管理装置150の一般化階層データ153を書き出したときの書き出し先のテーブル名を指定するが、これに限るものではない。
一般化階層作成部111は、これらの一連の処理が完了すると一般化階層作成処理の完了を一般化階層編集受付装置170に通知する(S309)。一般化階層編集受付装置170は通知を受けて、匿名化対象データ取込ダイアログ221を閉じる(S310)。
Then, the generalized
When these series of processes are completed, the generalized
(一般化階層提示処理)
図21は、一般化階層提示処理の流れの一例を示す。
図2の一般化階層編集画面200の匿名化設定表示エリア250には、匿名化対象データ取込ダイアログ221で設定したデータ名とk匿名化閾値と匿名化対象データの属性の一覧と匿名化対象データの準識別子の一覧とが表示される。利用者が匿名化設定表示エリア250で準識別子名を選択する(S401)と、一般化階層編集受付装置170は、準識別子名を含む一般化階層読出要求を匿名化装置101に送信する(S402)。
匿名化装置101が一般化階層読出要求を受信する(S403)と、一般化階層提示部112は、パーソナル情報管理装置150の一般化階層データ153から、一般化階層を読み込み、木構造のデータ構造に変換して一時記憶部120に書き込む(S404)。
次に、一般化階層提示部112は、準識別子タプル頻度データ154を準識別子ごとに集計して、すべての準識別子について属性値の出現頻度を求める(S405)。なお、ステップS405はステップS201と同一の処理であり、各準識別子の属性値の出現頻度は、一般化階層におけるリーフノードの出現頻度に相当する。
そして、一般化階層提示部112は、一般化階層読出要求に含まれる選択された準識別子の一般化階層(一般化階層エディタ270に表示されている準識別子の一般化階層)について、ステップS405で求めたリーフノードの出現頻度を用いてリーフノードの上層のノードの属性値の出現頻度を求める(S406)。例えば、図2の一般化階層編集画面200の一般化階層エディタ270に表示されている一般化階層については、第1レイヤのノード「仏中」の頻度10は、第0レイヤのノード「仏」の頻度5と「中」の頻度5を加算することによって求められ、また、第2レイヤのノード「仏中英」の頻度25は、第1レイヤのノード「仏中」の頻度10と「英」の頻度15を加算することによって求められる。
(Generalized hierarchy presentation process)
FIG. 21 shows an example of the flow of the generalized hierarchy presentation process.
In the anonymization setting
When the
Next, the generalized
In step S405, the generalized
次に、損失指標算出部115が、一般化階層編集画面200の一般化階層エディタ270に表示される一般化階層の各レイヤの情報損失率ILを求める(S407)。ここで、一般化階層エディタ270には一般化階層読出要求に含まれる選択された準識別子の一般化階層が表示される。損失指標算出部115は、選択された準識別子以外の準識別子については匿名化実行ダイアログ231で指定されたレイヤ(すなわち、損失指標評価エリア260に表示されているレイヤ)に固定して、選択された準識別子のレイヤを変えながら各レイヤの情報損失率を求める。たとえば、図2の一般化階層エディタ270に表示されているケースでは、年齢と専攻を第1レイヤに固定したときの情報損失率を、国籍のレイヤを変えながらそれぞれ求める。このために、損失指標算出部115に、準識別子タプル頻度データ154、および匿名化後タプル頻度表300を入力として与える。ここで、選択された準識別子については、一般化階層の全てのレイヤについて匿名化後タプル頻度表300を求めて使用する。それ以外の準識別子については、損失指標評価エリア260に表示されているレイヤについて求められた匿名化後タプル頻度表300を使用する。
そして、一般化階層提示部112は、一時記憶部120に保持している各ノードの出現頻度を含む一般化階層、および各レイヤの情報損失率を一般化階層編集受付装置170に送信する(S408)。一般化階層編集受付装置170は、受信した一般化階層と各レイヤの情報損失率を一般化階層エディタ270に表示する(S409)。
Next, the loss
Then, the generalized
(一般化階層編集処理)
図22は、一般化階層編集処理の流れの一例を示す。
上述したように、一般化階層編集画面200の一般化階層エディタ270上で「ノード名変更」、「ノード移動」、「レイヤ追加(上)」、「レイヤ追加(下)」および「レイヤ削除」等の各編集操作を行うことができる。
一般化階層編集受付装置170は、ノード移動等の編集操作を受け付けると、該当する編集操作の指定を含む編集要求を匿名化装置101に送信する(S501)。
匿名化装置101が編集要求を受信する(S502)と、一般化階層編集部113は、編集要求により指定される編集操作を一時記憶部120に保存されている一般化階層のデータ構造に対して実施し、一時記憶部120の一般化階層を更新する(S503)。
続いて、一般化階層編集部113等は、上述したステップS405〜S407と同一の処理を行って、一般化階層編集画面200の一般化階層エディタ270に表示される一般化階層の各ノードの出現頻度および各レイヤの情報損失率ILを再計算し、更に、上述したステップS408とS409と同一の処理を行って、一般化階層編集受付装置170上の一般化階層編集画面200の一般化階層エディタ270に一般化階層を表示させる。
具体的には、一般化階層編集部113は、準識別子タプル頻度データ154を準識別子ごとに集計して、すべての準識別子について属性値の出現頻度(一般化階層におけるリーフノードの出現頻度)を求める(S504、S405と同一)。そして、一般化階層編集部113は、一般化階層エディタ270に表示されている準識別子の一般化階層について、ステップS504で求めたリーフノードの出現頻度を用いてリーフノードの上層のノードの属性値の出現頻度を求める(S505、S406と同一)。
次に、損失指標算出部115が、一般化階層編集画面200の一般化階層エディタ270に表示されている一般化階層の各レイヤの情報損失率ILを求める(S506、S407と同一)。
そして、一般化階層編集部113は、一時記憶部120に保持している各ノードの出現頻度を含む一般化階層、および各レイヤの情報損失率を一般化階層編集受付装置170に送信する(S507、S408と同一)。一般化階層編集受付装置170は、受信した一般化階層と各レイヤの情報損失率を一般化階層エディタ270に表示する(S508、S409と同一)。
(Generalized hierarchy editing process)
FIG. 22 shows an example of the flow of generalized hierarchy editing processing.
As described above, on the
When the general hierarchy
When the
Subsequently, the generalized
Specifically, the generalized
Next, the loss
Then, the generalized
(一般化階層保存処理)
図23は、一般化階層保存部116における一般化階層保存処理の流れの一例を示す。
一般化階層編集受付装置170に表示されている一般化階層編集画面200で「一般化階層−保存」メニュー240が選択されると、一般化階層編集受付装置170は、一般化階層エディタ270に表示されている準識別子の一般化階層を保存する保存要求を匿名化装置101に送信する(S601)。
匿名化装置101が保存要求を受信する(S602)と、一般化階層保存部116は、一時記憶部120に保存されている木構造の一般化階層から図12の構造の一般化階層データ153を作成して、パーソナル情報管理装置150の一般化階層データ153に書き込む(S603)。
(Generalized hierarchy saving process)
FIG. 23 shows an example of the flow of generalized hierarchy storage processing in the generalized
When the “generalized hierarchy-save” menu 240 is selected on the generalized
When the
(匿名化処理)
図24は、匿名化処理部117における匿名化処理の流れの一例を示す。
一般化階層編集受付装置170に表示されている一般化階層編集画面200上で「一般化階層−保存」メニュー240が選択される(S701)と、図4の匿名化実行ダイアログ231が開く(S702)。匿名化実行ダイアログ231では、準識別子の一般化階層のレイヤを入力することができる。利用者は、損失指標評価エリア260を参照して情報損失率の評価を行い、最も適切であると判断したレイヤを匿名化実行ダイアログ231上で指定する。利用者が匿名化実行ダイアログ231上で各準識別子の一般化階層のレイヤを入力し、匿名化実行ボタンを押下する(S703)と、一般化階層編集受付装置170は各準識別子の一般化階層のレイヤを含む匿名化要求を匿名化装置101に送信する(S704)。
匿名化装置101が匿名化要求を受信する(S705)と、匿名化処理部117は、匿名化対象データに含まれる各準識別子の属性値が匿名化要求に含まれる各準識別子の一般化階層のレイヤに属するノードの属性値に置き換えられた匿名化データを作成する(S706)。
次に、匿名化処理部117は匿名化データに含まれる各準識別子の属性値の組み合わせの出現頻度を算出する(S707)。匿名化処理部117は、算出された出現頻度がk匿名化閾値未満のレコードを匿名化データから削除することにより、匿名化データに含まれる各準識別子の属性値の組み合わせの出現頻度が利用者によって指定されたk匿名化閾値を満たすように匿名化データを修正する(S708)。そして、匿名化処理部117は、匿名化後の各準識別子の属性値の組み合わせとその出現頻度とを含み、k匿名化閾値を満たす匿名化データ155をパーソナル情報管理装置150に書き込む(S709)。なお、匿名化データ155の構成は、匿名化後タプル頻度表300と同様である。
匿名化処理部117はこれらの一連の処理が完了すると匿名化処理の完了を一般化階層受付編集装置170に通知する(S710)。
なお、データファイルに含まれるパーソナル情報を匿名化するときには、まず、匿名化データ155に含まれる準識別子の属性値に対応する匿名化前の準識別子の属性値を一般化階層データ153から求める。そして、データファイルに含まれる匿名化前の準識別子の属性値を匿名化後の準識別子の属性値で置き換えることになる。
(Anonymization process)
FIG. 24 shows an example of the flow of anonymization processing in the
When the “generalized hierarchy-save” menu 240 is selected on the generalized
When the
Next, the
When these series of processes are completed, the
When the personal information included in the data file is anonymized, first, the attribute value of the quasi-identifier before anonymization corresponding to the attribute value of the quasi-identifier included in the anonymized
以上説明したように、本発明によれば、匿名化対象データを基にした一般化階層のテンプレートを出発点として、一般化階層の編集を、損失情報量を確認しながらインタラクティブに行うことができる。このために、利用者は一般化階層の編集中に最適な匿名化プランが分かるようになる。このようにして編集した一般化階層を用いて、匿名化対象データの匿名化を利用者が望む匿名化プランによって実施することで、分析用途に適した一般化階層と匿名化データを、利用者が納得しやすい形で効率的に得ることができる。 As described above, according to the present invention, the generalized hierarchy can be edited interactively while confirming the amount of loss information, starting from the template of the generalized hierarchy based on the anonymization target data. . This allows the user to know the optimal anonymization plan while editing the generalized hierarchy. By using the generalized hierarchy edited in this way, the anonymization plan that the user wants to anonymize the data to be anonymized is implemented, so that the generalized hierarchy and anonymized data suitable for analysis use can be Can be efficiently obtained in a form that is easy to convince.
100…パーソナル情報匿名化システム、101…匿名化装置、110…ユーザインタフェース部、111…一般化階層作成部、112…一般化階層提示部、113…一般化階層編集部、114…匿名化後頻度表算出部、115…損失指標算出部、116…一般化階層保存部、117…匿名化処理部、120…一時記憶部、150…パーソナル情報管理装置、151…匿名化対象データ、152…管理データ、153…一般化階層データ、154…準識別子タプル頻度データ、155…匿名化データ、170…一般化階層編集受付装置、180…ネットワーク、200…一般化階層編集画面、210…メニューバー、220…「データ−取込」メニュー、221…匿名化対象データ取込ダイアログ、230…「データ−匿名化」メニュー、231…匿名化実行ダイアログ、240…「一般階層化−保存」メニュー、250…匿名化設定表示エリア、260…損失指標評価エリア、270…一般化階層エディタ、300…匿名化後タプル頻度表
DESCRIPTION OF
Claims (4)
利用者による準識別子の指定に応答して、指定された当該準識別子の一般化階層を利用者に提示する一般化階層提示手段と、
利用者による編集の指示に応じて、前記一般化階層提示手段によって提示された一般化階層を、木構造を保ちながら更新し、更新された一般化階層を利用者に再提示する一般化階層編集手段と、
利用者による各準識別子の一般化階層のレイヤの指定に応答して、前記匿名化対象データに含まれる各準識別子の属性値が当該指定された各準識別子の一般化階層のレイヤに属するノードの属性値に置き換えられた匿名化データを作成する匿名化手段と、
を備えることを特徴とするパーソナル情報匿名化システム。 Based on the anonymization target data including a combination of attribute values of a plurality of quasi-identifiers to be anonymized, for each quasi-identifier, the attribute value included in the anonymization target data and the appearance frequency of the attribute value A lowermost layer including a plurality of nodes, and a layer including one or more nodes having an attribute value having the same or higher degree of anonymization as compared to the lower layer and an appearance frequency of the attribute value. A generalized hierarchy creating means for creating a generalized hierarchy of a tree structure,
In response to the designation of the quasi-identifier by the user, a generalized hierarchy presentation means for presenting the generalized hierarchy of the designated quasi-identifier to the user;
Generalized hierarchy editing in which the generalized hierarchy presented by the generalized hierarchy presenting means is updated while maintaining a tree structure in accordance with an editing instruction by the user, and the updated generalized hierarchy is re-presented to the user. Means,
In response to designation of the generalized hierarchy layer of each semi-identifier by the user, the attribute value of each semi-identifier included in the anonymization target data belongs to the general hierarchy layer of the designated semi-identifier Anonymization means for creating anonymized data replaced with attribute values of
A personal information anonymization system comprising:
前記一般化階層提示手段と前記一般化階層編集手段が、前記損失指標算出手段によって求められた前記一般化階層に含まれる各レイヤの情報損失指標を利用者に提示する、
ことを特徴とする請求項1に記載のパーソナル情報匿名化システム。 A loss index calculating means for determining an information loss index of each layer of the generalized hierarchy;
The generalized hierarchy presenting means and the generalized hierarchy editing means present the information loss index of each layer included in the generalized hierarchy obtained by the loss index calculating means to the user;
The personal information anonymization system according to claim 1.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013177035A JP6078437B2 (en) | 2013-08-28 | 2013-08-28 | Personal information anonymization system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013177035A JP6078437B2 (en) | 2013-08-28 | 2013-08-28 | Personal information anonymization system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015046030A JP2015046030A (en) | 2015-03-12 |
| JP6078437B2 true JP6078437B2 (en) | 2017-02-08 |
Family
ID=52671476
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013177035A Active JP6078437B2 (en) | 2013-08-28 | 2013-08-28 | Personal information anonymization system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6078437B2 (en) |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6597066B2 (en) * | 2015-08-31 | 2019-10-30 | 富士通株式会社 | Personal information anonymization method, program, and information processing apparatus |
| WO2017103970A1 (en) * | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | Data processing system and data processing method |
| KR101973949B1 (en) * | 2016-11-29 | 2019-04-30 | 주식회사 파수닷컴 | Method for optimizing de-identified data according to purpose and apparatus using the method |
| JP6828181B2 (en) * | 2017-10-11 | 2021-02-10 | 日本電信電話株式会社 | k-Anonymization devices, methods and programs |
| JP6883508B2 (en) * | 2017-12-04 | 2021-06-09 | Kddi株式会社 | Anonymization device, anonymization method and anonymization program |
| US11914740B2 (en) * | 2019-03-11 | 2024-02-27 | Nippon Telegraph And Telephone Corporation | Data generalization apparatus, data generalization method, and program |
| JP7168076B2 (en) | 2019-05-21 | 2022-11-09 | 日本電信電話株式会社 | Information processing device, information processing method and program |
| US20220215129A1 (en) * | 2019-05-21 | 2022-07-07 | Nippon Telegraph And Telephone Corporation | Information processing apparatus, information processing method and program |
| US12045366B2 (en) | 2019-05-21 | 2024-07-23 | Nippon Telegraph And Telephone Corporation | Information processing apparatus, information processing method and program |
| JP7176625B2 (en) * | 2019-05-21 | 2022-11-22 | 日本電信電話株式会社 | Information processing device, information processing method and program |
| US12423327B2 (en) | 2019-05-21 | 2025-09-23 | Nippon Telegraph And Telephone Corporation | Information processing apparatus, information processing method and program for anonymizing data |
| JP7219734B2 (en) * | 2020-03-25 | 2023-02-08 | Kddi株式会社 | Evaluation device, evaluation method and evaluation program |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2635025B2 (en) * | 1986-08-25 | 1997-07-30 | 株式会社日立製作所 | Tree display editing method |
| JP2963033B2 (en) * | 1995-09-29 | 1999-10-12 | 株式会社野村総合研究所 | Sample classification support device |
| US8060833B2 (en) * | 2007-02-21 | 2011-11-15 | International Business Machines Corporation | Method and system for computer folder management |
| CN102893553B (en) * | 2010-05-19 | 2015-11-25 | 株式会社日立制作所 | Personal information de-identification device |
-
2013
- 2013-08-28 JP JP2013177035A patent/JP6078437B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2015046030A (en) | 2015-03-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6078437B2 (en) | Personal information anonymization system | |
| US12306815B2 (en) | Resource grouping for resource dependency system and graphical user interface | |
| US11435874B2 (en) | Formulas | |
| JP7460689B2 (en) | Software application development based on spreadsheets | |
| US10180992B2 (en) | Atomic updating of graph database index structures | |
| US10579678B2 (en) | Dynamic hierarchy generation based on graph data | |
| US12481671B2 (en) | Editing data-warehouse tables using managed input tables | |
| JP6132698B2 (en) | Tabular multidimensional data conversion method and apparatus | |
| US20170255708A1 (en) | Index structures for graph databases | |
| JP2013080375A (en) | Personal information anonymizing device and method | |
| CN104484358A (en) | Process template displaying method and system | |
| JP2006172446A (en) | Complex data access | |
| JP2016151908A (en) | Personal information anonymization support device | |
| JP7279524B2 (en) | Data management program, data management method and data management system | |
| US11893001B2 (en) | Systems and methods for storing blend objects | |
| JP5542857B2 (en) | Query issuing device, query issuing program, query issuing method | |
| CN114935996A (en) | Method, computer device and storage medium for online processing of documents |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150401 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150413 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150617 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150623 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160219 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161220 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170116 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6078437 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |