Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5731361B2 - Character string conversion method and character string conversion program - Google Patents
[go: Go Back, main page]

JP5731361B2 - Character string conversion method and character string conversion program - Google Patents

Character string conversion method and character string conversion program Download PDF

Info

Publication number
JP5731361B2
JP5731361B2 JP2011257043A JP2011257043A JP5731361B2 JP 5731361 B2 JP5731361 B2 JP 5731361B2 JP 2011257043 A JP2011257043 A JP 2011257043A JP 2011257043 A JP2011257043 A JP 2011257043A JP 5731361 B2 JP5731361 B2 JP 5731361B2
Authority
JP
Japan
Prior art keywords
character string
personal information
string conversion
candidate
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011257043A
Other languages
Japanese (ja)
Other versions
JP2013114287A (en
Inventor
昌宏 湯口
昌宏 湯口
青木 政勝
政勝 青木
明通 田中
明通 田中
内山 匡
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011257043A priority Critical patent/JP5731361B2/en
Publication of JP2013114287A publication Critical patent/JP2013114287A/en
Application granted granted Critical
Publication of JP5731361B2 publication Critical patent/JP5731361B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は電子文書に含まれる個人情報を保護するための文字列変換技術に関する。   The present invention relates to a character string conversion technique for protecting personal information included in an electronic document.

個人情報保護の重要性が増すなか、姓名,住所等の個人情報を含む電子文書に対して個人情報部分をマスクして読めなくする技術への期待が高まっている。電子文書に含まれる個人情報部分をマスキングする既存技術としては文字列変換を実施する手法等が知られている(特許文献1等)。   As the importance of protecting personal information increases, there is an increasing expectation for a technology that masks the personal information portion of an electronic document containing personal information such as first and last names and addresses so that it cannot be read. As an existing technique for masking a personal information part included in an electronic document, a technique for performing character string conversion or the like is known (Patent Document 1, etc.).

特開2007−102540号公報JP 2007-102540 A

しかしながら、既存技術では、マスキングしようとする個人情報の文字列と一致した文字列が入力データに含まれているとそのマスキングが行われてしまい、余計なマスキングを行ってしまう問題があった。   However, in the existing technology, if the input data includes a character string that matches the character string of the personal information to be masked, the masking is performed, and there is a problem that extra masking is performed.

誤ったマスキング箇所が多数発生すると、マスクされた文字列から元の個人情報文字列の推測可能性が増加するなど、個人情報保護の点で問題が発生する。   When many erroneous masking portions occur, a problem arises in terms of personal information protection, such as the possibility of guessing the original personal information character string from the masked character string increases.

特に、HTMLタグ等を含むWebページ閲覧履歴データを入力データとして扱う場合、Webページの本文だけでなく、HTMLの要素や属性情報の値に個人情報辞書に含まれる文字列とマッチするものが存在することがあり、該当箇所がマスク対象候補の文字列として検出されることがある。例えば、個人情報辞書に「田中太郎」や「0123」という文字列が含まれるとしたとき、HTMLタグ中の属性情報として「value=“田中太郎”」や「width=“10123”」などが記載されている場合は、「田中太郎」「0123」の該当箇所がマスク対象候補の文字列として検出される。このとき、「width=“10123”」に含まれる「0123」の文字列は個人情報ではないため、本来マスクすべきではない箇所である。   In particular, when Web page browsing history data including HTML tags is handled as input data, not only the text of the Web page but also the values of HTML elements and attribute information match the character strings included in the personal information dictionary. The corresponding part may be detected as a character string of a mask target candidate. For example, if the personal information dictionary contains character strings such as “Taro Tanaka” or “0123”, “value =“ Taro Tanaka ””, “width =“ 10123 ””, etc. are described as attribute information in the HTML tag. If it is, the corresponding portions of “Taro Tanaka” and “0123” are detected as character strings of candidate masks. At this time, since the character string “0123” included in “width =“ 10123 ”is not personal information, it is a portion that should not be masked.

このように、HTMLタグ等を含むWebページ閲覧履歴データを入力データとする場合、誤マスク箇所が多数発生する可能性が高く、個人情報の漏洩リスクを低下することができない。   As described above, when Web page browsing history data including an HTML tag or the like is used as input data, there is a high possibility that many erroneous mask locations will occur, and the risk of leakage of personal information cannot be reduced.

本発明は、上記の事情に鑑み、不必要なマスク処理を行うことなく電子情報に含まれる個人情報を洩れなくマスク処理することを課題とする。   In view of the above circumstances, an object of the present invention is to mask personal information included in electronic information without omission without performing unnecessary mask processing.

そこで、本発明は電子文書の構造化言語の構造を考慮して変換すべき文字列を選別することにより、情報漏洩のリスクを低減させる。   Therefore, the present invention reduces the risk of information leakage by selecting character strings to be converted in consideration of the structure of the structured language of the electronic document.

本発明の文字列変換方法の態様としては、個人情報の項目が大項目とこの大項目を詳細化した小項目とで表現され、保護対象の個人情報文字列データを個人情報の小項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、電子文書から前記個人情報辞書に含まれる小項目の個人情報の文字列を文字列変換の候補文字列として検出する手順と、前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に、大項目が同じで小項目が異なる当該候補文字列の組合せの集合から候補文字列間の文字数が最小数である文字列の組合せを文字列変換の対象として判定する手順と、前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順とを有する。 As an aspect of the character string conversion method of the present invention, items of personal information are expressed by a large item and a small item that refines the large item, and personal information character string data to be protected is represented for each small item of personal information. A character string conversion method in which a character string conversion device having a stored personal information dictionary converts personal information included in an electronic document into another character string, and the individual of small items included in the personal information dictionary from the electronic document A procedure for detecting a character string of information as a candidate character string for character string conversion, and when the detected candidate character string is not included in the contents of the tag element of the electronic document , the large items are the same and the small items are different. From the set of candidate character string combinations, a procedure for determining a character string combination having a minimum number of characters between candidate character strings as a target for character string conversion, and a character string determined as the target for character string conversion Place the combination in another string And a procedure to change.

本発明の文字列変換方法の他の態様としては、個人情報の項目が大項目とこの大項目を詳細化した少項目とで表現され、保護対象の個人情報文字列データを個人情報の小項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、電子文書から前記個人情報辞書に含まれる小項目の個人情報の文字列を文字列変換の候補文字列として検出する手順と、前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に、大項目が同じで小項目が異なる当該候補文字列の組合せの集合から、候補文字列の組合せがもつ文字列長が当該集合における平均文字列長より短い文字列の組合せを選択しこの選択した組合せを文字列変換の対象として判定する手順と、前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順とを有する。 As another aspect of the character string conversion method of the present invention, personal information items are represented by a large item and a small item obtained by refining the large item, and personal information character string data to be protected is represented by a small item of personal information. A character string conversion method for converting personal information included in an electronic document into another character string by a character string conversion device having a personal information dictionary stored for each sub-item included in the personal information dictionary from the electronic document a step of detecting a character string of the personal information as a candidate character string of the character string conversion, if the detected candidate character string is not included in the contents of the tag elements of the electronic document, the small item is a large item same From the set of candidate character string combinations with different character strings, the character string length of the candidate character string combination is shorter than the average character string length in the set, and the selected combination is the target of character string conversion. Judgment procedure , And a procedure to replace the combination of target determined string of the character string converted into another character string.

本発明の文字列変換方法の他の態様としては、個人情報の項目が大項目とこの大項目を詳細化した小項目とで表現され、保護対象の個人情報文字列データを個人情報の小項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、電子文書から前記個人情報辞書に含まれる小項目の個人情報の文字列を文字列変換の候補文字列として検出する手順と、前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に、大項目が同じで小項目が異なる当該候補文字列の組合せの集合から、前記電子文書における共起頻度の最も高い文字列の組合せを文字列変換の対象として判定する手順と、前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順とを有する。 As another aspect of the character string conversion method of the present invention, personal information items are represented by a large item and a small item that is a refinement of the large item, and the personal information character string data to be protected is represented by a small item of personal information. A character string conversion method for converting personal information included in an electronic document into another character string by a character string conversion device having a personal information dictionary stored for each sub-item included in the personal information dictionary from the electronic document a step of detecting a character string of the personal information as a candidate character string of the character string conversion, if the detected candidate character string is not included in the contents of the tag elements of the electronic document, the small item is a large item same A procedure for determining a combination of character strings having the highest co-occurrence frequency in the electronic document as a character string conversion target from a set of combinations of candidate character strings having different character strings , and a character string determined as the character string conversion target Combination of other statements And a procedure to replace the column.

尚、本発明はコンピュータに上記の文字列変換方法の各手順を実行させるための文字列変換プログラムの態様とすることもできる。   Note that the present invention may be a character string conversion program for causing a computer to execute each procedure of the character string conversion method.

以上の発明によれば不必要なマスク処理を行うことなく電子情報に含まれる個人情報を洩れなくマスク処理できる。   According to the above invention, the personal information included in the electronic information can be masked without omission without performing unnecessary masking.

本発明の実施形態に係る文字列変換装置の構成を示したブロック図。The block diagram which showed the structure of the character string converter which concerns on embodiment of this invention. 本発明の実施形態に係る文字列変換処理のフローチャート。The flowchart of the character string conversion process which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報の一例(a),個人情報辞書の一例(b)。An example (a) of personal information concerning an embodiment of the present invention, an example (b) of a personal information dictionary. 本発明の実施形態に係るマスク判定処理のフローチャート。The flowchart of the mask determination process which concerns on embodiment of this invention. 本発明の実施形態に係るマスク判定の説明図。Explanatory drawing of the mask determination which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報周辺表記パターン辞書の一例。An example of the personal information periphery description pattern dictionary which concerns on embodiment of this invention. 本発明の実施形態に係るネットワークシステムの構成を示したブロック図。1 is a block diagram showing a configuration of a network system according to an embodiment of the present invention.

以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. However, the present invention is not limited to these embodiments.

[実施形態1]
(概要)
図1に示された発明の実施形態1に係る文字列変換装置1はマスク処理対象の電子文書の構造化言語の構造を考慮してマスキングすべき箇所を選別することにより、一律にマスキングする方式に比べて、情報漏洩のリスクを低減させる。具体的にはマスク処理対象の電子文書から個人情報辞書30に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。この検出した候補文字列が前記電子文書のタグ要素の内容に含まれない場合、当該候補文字列の組合せの集合から所定の基準で抽出した文字列の組合せを文字列変換の対象として判定する。一方、前記検出した候補文字列が前記電子文書のタグ要素の内容に含まれている場合、個人情報辞書30に含まれる個人情報と一致した候補文字列の組合せを文字列変換の対象であると判定する。以上のように文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える。
[Embodiment 1]
(Overview)
The character string conversion apparatus 1 according to the first embodiment of the invention shown in FIG. 1 is a method of uniformly masking by selecting a portion to be masked in consideration of the structure of the structured language of the electronic document to be masked. Compared to reducing the risk of information leakage. Specifically, a character string of personal information included in the personal information dictionary 30 is detected as a candidate character string for character string conversion from the electronic document to be masked. If the detected candidate character string is not included in the contents of the tag element of the electronic document, a combination of character strings extracted based on a predetermined standard from the set of candidate character string combinations is determined as a character string conversion target. On the other hand, when the detected candidate character string is included in the contents of the tag element of the electronic document, a combination of candidate character strings that matches the personal information included in the personal information dictionary 30 is a target for character string conversion. judge. As described above, a combination of character strings determined to be character string conversion targets is replaced with another character string.

(装置の構成)
文字列変換装置1は図1に示されたように少なくとも入力データ読込部20、個人情報辞書30、個人情報検出部40、マスク対象判定部50、マスク置換部60、マスク文字列格納部80を備える。文字列変換装置1の各機能部20〜80はサーバ(コンピュータ)のハードウェアリソースによって実現される。すなわち、文字列変換装置1は少なくとも演算装置(CPU)、記憶装置(メモリ、ハードディスク装置等)、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより各機能部20〜80が実装される。
(Device configuration)
As shown in FIG. 1, the character string conversion apparatus 1 includes at least an input data reading unit 20, a personal information dictionary 30, a personal information detection unit 40, a mask target determination unit 50, a mask replacement unit 60, and a mask character string storage unit 80. Prepare. Each function unit 20 to 80 of the character string conversion device 1 is realized by hardware resources of a server (computer). That is, the character string conversion device 1 includes at least hardware resources related to a computer such as a computing device (CPU), a storage device (memory, a hard disk device, etc.), and a communication interface. These hardware resources cooperate with software resources (OS, applications, etc.) to implement the functional units 20-80.

入力データ読込部20は個人情報を含む入力データ10(電子文書)を読み込み、メモリの内部データとして保存する。入力データとしては、個人情報文字列を含む可能性のある電子文書を入力データとするものとし、HTML形式やXML形式の電子ファイルが例示される。   The input data reading unit 20 reads input data 10 (electronic document) including personal information and stores it as internal data in the memory. As the input data, an electronic document that may contain a personal information character string is used as input data, and an HTML or XML format electronic file is exemplified.

個人情報辞書30は保護対象の個人情報文字列データを個人情報の項目毎に格納している。個人情報辞書30は例えば文字列変換装置1を所有するクライアントの個人情報の項目毎に個人情報文字列を格納している。   The personal information dictionary 30 stores personal information character string data to be protected for each item of personal information. For example, the personal information dictionary 30 stores a personal information character string for each item of personal information of a client who owns the character string conversion device 1.

個人情報辞書30は、図3(a)に例示したように、個人情報として、氏名、電話番号、携帯電話番号、クレジットカード番号、郵便番号、メールアドレス、住所等のような個人を特定可能な情報を格納している。また、複数の個人の個人情報を格納した場合、図3(b)に例示したように、各個人の氏名に対応付けられてその個人情報が記録されている。これらの個人情報は複数の項目によって構成されるものが多く、例えば、電話番号「046‐123‐4567」であれば、3つの数値文字列「046」「123」「4567」の組み合わせで構成されているとして扱うことができる。個人情報辞書30は、これらの個人情報を構成する項目文字列単位に辞書情報として登録したものであり、データベースシステムで管理されるものであってもよい。尚、間接的に個人を特定可能な情報として、Webページ上で利用しているハンドル名などを対象としてもよい。   As illustrated in FIG. 3A, the personal information dictionary 30 can identify an individual such as a name, a telephone number, a mobile phone number, a credit card number, a postal code, an e-mail address, and an address as personal information. Stores information. When personal information of a plurality of individuals is stored, as illustrated in FIG. 3B, the personal information is recorded in association with the names of the individuals. Such personal information is often composed of a plurality of items. For example, if the telephone number is “046-123-4567”, it is composed of a combination of three numeric character strings “046”, “123”, “4567”. Can be treated as being. The personal information dictionary 30 is registered as dictionary information for each item character string constituting the personal information, and may be managed by a database system. Note that the handle name used on the Web page may be targeted as information that can indirectly identify an individual.

個人情報検出部40は入力データ10から個人情報辞書30に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。具体的には個人情報辞書30に保存された個人情報データをキーとして、入力データ10中に個人情報に該当する文字列が存在するか検索を行い、該当する文字列を文字列変換の候補文字列とする。例えば図3(b)に示された個人情報辞書30にて、氏名が「姓」「名」として分割された項目の組み合わせとして保存されている場合、「姓」、「名」それぞれの項目をキーとして入力データ10全体を対象に検索を行い、検出された文字列を文字列変換の候補文字列とする。   The personal information detection unit 40 detects a character string of personal information included in the personal information dictionary 30 from the input data 10 as a character string conversion candidate character string. Specifically, using the personal information data stored in the personal information dictionary 30 as a key, the input data 10 is searched for a character string corresponding to the personal information, and the corresponding character string is converted into a character string conversion candidate character. A column. For example, in the personal information dictionary 30 shown in FIG. 3B, when the name is stored as a combination of items divided as “last name” and “first name”, the items of “last name” and “first name” are displayed. A search is performed on the entire input data 10 as a key, and the detected character string is set as a candidate character string for character string conversion.

マスク対象判定部50は、個人情報検出部40によって検出された候補文字列を文字列変換の対象とするかを判定する。すなわち、個人情報辞書30に登録されている個人情報文字列の各項目単位で検出を行うため、個人情報文字列の項目に一致する文字列は全て文字列変換の候補文字列として検出する。   The mask target determination unit 50 determines whether the candidate character string detected by the personal information detection unit 40 is a character string conversion target. That is, since the detection is performed for each item of the personal information character string registered in the personal information dictionary 30, all character strings that match the items of the personal information character string are detected as character string conversion candidate character strings.

例えば、個人情報辞書30に電話番号「046‐123‐4567」が「046」、「123」、「4567」として項目に分解されて登録されている場合、入力データ10に含まれる「046」、「123」、「4567」の文字列が文字列変換の候補となる。このとき、入力データ10中に「ID:046」や「width=“123”」、「人口4567人」といった文字列を含んだ箇所が存在する場合、本来個人情報ではないこれらの箇所についても文字列変換の候補として検出されてしまうことになる。   For example, when the telephone number “046-123-4567” is decomposed into items as “046”, “123”, “4567” and registered in the personal information dictionary 30, “046” included in the input data 10, Character strings “123” and “4567” are candidates for character string conversion. At this time, if there are places in the input data 10 that include character strings such as “ID: 046”, “width =“ 123 ””, and “population 4567”, the characters that are not originally personal information are also written. It will be detected as a candidate for column conversion.

そこで、マスク対象判定部50は、入力データ10中の個人情報検出部40で検出された候補文字の間に含まれる文字列を解析することで、本来の個人情報を構成する項目文字列を検出する。   Therefore, the mask target determination unit 50 detects the item character string that constitutes the original personal information by analyzing the character string included between the candidate characters detected by the personal information detection unit 40 in the input data 10. To do.

具体的には、個人情報検出部40によって検出された候補文字列が入力データ10のタグ要素の内容に含まれない場合、当該候補文字列の組合せの集合から所定の基準で抽出した文字列の組合せを文字列変換の対象として判定する。例えば、当該候補文字列の組合せの集合から候補文字列間の文字数が最小数である文字列の組合せを文字列変換の対象として判定する。または、当該候補文字列の組合せの集合から平均文字列長より短い文字列の組合せを選択しこの選択した組合せを文字列変換の対象として判定する。若しくは、当該候補文字列の組合せの集合から統計的指標に基づき選択された文字列の組合せを文字列変換の対象として判定する。前記統計的指標としては例えば共起頻度が挙げられる。   Specifically, when the candidate character string detected by the personal information detection unit 40 is not included in the content of the tag element of the input data 10, the character string extracted on the basis of a predetermined standard from the set of candidate character string combinations. The combination is determined as a character string conversion target. For example, a combination of character strings having the minimum number of characters between candidate character strings is determined as a character string conversion target from the set of candidate character string combinations. Alternatively, a combination of character strings shorter than the average character string length is selected from the set of candidate character string combinations, and the selected combination is determined as a character string conversion target. Alternatively, a combination of character strings selected based on a statistical index from the set of candidate character string combinations is determined as a character string conversion target. Examples of the statistical index include co-occurrence frequency.

一方、個人情報検出部40によって検出された候補文字列が入力データ10のタグ要素の内容に含まれている場合、個人情報辞書30に含まれる個人情報と一致した候補文字列の組合せを文字列変換の対象であると判定する。   On the other hand, when the candidate character string detected by the personal information detection unit 40 is included in the contents of the tag element of the input data 10, a combination of candidate character strings that match the personal information included in the personal information dictionary 30 is represented by the character string. It is determined that it is a conversion target.

マスク置換部60はマスク対象判定部50によって文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える。この他の文字列はマスク文字列格納部80にて予め格納されている。   The mask replacement unit 60 replaces a combination of character strings determined as a character string conversion target by the mask target determination unit 50 with another character string. Other character strings are stored in advance in the mask character string storage unit 80.

(処理手順の説明)
図2を参照しながら文字列変換装置1によって実行される文字列変換処理の手順S1〜S4について説明する。
(Description of processing procedure)
The procedure S1 to S4 of the character string conversion process executed by the character string conversion device 1 will be described with reference to FIG.

S1:入力データ読込部20は、入力データ10(例えば個人情報を含むWebページ閲覧履歴データ)を受け付けると、このデータを読み込み、メモリの内部データとして保存する。   S1: When the input data reading unit 20 receives the input data 10 (for example, Web page browsing history data including personal information), the input data is read and stored as internal data in the memory.

S2:個人情報検出部40は手順S1で保存された入力データ10から個人情報辞書30に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。   S2: The personal information detection unit 40 detects a character string of personal information included in the personal information dictionary 30 as a candidate character string for character string conversion from the input data 10 stored in step S1.

S3:マスク対象判定部50は手順S2で検出された候補文字列を文字列変換の対象とするかを判定する。   S3: The mask target determination unit 50 determines whether the candidate character string detected in step S2 is to be subjected to character string conversion.

図4,図5を参照しながら手順S3の具体的な手順S301〜S308について説明する。ここでは入力データ10がHTML文書であり、この文書から個人情報として「電話番号」が検出された事例について説明する。   Specific steps S301 to S308 of step S3 will be described with reference to FIGS. Here, a case where the input data 10 is an HTML document and “phone number” is detected as personal information from this document will be described.

S301:入力データ10であるHTML文書から手順S2によって検出された候補文字列を読み込む。図5の事例では例えば手順S2で検出された電話番号「046‐123‐4567」を構成する項目文字列「046」、「123」、「4567」をそれぞれp1,p2,p3としたとき、これらを文字列変換の候補文字列として読み込む。例えば、p1として検出された文字列変換の候補をmaskTargetP1と定義すると、前記HTML文書におけるp1の記載箇所を例えば登場順にmaskTargetP1(1),maskTargetP1(2),…,maskTargetP1(n)と定義して読み込む。   S301: Read the candidate character string detected in step S2 from the HTML document as the input data 10. In the example of FIG. 5, for example, when the item character strings “046”, “123”, and “4567” constituting the telephone number “046-123-4567” detected in step S2 are p1, p2, and p3, respectively, Is read as a candidate character string for character string conversion. For example, if a character string conversion candidate detected as p1 is defined as maskTargetP1, the description location of p1 in the HTML document is defined as maskTargetP1 (1), maskTargetP1 (2),. Read.

S302:手順S301で読み込まれた候補文字列は前記HTML文書のタグ要素(例えば開始タグと終了タグで囲まれた範囲)の内容に含まれるものも含まれていることがある。そこで、手順S301で読み込まれた候補文字列について、HTML文書の前記タグ要素の内容に含まれているか否かを判断する。図5の事例では各maskTargetPn(n)についてHTML文書の開始タグと終了タグで囲まれた範囲の内容に含まれるか否かを判定する。   S302: The candidate character string read in step S301 may include those included in the content of the tag element of the HTML document (for example, a range surrounded by a start tag and an end tag). Therefore, it is determined whether or not the candidate character string read in step S301 is included in the contents of the tag element of the HTML document. In the example of FIG. 5, it is determined whether or not each maskTargetPn (n) is included in the contents of the range surrounded by the start tag and end tag of the HTML document.

S303:手順S302にて候補文字列がHTML文書のタグ要素の内容に含まれない(No)と判断された場合、該当候補文字列が例えば「電話番号」「カード番号」のような複数の項目文字列から成る個人情報の項目文字列であるか否かを判断する。図5の事例では候補文字列「046」、「123」、「4567」が個人情報辞書30に格納されている個人情報を構成する項目文字の一つであるかを判断する。   S303: If it is determined in step S302 that the candidate character string is not included in the content of the tag element of the HTML document (No), the candidate character string includes a plurality of items such as “phone number” and “card number”, for example. It is determined whether or not the item character string of personal information is a character string. In the example of FIG. 5, it is determined whether the candidate character strings “046”, “123”, and “4567” are one of the item characters constituting the personal information stored in the personal information dictionary 30.

S304:手順303にて複数の項目文字列からなる個人情報の項目文字列である(Yes)と判断された場合、前記HTML文書のタグ要素の内容に含まれない該当個人情報の項目文字列の組み合わせを全て選択する。図5の事例では前記HTML文書の開始タグと終了タグで囲まれた範囲の内容に含まれない文字列変換の候補maskTargetP1(n),maskTargetP2(n),maskTargetP3(n)の組み合わせを選択する。   S304: If it is determined in step 303 that the item character string of personal information is a plurality of item character strings (Yes), the item character string of the corresponding personal information not included in the content of the tag element of the HTML document Select all combinations. In the case of FIG. 5, a combination of mask target conversion candidates maskTargetP1 (n), maskTargetP2 (n), and maskTargetP3 (n) that are not included in the contents enclosed by the start tag and end tag of the HTML document is selected.

S305:手順S304で選択された項目文字列の組み合わせごとに項目文字列間の文字列データを読み取る。項目文字列間の文字列のうち、HTML文書のタグ要素の内容に含まれていない文字列、すなわち、HTML文書の開始タグと終了タグで囲まれた範囲以外の文字列について、その文字数をカウントする。そして、このカウント結果から、全項目文字列の組み合わせの中で最も文字数が少なくなる項目文字列の組み合わせを選択する。または、全項目文字列の組み合わせの集合からその平均文字列長よりも短くなる文字列の組み合わせをマスク対象候補として選出する。   S305: Read character string data between item character strings for each combination of item character strings selected in step S304. Among the character strings between the item character strings, the number of characters is counted for character strings that are not included in the content of the HTML document tag element, that is, character strings outside the range enclosed by the start tag and end tag of the HTML document. To do. From the count result, the combination of item character strings having the smallest number of characters is selected from among the combinations of all item character strings. Alternatively, a combination of character strings that is shorter than the average character string length is selected as a mask target candidate from a set of combinations of all item character strings.

図5の事例では、候補maskTargetP1(n)と候補maskTargetP2(n)の間の文字列、及び、候補maskTargetP2(n)と候補maskTargetP3(n)の間の文字列を読み取り、メモリの内部データとして保持する。そして、これらの組み合わせの文字列のうち、候補間に多数の文字列が含まれる場合は、文字列変換の候補の組み合わせとして適切ではないと考えられるため、候補間に含まれる文字数が最も少ない組み合わせが選択される。   In the example of FIG. 5, the character string between the candidate maskTargetP1 (n) and the candidate maskTargetP2 (n) and the character string between the candidate maskTargetP2 (n) and the candidate maskTargetP3 (n) are read and stored as internal data in the memory. To do. Of these combinations of character strings, if a large number of character strings are included between the candidates, it is considered that the combination is not suitable as a candidate combination for character string conversion. Is selected.

手順S305では、上記の文字数や文字列長を考慮した選択法の代わりに、全項目文字列の組み合わせの集合から統計的指標に基づき選択された文字列の組合せをマスク対象候補として選出するようにしてもよい。統計的指標に基づき選択された文字列の組合せとしては例えば入力データ10における共起頻度の最も高い文字列の組合せが挙げられる。   In step S305, instead of the above selection method considering the number of characters and the character string length, a combination of character strings selected from a set of all item character string combinations based on a statistical index is selected as a mask target candidate. May be. Examples of the combination of character strings selected based on the statistical index include a combination of character strings having the highest co-occurrence frequency in the input data 10.

S306:手順S305で選択された文字列を文字列変換の対象とする。一方、手順S303で候補文字列が例えば「パスワード」「ハンドル名」のように複数項目で構成される個人情報ではない(No)と判断された場合、この候補文字列を文字列変換の対象とする。   S306: The character string selected in step S305 is set as a character string conversion target. On the other hand, if it is determined in step S303 that the candidate character string is not personal information composed of a plurality of items such as “password” and “handle name” (No), the candidate character string is set as a character string conversion target. To do.

S307:手順S302にて候補文字列がHTML文書の前記タグ要素の内容に含まれている(Yes)と判断された場合、当該候補文字列が個人情報を含む可能性があるもの(要素または属性)であるか否かを判定する。個人情報を含む可能性があるものである(Yes)と判断された場合、該当マスク対象の候補文字列を文字列変換の対象とする。図5の事例では「value=“…”」のようなタグ要素の内容において入力されたパラメータの値を示す文字列である場合、この文字列は個人情報を含む可能性があると判断する。この個人情報を含む可能性があると判断された文字列は手順S306で文字列変換の対象とされる。   S307: If it is determined in step S302 that the candidate character string is included in the content of the tag element of the HTML document (Yes), the candidate character string may contain personal information (element or attribute) ). If it is determined that the personal information may be included (Yes), the candidate character string to be masked is set as a character string conversion target. In the case of FIG. 5, if the character string indicates the value of the parameter input in the content of the tag element such as “value =“... ”, It is determined that this character string may contain personal information. The character string determined to have the possibility of including personal information is subjected to character string conversion in step S306.

S308:手順S307にて候補文字列が個人情報を含む可能性のあるタグ要素の内容でない(No)と判断された場合は、この候補文字列をマスク対象外として判定する。図5の事例では「width=“…”」のように文書構造を定義するタグの要素・属性の値として示す文字列である場合、この文字列は個人情報を含む可能性は無い(No)と判断され、文字列変換の対象外とする。   S308: If it is determined in step S307 that the candidate character string is not the content of a tag element that may contain personal information (No), the candidate character string is determined not to be masked. In the case of FIG. 5, when the character string is shown as the value of the element / attribute of the tag that defines the document structure, such as “width =“... ”, This character string has no possibility of including personal information (No). Therefore, it is excluded from character string conversion.

S4:マスク置換部60は上述の手順S3で文字列変換の対象と判定された文字列を、マスク文字列格納部80から引き出した他の文字列に置き換える。これにより入力データ10に含まれる個人情報を特定できないようになる。このように個人情報がマスクされた入力データ10は出力データ70として出力される。   S4: The mask replacement unit 60 replaces the character string determined as the character string conversion target in step S3 described above with another character string extracted from the mask character string storage unit 80. As a result, the personal information included in the input data 10 cannot be specified. The input data 10 with the personal information masked in this way is output as output data 70.

前記他の文字列は、事前に規定された文字列を用いて置き換えるとしても良いものとする。例えば、「*」などの記号で置き換えても良い。第三者が可読できない文字列であるとし、マスク対象文字列長と文字列のハッシュ値を用いた「*6:AB1B*」のような文字列でもよく、マスク文字列の生成方法は制限しないものとする。マスク対象文字列をマスク用文字列にて置き換えた電子文書データを出力データ70として出力する。   The other character string may be replaced with a character string defined in advance. For example, it may be replaced with a symbol such as “*”. It may be a character string that cannot be read by a third party, and may be a character string such as “* 6: AB1B *” using a character string length to be masked and a hash value of the character string, and the generation method of the mask character string is not limited. Shall. Electronic document data obtained by replacing the mask target character string with a mask character string is output as output data 70.

(本実施形態の効果)
したがって、文字列変換装置1によれば不必要なマスク処理を行うことなく電子情報に含まれる個人情報を洩れなくマスク処理できる。
(Effect of this embodiment)
Therefore, according to the character string converter 1, the personal information included in the electronic information can be masked without omission without performing unnecessary masking.

すなわち、個人情報を含む電子文書を適切にマスキングする際、従来は個人情報文字列以外のHTMLタグ中の属性情報文字列についても誤ってマスキングされていたが、誤ってマスキングをすることなく、個人情報文字列のみを適切にマスキングできる。これにより、誤ってマスキングされた文字列の存在によってマスク処理前の文字列が推定される可能性を低減することができ、従来よりも安全な個人情報マスク処理の実施が可能となる。   That is, when appropriately masking an electronic document containing personal information, conventionally, the attribute information character string in the HTML tag other than the personal information character string was also erroneously masked. Only information strings can be masked appropriately. Accordingly, it is possible to reduce the possibility that the character string before the mask processing is estimated due to the presence of the erroneously masked character string, and it is possible to perform the personal information mask processing that is safer than before.

特に、文字列変換装置1は、文字列変換の対象となる文字列の抽出にあたり、文字列変換の候補文字列の組合せの集合から、候補文字列間の文字数が最小数である文字列の組合せを文字列変換の対象として選択する。このような候補文字列間の文字数に依存した文字列の選択によりマスクすべき文字列を効率的に抽出できる。   In particular, when extracting a character string to be subjected to character string conversion, the character string conversion device 1 uses a combination of character strings having a minimum number of characters between candidate character strings from a set of character string conversion candidate character string combinations. Is selected as the target of character string conversion. Character strings to be masked can be efficiently extracted by selecting character strings depending on the number of characters between candidate character strings.

または、候補文字列の組合せの集合から平均文字列長より短い文字列の組合せを選択しこの選択した組合せを文字列変換の対象として選択する。このような組み合わされた文字列の長さに依存した文字列の選択によりマスクすべき文字列を効率的に抽出できる。   Alternatively, a character string combination shorter than the average character string length is selected from the set of candidate character string combinations, and the selected combination is selected as a character string conversion target. The character string to be masked can be efficiently extracted by selecting the character string depending on the length of the combined character string.

若しくは、候補文字列の組合せの集合から統計的指標(共起頻度等)に基づき選択された文字列の組合せを文字列変換の対象として選択する。このような統計的な処理により、マスクすべき文字列を効率的に抽出できる。   Alternatively, a combination of character strings selected based on a statistical index (co-occurrence frequency or the like) from a set of candidate character string combinations is selected as a character string conversion target. By such statistical processing, a character string to be masked can be extracted efficiently.

[実施形態2]
個人情報の種類によっては、個人情報を構成する項目文字列の間に記号が介在する場合がある。例えば、個人情報が電話番号、クレジットカード、郵便番号の場合、「‐」(ハイフン)のような記号が介在することが多い。個人情報が郵便番号の場合、先頭の項目文字列の前に「〒」の記号が表記されることが多い一方で項目文字列間に「〒」の記号が介在する可能性は低い。また、メールアドレスの場合、これを構成する項目文字列の間に「@」が含まれる可能性が高いが、電子文書のタグ要素の内容(例えばHTML文書やXML文書の開始タグと終了タグで囲まれた範囲の内容)に含まれていない他の文字列が当該項目文字列の間に介在する可能性は低い。
[Embodiment 2]
Depending on the type of personal information, a symbol may be interposed between item character strings constituting the personal information. For example, when personal information is a telephone number, credit card, or postal code, a symbol such as “-” (hyphen) is often interposed. When the personal information is a zip code, the symbol “〒” is often written in front of the first item character string, but it is unlikely that the symbol “〒” is interposed between the item character strings. In addition, in the case of an email address, there is a high possibility that “@” is included between the item character strings constituting this, but the contents of the tag element of the electronic document (for example, the start tag and end tag of an HTML document or XML document) There is a low possibility that other character strings not included in the contents of the enclosed range are interposed between the item character strings.

その他の個人情報種類でも、先頭項目文字列の前や、項目文字列間に介在する可能性が高い記号や文字列が存在し、また、項目文字列間に含まれる可能性の低い記号、文字列が存在する。   For other types of personal information, there are symbols and character strings that are likely to intervene before the first item character string and between item character strings, and are unlikely to be included between item character strings. A column exists.

そこで、実施形態2に係るマスク対象判定部50は、個人情報の表記パターン情報を蓄積した個人情報表記パターン辞書90を参照することにより、文字列変換候補の判定効率をさらに向上させている。   Therefore, the mask target determination unit 50 according to the second embodiment further improves the determination efficiency of the character string conversion candidate by referring to the personal information notation pattern dictionary 90 that stores the notation pattern information of the personal information.

個人情報表記パターン辞書90は図6に示したように個人情報の種類毎に個人情報の内容、表記パターン情報を格納している。当該表記パターン情報のカラムには個人情報の先頭文字文字列と当該個人情報を構成する項目文字列の間に介在する記号または文字若しくは文字列が格納されている。図6に例示された辞書90では個人情報の種類のカラムには「氏名」「電話番号」「携帯電話番号」「クレジットカード番号」「郵便番号」「メールアドレス」「住所」が記録されている。   The personal information notation pattern dictionary 90 stores the contents of personal information and notation pattern information for each type of personal information as shown in FIG. The column of the notation pattern information stores a symbol, character, or character string that is interposed between the first character character string of the personal information and the item character string that constitutes the personal information. In the dictionary 90 illustrated in FIG. 6, “name”, “phone number”, “mobile phone number”, “credit card number”, “postal code”, “mail address”, and “address” are recorded in the column of the type of personal information. .

マスク対象判定部50は、上述の手順S304での項目文字列の組合せの選択にあたり、個人情報表記パターン辞書90を参照する。この参照により、例えば項目文字の間に「郵便番号」に関する「〒」の記号が介在する項目文字列の組み合わせを、文字列変換候補となる項目文字列の組み合わせの集合から除外する。また、例えば「電話番号」に関する文字列変換候補となる項目文字列の組合せの選択にあたり、当該文字間の文字列が電子文書(例えばHTML文書、XML文書)のタグ要素の内容に含まれない文字列「‐」(ハイフン)のみとなる組み合わせを選択する。   The mask target determination unit 50 refers to the personal information notation pattern dictionary 90 when selecting the combination of item character strings in the above-described step S304. By this reference, for example, a combination of item character strings in which a symbol “〒” relating to “zip code” is interposed between item characters is excluded from a set of item character string combinations that are character string conversion candidates. For example, when selecting a combination of item character strings that are candidates for character string conversion related to “telephone number”, the character string between the characters is not included in the contents of the tag element of the electronic document (for example, HTML document, XML document). Select a combination that is only in the column “-” (hyphen).

また、各個人情報の種類については表記パターン情報毎に重みづけを行い、マスク対象判定部50が文字列変換候補の項目文字列の各組み合わせについて項目文字列間に介在する文字列の重みづけを計算するようにしてもよい。そして、重みづけの計算値が最も高くなる項目文字列の組み合わせが選択される。これにより個人情報のマスク精度が向上する。   In addition, each type of personal information is weighted for each notation pattern information, and the mask target determination unit 50 weights the character string interposed between the item character strings for each combination of the item character strings of the character string conversion candidates. You may make it calculate. Then, a combination of item character strings having the highest weighted calculation value is selected. Thereby, the mask accuracy of personal information is improved.

[実施形態3]
図7に示された実施形態3に係るネットワークシステムはシステム内に存在する全てのクライアント端末2において文字列変換装置1を実装させている。個々のクライアント端末2はそのハードウェアリソースがソフトウェアリソースと協働することにより図1に示された文字列変換装置1の機能部20〜60,80を実装している。個人情報表記パターン辞書90は個人情報表記パターン辞書サーバ3に保存されている。
[Embodiment 3]
In the network system according to the third embodiment shown in FIG. 7, the character string conversion device 1 is installed in all the client terminals 2 existing in the system. The individual client terminals 2 have the hardware units cooperate with the software resources to implement the function units 20 to 60 and 80 of the character string conversion device 1 shown in FIG. The personal information notation pattern dictionary 90 is stored in the personal information notation pattern dictionary server 3.

クライアント端末2はインターネット4を介して個人情報表記パターン辞書サーバ3と通信可能となっている。クライアント端末2を所有するクライアントの個人情報(例えば「氏名」「電話番号」「携帯電話番号」「クレジットカード番号」「郵便番号」「メールアドレス」「住所」)201は予め個人情報表記パターン辞書90に格納される。   The client terminal 2 can communicate with the personal information notation pattern dictionary server 3 via the Internet 4. Personal information (for example, “name”, “phone number”, “mobile phone number”, “credit card number”, “zip code”, “mail address”, “address”) 201 of the client that owns the client terminal 2 is stored in advance in the personal information notation pattern dictionary 90. Stored in

クライアント端末2はWebページ閲覧履歴データに含まれる個人情報のマスク処理(手順S1〜S4の実行)の際に個人情報表記パターン辞書サーバ3内の個人情報表記パターン辞書90から個人情報の表示パターン情報202を引き出し、参照する。尚、本マスク処理の過程で新たに検出された個人情報は新たな個人情報表記パターン辞書90に追加される。   The client terminal 2 uses the personal information notation pattern dictionary 90 in the personal information notation pattern dictionary server 3 to mask the personal information included in the Web page browsing history data (execution of steps S1 to S4). Pull out 202 for reference. The personal information newly detected in the mask process is added to a new personal information notation pattern dictionary 90.

本ネットワークシステムにおいてはWeb閲覧履歴収集サーバ5がインターネット4を介してクライアント端末2からWebページ閲覧履歴データ203を取得できるようになっている。Webページ閲覧履歴データ203に含まれる個人情報はクライアント端末2が実行する手順S1〜S4によりマスク処理されている。   In this network system, the Web browsing history collection server 5 can acquire the Web page browsing history data 203 from the client terminal 2 via the Internet 4. The personal information included in the Web page browsing history data 203 is subjected to mask processing by steps S1 to S4 executed by the client terminal 2.

[本発明のプログラムとしての態様]
本発明は文字列変換装置1を構成する上記の機能部20〜60,80,90の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。または、文字列変換装置1が実行する上記の手順S1〜S4の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。そして、前記プログラムをそのコンピュータが読み取り可能な記録媒体、例えば、FD(Floppy(登録商標) Disk)や、MO(Magneto‐Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)‐ROM、DVD(Digital Versatile Disk)‐ROM、CD‐R、CD‐RW、HDD、SSD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。さらに、上記のプログラムをインターネットや電子メールなど、ネットワークを介して提供することも可能である。
[Aspect as Program of the Present Invention]
The present invention can be realized by configuring a program that causes a computer to function as a part or all of the functional units 20 to 60, 80, and 90 constituting the character string conversion device 1, and causing the computer to execute the program. Alternatively, it can be realized by configuring a part or all of the above-described steps S1 to S4 executed by the character string conversion device 1 with a program that is executed by the computer. Then, the computer can read the program, for example, FD (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact Disk). -ROM, DVD (Digital Versatile Disk)-It can be recorded on ROM, CD-R, CD-RW, HDD, SSD, removable disk, etc., and can be stored or distributed. Furthermore, the above program can be provided via a network such as the Internet or e-mail.

1…文字列変換装置
30…個人情報辞書
40…個人情報検出部
50…マスク対象判定部
60…マスク置換部
DESCRIPTION OF SYMBOLS 1 ... Character string converter 30 ... Personal information dictionary 40 ... Personal information detection part 50 ... Mask object determination part 60 ... Mask replacement part

Claims (4)

個人情報の項目が大項目とこの大項目を詳細化した小項目とで表現され、保護対象の個人情報文字列データを個人情報の小項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子文書から前記個人情報辞書に含まれる小項目の個人情報の文字列を文字列変換の候補文字列として検出する手順と、
前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に、大項目が同じで小項目が異なる当該候補文字列の組合せの集合から候補文字列間の文字数が最小数である文字列の組合せを文字列変換の対象として判定する手順と、
前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順と
を有すること
を特徴とする文字列変換方法。
Character string conversion device provided with a personal information dictionary in which personal information items are represented by large items and small items that detail these large items, and personal information character string data to be protected is stored for each small item of personal information Is a character string conversion method for converting personal information contained in an electronic document into another character string,
A procedure for detecting a character string of personal information of a small item included in the personal information dictionary from an electronic document as a character string conversion candidate character string;
If the detected candidate character string is not included in the contents of the tag elements of the electronic document from a set of combinations of small items in a large item same are different the candidate character strings, the number of characters between the candidate character strings Min A procedure for determining a combination of character strings as numbers as a target of character string conversion;
A character string conversion method comprising: replacing a combination of character strings determined to be the character string conversion target with another character string.
個人情報の項目が大項目とこの大項目を詳細化した少項目とで表現され、保護対象の個人情報文字列データを個人情報の小項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子文書から前記個人情報辞書に含まれる小項目の個人情報の文字列を文字列変換の候補文字列として検出する手順と、
前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に、大項目が同じで小項目が異なる当該候補文字列の組合せの集合から、候補文字列の組合せがもつ文字列長が当該集合における平均文字列長より短い文字列の組合せを選択しこの選択した組合せを文字列変換の対象として判定する手順と、
前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順と
を有すること
を特徴とする文字列変換方法。
Character string conversion device provided with a personal information dictionary in which personal information items are represented by large items and small items that detail these large items, and personal information character string data to be protected is stored for each small item of personal information Is a character string conversion method for converting personal information contained in an electronic document into another character string,
A procedure for detecting a character string of personal information of a small item included in the personal information dictionary from an electronic document as a character string conversion candidate character string;
If the detected candidate character string is not included in the contents of the tag element of the electronic document, the characters of the combination of candidate character strings from the set of candidate character string combinations having the same major item and different minor items A procedure for selecting a combination of character strings whose column length is shorter than the average character string length in the set and determining the selected combination as a target of character string conversion;
A character string conversion method comprising: replacing a combination of character strings determined to be the character string conversion target with another character string.
個人情報の項目が大項目とこの大項目を詳細化した小項目とで表現され、保護対象の個人情報文字列データを個人情報の小項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子文書から前記個人情報辞書に含まれる小項目の個人情報の文字列を文字列変換の候補文字列として検出する手順と、
前記検出された候補文字列が前記電子文書のタグ要素の内容に含まれない場合に、大項目が同じで小項目が異なる当該候補文字列の組合せの集合から、前記電子文書における共起頻度の最も高い文字列の組合せを文字列変換の対象として判定する手順と、
前記文字列変換の対象と判定された文字列の組合せを他の文字列に置き換える手順と
を有すること
を特徴とする文字列変換方法。
Character string conversion device provided with a personal information dictionary in which personal information items are represented by large items and small items that detail these large items, and personal information character string data to be protected is stored for each small item of personal information Is a character string conversion method for converting personal information contained in an electronic document into another character string,
A procedure for detecting a character string of personal information of a small item included in the personal information dictionary from an electronic document as a character string conversion candidate character string;
When the detected candidate character string is not included in the contents of the tag element of the electronic document, the co-occurrence frequency in the electronic document is determined from a set of combinations of candidate character strings having the same large item but different small items . A procedure for determining the highest combination of character strings as a target for character string conversion,
A character string conversion method comprising: replacing a combination of character strings determined to be the character string conversion target with another character string.
コンピュータに請求項1から3のいずれか1項に記載の文字列変換方法の各手順を実行させるための文字列変換プログラム。   The character string conversion program for making a computer perform each procedure of the character string conversion method of any one of Claim 1 to 3.
JP2011257043A 2011-11-25 2011-11-25 Character string conversion method and character string conversion program Active JP5731361B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011257043A JP5731361B2 (en) 2011-11-25 2011-11-25 Character string conversion method and character string conversion program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011257043A JP5731361B2 (en) 2011-11-25 2011-11-25 Character string conversion method and character string conversion program

Publications (2)

Publication Number Publication Date
JP2013114287A JP2013114287A (en) 2013-06-10
JP5731361B2 true JP5731361B2 (en) 2015-06-10

Family

ID=48709818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011257043A Active JP5731361B2 (en) 2011-11-25 2011-11-25 Character string conversion method and character string conversion program

Country Status (1)

Country Link
JP (1) JP5731361B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5676522B2 (en) * 2012-05-22 2015-02-25 日本電信電話株式会社 Character string conversion method and program
JP6194180B2 (en) * 2013-03-22 2017-09-06 三菱電機インフォメーションネットワーク株式会社 Text mask device and text mask program
JP2015041319A (en) * 2013-08-23 2015-03-02 株式会社リコー Data management device, data management method, and program
JP6107633B2 (en) * 2013-12-16 2017-04-05 株式会社島津製作所 Log data processing system for analyzer system and program for the system
JP2016224857A (en) 2015-06-03 2016-12-28 株式会社リコー Image processing device, image processing method, and image processing program
JP7183923B2 (en) * 2019-04-04 2022-12-06 富士通株式会社 Document output program, document output method and document output system
AU2021277745B2 (en) * 2020-08-10 2023-12-07 Walkme Ltd. Privacy-preserving data collection

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3961760B2 (en) * 2000-11-07 2007-08-22 沖電気工業株式会社 E-mail device
JP2004094542A (en) * 2002-08-30 2004-03-25 Hitachi Software Eng Co Ltd Document management system

Also Published As

Publication number Publication date
JP2013114287A (en) 2013-06-10

Similar Documents

Publication Publication Date Title
US11973799B2 (en) Domain name processing systems and methods
JP5731361B2 (en) Character string conversion method and character string conversion program
JP5358549B2 (en) Protection target information masking apparatus, protection target information masking method, and protection target information masking program
WO2007139039A1 (en) Information classification device, information classification method, and information classification program
CN113688240B (en) Threat element extraction method, threat element extraction device, threat element extraction equipment and storage medium
US7895515B1 (en) Detecting indicators of misleading content in markup language coded documents using the formatting of the document
Wang et al. Identifying users across different sites using usernames
JP2006221560A (en) Data replacement device, data replacement method, and data replacement program
JP5676522B2 (en) Character string conversion method and program
JP5162215B2 (en) Data processing apparatus, data processing method, and program
JP6194180B2 (en) Text mask device and text mask program
CN114021138B (en) A construction method, homology analysis method and device for homology analysis knowledge base
JP5513953B2 (en) Masking data generation apparatus and program for testing
JP4807330B2 (en) Document processing apparatus and program
CN115687979A (en) Identification method and device, electronic equipment, and storage medium of specified technology in threat intelligence
JP5824429B2 (en) Spam account score calculation apparatus, spam account score calculation method, and program
JP5331084B2 (en) Specific information extraction apparatus and specific information extraction program
JP4272690B1 (en) Personal information file determination system
JP5643177B2 (en) Character string conversion device, character string conversion method, and character string conversion program
Mehr et al. Enhanced KNN Method for Malicious URL Detection using GCL (Google Index, Counting the number of characters and Length of URL) Extraction Technique
CN113342753B (en) File security management method, device, equipment and computer-readable storage medium
CN115048543B (en) Image similarity judgment method, image searching method and device
CN114004604B (en) Method and device for detecting URL data in mail and electronic equipment
CN113987490B (en) Malicious process detection method, device, system and computer-readable storage medium
JP7358838B2 (en) Information processing device and information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141014

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150409

R150 Certificate of patent or registration of utility model

Ref document number: 5731361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150