JP7598005B2 - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP7598005B2 JP7598005B2 JP2020188393A JP2020188393A JP7598005B2 JP 7598005 B2 JP7598005 B2 JP 7598005B2 JP 2020188393 A JP2020188393 A JP 2020188393A JP 2020188393 A JP2020188393 A JP 2020188393A JP 7598005 B2 JP7598005 B2 JP 7598005B2
- Authority
- JP
- Japan
- Prior art keywords
- personal information
- text data
- selection
- information
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 25
- 238000003672 processing method Methods 0.000 title claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 39
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 70
- 239000013598 vector Substances 0.000 description 37
- 238000007689 inspection Methods 0.000 description 36
- 238000000034 method Methods 0.000 description 36
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000013404 process transfer Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Description
本発明は、情報処理装置、情報処理方法、プログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
個人情報保護法の改正に伴い適用範囲が拡大されたことにより、事業者における情報漏洩時のリスクは高まっており、個人情報漏洩防止対策の重要性は増してきている。 As the scope of application of the Personal Information Protection Act has been expanded following amendments, the risk of information leaks for businesses has increased, and measures to prevent personal information leaks have become increasingly important.
個人情報を扱う場合は、個人データの安全管理のために必要な措置を講じる必要があるが、電子化された個人データは複製が容易なため、個人の端末において作業を行った際に複製したファイルが作業後も放置されているなど、管理困難な状態に陥りやすい。 When handling personal information, it is necessary to take necessary measures to safely manage the personal data, but because electronic personal data is easily copied, it can easily become difficult to manage, for example when copied files are left behind when working on an individual's device, making it difficult to manage.
更に、電子メールなどによってデータを外部に送信する場合は、誤送信のチェックだけではなく、誤って個人情報を含んだファイルを添付していないかの確認が必要となる。 In addition, when sending data externally via e-mail or other means, it is necessary to check not only for erroneous sending but also for files that contain personal information being attached by mistake.
しかしながら、組織において、各個人が管理する端末に保存されているファイルを全て確認したり、電子メールに添付されているファイルを都度開いて確認したりするには膨大なコストが必要となる。 However, for an organization, it would be extremely costly to check all the files stored on devices managed by each individual, or to open and check files attached to emails each time.
膨大な作業コストを抑えながら、組織における個人情報を適切に管理するために、個人情報を含むファイルを高い確度で判断できる技術が望まれている。 In order to properly manage personal information within organizations while keeping huge operational costs down, there is a demand for technology that can identify with a high degree of accuracy which files contain personal information.
特許文献1には、個人情報を形成し得る個人情報形成情報を検出し、検出した個人情報形成情報の位置関係から個人情報を特定し、個人情報の文字数や項目数などを計測し、計測値から個人情報を含む度合を示す指標値として示す技術が記載されている。 Patent Document 1 describes a technology that detects personal information forming information that may form personal information, identifies the personal information from the positional relationship of the detected personal information forming information, measures the number of characters and items of the personal information, and displays the measured value as an index value indicating the degree to which personal information is included.
しかし、特許文献1においては、個人情報を含む度合いを示す指標値の算出式を人手で調整する必要があり、適切な指標値を算出するには手間がかかってしまう。 However, in Patent Document 1, the formula for calculating the index value indicating the degree to which personal information is included must be manually adjusted, and it takes time and effort to calculate an appropriate index value.
そこで、本発明は、より効率的に、高い精度で、個人情報を含む文書を判定できる仕組みを提供することを目的とする。 Therefore, the present invention aims to provide a mechanism for determining whether a document contains personal information more efficiently and accurately.
本発明の情報処理システムは、テキストデータを取得する取得手段と、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータに個人情報が含まれるかを判定する判定手段と、を備えることを特徴とする。 The information processing system of the present invention is characterized by comprising an acquisition means for acquiring text data, and a determination means for determining whether the text data acquired by the acquisition means contains personal information using a trained model trained on data that associates the text data with information indicating that the text data contains personal information.
本発明によれば、より効率的に、高い精度で、個人情報を含む文書の判定が可能となる。 The present invention makes it possible to more efficiently and accurately identify documents that contain personal information.
以下、図面を参照して、本発明の実施形態を詳細に説明する。 The following describes an embodiment of the present invention in detail with reference to the drawings.
図1は、本発明の実施形態における個人情報検査装置を用いたWebメールサービスのシステム構成の一例を示す図である。 Figure 1 shows an example of the system configuration of a webmail service using a personal information inspection device in an embodiment of the present invention.
個人情報検査装置100と、Webメールサービス110および管理者端末120はローカルエリアネットワーク130を介して接続される構成となっている。また、Webメールサービス110は、外部ネットワーク140を経由して、クライアント150に接続可能な構成となっている。
The personal
Webメールサービス110は、一般的な電子メールクライアントの機能、即ち電子メールの編集機能とメールの送受信機能を、クライアント端末150に提供する。
The
また、Webメールサービス110は、クライアント端末150においてユーザがメールの送信または明示的は個人情報の検査を指示すると、個人情報検査装置100に個人情報の有無を判定する処理の実行を要求する。
In addition, when a user on the
個人情報検査装置100が送信しようとする電子メールに個人情報を含む可能性があると判断した場合、Webメールサービス110は、ユーザに対し個人情報有無の確認と送信可否の判断を促すメッセージを表示し、ユーザの送信可否の判断に基づき送信を制御する。
If the personal
本発明の実施形態においては、個人情報検査装置100は、クライアント端末150に対し、外部ネットワーク140を経由するサービスとして構成してもよいし、Webメールサービス110の機能の一部として構成してもよい。
In an embodiment of the present invention, the personal
また、クライアント端末150上で動作するメールクライアントプログラムの機能として構成してもよい。
It may also be configured as a function of an email client program running on the
図2は、本発明の実施形態における個人情報検査装置100、Webメールサービス110、管理者端末120、クライアント端末150のハードウェア構成の一例を示すブロック図である。
Figure 2 is a block diagram showing an example of the hardware configuration of the personal
図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。
As shown in FIG. 2, the information processing device is connected to a CPU (Central Processing Unit) 201, a ROM (Read Only Memory) 202, a RAM (Random Access Memory) 203, a
CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。
The
ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
The
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
The
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。 The touch panel may also be a touch panel capable of detecting positions touched by multiple fingers, such as a multi-touch screen.
ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
The
なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
The
メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
The
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。
The communication I/
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。
The
図3は、個人情報検査装置およびWebメールサービスの機能構成の一例を示す図である。 Figure 3 shows an example of the functional configuration of a personal information inspection device and a webmail service.
メール編集処理部311は、クライアント端末150のWebブラウザ320に表示された画面を介して受け付けたユーザからの操作・指示に基づき、電子メールの作成・編集を行う機能を備える。
The email
送信制御処理部312は、ユーザから電子メールの送信指示を受け付けると、当該電子メールからテキスト(本文や添付ファイル等)を抽出し、個人情報検査装置100の各処理部による個人情報指数の算出処理を制御する。また、個人情報指数の算出処理の結果に基づき、図17に示す確認ダイアログを表示したり、ユーザから送信の可否を受け付けることで電子メールの送信処理を制御する機能を備える。
When the transmission
送信処理部313は、送信制御処理部312において送信することが決定された電子メールを外部ネットワーク140に送出する機能を備える。
The
個人情報学習処理部301は、管理者端末120からアップロードされた情報に基づき、図4のフローチャートに示す個人情報の学習処理を実行する機能を備える。
The personal information
特徴ベクトル生成処理部302は、処理対象の文書に対して特徴ベクトルを生成する機能を備える。
The feature vector
判定知識保存領域303は、特徴ベクトル生成処理部302において生成された特徴ベクトルと、学習データ学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルとの組を保存する領域である。
The judgment
個人情報検査処理部304は、送信制御処理部312から取得したテキストに対して、図12に示すテキスト内容が個人情報である可能性を算出する処理を実行する機能を備える
The personal information inspection processing unit 304 has a function to execute a process to calculate the possibility that the text content shown in FIG. 12 is personal information for the text obtained from the transmission
(個人情報学習処理)
次に図4のフローチャートを用いて、本発明の実施形態における個人情報学習処理部301が実行する個人情報の学習処理について説明する。
図4は、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、管理者端末120からアップロードされた個人情報・非個人情報を予め分類された文書に基づき、個人情報の特徴を学習する処理を示すフローチャートである。
(Personal information learning processing)
Next, the personal information learning process executed by the personal information learning
Figure 4 is a flowchart showing the process in which the
ステップS401では、個人情報学習処理部301は、管理者端末130におけるWebブラウザ330からアップロードされた文書を学習データとして取得する。
In step S401, the personal information learning
ステップS402では、個人情報学習処理部301は、ステップS401で取得した学習データにおける文書に対して、ステップS405までの繰り返し処理を開始する。
In step S402, the personal information learning
ステップS403では、個人情報学習処理部301は、処理対象の文書に対して、特徴ベクトル生成処理部302を用いて特徴ベクトルを生成する。特徴ベクトルの生成方法については後述する。
In step S403, the personal information learning
ステップS404では、個人情報学習処理部301は、ステップS403で生成した特徴ベクトルと、学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルとの組を、図5に示す判定知識保存領域303における特徴ベクトル保存テーブル501に保存する。
In step S404, the personal information learning
ステップS405では、個人情報学習処理部301は、処理対象となる文書がまだあれば、ステップS402からの繰り返し処理を実施する。処理対象となる文書がなければ、ステップS406に処理を移す。
In step S405, if there are still documents to be processed, the personal information learning
ステップS406では、個人情報学習処理部301は、特徴ベクトル保存テーブル501の特徴ベクトルとラベル(個人情報・非個人情報)に対して機械学習を用いて学習を行い、学習の結果としてモデル(学習済みモデル)を獲得する。
In step S406, the personal information learning
ステップS407では、個人情報学習処理部301は、ステップS406で獲得したモデルを判定知識保存領域303におけるモデル保存テーブル502に保存する。
In step S407, the personal information learning
本発明の実施形態においては、個人情報学習処理を個人情報検査処理と同一のハードウェア上で実行するように構成しているが、異なるハードウェア上で実行するように構成しても構わない。
また、学習データをアップロードするように構成しているが、個人情報学習処理を行うハードウェア上で管理するように構成してもよい
In the embodiment of the present invention, the personal information learning process is configured to be executed on the same hardware as the personal information inspection process, but it may be configured to be executed on different hardware.
Although the learning data is configured to be uploaded, it may be configured to be managed on the hardware that performs the personal information learning process.
(特徴ベクトル生成処理)
次に図6のフローチャートを用いて、本発明の実施形態における特徴ベクトル生成処理部302が実行する特徴ベクトルの生成処理について説明する。
(Feature Vector Generation Process)
Next, the feature vector generation process executed by the feature vector
ステップS601では、特徴ベクトル生成処理部302は、入力として受け取った文書のテキストから、予め個人情報項目や要配慮情報項目として定義された単語やパターンに基づき、形態素解析やパターマッチングを用いて、出現位置および文字数とともに個人情報形成情報として抽出する。
In step S601, the feature vector
ステップS602では、特徴ベクトル生成処理部302は、文書および抽出した個人情報形成情報から、種別や文字数に基づいた統計値を求める。
In step S602, the feature vector
ステップS603では、特徴ベクトル生成処理部302は、ステップS602で求めた統計値を特徴ベクトルとしてまとめる。
In step S603, the feature vector
(個人情報学習処理具体例)
次に個人情報学習処理の具体例として、図7に示す学習データ700に対して、図4に示す処理が実施された場合について説明する。
(Specific example of personal information learning processing)
Next, as a specific example of the personal information learning process, a case where the process shown in FIG. 4 is performed on learning
ステップS401では、個人情報学習処理部301は、管理者端末130におけるWebブラウザ330からアップロードされた文書700を学習データとして取得する。
In step S401, the personal information learning
ステップS402では、個人情報学習処理部301は、ステップS401で取得した学習データ700における文書701に対して、ステップS405までの繰り返し処理を開始する。
In step S402, the personal information learning
ステップS403では、個人情報学習処理部301は、処理対象の文書701に対して、特徴ベクトル生成処理部302を用いて特徴ベクトルを生成する。
In step S403, the personal information learning
ステップS601では、特徴ベクトル生成処理部302は、入力として受け取った文書701のテキストから、予め個人情報項目や要配慮情報項目として定義された単語やパターンに基づき、形態素解析やパターマッチングを用いて、出現位置および文字数とともに図8に示す個人情報形成情報801を抽出する。
In step S601, the feature vector
ステップS602では、特徴ベクトル生成処理部302は、文書および抽出した個人情報形成情報801から、図9に示す種別や文字数に基づいた統計値を求める。
In step S602, the feature vector
ステップS603では、特徴ベクトル生成処理部302は、ステップS602で求めた統計値を特徴ベクトル901としてまとめる。本発明の実施例においては、説明を容易にするために正規化等の処理は省略してるが、正規化を行うように構成してもよい。
In step S603, the feature vector
ステップS404では、個人情報学習処理部301は、ステップS403で生成した特徴ベクトル901と、学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルTRUEの組1001を、図10に示す特徴ベクトル保存テーブル501に保存する。
In step S404, the personal information learning
ステップS405では、個人情報学習処理部301は、処理対象となる文書702がまだあるので、ステップS402からの繰り返し処理を実施する。
In step S405, the personal information learning
以下、学習データ700の文書全てに対して同様のステップを実施する。
The same steps are then performed for all documents in the
ステップS406では、個人情報学習処理部301は、特徴ベクトル保存テーブル501に対して機械学習により学習を行い、モデルを獲得する。
In step S406, the personal information learning
本発明の実施例においては、線形のSVM(Support Vector Machine)を用いる。 In this embodiment of the present invention, a linear SVM (Support Vector Machine) is used.
ステップS407では、個人情報学習処理部301は、学習結果として獲得した図11に示すモデルを判定知識保存領域303におけるモデル保存テーブル502に保存する。獲得したモデルは予測値(計算結果)が正の値となる場合に個人情報と判断する。
In step S407, the personal information learning
本発明の実施例においては、説明を容易にするために機械学習の手法として線形のSVMを用いて説明したが、正否の二値に分類することができ、その度合いを数値として表現できるなら、いずれの手法を用いてもよい In the embodiment of the present invention, for ease of explanation, a linear SVM was used as the machine learning method, but any method can be used as long as it can be classified into two values, true or false, and the degree of the classification can be expressed as a numerical value.
(個人情報検査処理)
次に図12のフローチャートを用いて、本発明の実施形態における個人情報検査処理部304が実行する個人情報の検査処理について説明する。
(Personal information inspection processing)
Next, the personal information inspection process executed by the personal information inspection processing unit 304 in the embodiment of the present invention will be described with reference to the flowchart of FIG.
図12のフローチャートは、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、入力テキストに対して、テキストの内容が個人情報である可能性を示す度合を数値として算出する処理を示すフローチャートである。
The flowchart in FIG. 12 shows the process in which the
ステップS1201では、個人情報検査処理部304は、処理対象となる文書のテキストを取得する。 In step S1201, the personal information inspection processing unit 304 acquires the text of the document to be processed.
ステップS1202では、個人情報検査処理部304は、ステップS1201で取得したテキストに対して、前述した図6のフローチャートを用いて、入力文書に対する特徴ベクトルを取得する。 In step S1202, the personal information inspection processing unit 304 obtains a feature vector for the input document using the flowchart of FIG. 6 described above for the text obtained in step S1201.
ステップS1203では、個人情報検査処理部304は、ステップS1202で取得した特徴ベクトルに対して、判定知識保存領域303におけるモデル保存テーブル502に保存されているモデルを用いて予測値を算出する。
In step S1203, the personal information inspection processing unit 304 calculates a predicted value for the feature vector acquired in step S1202 using the model stored in the model storage table 502 in the judgment
ステップS1204では、個人情報検査処理部304は、ステップS1203で算出した予測値に対して、感覚的に把握が容易な値となるように変換し、個人情報指数として出力する。
本発明の実施例においては、図13に示すような個人情報指数算出式を用いるが、他の算出式を用いてもよいし、予測値をそのまま用いてもよい
In step S1204, the personal information inspection processing unit 304 converts the predicted value calculated in step S1203 into a value that is easy to grasp intuitively, and outputs the converted value as a personal information index.
In the embodiment of the present invention, the personal information index calculation formula shown in FIG. 13 is used, but other calculation formulas may be used, or the predicted value may be used as is.
(個人情報検査処理具体例)
次に個人情報検査処理の具体例として、図14に示す検査対象文書1401に対して、図12に示す処理が実施された場合について説明する。
(Specific examples of personal information inspection processing)
Next, as a specific example of personal information inspection processing, a case where the processing shown in FIG. 12 is performed on an
ステップS1201では、個人情報検査処理部304は、処理対象となる文書1401からテキスト1402を取得する。
In step S1201, the personal information inspection processing unit 304 obtains
ステップS1202では、個人情報検査処理部304は、ステップS1201で取得したテキストに対して、前述した図6のフローチャートを用いて、入力文書に対する特徴ベクトル1403を取得する。
In step S1202, the personal information inspection processing unit 304 obtains a
ステップS1203では、個人情報検査処理部304は、ステップS1202で取得した特徴ベクトル1403に対して、判定知識保存領域303におけるモデル保存テーブル502に保存されているモデルを用いて予測値として1460.960を算出する(1404)。
In step S1203, the personal information inspection processing unit 304 calculates a predicted value of 1460.960 for the
ステップS1204では、個人情報検査処理部304は、ステップS1203で算出した予測値1460.960に対して、図13に示す個人情報指数算出式を用いて個人情報指数を算出する。ここではRmin=-1700、Rmax=2000であったとする。
結果として50+50×1460.960÷max(2000,-(-1700))=86.524を個人情報指数として得る。
In step S1204, the personal information inspection processing unit 304 calculates the personal information index for the predicted value 1460.960 calculated in step S1203, using the personal information index calculation formula shown in Fig. 13. Here, it is assumed that Rmin = -1700 and Rmax = 2000.
As a result, the personal information index is obtained as 50 + 50 x 1460.960 ÷ max (2000, - (-1700)) = 86.524.
このように、個人情報を含むか否かを判定された文書集合を用意するだけで、人手による調整不要で、個人情報である確度となる個人情報指数を算出すことが可能となる。
また、個人情報指数は、統計情報に基づいて算出されるので、個人情報形成情報の抽出に多少の誤りがあったとしても、高い精度で個人情報である確度を示すことができる。
算出した個人情報指数を用いれば、確度に応じた処理を実現することができ、効率的な個人情報の管理が可能となる
In this way, by simply preparing a set of documents that have been determined to contain personal information, it is possible to calculate a personal information index, which is the degree of certainty that the documents are personal information, without the need for manual adjustment.
Furthermore, since the personal information index is calculated based on statistical information, even if there is some error in the extraction of the personal information forming information, it is possible to indicate the degree of certainty that the information is personal information with high accuracy.
By using the calculated personal information index, processing according to the degree of accuracy can be realized, enabling efficient management of personal information.
次に図15に示すフローチャートを用いて、本発明の具体的な適用例として、電子メールの送信時に個人情報の送信を確認し、更にユーザからのフィードバックを取得する例を説明する。
なお、本実施例においては電子メールの送信を適用例として説明するが、これ以外にも、文書を印刷する際に個人情報が含まれる文書かを判定したり、文書をWebサービスにアップロードする際に判定するなどの適用例がある。
Next, with reference to the flowchart shown in FIG. 15, a specific application example of the present invention will be described in which the sending of personal information is confirmed when sending an e-mail and feedback is obtained from the user.
In this embodiment, sending e-mail will be described as an application example, however, there are other application examples such as determining whether a document contains personal information when printing a document, or when uploading a document to a web service.
図15は、Webメールサービス110のCPU201が所定の制御プログラムを読み出して実行する処理であり、クライアント端末150のWebブラウザ320に表示された図16のような電子メール編集画面1601で、送信ボタン1602の押下によって送信指示がなされた場合に実施される処理を示すフローチャートである。
Figure 15 is a flow chart showing the process in which the
ステップS1501では、送信制御処理部312は、電子メールの送信指示を受け取る。
In step S1501, the transmission
ステップS1502では、送信制御処理部312は、送信指示された電子メールに添付されているファイルに対し、ステップS1509までの繰り返し処理を開始する。なお、添付ファイルだけでなく、電子メール本文なども対象としても良い。
In step S1502, the transmission
ステップS1503では、送信制御処理部312は、処理対象の添付ファイルからテキストを抽出する。添付ファイルが画像の場合には、当該画像に対してOCR処理することでテキストを取得する。
In step S1503, the transmission
ステップS1504では、送信制御処理部312は、ステップS1503で抽出したテキストに対して、個人情報検査装置100を用いて個人情報指数を算出する。
In step S1504, the transmission
ステップS1505では、送信制御処理部312は、ステップS1504で算出した個人情報指数が規定値以上の場合、処理をステップS1506に移す。規定値未満であった場合、ステップS1509に処理を移す。
In step S1505, if the personal information index calculated in step S1504 is equal to or greater than the specified value, the transmission
ステップS1506では、送信制御処理部312は、図17に示す確認ダイアログを表示し、ユーザに送信の可否を取得するとともに個人情報か否かの判断を取得する。
In step S1506, the transmission
ステップS1507では、送信制御処理部312は、ステップS1505で取得した個人情報か否かのユーザによる判断を、個人情報検査装置100に送り、個人情報検査装置100で処理中の特徴ベクトルと一緒に特徴ベクトル保存テーブル501に保存するよう指示する。
In step S1507, the transmission
ステップS1508では、送信制御処理部312は、ステップS1505で取得した送信可否が「送信」であった場合、ステップS1509に処理を移す。送信可否が「キャンセル」であった場合、処理を終了する。
In step S1508, if the transmission permission acquired in step S1505 is "send," the transmission
ステップS1509では、送信制御処理部312は、処理対象となる添付ファイルがまだあれば、ステップS1502からの繰り返し処理を実施する。処理対象となる添付ファイルがなければ、ステップS1510に処理を移す。
In step S1509, if there are still attachments to be processed, the transmission
ステップS1510では、送信制御処理部312は、電子メールを送信処理部313に送り電子メールを送出する。
In step S1510, the transmission
このように、ユーザによる個人情報か否かの判断を収集すれば、個人情報検査装置100において、定期的に学習処理を実施することで、人手の調整を必要とせずに、ユーザの判断に適合した個人情報指数の算出が可能となる。
In this way, by collecting the user's judgment as to whether or not something is personal information, the personal
本発明の実施例においては、保存した特徴ベクトル全てから学習するように構成しているが、特徴ベクトルの保存する際に、ユーザの所属する部門やユーザを識別する情報を付与し、部門やユーザごとに学習を行うように構成してもよい。そして、当該ユーザや当該ユーザの所属部門に係る文書に対しては、当該学習により生成されたモデルを用いて、個人情報が含まれるか否かを判定してもよい。 In the embodiment of the present invention, learning is performed from all stored feature vectors, but when storing feature vectors, information identifying the user or the department to which the user belongs may be added, and learning may be performed for each department or user. Then, for documents related to the user or the department to which the user belongs, the model generated by this learning may be used to determine whether or not personal information is included.
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。 The present invention can be embodied, for example, as a system, device, method, program, or recording medium. Specifically, it may be applied to a system made up of multiple devices, or to a device made up of a single device.
また、本発明におけるプログラムは、図4、図12に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図4、図12の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図4、図12の各装置の処理方法ごとのプログラムであってもよい。 The program of the present invention is a program that enables a computer to execute the processing methods of the flowcharts shown in Figures 4 and 12, and the storage medium of the present invention stores a program that enables a computer to execute the processing methods of Figures 4 and 12. The program of the present invention may be a program for each processing method of each device in Figures 4 and 12.
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。 As described above, it goes without saying that the object of the present invention can be achieved by supplying a recording medium on which a program that realizes the functions of the above-mentioned embodiments is recorded to a system or device, and having the computer (or CPU or MPU) of that system or device read and execute the program stored on the recording medium.
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。 In this case, the program read from the recording medium itself realizes the novel functions of the present invention, and the recording medium on which the program is recorded constitutes the present invention.
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。 Recording media for supplying the program may include, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a DVD-ROM, a magnetic tape, a non-volatile memory card, a ROM, an EEPROM, a silicon disk, etc.
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Furthermore, it goes without saying that not only are the functions of the above-mentioned embodiments realized by the computer executing a program it has read, but also that the functions of the above-mentioned embodiments can be realized by an operating system (OS) or the like running on the computer carrying out some or all of the actual processing based on the instructions of the program.
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Furthermore, it goes without saying that this also includes cases where a program read from a recording medium is written into a memory provided on a function expansion board inserted into a computer or a function expansion unit connected to a computer, and then a CPU or the like provided on the function expansion board or function expansion unit performs some or all of the actual processing based on the instructions of the program code, thereby realizing the functions of the above-mentioned embodiments.
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 The present invention may be applied to a system made up of multiple devices, or to a device made up of a single device. Needless to say, the present invention can also be applied to cases where the effects of the present invention are achieved by supplying a program to a system or device. In this case, the effects of the present invention can be enjoyed by reading a recording medium that stores a program for achieving the present invention into the system or device.
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。 Furthermore, by downloading and reading a program for achieving the present invention from a server, database, etc. on a network using a communication program, the system or device can enjoy the effects of the present invention. Note that the present invention also includes configurations that combine the above-mentioned embodiments and their variations.
100 個人情報検査装置
110 Webメールサービス
120 管理者端末
130 LAN
140 外部ネットワーク
150 クライアント端末150
100 Personal
140
Claims (14)
テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力手段と、
電子メールの送信指示を受け付ける受付手段と、
電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たす場合、前記受付手段により当該電子メールの送信指示を受け付けたことに応じて当該電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付手段と、
を備え、
前記選択受付手段により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させることを特徴とする情報処理システム。 An acquisition means for acquiring text data from an email ;
an output means for outputting a personal information index in the text data acquired by the acquisition means, using a trained model trained on data in which the text data is associated with information indicating that the text data contains personal information;
A receiving means for receiving an instruction to send an e-mail;
a selection receiving means for receiving a selection as to whether or not personal information is included in the text data obtained from the e-mail in response to receiving an instruction to send the e-mail by the receiving means when a personal information index related to the text data obtained from the e-mail satisfies a predetermined condition;
Equipped with
An information processing system characterized in that , when the selection receiving means receives a selection indicating that personal information is included, the trained model is trained using the text data .
を備えることを特徴とする請求項1に記載の情報処理システム。2. The information processing system according to claim 1, further comprising:
前記抽出手段により抽出された個人情報形成情報と、当該個人情報形成情報の抽出元であるテキストデータに対して設定された個人情報が含まれるか否かの情報と、を対応付けたデータにより、学習済みモデルを生成する生成手段をさらに備えることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理システム。 An extraction means for extracting personal information forming information from the text data ;
The information processing system according to any one of claims 1 to 5, further comprising a generation means for generating a trained model using data correlating the personal information formation information extracted by the extraction means with information on whether or not the personal information set in the text data from which the personal information formation information was extracted is included.
前記生成手段は、前記選択を行ったユーザまたはユーザの所属ごとに、学習済みモデルを生成することを特徴とする請求項6または7に記載の情報処理システム。 storing the selection of whether or not personal information is included , which is received by the selection receiving means, in association with information on the user who made the selection or the user's affiliation;
The information processing system according to claim 6 or 7 , characterized in that the generation means generates a trained model for each user or each affiliation of the user who made the selection .
前記情報処理システムの出力手段が、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力工程と、
前記情報処理システムの受付手段が、電子メールの送信指示を受け付ける受付工程と、
前記情報処理システムの選択受付手段が、電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たす場合、前記受付工程により当該電子メールの送信指示を受け付けたことに応じて当該電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付工程と、
を備え、
前記選択受付工程により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させることを特徴とする情報処理方法。 An acquisition step in which an acquisition means of the information processing system acquires text data from an email ;
an output step in which an output means of the information processing system outputs a personal information index in the text data acquired by the acquisition means using a trained model trained using data in which text data is associated with information indicating that the text data contains personal information;
a receiving step of receiving an instruction to send an e-mail by a receiving means of the information processing system;
a selection receiving step in which, when a personal information index related to the text data acquired from the email satisfies a predetermined condition, the selection receiving means of the information processing system receives a selection as to whether or not personal information is included in the text data acquired from the email in response to receiving an instruction to send the email by the receiving step;
Equipped with
An information processing method, characterized in that , when a selection indicating that personal information is included is received in the selection receiving step, the trained model is trained using the text data .
送信指示された電子メールから取得したテキストデータを、前記装置に対して送信する送信手段と、
前記装置の出力手段により出力された個人情報指数を取得する取得手段と、
前記取得手段において取得した個人情報指数に基づき個人情報が所定の条件を満たす場合、当該送信指示された電子メールの送信を制御する送信制御手段と、
前記送信制御手段により送信が制御された電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付手段と、
前記選択受付手段により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させるよう前記装置を制御する制御手段と、
を備えることを特徴とする情報処理装置。 An information processing device capable of communicating with an apparatus including: an acquisition means for acquiring text data; and an output means for outputting a personal information index in the text data acquired by the acquisition means using a trained model trained using data in which the text data is associated with information indicating that the text data includes personal information;
a transmission means for transmitting text data acquired from the email instructed to be transmitted to the device;
An acquisition means for acquiring a personal information index output by an output means of the device;
a transmission control means for controlling the transmission of the electronic mail instructed to be sent when the personal information satisfies a predetermined condition based on the personal information index acquired by the acquisition means;
a selection receiving means for receiving a selection as to whether or not personal information is included in text data acquired from the email whose transmission is controlled by the transmission control means;
A control means for controlling the device to train the trained model using the text data when the selection receiving means receives a selection indicating that personal information is included;
An information processing device comprising:
送信指示された電子メールから取得したテキストデータを、前記装置に対して送信する送信手段と、
前記装置の出力手段により出力された個人情報指数を取得する取得手段と、
前記取得手段において取得した個人情報指数に基づき個人情報が所定の条件を満たす場合、当該送信指示された電子メールの送信を制御する送信制御手段と、
前記送信制御手段により送信が制御された電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付手段と、
前記選択受付手段により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させるよう前記装置を制御する制御手段と、
して機能させるためのプログラム。 An information processing device capable of communicating with an apparatus including: an acquisition means for acquiring text data; and an output means for outputting a personal information index in the text data acquired by the acquisition means using a trained model trained on data in which the text data is associated with information indicating that the text data contains personal information;
a transmission means for transmitting text data acquired from the email instructed to be transmitted to the device;
An acquisition means for acquiring a personal information index output by an output means of the device;
a transmission control means for controlling the transmission of the electronic mail instructed to be sent when the personal information satisfies a predetermined condition based on the personal information index acquired by the acquisition means;
a selection receiving means for receiving a selection as to whether or not personal information is included in text data acquired from the email whose transmission is controlled by the transmission control means;
A control means for controlling the device to train the trained model using the text data when the selection receiving means receives a selection indicating that personal information is included;
A program to make it function as such.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020188393A JP7598005B2 (en) | 2020-11-12 | 2020-11-12 | Information processing device, information processing method, and program |
| JP2024205920A JP7832537B2 (en) | 2020-11-12 | 2024-11-27 | Information processing device, information processing method, program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020188393A JP7598005B2 (en) | 2020-11-12 | 2020-11-12 | Information processing device, information processing method, and program |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024205920A Division JP7832537B2 (en) | 2020-11-12 | 2024-11-27 | Information processing device, information processing method, program |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2022077566A JP2022077566A (en) | 2022-05-24 |
| JP2022077566A5 JP2022077566A5 (en) | 2023-12-08 |
| JP7598005B2 true JP7598005B2 (en) | 2024-12-11 |
Family
ID=81706841
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020188393A Active JP7598005B2 (en) | 2020-11-12 | 2020-11-12 | Information processing device, information processing method, and program |
| JP2024205920A Active JP7832537B2 (en) | 2020-11-12 | 2024-11-27 | Information processing device, information processing method, program |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024205920A Active JP7832537B2 (en) | 2020-11-12 | 2024-11-27 | Information processing device, information processing method, program |
Country Status (1)
| Country | Link |
|---|---|
| JP (2) | JP7598005B2 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010072779A (en) | 2008-09-17 | 2010-04-02 | Mitsubishi Electric Corp | Data classifying device, computer program, and data classification method |
| WO2012095971A1 (en) | 2011-01-13 | 2012-07-19 | 三菱電機株式会社 | Classification rule generation device, classification rule generation method, classification rule generation program and recording medium |
| JP2019061419A (en) | 2017-09-26 | 2019-04-18 | 富士ゼロックス株式会社 | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009128982A (en) | 2007-11-20 | 2009-06-11 | Hitachi Ltd | Transmission control device, transmission control method, and program |
| US10805311B2 (en) | 2016-08-22 | 2020-10-13 | Paubox Inc. | Method for securely communicating email content between a sender and a recipient |
| BR112021002704A2 (en) | 2018-08-13 | 2021-05-11 | BigID Inc. | computer-implemented method of locating and classifying personal information and a data source, and system |
-
2020
- 2020-11-12 JP JP2020188393A patent/JP7598005B2/en active Active
-
2024
- 2024-11-27 JP JP2024205920A patent/JP7832537B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010072779A (en) | 2008-09-17 | 2010-04-02 | Mitsubishi Electric Corp | Data classifying device, computer program, and data classification method |
| WO2012095971A1 (en) | 2011-01-13 | 2012-07-19 | 三菱電機株式会社 | Classification rule generation device, classification rule generation method, classification rule generation program and recording medium |
| JP2019061419A (en) | 2017-09-26 | 2019-04-18 | 富士ゼロックス株式会社 | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7832537B2 (en) | 2026-03-18 |
| JP2022077566A (en) | 2022-05-24 |
| JP2025024234A (en) | 2025-02-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108885611B (en) | Document automation | |
| US20050097238A1 (en) | Peripheral device control program, peripheral device control apparatus and peripheral device control method, and display control program, display control apparatus and display control method | |
| US9513772B2 (en) | Information processing device, information processing method, and computer-readable medium | |
| US8682908B2 (en) | Information processing apparatus, information processing method, and information processing program | |
| US7337225B2 (en) | Information processing apparatus, its control method, and program | |
| CN111400552A (en) | Note creating method and electronic equipment | |
| JP7598005B2 (en) | Information processing device, information processing method, and program | |
| CN111859923A (en) | Information processing device, recording medium, and information processing method | |
| CN112948843A (en) | Encryption method, encryption device, electronic equipment and medium | |
| JP2024144660A (en) | Information processing device, information processing system, control method, and program | |
| JP7054011B2 (en) | Information processing system, information processing device, information processing method, program | |
| US20170322723A1 (en) | Method and apparatus for executing function on a plurality of items on list | |
| JP6854138B2 (en) | Information processing system, information processing method, program | |
| JP2019101673A (en) | Information processing device, control method and program thereof, and information processing system, and control method and program thereof | |
| JP6572679B2 (en) | Information processing apparatus and program | |
| JP2018074429A (en) | Information processing device, information processing method, and program | |
| JP6905999B2 (en) | Information processing equipment, information processing methods, programs | |
| JP7303431B2 (en) | Information processing device, information processing system, control method thereof, and program | |
| JP2024093619A (en) | Information processing device, information processing method, and program | |
| EP4054166B1 (en) | Information processing apparatus, information processing program, and information processing method | |
| JP2016091092A (en) | Browser, browser control method and program | |
| JP2024093618A (en) | Information processing system, information processing method, and program | |
| JP2008262554A (en) | Information processing apparatus, information processing method, information processing program, and recording medium | |
| JP6485470B2 (en) | Information processing apparatus, information processing method, and program | |
| JP2022108861A (en) | Information processing system, information processing method, program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231130 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240807 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240820 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241017 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241029 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241111 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7598005 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |