Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7598005B2 - Information processing device, information processing method, and program - Google Patents
[go: Go Back, main page]

JP7598005B2 - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program Download PDF

Info

Publication number
JP7598005B2
JP7598005B2 JP2020188393A JP2020188393A JP7598005B2 JP 7598005 B2 JP7598005 B2 JP 7598005B2 JP 2020188393 A JP2020188393 A JP 2020188393A JP 2020188393 A JP2020188393 A JP 2020188393A JP 7598005 B2 JP7598005 B2 JP 7598005B2
Authority
JP
Japan
Prior art keywords
personal information
text data
selection
information
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020188393A
Other languages
Japanese (ja)
Other versions
JP2022077566A (en
JP2022077566A5 (en
Inventor
靖大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2020188393A priority Critical patent/JP7598005B2/en
Publication of JP2022077566A publication Critical patent/JP2022077566A/en
Publication of JP2022077566A5 publication Critical patent/JP2022077566A5/ja
Priority to JP2024205920A priority patent/JP7832537B2/en
Application granted granted Critical
Publication of JP7598005B2 publication Critical patent/JP7598005B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報処理装置、情報処理方法、プログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.

個人情報保護法の改正に伴い適用範囲が拡大されたことにより、事業者における情報漏洩時のリスクは高まっており、個人情報漏洩防止対策の重要性は増してきている。 As the scope of application of the Personal Information Protection Act has been expanded following amendments, the risk of information leaks for businesses has increased, and measures to prevent personal information leaks have become increasingly important.

個人情報を扱う場合は、個人データの安全管理のために必要な措置を講じる必要があるが、電子化された個人データは複製が容易なため、個人の端末において作業を行った際に複製したファイルが作業後も放置されているなど、管理困難な状態に陥りやすい。 When handling personal information, it is necessary to take necessary measures to safely manage the personal data, but because electronic personal data is easily copied, it can easily become difficult to manage, for example when copied files are left behind when working on an individual's device, making it difficult to manage.

更に、電子メールなどによってデータを外部に送信する場合は、誤送信のチェックだけではなく、誤って個人情報を含んだファイルを添付していないかの確認が必要となる。 In addition, when sending data externally via e-mail or other means, it is necessary to check not only for erroneous sending but also for files that contain personal information being attached by mistake.

しかしながら、組織において、各個人が管理する端末に保存されているファイルを全て確認したり、電子メールに添付されているファイルを都度開いて確認したりするには膨大なコストが必要となる。 However, for an organization, it would be extremely costly to check all the files stored on devices managed by each individual, or to open and check files attached to emails each time.

膨大な作業コストを抑えながら、組織における個人情報を適切に管理するために、個人情報を含むファイルを高い確度で判断できる技術が望まれている。 In order to properly manage personal information within organizations while keeping huge operational costs down, there is a demand for technology that can identify with a high degree of accuracy which files contain personal information.

特許文献1には、個人情報を形成し得る個人情報形成情報を検出し、検出した個人情報形成情報の位置関係から個人情報を特定し、個人情報の文字数や項目数などを計測し、計測値から個人情報を含む度合を示す指標値として示す技術が記載されている。 Patent Document 1 describes a technology that detects personal information forming information that may form personal information, identifies the personal information from the positional relationship of the detected personal information forming information, measures the number of characters and items of the personal information, and displays the measured value as an index value indicating the degree to which personal information is included.

特開2008-117287号公報JP 2008-117287 A

しかし、特許文献1においては、個人情報を含む度合いを示す指標値の算出式を人手で調整する必要があり、適切な指標値を算出するには手間がかかってしまう。 However, in Patent Document 1, the formula for calculating the index value indicating the degree to which personal information is included must be manually adjusted, and it takes time and effort to calculate an appropriate index value.

そこで、本発明は、より効率的に、高い精度で、個人情報を含む文書を判定できる仕組みを提供することを目的とする。 Therefore, the present invention aims to provide a mechanism for determining whether a document contains personal information more efficiently and accurately.

本発明の情報処理システムは、テキストデータを取得する取得手段と、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータに個人情報が含まれるかを判定する判定手段と、を備えることを特徴とする。 The information processing system of the present invention is characterized by comprising an acquisition means for acquiring text data, and a determination means for determining whether the text data acquired by the acquisition means contains personal information using a trained model trained on data that associates the text data with information indicating that the text data contains personal information.

本発明によれば、より効率的に、高い精度で、個人情報を含む文書の判定が可能となる。 The present invention makes it possible to more efficiently and accurately identify documents that contain personal information.

本発明の実施形態における、個人情報検査装置を用いたWebメールサービスのシステム構成の一例を示す図である。1 is a diagram showing an example of a system configuration of a Web mail service using a personal information inspection device in an embodiment of the present invention. 本発明の実施形態における、個人情報検査装置、Webメールサービス、管理者端末、クライアント端末のハードウェア構成の一例を示すブロック図である。2 is a block diagram showing an example of a hardware configuration of a personal information inspection device, a Web mail service, an administrator terminal, and a client terminal in an embodiment of the present invention. 本発明の実施形態における、個人情報検査装置およびWebメールサービスの機能構成の一例を示す図である。1 is a diagram illustrating an example of a functional configuration of a personal information inspection device and a Web mail service in an embodiment of the present invention. 本発明の実施形態における、個人情報を学習する処理の一例を示すフローチャートである。11 is a flowchart illustrating an example of a process for learning personal information in an embodiment of the present invention. 本発明の実施形態における、判定知識保存領域の構成の一例を示す図である。2 is a diagram showing an example of a configuration of a judgment knowledge storage area in the embodiment of the present invention. FIG. 本発明の実施形態における、文書に対する特徴ベクトルを生成する処理の一例を示すフローチャートである。1 is a flowchart showing an example of a process for generating a feature vector for a document in an embodiment of the present invention. 本発明の実施形態における、学習データの一例を示す図である。FIG. 4 is a diagram showing an example of learning data in the embodiment of the present invention. 本発明の実施形態における、文書から取得した個人情報形成情報の一例を示す図である。11 is a diagram showing an example of personal information forming information acquired from a document in the embodiment of the present invention. FIG. 本発明の実施形態における、特徴ベクトルの一例を示す図である。FIG. 4 is a diagram showing an example of a feature vector in the embodiment of the present invention. 本発明の実施形態における、特徴量保存テーブルの一例を示す図である。FIG. 4 is a diagram showing an example of a feature amount storage table in the embodiment of the present invention. 本発明の実施形態における、学習の結果獲得した機械学習のモデルの一例を示す図である。FIG. 2 is a diagram showing an example of a machine learning model acquired as a result of learning in an embodiment of the present invention. 本発明の実施形態における、個人情報指数算出処理の一例を示すフローチャートである。11 is a flowchart showing an example of a personal information index calculation process in the embodiment of the present invention. 本発明の実施形態における、個人情報指数算出式の一例を示す図である。FIG. 4 is a diagram showing an example of a personal information index calculation formula in the embodiment of the present invention. 本発明の実施形態における、予測値算出の過程の一例を示す図である。FIG. 11 is a diagram showing an example of a process of calculating a predicted value in the embodiment of the present invention. 本発明の実施形態における、Webメールサービスにおける電子メールの検査処理の一例を示すフローチャートである。10 is a flowchart showing an example of an inspection process of an e-mail in a Web mail service according to an embodiment of the present invention. 本発明の実施形態における、Webメールサービスにおけるメール編集画面の一例を示す図である。FIG. 13 is a diagram showing an example of a mail editing screen in a Web mail service according to an embodiment of the present invention. 本発明の実施形態における、Webメールサービスにおける送信確認画面の一例を示す図である。FIG. 13 is a diagram showing an example of a transmission confirmation screen in a Webmail service in the embodiment of the present invention.

以下、図面を参照して、本発明の実施形態を詳細に説明する。 The following describes an embodiment of the present invention in detail with reference to the drawings.

図1は、本発明の実施形態における個人情報検査装置を用いたWebメールサービスのシステム構成の一例を示す図である。 Figure 1 shows an example of the system configuration of a webmail service using a personal information inspection device in an embodiment of the present invention.

個人情報検査装置100と、Webメールサービス110および管理者端末120はローカルエリアネットワーク130を介して接続される構成となっている。また、Webメールサービス110は、外部ネットワーク140を経由して、クライアント150に接続可能な構成となっている。 The personal information inspection device 100, the webmail service 110, and the administrator terminal 120 are configured to be connected via a local area network 130. The webmail service 110 is also configured to be connectable to a client 150 via an external network 140.

Webメールサービス110は、一般的な電子メールクライアントの機能、即ち電子メールの編集機能とメールの送受信機能を、クライアント端末150に提供する。 The Webmail service 110 provides the client terminal 150 with the functions of a typical email client, i.e., the ability to edit email and send and receive email.

また、Webメールサービス110は、クライアント端末150においてユーザがメールの送信または明示的は個人情報の検査を指示すると、個人情報検査装置100に個人情報の有無を判定する処理の実行を要求する。 In addition, when a user on the client terminal 150 sends an email or explicitly instructs the inspection of personal information, the webmail service 110 requests the personal information inspection device 100 to execute a process to determine whether or not personal information exists.

個人情報検査装置100が送信しようとする電子メールに個人情報を含む可能性があると判断した場合、Webメールサービス110は、ユーザに対し個人情報有無の確認と送信可否の判断を促すメッセージを表示し、ユーザの送信可否の判断に基づき送信を制御する。 If the personal information inspection device 100 determines that the email to be sent may contain personal information, the webmail service 110 displays a message to the user prompting the user to confirm whether or not the email contains personal information and to decide whether or not to send the email, and controls the sending based on the user's decision on whether or not to send the email.

本発明の実施形態においては、個人情報検査装置100は、クライアント端末150に対し、外部ネットワーク140を経由するサービスとして構成してもよいし、Webメールサービス110の機能の一部として構成してもよい。 In an embodiment of the present invention, the personal information inspection device 100 may be configured as a service provided to the client terminal 150 via the external network 140, or may be configured as part of the functions of the webmail service 110.

また、クライアント端末150上で動作するメールクライアントプログラムの機能として構成してもよい。 It may also be configured as a function of an email client program running on the client terminal 150.

図2は、本発明の実施形態における個人情報検査装置100、Webメールサービス110、管理者端末120、クライアント端末150のハードウェア構成の一例を示すブロック図である。 Figure 2 is a block diagram showing an example of the hardware configuration of the personal information inspection device 100, webmail service 110, administrator terminal 120, and client terminal 150 in an embodiment of the present invention.

図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。 As shown in FIG. 2, the information processing device is connected to a CPU (Central Processing Unit) 201, a ROM (Read Only Memory) 202, a RAM (Random Access Memory) 203, a storage device 204, an input controller 205, an audio controller 206, a video controller 207, a memory controller 208, and a communication I/F controller 209 via a system bus 200.

CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。 The CPU 201 provides overall control over each device and controller connected to the system bus 200.

ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。 The ROM 202 or external memory 213 holds the BIOS (Basic Input/Output System) and OS (Operating System), which are control programs executed by the CPU 201, computer-readable and executable programs for implementing this information processing method, and various necessary data (including data tables).

RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。 RAM 203 functions as the main memory, work area, etc. of CPU 201. CPU 201 loads programs and the like required for executing processing from ROM 202 or external memory 213 into RAM 203, and executes the loaded programs to realize various operations.

入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。 The input controller 205 controls input from input devices such as a keyboard 210 and a pointing device such as a mouse (not shown). If the input device is a touch panel, the user can give various instructions by pressing (touching with a finger, etc.) icons, cursors, or buttons displayed on the touch panel.

また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。 The touch panel may also be a touch panel capable of detecting positions touched by multiple fingers, such as a multi-touch screen.

ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。 The video controller 207 controls the display on an external output device such as a display 212. The display is also intended to include the display of a notebook computer integrated into the main body. Note that the external output device is not limited to a display, and may be, for example, a projector. In addition, for devices capable of accepting the aforementioned touch operations, an input device is also provided.

なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。 The video controller 207 can control a video memory (VRAM) for display control, and can use part of the RAM 203 as a video memory area, or can provide a separate dedicated video memory.

メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。 The memory controller 208 controls access to the external memory 213. The external memory can be an external storage device (hard disk) that stores the boot program, various applications, font data, user files, edit files, and various data, a flexible disk (FD), or a compact flash (registered trademark) memory connected to a PCMCIA card slot via an adapter.

通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。 The communication I/F controller 209 connects and communicates with external devices via a network, and executes communication control processing on the network. For example, communication using TCP/IP, telephone lines such as ISDN, and 4G and 5G lines for mobile phones are possible.

尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。 The CPU 201 can display the outline font on the display 212 by, for example, executing a process of expanding (rasterizing) the outline font in a display information area in the RAM 203. The CPU 201 can also allow the user to give instructions using a mouse cursor (not shown) on the display 212.

図3は、個人情報検査装置およびWebメールサービスの機能構成の一例を示す図である。 Figure 3 shows an example of the functional configuration of a personal information inspection device and a webmail service.

メール編集処理部311は、クライアント端末150のWebブラウザ320に表示された画面を介して受け付けたユーザからの操作・指示に基づき、電子メールの作成・編集を行う機能を備える。 The email editing processing unit 311 has the function of creating and editing emails based on operations and instructions from the user received via a screen displayed on the web browser 320 of the client terminal 150.

送信制御処理部312は、ユーザから電子メールの送信指示を受け付けると、当該電子メールからテキスト(本文や添付ファイル等)を抽出し、個人情報検査装置100の各処理部による個人情報指数の算出処理を制御する。また、個人情報指数の算出処理の結果に基づき、図17に示す確認ダイアログを表示したり、ユーザから送信の可否を受け付けることで電子メールの送信処理を制御する機能を備える。 When the transmission control processing unit 312 receives an instruction from a user to send an e-mail, it extracts text (such as the body and attachments) from the e-mail and controls the calculation process of the personal information index by each processing unit of the personal information inspection device 100. It also has a function to control the e-mail transmission process by displaying the confirmation dialog shown in FIG. 17 based on the result of the calculation process of the personal information index, and by receiving a permission or prohibition from the user.

送信処理部313は、送信制御処理部312において送信することが決定された電子メールを外部ネットワーク140に送出する機能を備える。 The transmission processing unit 313 has the function of sending emails that have been decided to be sent by the transmission control processing unit 312 to the external network 140.

個人情報学習処理部301は、管理者端末120からアップロードされた情報に基づき、図4のフローチャートに示す個人情報の学習処理を実行する機能を備える。 The personal information learning processing unit 301 has a function to execute the personal information learning process shown in the flowchart of FIG. 4 based on the information uploaded from the administrator terminal 120.

特徴ベクトル生成処理部302は、処理対象の文書に対して特徴ベクトルを生成する機能を備える。 The feature vector generation processing unit 302 has the function of generating a feature vector for the document to be processed.

判定知識保存領域303は、特徴ベクトル生成処理部302において生成された特徴ベクトルと、学習データ学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルとの組を保存する領域である。 The judgment knowledge storage area 303 is an area that stores pairs of feature vectors generated by the feature vector generation processing unit 302 and labels indicating personal information or non-personal information that are assigned to each document in the training data.

個人情報検査処理部304は、送信制御処理部312から取得したテキストに対して、図12に示すテキスト内容が個人情報である可能性を算出する処理を実行する機能を備える The personal information inspection processing unit 304 has a function to execute a process to calculate the possibility that the text content shown in FIG. 12 is personal information for the text obtained from the transmission control processing unit 312.

(個人情報学習処理)
次に図4のフローチャートを用いて、本発明の実施形態における個人情報学習処理部301が実行する個人情報の学習処理について説明する。
図4は、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、管理者端末120からアップロードされた個人情報・非個人情報を予め分類された文書に基づき、個人情報の特徴を学習する処理を示すフローチャートである。
(Personal information learning processing)
Next, the personal information learning process executed by the personal information learning processing unit 301 in the embodiment of the present invention will be described with reference to the flowchart of FIG.
Figure 4 is a flowchart showing the process in which the CPU 201 of the personal information inspection device 100 reads and executes a specified control program, and which learns the characteristics of personal information based on documents uploaded from the administrator terminal 120 that have been pre-classified into personal information and non-personal information.

ステップS401では、個人情報学習処理部301は、管理者端末130におけるWebブラウザ330からアップロードされた文書を学習データとして取得する。 In step S401, the personal information learning processing unit 301 acquires the document uploaded from the web browser 330 in the administrator terminal 130 as learning data.

ステップS402では、個人情報学習処理部301は、ステップS401で取得した学習データにおける文書に対して、ステップS405までの繰り返し処理を開始する。 In step S402, the personal information learning processing unit 301 starts repeated processing up to step S405 for the documents in the learning data acquired in step S401.

ステップS403では、個人情報学習処理部301は、処理対象の文書に対して、特徴ベクトル生成処理部302を用いて特徴ベクトルを生成する。特徴ベクトルの生成方法については後述する。 In step S403, the personal information learning processing unit 301 generates a feature vector for the document to be processed using the feature vector generation processing unit 302. The method of generating the feature vector will be described later.

ステップS404では、個人情報学習処理部301は、ステップS403で生成した特徴ベクトルと、学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルとの組を、図5に示す判定知識保存領域303における特徴ベクトル保存テーブル501に保存する。 In step S404, the personal information learning processing unit 301 stores a pair of the feature vector generated in step S403 and a label indicating personal information or non-personal information assigned to each document in the learning data in the feature vector storage table 501 in the judgment knowledge storage area 303 shown in FIG. 5.

ステップS405では、個人情報学習処理部301は、処理対象となる文書がまだあれば、ステップS402からの繰り返し処理を実施する。処理対象となる文書がなければ、ステップS406に処理を移す。 In step S405, if there are still documents to be processed, the personal information learning processing unit 301 repeats the process from step S402. If there are no documents to be processed, the process proceeds to step S406.

ステップS406では、個人情報学習処理部301は、特徴ベクトル保存テーブル501の特徴ベクトルとラベル(個人情報・非個人情報)に対して機械学習を用いて学習を行い、学習の結果としてモデル(学習済みモデル)を獲得する。 In step S406, the personal information learning processing unit 301 uses machine learning to learn the feature vectors and labels (personal information and non-personal information) in the feature vector storage table 501, and acquires a model (trained model) as a result of the learning.

ステップS407では、個人情報学習処理部301は、ステップS406で獲得したモデルを判定知識保存領域303におけるモデル保存テーブル502に保存する。 In step S407, the personal information learning processing unit 301 stores the model acquired in step S406 in the model storage table 502 in the judgment knowledge storage area 303.

本発明の実施形態においては、個人情報学習処理を個人情報検査処理と同一のハードウェア上で実行するように構成しているが、異なるハードウェア上で実行するように構成しても構わない。
また、学習データをアップロードするように構成しているが、個人情報学習処理を行うハードウェア上で管理するように構成してもよい
In the embodiment of the present invention, the personal information learning process is configured to be executed on the same hardware as the personal information inspection process, but it may be configured to be executed on different hardware.
Although the learning data is configured to be uploaded, it may be configured to be managed on the hardware that performs the personal information learning process.

(特徴ベクトル生成処理)
次に図6のフローチャートを用いて、本発明の実施形態における特徴ベクトル生成処理部302が実行する特徴ベクトルの生成処理について説明する。
(Feature Vector Generation Process)
Next, the feature vector generation process executed by the feature vector generation processing unit 302 in the embodiment of the present invention will be described with reference to the flowchart in FIG.

ステップS601では、特徴ベクトル生成処理部302は、入力として受け取った文書のテキストから、予め個人情報項目や要配慮情報項目として定義された単語やパターンに基づき、形態素解析やパターマッチングを用いて、出現位置および文字数とともに個人情報形成情報として抽出する。 In step S601, the feature vector generation processing unit 302 uses morphological analysis and pattern matching to extract personal information formation information, together with the position of appearance and the number of characters, from the text of the document received as input, based on words and patterns previously defined as personal information items or sensitive information items.

ステップS602では、特徴ベクトル生成処理部302は、文書および抽出した個人情報形成情報から、種別や文字数に基づいた統計値を求める。 In step S602, the feature vector generation processing unit 302 calculates statistical values based on the type and number of characters from the document and the extracted personal information formation information.

ステップS603では、特徴ベクトル生成処理部302は、ステップS602で求めた統計値を特徴ベクトルとしてまとめる。 In step S603, the feature vector generation processing unit 302 compiles the statistical values obtained in step S602 into a feature vector.

(個人情報学習処理具体例)
次に個人情報学習処理の具体例として、図7に示す学習データ700に対して、図4に示す処理が実施された場合について説明する。
(Specific example of personal information learning processing)
Next, as a specific example of the personal information learning process, a case where the process shown in FIG. 4 is performed on learning data 700 shown in FIG. 7 will be described.

ステップS401では、個人情報学習処理部301は、管理者端末130におけるWebブラウザ330からアップロードされた文書700を学習データとして取得する。 In step S401, the personal information learning processing unit 301 acquires the document 700 uploaded from the web browser 330 in the administrator terminal 130 as learning data.

ステップS402では、個人情報学習処理部301は、ステップS401で取得した学習データ700における文書701に対して、ステップS405までの繰り返し処理を開始する。 In step S402, the personal information learning processing unit 301 starts repeated processing up to step S405 for the document 701 in the learning data 700 acquired in step S401.

ステップS403では、個人情報学習処理部301は、処理対象の文書701に対して、特徴ベクトル生成処理部302を用いて特徴ベクトルを生成する。 In step S403, the personal information learning processing unit 301 generates a feature vector for the document 701 to be processed using the feature vector generation processing unit 302.

ステップS601では、特徴ベクトル生成処理部302は、入力として受け取った文書701のテキストから、予め個人情報項目や要配慮情報項目として定義された単語やパターンに基づき、形態素解析やパターマッチングを用いて、出現位置および文字数とともに図8に示す個人情報形成情報801を抽出する。 In step S601, the feature vector generation processing unit 302 extracts personal information formation information 801 shown in FIG. 8 from the text of the document 701 received as input, using morphological analysis and pattern matching, based on words and patterns previously defined as personal information items and sensitive information items, along with the occurrence positions and number of characters.

ステップS602では、特徴ベクトル生成処理部302は、文書および抽出した個人情報形成情報801から、図9に示す種別や文字数に基づいた統計値を求める。 In step S602, the feature vector generation processing unit 302 obtains statistical values based on the type and number of characters shown in FIG. 9 from the document and the extracted personal information formation information 801.

ステップS603では、特徴ベクトル生成処理部302は、ステップS602で求めた統計値を特徴ベクトル901としてまとめる。本発明の実施例においては、説明を容易にするために正規化等の処理は省略してるが、正規化を行うように構成してもよい。 In step S603, the feature vector generation processing unit 302 compiles the statistical values calculated in step S602 into a feature vector 901. In the embodiment of the present invention, processes such as normalization are omitted for ease of explanation, but normalization may be performed.

ステップS404では、個人情報学習処理部301は、ステップS403で生成した特徴ベクトル901と、学習データにおいて文書ごとに付与されている個人情報・非個人情報を示すラベルTRUEの組1001を、図10に示す特徴ベクトル保存テーブル501に保存する。 In step S404, the personal information learning processing unit 301 stores the feature vector 901 generated in step S403 and a pair 1001 of the label TRUE, which indicates personal information or non-personal information, assigned to each document in the learning data, in the feature vector storage table 501 shown in FIG. 10.

ステップS405では、個人情報学習処理部301は、処理対象となる文書702がまだあるので、ステップS402からの繰り返し処理を実施する。 In step S405, the personal information learning processing unit 301 repeats the process from step S402 because there is still a document 702 to be processed.

以下、学習データ700の文書全てに対して同様のステップを実施する。 The same steps are then performed for all documents in the training data 700.

ステップS406では、個人情報学習処理部301は、特徴ベクトル保存テーブル501に対して機械学習により学習を行い、モデルを獲得する。 In step S406, the personal information learning processing unit 301 performs machine learning on the feature vector storage table 501 to acquire a model.

本発明の実施例においては、線形のSVM(Support Vector Machine)を用いる。 In this embodiment of the present invention, a linear SVM (Support Vector Machine) is used.

ステップS407では、個人情報学習処理部301は、学習結果として獲得した図11に示すモデルを判定知識保存領域303におけるモデル保存テーブル502に保存する。獲得したモデルは予測値(計算結果)が正の値となる場合に個人情報と判断する。 In step S407, the personal information learning processing unit 301 stores the model shown in FIG. 11 acquired as the learning result in the model storage table 502 in the judgment knowledge storage area 303. The acquired model is judged to be personal information if the predicted value (calculation result) is a positive value.

本発明の実施例においては、説明を容易にするために機械学習の手法として線形のSVMを用いて説明したが、正否の二値に分類することができ、その度合いを数値として表現できるなら、いずれの手法を用いてもよい In the embodiment of the present invention, for ease of explanation, a linear SVM was used as the machine learning method, but any method can be used as long as it can be classified into two values, true or false, and the degree of the classification can be expressed as a numerical value.

(個人情報検査処理)
次に図12のフローチャートを用いて、本発明の実施形態における個人情報検査処理部304が実行する個人情報の検査処理について説明する。
(Personal information inspection processing)
Next, the personal information inspection process executed by the personal information inspection processing unit 304 in the embodiment of the present invention will be described with reference to the flowchart of FIG.

図12のフローチャートは、個人情報検査装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、入力テキストに対して、テキストの内容が個人情報である可能性を示す度合を数値として算出する処理を示すフローチャートである。 The flowchart in FIG. 12 shows the process in which the CPU 201 of the personal information inspection device 100 reads and executes a specific control program, and is a flowchart showing the process of calculating, for an input text, the degree to which the content of the text is likely to be personal information as a numerical value.

ステップS1201では、個人情報検査処理部304は、処理対象となる文書のテキストを取得する。 In step S1201, the personal information inspection processing unit 304 acquires the text of the document to be processed.

ステップS1202では、個人情報検査処理部304は、ステップS1201で取得したテキストに対して、前述した図6のフローチャートを用いて、入力文書に対する特徴ベクトルを取得する。 In step S1202, the personal information inspection processing unit 304 obtains a feature vector for the input document using the flowchart of FIG. 6 described above for the text obtained in step S1201.

ステップS1203では、個人情報検査処理部304は、ステップS1202で取得した特徴ベクトルに対して、判定知識保存領域303におけるモデル保存テーブル502に保存されているモデルを用いて予測値を算出する。 In step S1203, the personal information inspection processing unit 304 calculates a predicted value for the feature vector acquired in step S1202 using the model stored in the model storage table 502 in the judgment knowledge storage area 303.

ステップS1204では、個人情報検査処理部304は、ステップS1203で算出した予測値に対して、感覚的に把握が容易な値となるように変換し、個人情報指数として出力する。
本発明の実施例においては、図13に示すような個人情報指数算出式を用いるが、他の算出式を用いてもよいし、予測値をそのまま用いてもよい
In step S1204, the personal information inspection processing unit 304 converts the predicted value calculated in step S1203 into a value that is easy to grasp intuitively, and outputs the converted value as a personal information index.
In the embodiment of the present invention, the personal information index calculation formula shown in FIG. 13 is used, but other calculation formulas may be used, or the predicted value may be used as is.

(個人情報検査処理具体例)
次に個人情報検査処理の具体例として、図14に示す検査対象文書1401に対して、図12に示す処理が実施された場合について説明する。
(Specific examples of personal information inspection processing)
Next, as a specific example of personal information inspection processing, a case where the processing shown in FIG. 12 is performed on an inspection target document 1401 shown in FIG. 14 will be described.

ステップS1201では、個人情報検査処理部304は、処理対象となる文書1401からテキスト1402を取得する。 In step S1201, the personal information inspection processing unit 304 obtains text 1402 from the document 1401 to be processed.

ステップS1202では、個人情報検査処理部304は、ステップS1201で取得したテキストに対して、前述した図6のフローチャートを用いて、入力文書に対する特徴ベクトル1403を取得する。 In step S1202, the personal information inspection processing unit 304 obtains a feature vector 1403 for the input document using the flowchart of FIG. 6 described above for the text obtained in step S1201.

ステップS1203では、個人情報検査処理部304は、ステップS1202で取得した特徴ベクトル1403に対して、判定知識保存領域303におけるモデル保存テーブル502に保存されているモデルを用いて予測値として1460.960を算出する(1404)。 In step S1203, the personal information inspection processing unit 304 calculates a predicted value of 1460.960 for the feature vector 1403 acquired in step S1202 using the model stored in the model storage table 502 in the judgment knowledge storage area 303 (1404).

ステップS1204では、個人情報検査処理部304は、ステップS1203で算出した予測値1460.960に対して、図13に示す個人情報指数算出式を用いて個人情報指数を算出する。ここではRmin=-1700、Rmax=2000であったとする。
結果として50+50×1460.960÷max(2000,-(-1700))=86.524を個人情報指数として得る。
In step S1204, the personal information inspection processing unit 304 calculates the personal information index for the predicted value 1460.960 calculated in step S1203, using the personal information index calculation formula shown in Fig. 13. Here, it is assumed that Rmin = -1700 and Rmax = 2000.
As a result, the personal information index is obtained as 50 + 50 x 1460.960 ÷ max (2000, - (-1700)) = 86.524.

このように、個人情報を含むか否かを判定された文書集合を用意するだけで、人手による調整不要で、個人情報である確度となる個人情報指数を算出すことが可能となる。
また、個人情報指数は、統計情報に基づいて算出されるので、個人情報形成情報の抽出に多少の誤りがあったとしても、高い精度で個人情報である確度を示すことができる。
算出した個人情報指数を用いれば、確度に応じた処理を実現することができ、効率的な個人情報の管理が可能となる
In this way, by simply preparing a set of documents that have been determined to contain personal information, it is possible to calculate a personal information index, which is the degree of certainty that the documents are personal information, without the need for manual adjustment.
Furthermore, since the personal information index is calculated based on statistical information, even if there is some error in the extraction of the personal information forming information, it is possible to indicate the degree of certainty that the information is personal information with high accuracy.
By using the calculated personal information index, processing according to the degree of accuracy can be realized, enabling efficient management of personal information.

次に図15に示すフローチャートを用いて、本発明の具体的な適用例として、電子メールの送信時に個人情報の送信を確認し、更にユーザからのフィードバックを取得する例を説明する。
なお、本実施例においては電子メールの送信を適用例として説明するが、これ以外にも、文書を印刷する際に個人情報が含まれる文書かを判定したり、文書をWebサービスにアップロードする際に判定するなどの適用例がある。
Next, with reference to the flowchart shown in FIG. 15, a specific application example of the present invention will be described in which the sending of personal information is confirmed when sending an e-mail and feedback is obtained from the user.
In this embodiment, sending e-mail will be described as an application example, however, there are other application examples such as determining whether a document contains personal information when printing a document, or when uploading a document to a web service.

図15は、Webメールサービス110のCPU201が所定の制御プログラムを読み出して実行する処理であり、クライアント端末150のWebブラウザ320に表示された図16のような電子メール編集画面1601で、送信ボタン1602の押下によって送信指示がなされた場合に実施される処理を示すフローチャートである。 Figure 15 is a flow chart showing the process in which the CPU 201 of the Webmail service 110 reads and executes a specific control program, and is performed when a send instruction is given by pressing the send button 1602 on an email editing screen 1601 such as that shown in Figure 16 and displayed on the Web browser 320 of the client terminal 150.

ステップS1501では、送信制御処理部312は、電子メールの送信指示を受け取る。 In step S1501, the transmission control processing unit 312 receives an instruction to send an email.

ステップS1502では、送信制御処理部312は、送信指示された電子メールに添付されているファイルに対し、ステップS1509までの繰り返し処理を開始する。なお、添付ファイルだけでなく、電子メール本文なども対象としても良い。 In step S1502, the transmission control processing unit 312 starts repeating the process up to step S1509 for the file attached to the email instructed to be sent. Note that in addition to the attached file, the body of the email may also be targeted.

ステップS1503では、送信制御処理部312は、処理対象の添付ファイルからテキストを抽出する。添付ファイルが画像の場合には、当該画像に対してOCR処理することでテキストを取得する。 In step S1503, the transmission control processing unit 312 extracts text from the attachment to be processed. If the attachment is an image, the text is obtained by performing OCR processing on the image.

ステップS1504では、送信制御処理部312は、ステップS1503で抽出したテキストに対して、個人情報検査装置100を用いて個人情報指数を算出する。 In step S1504, the transmission control processing unit 312 calculates a personal information index for the text extracted in step S1503 using the personal information inspection device 100.

ステップS1505では、送信制御処理部312は、ステップS1504で算出した個人情報指数が規定値以上の場合、処理をステップS1506に移す。規定値未満であった場合、ステップS1509に処理を移す。 In step S1505, if the personal information index calculated in step S1504 is equal to or greater than the specified value, the transmission control processing unit 312 transfers the process to step S1506. If it is less than the specified value, the process transfers to step S1509.

ステップS1506では、送信制御処理部312は、図17に示す確認ダイアログを表示し、ユーザに送信の可否を取得するとともに個人情報か否かの判断を取得する。 In step S1506, the transmission control processing unit 312 displays the confirmation dialog shown in FIG. 17, and obtains the user's decision as to whether or not to transmit the information and whether or not the information is personal information.

ステップS1507では、送信制御処理部312は、ステップS1505で取得した個人情報か否かのユーザによる判断を、個人情報検査装置100に送り、個人情報検査装置100で処理中の特徴ベクトルと一緒に特徴ベクトル保存テーブル501に保存するよう指示する。 In step S1507, the transmission control processing unit 312 sends the user's decision as to whether or not the information acquired in step S1505 is personal information to the personal information inspection device 100, and instructs the personal information inspection device 100 to store the decision in the feature vector storage table 501 together with the feature vector being processed.

ステップS1508では、送信制御処理部312は、ステップS1505で取得した送信可否が「送信」であった場合、ステップS1509に処理を移す。送信可否が「キャンセル」であった場合、処理を終了する。 In step S1508, if the transmission permission acquired in step S1505 is "send," the transmission control processing unit 312 proceeds to step S1509. If the transmission permission is "cancel," the processing ends.

ステップS1509では、送信制御処理部312は、処理対象となる添付ファイルがまだあれば、ステップS1502からの繰り返し処理を実施する。処理対象となる添付ファイルがなければ、ステップS1510に処理を移す。 In step S1509, if there are still attachments to be processed, the transmission control processing unit 312 repeats the process from step S1502. If there are no more attachments to be processed, the process proceeds to step S1510.

ステップS1510では、送信制御処理部312は、電子メールを送信処理部313に送り電子メールを送出する。 In step S1510, the transmission control processing unit 312 sends the e-mail to the transmission processing unit 313 and sends the e-mail.

このように、ユーザによる個人情報か否かの判断を収集すれば、個人情報検査装置100において、定期的に学習処理を実施することで、人手の調整を必要とせずに、ユーザの判断に適合した個人情報指数の算出が可能となる。 In this way, by collecting the user's judgment as to whether or not something is personal information, the personal information inspection device 100 can periodically perform a learning process, making it possible to calculate a personal information index that matches the user's judgment without the need for manual adjustment.

本発明の実施例においては、保存した特徴ベクトル全てから学習するように構成しているが、特徴ベクトルの保存する際に、ユーザの所属する部門やユーザを識別する情報を付与し、部門やユーザごとに学習を行うように構成してもよい。そして、当該ユーザや当該ユーザの所属部門に係る文書に対しては、当該学習により生成されたモデルを用いて、個人情報が含まれるか否かを判定してもよい。 In the embodiment of the present invention, learning is performed from all stored feature vectors, but when storing feature vectors, information identifying the user or the department to which the user belongs may be added, and learning may be performed for each department or user. Then, for documents related to the user or the department to which the user belongs, the model generated by this learning may be used to determine whether or not personal information is included.

本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。 The present invention can be embodied, for example, as a system, device, method, program, or recording medium. Specifically, it may be applied to a system made up of multiple devices, or to a device made up of a single device.

また、本発明におけるプログラムは、図4、図12に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図4、図12の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図4、図12の各装置の処理方法ごとのプログラムであってもよい。 The program of the present invention is a program that enables a computer to execute the processing methods of the flowcharts shown in Figures 4 and 12, and the storage medium of the present invention stores a program that enables a computer to execute the processing methods of Figures 4 and 12. The program of the present invention may be a program for each processing method of each device in Figures 4 and 12.

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。 As described above, it goes without saying that the object of the present invention can be achieved by supplying a recording medium on which a program that realizes the functions of the above-mentioned embodiments is recorded to a system or device, and having the computer (or CPU or MPU) of that system or device read and execute the program stored on the recording medium.

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。 In this case, the program read from the recording medium itself realizes the novel functions of the present invention, and the recording medium on which the program is recorded constitutes the present invention.

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。 Recording media for supplying the program may include, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a DVD-ROM, a magnetic tape, a non-volatile memory card, a ROM, an EEPROM, a silicon disk, etc.

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Furthermore, it goes without saying that not only are the functions of the above-mentioned embodiments realized by the computer executing a program it has read, but also that the functions of the above-mentioned embodiments can be realized by an operating system (OS) or the like running on the computer carrying out some or all of the actual processing based on the instructions of the program.

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Furthermore, it goes without saying that this also includes cases where a program read from a recording medium is written into a memory provided on a function expansion board inserted into a computer or a function expansion unit connected to a computer, and then a CPU or the like provided on the function expansion board or function expansion unit performs some or all of the actual processing based on the instructions of the program code, thereby realizing the functions of the above-mentioned embodiments.

また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 The present invention may be applied to a system made up of multiple devices, or to a device made up of a single device. Needless to say, the present invention can also be applied to cases where the effects of the present invention are achieved by supplying a program to a system or device. In this case, the effects of the present invention can be enjoyed by reading a recording medium that stores a program for achieving the present invention into the system or device.

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。 Furthermore, by downloading and reading a program for achieving the present invention from a server, database, etc. on a network using a communication program, the system or device can enjoy the effects of the present invention. Note that the present invention also includes configurations that combine the above-mentioned embodiments and their variations.

100 個人情報検査装置
110 Webメールサービス
120 管理者端末
130 LAN
140 外部ネットワーク
150 クライアント端末150
100 Personal information inspection device 110 Web mail service 120 Administrator terminal 130 LAN
140 External network 150 Client terminal 150

Claims (14)

電子メールからテキストデータを取得する取得手段と、
テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力手段と、
電子メールの送信指示を受け付ける受付手段と、
電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たす場合、前記受付手段により当該電子メールの送信指示を受け付けたことに応じて当該電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付手段と、
を備え、
前記選択受付手段により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させることを特徴とする情報処理システム。
An acquisition means for acquiring text data from an email ;
an output means for outputting a personal information index in the text data acquired by the acquisition means, using a trained model trained on data in which the text data is associated with information indicating that the text data contains personal information;
A receiving means for receiving an instruction to send an e-mail;
a selection receiving means for receiving a selection as to whether or not personal information is included in the text data obtained from the e-mail in response to receiving an instruction to send the e-mail by the receiving means when a personal information index related to the text data obtained from the e-mail satisfies a predetermined condition;
Equipped with
An information processing system characterized in that , when the selection receiving means receives a selection indicating that personal information is included, the trained model is trained using the text data .
電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たす場合、当該電子メールの送信を保留する送信制御手段と、a transmission control means for suspending transmission of the e-mail when a personal information index relating to the text data acquired from the e-mail satisfies a predetermined condition;
を備えることを特徴とする請求項1に記載の情報処理システム。2. The information processing system according to claim 1, further comprising:
前記選択受付手段は、さらに、前記送信制御手段により送信が保留された電子メールについて、送信を許可するか否かの選択を受け付けることを特徴とする請求項2に記載の情報処理システム。3. The information processing system according to claim 2, wherein said selection receiving means further receives a selection as to whether or not to permit transmission of the electronic mail the transmission of which has been suspended by said transmission control means. 前記送信制御手段は、電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たすことにより送信が保留された電子メールについて、前記選択受付手段により当該電子メールから取得したテキストデータに個人情報が含まれるか否かの選択および送信を許可する旨の選択を受け付けた場合に、当該電子メールを送信するよう制御することを特徴とする請求項3に記載の情報処理システム。The information processing system according to claim 3, characterized in that the transmission control means controls the transmission of an email whose transmission has been put on hold because a personal information index related to text data acquired from the email satisfies a predetermined condition, when the selection receiving means receives a selection as to whether or not the text data acquired from the email contains personal information and a selection to allow the transmission. 前記送信制御手段は、電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たさない場合、前記選択受付手段による個人情報が含まれるか否かの選択を受け付けることなく、当該電子メールを送信することを特徴とする請求項2乃至4のいずれか1に記載の情報処理システム。The information processing system according to any one of claims 2 to 4, characterized in that if the personal information index relating to the text data obtained from the e-mail does not satisfy a predetermined condition, the transmission control means sends the e-mail without accepting a selection by the selection receiving means as to whether or not personal information is included. テキストデータから個人情報形成情報を抽出する抽出手段と
前記抽出手段により抽出された個人情報形成情報と、当該個人情報形成情報の抽出元であるテキストデータに対して設定された個人情報が含まれるか否か情報と、を対応付けたデータにより、学習済みモデルを生成する生成手段をさらに備えることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理システム。
An extraction means for extracting personal information forming information from the text data ;
The information processing system according to any one of claims 1 to 5, further comprising a generation means for generating a trained model using data correlating the personal information formation information extracted by the extraction means with information on whether or not the personal information set in the text data from which the personal information formation information was extracted is included.
前記生成手段は、前記抽出手段により抽出された個人情報形成情報の種別毎の抽出数と、当該個人情報形成情報の抽出元であるテキストデータに対して設定された個人情報が含まれるか否か情報と、を対応付けたデータにより、学習済みモデルを生成することを特徴とする請求項に記載の情報処理システム。 The information processing system according to claim 6, characterized in that the generation means generates a trained model using data correlating the number of extractions of each type of personal information formation information extracted by the extraction means with information on whether or not the personal information set in the text data from which the personal information formation information was extracted is included. 前記選択受付手段により受け付けた個人情報が含まれるか否かの選択と、当該選択を行ったユーザまたはユーザの所属に係る情報とを対応付けて記憶し、
前記生成手段は、前記選択を行ったユーザまたはユーザの所属ごとに、学習済みモデルを生成することを特徴とする請求項6または7に記載の情報処理システム。
storing the selection of whether or not personal information is included , which is received by the selection receiving means, in association with information on the user who made the selection or the user's affiliation;
The information processing system according to claim 6 or 7 , characterized in that the generation means generates a trained model for each user or each affiliation of the user who made the selection .
前記所定の条件を満たす場合とは、出力手段により出力された個人情報指数が、既定の値以上である場合であることを特徴とする請求項1乃至8のいずれか1項に記載の情報処理システム。9. The information processing system according to claim 1, wherein the predetermined condition is satisfied when the personal information index output by the output means is equal to or greater than a predetermined value. テキストデータとは、電子メールの本文、および電子メールに添付されたファイルに含まれるテキストの少なくとも1つを含むことを特徴とする請求項1乃至9のいずれか1項に記載の情報処理システム。10. The information processing system according to claim 1, wherein the text data includes at least one of the text of the email and text included in a file attached to the email. コンピュータを、請求項1乃至10のいずれか1項に記載の各手段として機能させるためのプログラム。 A program for causing a computer to function as each of the means according to any one of claims 1 to 10 . 情報処理システムの取得手段が、電子メールからテキストデータを取得する取得工程と、
前記情報処理システムの出力手段が、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力工程と、
前記情報処理システムの受付手段が、電子メールの送信指示を受け付ける受付工程と、
前記情報処理システムの選択受付手段が、電子メールから取得されたテキストデータに係る個人情報指数が所定の条件を満たす場合、前記受付工程により当該電子メールの送信指示を受け付けたことに応じて当該電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付工程と、
を備え、
前記選択受付工程により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させることを特徴とする情報処理方法。
An acquisition step in which an acquisition means of the information processing system acquires text data from an email ;
an output step in which an output means of the information processing system outputs a personal information index in the text data acquired by the acquisition means using a trained model trained using data in which text data is associated with information indicating that the text data contains personal information;
a receiving step of receiving an instruction to send an e-mail by a receiving means of the information processing system;
a selection receiving step in which, when a personal information index related to the text data acquired from the email satisfies a predetermined condition, the selection receiving means of the information processing system receives a selection as to whether or not personal information is included in the text data acquired from the email in response to receiving an instruction to send the email by the receiving step;
Equipped with
An information processing method, characterized in that , when a selection indicating that personal information is included is received in the selection receiving step, the trained model is trained using the text data .
テキストデータを取得する取得手段と、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力手段と、を備える装置と通信可能な情報処理装置であって、
送信指示された電子メールから取得したテキストデータを、前記装置に対して送信する送信手段と、
前記装置の出力手段により出力された個人情報指数を取得する取得手段と、
前記取得手段において取得した個人情報指数に基づき個人情報が所定の条件を満たす場合、当該送信指示された電子メールの送信を制御する送信制御手段と、
前記送信制御手段により送信が制御された電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付手段と、
前記選択受付手段により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させるよう前記装置を制御する制御手段と、
を備えることを特徴とする情報処理装置。
An information processing device capable of communicating with an apparatus including: an acquisition means for acquiring text data; and an output means for outputting a personal information index in the text data acquired by the acquisition means using a trained model trained using data in which the text data is associated with information indicating that the text data includes personal information;
a transmission means for transmitting text data acquired from the email instructed to be transmitted to the device;
An acquisition means for acquiring a personal information index output by an output means of the device;
a transmission control means for controlling the transmission of the electronic mail instructed to be sent when the personal information satisfies a predetermined condition based on the personal information index acquired by the acquisition means;
a selection receiving means for receiving a selection as to whether or not personal information is included in text data acquired from the email whose transmission is controlled by the transmission control means;
A control means for controlling the device to train the trained model using the text data when the selection receiving means receives a selection indicating that personal information is included;
An information processing device comprising:
テキストデータを取得する取得手段と、テキストデータと、当該テキストデータに個人情報が含まれる旨の情報とを対応付けたデータにより学習された学習済みモデルにより、前記取得手段で取得したテキストデータにおける個人情報指数を出力する出力手段と、を備える装置と通信可能な情報処理装置を、
送信指示された電子メールから取得したテキストデータを、前記装置に対して送信する送信手段と、
前記装置の出力手段により出力された個人情報指数を取得する取得手段と、
前記取得手段において取得した個人情報指数に基づき個人情報が所定の条件を満たす場合、当該送信指示された電子メールの送信を制御する送信制御手段と、
前記送信制御手段により送信が制御された電子メールから取得したテキストデータに個人情報が含まれるか否かの選択を受け付ける選択受付手段と、
前記選択受付手段により個人情報が含まれる旨の選択を受け付けた場合、当該テキストデータにより前記学習済みモデルを学習させるよう前記装置を制御する制御手段と、
して機能させるためのプログラム。
An information processing device capable of communicating with an apparatus including: an acquisition means for acquiring text data; and an output means for outputting a personal information index in the text data acquired by the acquisition means using a trained model trained on data in which the text data is associated with information indicating that the text data contains personal information;
a transmission means for transmitting text data acquired from the email instructed to be transmitted to the device;
An acquisition means for acquiring a personal information index output by an output means of the device;
a transmission control means for controlling the transmission of the electronic mail instructed to be sent when the personal information satisfies a predetermined condition based on the personal information index acquired by the acquisition means;
a selection receiving means for receiving a selection as to whether or not personal information is included in text data acquired from the email whose transmission is controlled by the transmission control means;
A control means for controlling the device to train the trained model using the text data when the selection receiving means receives a selection indicating that personal information is included;
A program to make it function as such.
JP2020188393A 2020-11-12 2020-11-12 Information processing device, information processing method, and program Active JP7598005B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020188393A JP7598005B2 (en) 2020-11-12 2020-11-12 Information processing device, information processing method, and program
JP2024205920A JP7832537B2 (en) 2020-11-12 2024-11-27 Information processing device, information processing method, program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020188393A JP7598005B2 (en) 2020-11-12 2020-11-12 Information processing device, information processing method, and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024205920A Division JP7832537B2 (en) 2020-11-12 2024-11-27 Information processing device, information processing method, program

Publications (3)

Publication Number Publication Date
JP2022077566A JP2022077566A (en) 2022-05-24
JP2022077566A5 JP2022077566A5 (en) 2023-12-08
JP7598005B2 true JP7598005B2 (en) 2024-12-11

Family

ID=81706841

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020188393A Active JP7598005B2 (en) 2020-11-12 2020-11-12 Information processing device, information processing method, and program
JP2024205920A Active JP7832537B2 (en) 2020-11-12 2024-11-27 Information processing device, information processing method, program

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024205920A Active JP7832537B2 (en) 2020-11-12 2024-11-27 Information processing device, information processing method, program

Country Status (1)

Country Link
JP (2) JP7598005B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072779A (en) 2008-09-17 2010-04-02 Mitsubishi Electric Corp Data classifying device, computer program, and data classification method
WO2012095971A1 (en) 2011-01-13 2012-07-19 三菱電機株式会社 Classification rule generation device, classification rule generation method, classification rule generation program and recording medium
JP2019061419A (en) 2017-09-26 2019-04-18 富士ゼロックス株式会社 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128982A (en) 2007-11-20 2009-06-11 Hitachi Ltd Transmission control device, transmission control method, and program
US10805311B2 (en) 2016-08-22 2020-10-13 Paubox Inc. Method for securely communicating email content between a sender and a recipient
BR112021002704A2 (en) 2018-08-13 2021-05-11 BigID Inc. computer-implemented method of locating and classifying personal information and a data source, and system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072779A (en) 2008-09-17 2010-04-02 Mitsubishi Electric Corp Data classifying device, computer program, and data classification method
WO2012095971A1 (en) 2011-01-13 2012-07-19 三菱電機株式会社 Classification rule generation device, classification rule generation method, classification rule generation program and recording medium
JP2019061419A (en) 2017-09-26 2019-04-18 富士ゼロックス株式会社 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM

Also Published As

Publication number Publication date
JP7832537B2 (en) 2026-03-18
JP2022077566A (en) 2022-05-24
JP2025024234A (en) 2025-02-19

Similar Documents

Publication Publication Date Title
CN108885611B (en) Document automation
US20050097238A1 (en) Peripheral device control program, peripheral device control apparatus and peripheral device control method, and display control program, display control apparatus and display control method
US9513772B2 (en) Information processing device, information processing method, and computer-readable medium
US8682908B2 (en) Information processing apparatus, information processing method, and information processing program
US7337225B2 (en) Information processing apparatus, its control method, and program
CN111400552A (en) Note creating method and electronic equipment
JP7598005B2 (en) Information processing device, information processing method, and program
CN111859923A (en) Information processing device, recording medium, and information processing method
CN112948843A (en) Encryption method, encryption device, electronic equipment and medium
JP2024144660A (en) Information processing device, information processing system, control method, and program
JP7054011B2 (en) Information processing system, information processing device, information processing method, program
US20170322723A1 (en) Method and apparatus for executing function on a plurality of items on list
JP6854138B2 (en) Information processing system, information processing method, program
JP2019101673A (en) Information processing device, control method and program thereof, and information processing system, and control method and program thereof
JP6572679B2 (en) Information processing apparatus and program
JP2018074429A (en) Information processing device, information processing method, and program
JP6905999B2 (en) Information processing equipment, information processing methods, programs
JP7303431B2 (en) Information processing device, information processing system, control method thereof, and program
JP2024093619A (en) Information processing device, information processing method, and program
EP4054166B1 (en) Information processing apparatus, information processing program, and information processing method
JP2016091092A (en) Browser, browser control method and program
JP2024093618A (en) Information processing system, information processing method, and program
JP2008262554A (en) Information processing apparatus, information processing method, information processing program, and recording medium
JP6485470B2 (en) Information processing apparatus, information processing method, and program
JP2022108861A (en) Information processing system, information processing method, program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241111

R150 Certificate of patent or registration of utility model

Ref document number: 7598005

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150