JP7235966B2 - File classification device, file classification program and file classification method - Google Patents
File classification device, file classification program and file classification method Download PDFInfo
- Publication number
- JP7235966B2 JP7235966B2 JP2019090074A JP2019090074A JP7235966B2 JP 7235966 B2 JP7235966 B2 JP 7235966B2 JP 2019090074 A JP2019090074 A JP 2019090074A JP 2019090074 A JP2019090074 A JP 2019090074A JP 7235966 B2 JP7235966 B2 JP 7235966B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- character string
- information
- regular expression
- matches
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ファイル分類装置、ファイル分類プログラム及びファイル分類方法に関する。 The present invention relates to a file sorting device, a file sorting program, and a file sorting method.
近年、PC(Personal Computer)に記憶された情報の漏洩対策として、例えば、ファイル存在確認ツールが用いられている。このファイル存在確認ツールは、例えば、情報漏洩を引き起こす可能性があるファイルがPC内に記憶されている場合に、そのファイルの削除や移動等を促す通知をユーザに行うものである。 In recent years, for example, a file existence confirmation tool has been used as a countermeasure against leakage of information stored in a PC (Personal Computer). For example, when a file that may cause information leakage is stored in the PC, this file existence confirmation tool notifies the user to delete or move the file.
一般的に、ユーザが有するPCには、ユーザによって作成されたデータファイルだけでなく、OS(Operating System)やアプリケーションについてのファイルが多数存在する。そのため、上記のようなファイル存在確認ツールは、例えば、チェック対象のファイル(以下、対象ファイルとも呼ぶ)のファイル名やファイルパス(以下、ファイル名等とも呼ぶ)と、事前に作成されたパターン(ホワイトリストやブラックリスト)とのマッチングを行うことにより、対象ファイルのそれぞれが秘密情報を含むか否かを判定する。そして、ファイル存在確認ツールは、秘密情報を含む可能性があると判定したファイルについての情報をユーザに通知する。これにより、ユーザは、例えば、各PCが社外等に持ち出し可能な状態になっているか否かの判定を行うことが可能になる。 In general, a user's PC contains not only data files created by the user, but also a large number of OS (Operating System) and application files. For this reason, the above-mentioned file existence confirmation tool, for example, uses the file name and file path (hereinafter also referred to as the file name etc.) of the file to be checked (hereinafter also referred to as the target file) and the pre-created pattern ( It is determined whether or not each target file contains confidential information by matching with a whitelist or blacklist. Then, the file existence confirmation tool notifies the user of information about the files determined to possibly contain confidential information. This enables the user to determine, for example, whether or not each PC is ready to be taken outside the company.
具体的に、ファイル存在確認ツールは、秘密情報を含む可能性が高いファイルとして、例えば、Microsoft Office(登録商標)ドキュメントファイル、メールファイル及びプログラムのソースコード等を特定する。また、ファイル存在確認ツールは、秘密情報を含む可能性が低いファイルとして、例えば、プログラムの実行ファイル、一時ファイル、ショートカットファイル及び設定ファイル等を特定する(例えば、特許文献1及び2参照)。
Specifically, the file existence confirmation tool identifies, for example, Microsoft Office (registered trademark) document files, mail files, program source codes, etc., as files that are highly likely to contain confidential information. In addition, the file existence confirmation tool identifies, for example, program execution files, temporary files, shortcut files, setting files, etc., as files that are unlikely to contain confidential information (see
ここで、例えば、記述の自由度が高い正規表現によって記述されたパターンが用いられる場合、ファイル存在確認ツールでは、対象ファイルのファイル名等とパターンとのマッチングに長時間を要する。 Here, for example, when a pattern described by a regular expression with a high degree of freedom of description is used, the file existence confirmation tool takes a long time to match the file name of the target file with the pattern.
そのため、ファイル存在確認ツールでは、例えば、正規表現によって記述されていないパターンを用いた前方一致や後方一致を行うことによって、対象ファイルのファイル名等とパターンとのマッチングを行う。これにより、ファイル存在確認ツールでは、秘密情報を含む可能性が高いファイルと、秘密情報を含む可能性が低いファイルとの分類(以下、単にファイルの分類とも呼ぶ)を短時間に行うことが可能になる。 Therefore, in the file existence confirmation tool, for example, by performing forward matching and backward matching using a pattern not described by a regular expression, the file name of the target file and the pattern are matched. As a result, the file existence confirmation tool can quickly classify files that are highly likely to contain confidential information and files that are unlikely to contain confidential information (hereafter simply referred to as file classification). become.
しかしながら、正規表現によって記述されていないパターンは、記述の自由度が低いパターンである。そのため、正規表現によって記述されていないパターンを用いる場合、ファイルの分類を行うために必要となるパターンの数が膨大になる。したがって、この場合、パターンの用意に膨大な時間を要することになり、ファイルの分類を効率的に行うことが困難になる場合がある。 However, patterns not described by regular expressions are patterns with a low degree of freedom in description. Therefore, when using patterns that are not described by regular expressions, the number of patterns required to classify files becomes enormous. Therefore, in this case, it takes an enormous amount of time to prepare the patterns, which may make it difficult to efficiently classify the files.
そこで、一つの側面では、本発明は、ファイルの分類を効率的に行うことを可能とするファイル分類装置、ファイル分類プログラム及びファイル分類方法を提供することを目的とする。 Accordingly, in one aspect, an object of the present invention is to provide a file sorting device, a file sorting program, and a file sorting method that enable efficient file sorting.
実施の形態の一態様では、文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定する第1判定部と、前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定する第2判定部と、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定する共通特定部と、特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する情報管理部と、を有する。 In one aspect of the embodiment, a first determination unit that refers to a first storage unit that stores a character string and determines whether each file name of a plurality of files includes the character string; When it is determined that each of the file names of the files does not contain the character string, referring to a second storage unit storing the regular expression to determine whether each of the file names of the plurality of files conforms to the regular expression. and a common identification unit that identifies a common portion of character strings in the file names of the plurality of files when each of the file names of the plurality of files conforms to the regular expression. and an information management unit that further stores a character string corresponding to the identified common portion in the first storage unit when the common portion matches the regular expression.
一つの側面によれば、ファイルの分類を効率的に行うことを可能とする。 According to one aspect, it is possible to efficiently classify files.
[情報処理システムの構成]
初めに、情報処理システム10の構成について説明を行う。図1は、情報処理システム10の構成について説明する図である。
[Configuration of information processing system]
First, the configuration of the
図1に示すように、情報処理システム10は、例えば、ユーザが各種作業を行うPCである情報処理装置1と、情報処理装置1とネットワークNW(例えば、インターネット)を介して接続する管理装置2と、管理装置2によってアクセスされる記憶装置3とを有する。
As shown in FIG. 1, an
情報処理装置1は、対象ファイルが秘密情報を含むか否かを判定する処理(以下、ファイル分類処理とも呼ぶ)が行われる場合、例えば、管理装置2にアクセスし、記憶装置3に記憶されたパターン(以下、第1文字列とも呼ぶ)を取得して記憶領域(以下、第1記憶部とも呼ぶ)に記憶する。第1文字列は、例えば、正規表現によって記述された文字列である。
The
そして、情報処理装置1は、正規表現が用いられていない文字列(以下、第2文字列とも呼ぶ)を記憶した記憶領域(以下、第2記憶部とも呼ぶ)を参照し、複数の対象ファイルのそれぞれが第2文字列を含むか否かを判定する。第2文字列は、例えば、正規表現が用いられていない文字列である。
Then, the
その結果、複数のファイルのそれぞれが第2文字列を含まないと判定した場合、情報処理装置1は、第1記憶部を参照し、複数の対象ファイルのそれぞれが第1文字列に対応する正規表現に適合するか否かを判定する。
As a result, when it is determined that each of the plurality of files does not contain the second character string, the
そして、複数のファイルのそれぞれが正規表現に適合しないと判定した場合、情報処理装置1は、例えば、複数のファイルのそれぞれが秘密情報を含む可能性が高いファイルであると判定し、その旨をユーザに通知する。
Then, when it is determined that each of the plurality of files does not match the regular expression, the
一方、複数のファイルのそれぞれが正規表現に適合すると判定した場合、情報処理装置1は、複数の対象ファイルのファイル名における文字列の共通部分を特定する。そして、情報処理装置1は、特定した共通部分が第1文字列に対応する正規表現に適合すると判定した場合、特定した共通部分に対応する文字列を第2文字列の少なくとも1つとして第2記憶部にさらに記憶する。
On the other hand, when it is determined that each of the plurality of files matches the regular expression, the
すなわち、本実施の形態における情報処理装置1は、複数の対象ファイルのそれぞれが秘密情報を含む可能性が高いファイルであるか否かを判定するとともに、複数のファイルのファイル名等から新たに特定された第2文字列の蓄積を行う。ここで、第2文字列は、秘密情報を含む可能性が低いと判定された複数の対象ファイルのファイル名等の共通部分である。そのため、情報処理装置1は、ファイル名等に第2文字列が含まれる対象ファイルが新たに発生した場合、その新たに発生した対象ファイルが秘密情報を含む可能性が低いファイルであると判定することが可能である。したがって、情報処理装置1は、複数の対象ファイルのそれぞれが第1文字列に対応する正規表現に適合するか否かについての判定を行う前に、複数の対象ファイルのそれぞれが第2文字列を含むか否かの判定を行う。
That is, the
これにより、情報処理装置1は、対象ファイルのファイル名等と正規表現によって記述された第1文字列とのマッチング回数を抑制することが可能になる。そのため、情報処理装置1は、正規表現によって記述されていないパターンを用いることなく、対象ファイルの分類に要する時間を短縮させることが可能になる。したがって、情報処理装置1は、パターンの作成に要する負担を抑制しつつ、対象ファイルの分類の効率化を行うことが可能になる。
As a result, the
[情報処理システムのハードウエア構成]
次に、情報処理システム10のハードウエア構成について説明する。図2は、情報処理装置1のハードウエア構成を説明する図である。
[Hardware configuration of information processing system]
Next, the hardware configuration of the
情報処理装置1は、図2に示すように、プロセッサであるCPU101と、メモリ102と、外部インターフェース(I/Oユニット)103と、記憶媒体104とを有する。各部は、バス105を介して互いに接続される。
The
記憶媒体104は、例えば、ファイル分類処理を行うためのプログラム110を記憶するプログラム格納領域(図示しない)を有する。また、記憶媒体104は、例えば、ファイル分類処理を行う際に用いられる情報を記憶する記憶部130(以下、情報格納領域130とも呼ぶ)を有する。なお、記憶媒体104は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)であってよい。なお、上記の第1記憶部、第2記憶部及び第3記憶部のそれぞれは、例えば、記憶部130の少なくとも一部に対応するものであってよい。
The
CPU101は、記憶媒体104からメモリ102にロードされたプログラム110を実行してファイル分類処理を行う。
The
また、外部インターフェース103は、例えば、ネットワークNWを介して管理装置2と通信を行う。
Also, the
[情報処理システムの機能]
次に、情報処理システム10の機能について説明を行う。図3は、情報処理装置1の機能のブロック図である。
[Functions of information processing system]
Next, functions of the
情報処理装置1は、図3に示すように、例えば、CPU101やメモリ102等のハードウエアとプログラム110とが有機的に協働することにより、情報受付部111と、情報管理部112と、ファイル名抽出部113と、第1判定部114と、第2判定部115と、共通特定部116と、第3判定部117と、情報出力部118とを含む各種機能を実現する。
As shown in FIG. 3, the
また、情報処理装置1は、例えば、図3に示すように、ファイル情報131と、正規表現情報132と、前方一致情報133と、後方一致情報134と、一時格納情報135とを情報格納領域130に記憶する。なお、上記の第1文字列は、例えば、正規表現情報132に対応するものであってよい。また、上記の第2文字列は、例えば、前方一致情報133または後方一致情報134に対応するものであってよい。
For example, as shown in FIG. 3, the
情報受付部111は、例えば、管理装置2から送信された正規表現情報132を受け付ける。そして、情報管理部112は、例えば、情報受付部111が受け付けた正規表現情報132を情報格納領域130に記憶する。なお、正規表現情報132は、ユーザ等によって予め情報格納領域130に記憶されるものであってもよい。
The
ファイル名抽出部113は、例えば、情報処理装置1で動作するOS(図示しない)からファイル情報131を取得する。ファイル情報131は、例えば、ファイルに対するread情報やwrite情報を含むものであってよい。そして、ファイル名抽出部113は、OSから取得したファイル情報131から各ファイルのファイル名等を抽出する。
The
第1判定部114は、情報格納領域130に記憶された前方一致情報133を参照し、ファイル名抽出部113が抽出したファイル名のそれぞれが前方一致情報133に含まれる文字列を含むか否かを判定する。前方一致情報133は、ファイル名抽出部113が抽出したファイル名のそれぞれと前方一致する関係にあるか否かの判定が行われる文字列を含む情報である。
The
第2判定部115は、ファイル名抽出部113が抽出したファイル名のそれぞれが前方一致情報133に含まれる文字列を含まないと判定した場合、情報格納領域130に記憶された正規表現情報132を参照し、ファイル名抽出部113が抽出したファイル名のそれぞれが正規表現情報132に含まれる正規表現に適合するか否かを判定する。
When the
共通特定部116は、ファイル名抽出部113が抽出したファイル名のそれぞれが正規表現情報132に含まれる正規表現に適合する場合、ファイル名抽出部113が抽出したファイル名における文字列の共通部分を特定する。
If each of the file names extracted by the file
第3判定部117は、共通特定部116が特定した共通部分が正規表現情報132に含まれる正規表現に適合するか否かを判定する。
The
そして、情報管理部112は、共通特定部116が特定した共通部分が正規表現情報132に含まれる場合、共通特定部116が特定した共通部分に対応する文字列を前方一致情報133の少なくとも一部として情報格納領域130に記憶する。
Then, when the common part specified by the common specifying
情報出力部118は、ファイル名抽出部113が抽出したファイル名のそれぞれが正規表現情報132に含まれる正規表現に適合しないと第2判定部115が判定した場合、ファイル名抽出部113が抽出したファイル名に対応するファイルが秘密情報を含む可能性が高いことを示す情報をユーザに通知する。具体的に、情報出力部118は、この場合、ファイル名抽出部113が抽出したファイル名に対応するファイルが秘密情報を含む可能性が高いことを示す情報を、情報処理装置1の出力装置(図示しない)に出力する。後方一致情報134についての説明は後述する。
When the
[第1の実施の形態の概略]
次に、第1の実施の形態の概略について説明する。図4及び図5は、第1の実施の形態におけるファイル分類処理の概略を説明するフローチャート図である。
[Outline of the first embodiment]
Next, an outline of the first embodiment will be described. 4 and 5 are flowcharts for explaining an outline of file classification processing according to the first embodiment.
情報処理装置1は、図4に示すように、ファイル分類タイミングになるまで待機する(S1のNO)。ファイル分類タイミングは、例えば、ユーザが情報処理装置1に対してファイル分類処理を行う旨の情報を入力したタイミングであってよい。
As shown in FIG. 4, the
そして、ファイル分類タイミングになった場合(S1のYES)、情報処理装置1は、第2文字列を記憶した第2記憶部を参照し、複数のファイルのファイル名等のそれぞれが第2文字列を含むか否かを判定する(S2)。
Then, when it is time to classify files (YES in S1), the
その結果、複数のファイルのファイル名等のそれぞれが第2文字列を含まないと判定した場合(S3のNO)、情報処理装置1は、第1文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名等のそれぞれが第1文字列に対応する正規表現に適合するか否かを判定する(S4)。
As a result, when it is determined that each of the file names of the plurality of files does not contain the second character string (NO in S3), the
そして、複数のファイルのファイル名等のそれぞれが第1文字列に対応する正規表現に適合すると判定した場合(S5のYES)、情報処理装置1は、図5に示すように、複数のファイルのファイル名等における文字列の共通部分を特定する(S11)。
Then, when it is determined that each of the file names of the plurality of files matches the regular expression corresponding to the first character string (YES in S5), the
続いて、情報処理装置1は、S11の処理で特定した共通部分が第1文字列に対応する正規表現に適合するが否かを判定する(S12)。
Subsequently, the
その結果、S11の処理で特定した共通部分が第1文字列に対応する正規表現に適合すると判定した場合(S13のYES)、情報処理装置1は、S12の処理で特定した共通部分に対応する文字列を第2文字列として第2記憶部にさらに記憶する(S14)。
As a result, if it is determined that the common part specified in the process of S11 matches the regular expression corresponding to the first character string (YES in S13), the
一方、複数のファイルのファイル名等のそれぞれが第2文字列を含むと判定した場合(S3のYES)、または、複数のファイルのファイル名等のそれぞれが第1文字列に対応する正規表現に適合しないと判定した場合(S5のNO)、情報処理装置1は、ファイル分類処理を終了する。また、S11の処理で特定した共通部分が第1文字列に対応する正規表現に適合しないと判定した場合についても同様に(S13のNO)、情報処理装置1は、ファイル分類処理を終了する。
On the other hand, if it is determined that each of the file names of the plurality of files includes the second character string (YES in S3), or if each of the file names of the plurality of files is a regular expression corresponding to the first character string, If it is determined that it does not match (NO in S5), the
これにより、情報処理装置1は、対象ファイルのファイル名等と正規表現によって記述された第1文字列とのマッチング回数を抑制することが可能になる。そのため、情報処理装置1は、正規表現によって記述されていないパターンを用いることなく、対象ファイルの分類に要する時間を短縮させることが可能になる。したがって、情報処理装置1は、パターンの作成に要する負担を抑制しつつ、対象ファイルの分類の効率化を行うことが可能になる。
As a result, the
[第1の実施の形態の詳細]
次に、第1の実施の形態の詳細について説明する。図6から図8は、第1の実施の形態におけるファイル分類処理の詳細を説明するフローチャート図である。また、図9から図16は、第1の実施の形態におけるファイル分類処理の詳細を説明する図である。なお、以下、正規表現情報132、前方一致情報133及び後方一致情報134のそれぞれがホワイトリストである場合について説明を行う。
[Details of the first embodiment]
Next, details of the first embodiment will be described. 6 to 8 are flowcharts for explaining the details of file classification processing according to the first embodiment. 9 to 16 are diagrams for explaining the details of the file classification process in the first embodiment. A case where each of the
情報受付部111は、図6に示すように、ファイル情報131を受け付けるまで待機する(S21のNO)。具体的に、情報受付部111は、例えば、OSから送信されたファイル情報131を受け付けるまで待機する。
As shown in FIG. 6, the
そして、ファイル情報131を受け付けた場合(S21のYES)、ファイル名抽出部113は、S21の処理で受け付けたファイル情報131から対象ファイルのファイル名等を抽出する(S22)。
When the
続いて、第1判定部114は、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にあるか否かを判定する(S23)。以下、前方一致情報133の具体例について説明を行う。
Subsequently, the
[前方一致情報の具体例]
図9、図13及び図14は、前方一致情報133の具体例について説明する図である。
[Specific example of prefix matching information]
9, 13 and 14 are diagrams for explaining specific examples of the
図9等に示す前方一致情報133は、前方一致の判定に用いられる文字列が記憶される「文字列」と、各情報が生成(更新)されたエポック秒が記憶される「タイムスタンプ」とを項目として有する。
The
具体的に、図9に示す前方一致情報133において、1行目の情報には、「文字列」として「c:¥user¥appdata¥test¥」が記憶され、「タイムスタンプ」として「1551128928」が記憶されている。
Specifically, in the
また、図9に示す前方一致情報133において、2行目の情報には、「文字列」として「c:¥tmp¥」が記憶され、「タイムスタンプ」として「1551129475」が記憶されている。
In the
そのため、例えば、S22の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥34567」であった場合、第1判定部114は、S22の処理で抽出したファイル名等に対応する文字列と、前方一致情報133に情報が含まれる各文字列とが前方一致する関係にないと判定する。
Therefore, for example, if the character string corresponding to the file name extracted in S22 is "c:\documents\test\.git\objects
図6に戻り、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にないと判定した場合(S24のNO)、第2判定部115は、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S25)。以下、正規表現情報132の具体例について説明を行う。
Returning to FIG. 6, when it is determined that the character string corresponding to the file name or the like extracted in the process of S22 does not have a prefix match relationship with the character string included in the
[正規表現情報の具体例]
図10は、正規表現情報132の具体例について説明する図である。
[Specific example of regular expression information]
FIG. 10 is a diagram explaining a specific example of the
図10に示す正規表現情報132は、正規表現情報132に含まれる各情報を識別する「ID」と、正規表現によって記述された文字列が記憶される「文字列」とを項目として有する。
The
具体的に、図10に示す正規表現情報132において、1行目の情報には、「ID」として「REGEXP1」が記憶されている。また、図10に示す正規表現情報132において、1行目の情報には、「文字列」として、¥または/で区切られたフォルダ以下のコンマから始まるフォルダ名またはファイル名等を示す「(.*[/¥¥])+¥..+」が記憶されている。図10に含まれる他の情報についての説明は省略する。
Specifically, in the
そのため、例えば、S22の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥34567」であった場合、第2判定部115は、1行目の情報の「文字列」に記憶された正規表現に、S22の処理で抽出したファイル名等に対応する文字列が適合すると判定する。
Therefore, for example, when the character string corresponding to the file name extracted in the process of S22 is "c:\documents\test\.git\objects
図6に戻り、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S26のYES)、共通特定部116は、図7に示すように、S22の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にあるか否かを判定する(S31)。以下、一時格納情報135の具体例について説明を行う。
Returning to FIG. 6, if it is determined that the character string corresponding to the file name extracted in the process of S22 matches the regular expression included in the
[一時格納情報の具体例]
図11及び図15は、一時格納情報135の具体例について説明する図である。
[Specific example of temporary storage information]
11 and 15 are diagrams illustrating specific examples of the
図11等に示す一時格納情報135は、一時格納情報135に含まれる各情報と適合する正規表現情報132(例えば、図10で説明した正規表現情報132に含まれるいずれかの情報)を識別する「ID」と、S22の処理で抽出したファイル名等の文字列が記憶される「文字列」と、各情報が生成(更新)されたエポック秒が記憶される「タイムスタンプ」とを項目として有する。
Temporarily stored
具体的に、図11に示す一時格納情報135において、1行目の情報には、「ID」として「REGEXP1」が記憶され、「文字列」として「c:¥documents¥test¥.git¥objects¥00¥12345」が記憶され、「タイムスタンプ」として「1551128871」が記憶されている。
Specifically, in the
また、図11に示す一時格納情報135において、2行目の情報には、「ID」として「REGEXP2」が記憶され、「文字列」として「c:¥user¥appdata¥test¥abcdef.pdf」が記憶され、「タイムスタンプ」として「1551128928」が記憶されている。図11に含まれる他の情報についての説明は省略する。
In the
そのため、例えば、S22の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥34567」であった場合、共通特定部116は、S22の処理で抽出したファイル名等に対応する文字列と、1行目の情報の「文字列」に記憶された文字列とが前方一致する関係にあると判定する。
Therefore, for example, when the character string corresponding to the file name extracted in the process of S22 is "c:\documents\test\.git\objects
図7に戻り、S22の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にあると判定した場合(S32のYES)、共通特定部116は、S22の処理で抽出したファイル名等における文字列のうち、S31の処理で前方一致する関係にあると判定した文字列を特定する(S33)。
Returning to FIG. 7, when it is determined that the character strings in the file name extracted in the process of S22 and the character strings included in the
具体的に、図11で説明した一時格納情報135における1行目の情報には、「文字列」として「c:¥documents¥test¥.git¥objects¥00¥12345」が記憶されている。そのため、例えば、S22の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥34567」である場合、共通特定部116は、図12に示すように、これらの文字列の共通部分である「c:¥documents¥test¥.git¥objects¥」と特定する。
Specifically, in the information on the first line in the
そして、第3判定部117は、S33の処理で特定した文字列が、S31の処理で前方一致する関係にあると判断した一時格納情報135に含まれる文字列に対応するIDに対応する情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S34)。
Then, the
具体的に、例えば、S33の処理で特定した文字列が「c:¥documents¥test¥.git¥objects¥」である場合、第3判定部117は、S33の処理で特定した文字列が、S31の処理で前方一致する関係にあると判断した一時格納情報135に含まれる文字列「c:¥documents¥test¥.git¥objects¥00¥12345」に対応するID「REGEXP1」に対応する図10で説明した正規表現情報132における1行目の情報の「文字列」に記憶された正規表現である「(.*[/¥¥])+¥..+」に適合すると判定する。
Specifically, for example, when the character string specified in the process of S33 is "c:\documents\test\.git\objects\", the
その結果、S33の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S35のYES)、情報管理部112は、S33の処理で特定した文字列を前方一致情報133の少なくとも一部として情報格納領域130に記憶する(S36)。
As a result, when it is determined that the character string specified in the process of S33 matches the regular expression included in the
具体的に、例えば、S35の処理において正規表現に適合すると判定した文字列が「c:¥documents¥test¥.git¥objects¥」である場合、情報管理部112は、図12に示すように、「c:¥documents¥test¥.git¥objects¥」を前方一致情報133として情報格納領域130に記憶することを決定する。そして、情報管理部112は、例えば、図13の下線部分に示すように、「文字列」に「c:¥documents¥test¥.git¥objects¥」を記憶した情報(3行目の情報)を、前方一致情報133として情報格納領域130に追加する。
Specifically, for example, when the character string determined to match the regular expression in the process of S35 is "c:\documents\test\.git\objects\", the
続いて、情報出力部118は、図8に示すように、例えば、S22の処理で抽出したファイル名等に対応するファイルが秘密情報を含むファイルでないことを示す情報を生成する(S42)。
Subsequently, as shown in FIG. 8, the
その後、情報出力部118は、S42の処理で生成した情報を出力する(S44)。具体的に、情報出力部118は、例えば、S42の処理で生成した情報を情報処理装置1の出力装置(図示しない)に出力する。
After that, the
また、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にあると判定した場合も同様に(S24のYES)、情報出力部118は、S42以降の処理を行う。
Similarly, when it is determined that the character string corresponding to the file name or the like extracted in the process of S22 has a prefix matching relationship with the character string included in the
なお、情報管理部112は、この場合、図14の下線部分に示すように、情報格納領域130に記憶された前方一致情報133に含まれるタイムスタンプのうち、S22の処理で抽出したファイル名等に対応する文字列と前方一致する関係にあると判定された文字列のタイムスタンプを、現在の日時に更新するものであってよい。
In this case, the
一方、S22の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にないと判定した場合(S32のNO)、情報管理部112は、図8に示すように、S22の処理で抽出したファイル名等における文字列を一時格納情報135として情報格納領域130に記憶する(S41)。
On the other hand, if it is determined that the character string in the file name extracted in the processing of S22 and the character string included in the
具体的に、例えば、S35の処理において正規表現に適合すると判定した文字列が「c:¥documents¥abcd¥.git¥objects¥20¥34567」である場合、情報管理部112は、例えば、図15の下線部分に示すように、「文字列」に「c:¥documents¥abcd¥.git¥objects¥20¥34567」を記憶した情報(4行目の情報)を追加する。
Specifically, for example, when the character string determined to match the regular expression in the process of S35 is "c:\documents\abcd\.git\objects\20\34567", the
なお、S35の処理において正規表現に適合すると判定した文字列が一時格納情報135として既に記憶されている場合、情報管理部112は、S35の処理において正規表現に適合すると判定した文字列に対応するタイムスタンプのみを更新するものであってよい。
If the character string determined to match the regular expression in the process of S35 is already stored as the
そして、情報出力部118は、S42以降の処理を行う。また、S33の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合についても同様に(S35のNO)、情報管理部112等は、S41以降の処理を行う。
Then, the
さらに、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合(S26のNO)、情報出力部118は、図8に示すように、S22の処理で抽出したファイル名等に対応するファイルが秘密情報を含むファイルであることを示す情報を生成する(S43)。そして、情報出力部118は、S43の処理で生成した情報を出力する(S44)。
Furthermore, when it is determined that the character string corresponding to the file name extracted in the process of S22 does not match the regular expression included in the
すなわち、本実施の形態における情報処理装置1は、複数の対象ファイルのそれぞれが秘密情報を含む可能性が高いファイルであるか否かを判定するとともに、複数のファイルのファイル名等から新たに特定された前方一致情報133の蓄積を行う。ここで、前方一致情報133は、秘密情報を含む可能性が低いと判定された複数の対象ファイルのファイル名等の共通部分である。そのため、情報処理装置1は、ファイル名等に前方一致情報133が含まれる対象ファイルが新たに発生した場合、その新たに発生した対象ファイルが秘密情報を含む可能性が低いファイルであると判定することが可能である。したがって、情報処理装置1は、複数の対象ファイルのそれぞれが正規表現情報132に含まれる正規表現に適合するか否かについての判定を行う前に、複数の対象ファイルのそれぞれが前方一致情報133を含むか否かの判定を行う。
That is, the
これにより、情報処理装置1は、対象ファイルのファイル名等と正規表現によって記述された正規表現情報132とのマッチング回数を抑制することが可能になる。そのため、情報処理装置1は、正規表現によって記述されていないパターンを用いることなく、対象ファイルの分類に要する時間を短縮させることが可能になる。したがって、情報処理装置1は、パターンの作成に要する負担を抑制しつつ、対象ファイルの分類の効率化を行うことが可能になる。
As a result, the
なお、S36の処理において、一時格納情報135として既に記憶されている文字列を、S33の処理で特定した文字列に置き換えるものであってもよい。
In the process of S36, the character string already stored as the
具体的に、例えば、一時格納情報135として既に記憶されている文字列が「c:¥documents¥test¥.git¥objects¥00¥12345」であって、S35の処理において正規表現に適合すると判定した文字列が「c:¥documents¥test¥.git¥objects¥」である場合、情報管理部112は、図16の下線部分に示すように、一時格納情報135に含まれる文字列である「c:¥documents¥test¥.git¥objects¥00¥12345」を「c:¥documents¥test¥.git¥objects¥」に更新するものであってよい。
Specifically, for example, the character string already stored as the
これにより、情報管理部112は、一時格納情報135の記憶に要する記憶領域を削減することが可能になる。
This enables the
また、情報管理部112は、S41の処理においてだけでなく、S33の処理で特定した文字列を前方一致情報133として情報格納領域130に記憶するタイミング(S36の処理が行われるタイミング)においても、一時格納情報135の更新を行うものであってよい。
Further, the
この場合、情報管理部112は、図16の下線部分に示すように、対応するタイムスタンプ(1行目の情報のタイムスタンプ)として、S36の処理において前方一致情報133に記憶された情報のタイムスタンプ(例えば、図13で説明した前方一致情報133における3行目の情報のタイムスタンプ)と同じ日時を記憶する。
In this case, the
これにより、情報管理部112は、一時格納情報135の記憶に要する記憶領域をより削減することが可能になる。
As a result, the
さらに、情報管理部112は、例えば、前方一致情報133及び一時格納情報135のそれぞれに含まれる情報のうち、タイムスタンプとして記憶された日時が現在日時よりも所定時間以上前になった情報を随時削除するものであってもよい。
Further, the
[第2の実施の形態]
次に、第2の実施の形態について説明する。図17から図21は、第2の実施の形態におけるファイル分類処理を説明するフローチャート図である。また、図22は、第2の実施の形態におけるファイル分類処理を説明する図である。
[Second embodiment]
Next, a second embodiment will be described. 17 to 21 are flowcharts for explaining file classification processing in the second embodiment. FIG. 22 is a diagram for explaining file classification processing in the second embodiment.
第2の実施の形態におけるファイル分類処理は、前方一致情報133のみでなく、後方一致情報134の参照及び更新についても行う。後方一致情報134は、ファイル名抽出部113が抽出したファイル名等のそれぞれと後方一致する関係にあるか否かの判定を行う文字列を含む情報である。以下、第1の実施の形態におけるファイル分類処理を異なる点についてのみ説明を行う。
The file classification process in the second embodiment is performed not only for the
情報受付部111は、図17に示すように、ファイル情報131を受け付けるまで待機する(S51のNO)。
As shown in FIG. 17, the
そして、ファイル情報131を受け付けた場合(S51のYES)、ファイル名抽出部113は、S51の処理で受け付けたファイル情報131から対象ファイルのファイル名等を抽出する(S52)。
When the
続いて、第1判定部114は、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にあるか否かを判定する(S53)。
Subsequently, the
その結果、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にないと判定した場合(S54のNO)、第1判定部114は、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された後方一致情報134に含まれる文字列と後方一致する関係にあるか否かを判定する(S55)。以下、後方一致情報134の具体例について説明を行う。
As a result, if it is determined that the character string corresponding to the file name or the like extracted in the process of S52 does not have a prefix match relationship with the character string included in the
[前方一致情報の具体例]
図22は、後方一致情報134の具体例について説明する図である。
[Specific example of prefix matching information]
FIG. 22 is a diagram illustrating a specific example of the
図22に示す後方一致情報134は、後方一致の判定に用いられる文字列が記憶される「文字列」と、各情報が生成(更新)されたエポック秒が記憶される「タイムスタンプ」とを項目として有する。
The
具体的に、図22に示す後方一致情報134において、1行目の情報には、「文字列」として「.exe」が記憶され、「タイムスタンプ」として「1551128942」が記憶されている。
Specifically, in the
また、図22に示す後方一致情報134において、2行目の情報には、「文字列」として「.dll」が記憶され、「タイムスタンプ」として「1551129621」が記憶されている。
In the
そのため、例えば、S52の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥98765.exe」であった場合、第1判定部114は、S52の処理で抽出したファイル名等に対応する文字列と、1行目の情報の「文字列」に記憶された文字列とが後方一致する関係にあると判定する。
Therefore, for example, when the character string corresponding to the file name extracted in the process of S52 is "c:\documents\test\.git\objects\a1\98765.exe", the
図17に戻り、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された後方一致情報134に含まれる文字列と後方一致する関係にないと判定した場合(S56のNO)、第2判定部115は、図18に示すように、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S61)。
Returning to FIG. 17, when it is determined that the character string corresponding to the file name extracted in the process of S52 does not have a backward matching relationship with the character string included in the
その結果、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S62のYES)、共通特定部116は、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にあるか否かを判定する(S63)。
As a result, if it is determined that the character string corresponding to the file name extracted in the process of S52 matches the regular expression included in the
そして、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にあると判定した場合(S64のYES)、共通特定部116は、S52の処理で抽出したファイル名等における文字列のうち、S63の処理で前方一致する関係にあると判定した文字列を特定する(S65)。
If it is determined that the character strings in the file name extracted in the process of S52 and the character strings contained in the
続いて、第3判定部117は、図19に示すように、S65の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S71)。
Subsequently, as shown in FIG. 19, the
その結果、S65の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S72のYES)、情報管理部112は、S65の処理で特定した文字列を前方一致情報133の少なくとも一部として情報格納領域130に記憶する(S73)。
As a result, when it is determined that the character string specified in the process of S65 matches the regular expression included in the
一方、S65の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合(S72のNO)、情報管理部112は、S73の処理を行わない。
On the other hand, if it is determined that the character string specified in the process of S65 does not match the regular expression included in the
また、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にないと判定した場合(S64のNO)、共通特定部116は、S65からS73の処理を行わない。
Also, if it is determined that the character string in the file name extracted in the process of S52 and the character string included in the
続いて、共通特定部116は、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが後方一致する関係にあるか否かを判定する(S74)。
Subsequently, the
その結果、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが後方一致する関係にあると判定した場合(S75のYES)、共通特定部116は、S52の処理で抽出したファイル名等における文字列のうち、S74の処理で後方一致する関係にあると判定した文字列を特定する(S76)。
As a result, if it is determined that the character string in the file name extracted in the process of S52 and the character string included in the
具体的に、例えば、S52の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥98765.exe」であり、一時格納情報135に含まれる文字列が「c:¥documents¥test¥.git¥objects¥a1¥76543.exe」であった場合、共通特定部116は、S52の処理で抽出したファイル名等に対応する文字列と、一時格納情報135に含まれる文字列とが後方一致する関係にあると判定する。そして、共通特定部116は、この場合、S52の処理で抽出したファイル名等に対応する文字列と、一時格納情報135に含まれる文字列とにおける共通部分である「.exe」を特定する。
Specifically, for example, the character string corresponding to the file name extracted in the process of S52 is "c:\documents\test\.git\objects\a1\98765.exe", which is included in the
さらに、第3判定部117は、図20に示すように、S76の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S81)。
Furthermore, as shown in FIG. 20, the
その結果、S73の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S82のYES)、情報管理部112は、S73の処理で特定した文字列を後方一致情報134の少なくとも一部として情報格納領域130に記憶する(S83)。
As a result, when it is determined that the character string specified in the process of S73 matches the regular expression included in the
一方、S73の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合(S82のNO)、情報管理部112は、S83の処理を行わない。
On the other hand, when it is determined that the character string specified in the process of S73 does not match the regular expression included in the
また、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが後方一致する関係にないと判定した場合(S75のNO)、共通特定部116は、S76からS83の処理を行わない。
Also, if it is determined that the character string in the file name extracted in the process of S52 and the character string included in the
その後、情報管理部112は、S65またはS76の処理において文字列を前方一致情報133または後方一致情報134として記憶したか否かを判定する(S84)。
After that, the
そして、S65またはS76の処理において文字列を記憶していないと判定した場合(S85のYES)、情報出力部118は、図21に示すように、例えば、S52の処理で抽出したファイル名等に対応するファイルが秘密情報を含むファイルでないことを示す情報を生成する(S92)。
Then, if it is determined in the process of S65 or S76 that the character string is not stored (YES in S85), the
その後、情報出力部118は、S92の処理で生成した情報を出力する(S94)。具体的に、情報出力部118は、例えば、S92の処理で生成した情報を情報処理装置1の出力装置(図示しない)に出力する。
After that, the
また、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にあると判定した場合(S54のYES)、または、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された後方一致情報134に含まれる文字列と後方一致する関係にあると判定した場合も同様に(S56のYES)、情報出力部118は、S92以降の処理を行う。
If it is determined that the character string corresponding to the file name or the like extracted in the process of S52 has a prefix matching relationship with the character string included in the
一方、S65またはS76の処理において文字列を記憶していると判定した場合(S85のYES)、情報管理部112は、図21に示すように、S52の処理で抽出したファイル名等における文字列を一時格納情報135として情報格納領域130に記憶する(S91)。そして、情報出力部118は、S42以降の処理を行う。
On the other hand, if it is determined in the process of S65 or S76 that the character string is stored (YES in S85), the
さらに、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合(S62のNO)、情報出力部118は、図21に示すように、S52の処理で抽出したファイル名等に対応するファイルが秘密情報を含むファイルであることを示す情報を生成する(S93)。そして、情報出力部118は、S94の処理を行う。
Furthermore, if it is determined that the character string corresponding to the file name or the like extracted in the process of S52 does not match the regular expression included in the
これにより、情報処理装置1は、対象ファイルのファイル名等と正規表現によって記述された正規表現情報132とのマッチング回数をより抑制することが可能になる。そのため、情報処理装置1は、対象ファイルの分類をより効率的に行うことが可能になる。
As a result, the
なお、情報管理部112は、例えば、後方一致情報134に含まれる情報のうち、タイムスタンプとして記憶された日時が現在日時よりも所定時間以上前になった情報を随時削除するものであってもよい。
Note that the
以上の実施の形態をまとめると、以下の付記のとおりである。 The above embodiments are summarized as follows.
(付記1)
文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定する第1判定部と、
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定する第2判定部と、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定する共通特定部と、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する情報管理部と、を有する、
ことを特徴とするファイル分類装置。
(Appendix 1)
a first determination unit that refers to a first storage unit that stores a character string and determines whether each file name of a plurality of files includes the character string;
When it is determined that each of the file names of the plurality of files does not contain the character string, a second storage unit storing a regular expression is referred to, and each of the file names of the plurality of files matches the regular expression. A second determination unit that determines whether or not
a common identification unit that identifies a common portion of character strings in the file names of the plurality of files when each of the file names of the plurality of files matches the regular expression;
an information management unit that further stores a character string corresponding to the identified common portion in the first storage unit when the identified common portion matches the regular expression;
A file classification device characterized by:
(付記2)
付記1において、
前記第1記憶部に記憶された文字列は、正規表現が用いられていない文字列である、
ことを特徴とするファイル分類装置。
(Appendix 2)
In
The character string stored in the first storage unit is a character string that does not use regular expressions,
A file classification device characterized by:
(付記3)
付記1において、
前記第1判定部は、前記第1記憶部を参照し、前記複数のファイルに含まれる第1ファイルが前記文字列を含むか否かを判定し、
前記第2判定部は、前記第1ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第1ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記情報管理部は、前記第1ファイルのファイル名が前記正規表現に適合する場合、前記第1ファイルのファイル名を第3記憶部に記憶し、さらに、
前記第1判定部は、前記情報管理部が前記第1ファイルのファイル名を記憶した後、前記第1記憶部を参照し、前記複数のファイルに含まれる第2ファイルが前記文字列を含むか否かを判定し、
前記第2判定部は、前記正規表現に適合するか否かを判定する処理では、前記第2ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第2ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記共通特定部は、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第3記憶部を参照し、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名とにおける文字列の共通部分を特定する、
ことを特徴とするファイル分類装置。
(Appendix 3)
In
The first determination unit refers to the first storage unit and determines whether a first file included in the plurality of files includes the character string,
The second determination unit, when determining that the first file does not contain the character string, refers to the second storage unit and determines whether the file name of the first file matches the regular expression. judge,
The information management unit stores the file name of the first file in a third storage unit when the file name of the first file matches the regular expression, and
The first determination unit refers to the first storage unit after the information management unit stores the file name of the first file, and determines whether a second file included in the plurality of files includes the character string. determine whether or not
In the process of determining whether or not the regular expression conforms to the regular expression, the second determination unit refers to the second storage unit when determining that the second file does not contain the character string. determining whether the filename of the file matches the regular expression;
When the file name of the second file matches the regular expression, the common identification unit refers to the third storage unit and selects one of the file names stored in the third storage unit and the second file. identify the common part of the string in the file name,
A file classification device characterized by:
(付記4)
付記3において、
前記情報管理部は、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第2ファイルのファイル名を前記第3記憶部に記憶する、
ことを特徴とするファイル分類装置。
(Appendix 4)
In
The information management unit stores the file name of the second file in the third storage unit when the file name of the second file matches the regular expression.
A file classification device characterized by:
(付記5)
付記3において、
前記共通特定部は、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名との間において、前方一致する文字列を前記共通部分として特定する、
ことを特徴とするファイル分類装置。
(Appendix 5)
In
The common identifying unit identifies, as the common part, a character string that matches the beginning of any of the file names stored in the third storage unit and the file name of the second file,
A file classification device characterized by:
(付記6)
付記3において、
前記共通特定部は、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名との間において、後方一致する文字列を前記共通部分として特定する、
ことを特徴とするファイル分類装置。
(Appendix 6)
In
The common identification unit identifies, as the common part, a character string that matches the end of any of the file names stored in the third storage unit and the file name of the second file,
A file classification device characterized by:
(付記7)
付記3において、さらに、
前記第1ファイルのファイル名が前記文字列を含むと判定した場合、前記第1ファイルが前記正規表現に適合することを示す情報を出力し、前記第2ファイルのファイル名が前記文字列を含むと判定した場合、前記第2ファイルが前記正規表現に適合することを示す情報を出力する情報出力部を有する、
ことを特徴とするファイル分類装置。
(Appendix 7)
In
when it is determined that the file name of the first file includes the character string, outputting information indicating that the first file matches the regular expression, and outputting information indicating that the file name of the second file includes the character string an information output unit that outputs information indicating that the second file matches the regular expression when it is determined that
A file classification device characterized by:
(付記8)
付記7において、
前記情報出力部は、前記第1ファイルのファイル名が前記正規表現に適合しない場合、前記第1ファイルが前記正規表現に適合しないことを示す情報を出力し、前記第2ファイルのファイル名が前記正規表現に適合しない場合、前記第2ファイルが前記正規表現に適合しないことを示す情報を出力する、
ことを特徴とするファイル分類装置。
(Appendix 8)
In Appendix 7,
The information output unit outputs information indicating that the first file does not match the regular expression when the file name of the first file does not match the regular expression, and the file name of the second file outputs information indicating that the file name of the second file does not match the regular expression. If the regular expression does not match, output information indicating that the second file does not match the regular expression;
A file classification device characterized by:
(付記9)
文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定し、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する、
処理をコンピュータに実行させることを特徴とするファイル分類プログラム。
(Appendix 9)
referring to the first storage unit storing the character string, determining whether each of the file names of the plurality of files includes the character string;
When it is determined that each of the file names of the plurality of files does not contain the character string, a second storage unit storing a regular expression is referred to, and each of the file names of the plurality of files matches the regular expression. determine whether or not
If each of the file names of the plurality of files matches the regular expression, identify a common portion of strings in the file names of the plurality of files;
If the identified common portion matches the regular expression, further storing a character string corresponding to the identified common portion in the first storage unit;
A file classification program characterized by causing a computer to execute processing.
(付記10)
付記9において、
前記文字列を含むか否かを判定する処理では、前記第1記憶部を参照し、前記複数のファイルに含まれる第1ファイルが前記文字列を含むか否かを判定し、
前記正規表現に適合するか否かを判定する処理では、前記第1ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第1ファイルのファイル名が前記正規表現に適合するか否かを判定し、さらに、
前記第1ファイルのファイル名が前記正規表現に適合する場合、前記第1ファイルのファイル名を第3記憶部に記憶する、
処理をコンピュータに実行させ、
前記文字列を含むか否かを判定する処理では、前記第1ファイルのファイル名を前記第3記憶部に記憶する処理の後、前記第1記憶部を参照し、前記複数のファイルに含まれる第2ファイルが前記文字列を含むか否かを判定し、
前記正規表現に適合するか否かを判定する処理では、前記第2ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第2ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記特定する処理では、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第3記憶部を参照し、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名とにおける文字列の共通部分を特定する、
ことを特徴とするファイル分類プログラム。
(Appendix 10)
In Appendix 9,
In the process of determining whether or not the character string is included, referring to the first storage unit, determining whether or not a first file included in the plurality of files includes the character string,
In the process of determining whether or not the regular expression matches the regular expression, when it is determined that the first file does not contain the character string, the second storage unit is referred to, and the file name of the first file is the regular expression. Determine whether or not the expression matches, and
storing the file name of the first file in a third storage if the file name of the first file matches the regular expression;
let the computer do the work,
In the process of determining whether or not the character string is included, after the process of storing the file name of the first file in the third storage unit, the first storage unit is referred to, and the file name included in the plurality of files is stored. determining whether the second file contains the character string;
In the process of determining whether or not the second file matches the regular expression, when it is determined that the second file does not contain the character string, the second storage unit is referred to, and the file name of the second file is the regular expression. Determine whether the expression matches,
In the specifying process, if the file name of the second file matches the regular expression, the third storage unit is referred to, and one of the file names stored in the third storage unit and the second file identify the common part of the string in the file name,
A file classification program characterized by:
(付記11)
文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定し、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する、
処理をコンピュータに実行させることを特徴とするファイル分類方法。
(Appendix 11)
referring to the first storage unit storing the character string, determining whether each of the file names of the plurality of files includes the character string;
When it is determined that each of the file names of the plurality of files does not contain the character string, a second storage unit storing a regular expression is referred to, and each of the file names of the plurality of files matches the regular expression. determine whether or not
If each of the file names of the plurality of files matches the regular expression, identify a common portion of strings in the file names of the plurality of files;
If the identified common portion matches the regular expression, further storing a character string corresponding to the identified common portion in the first storage unit;
A file classification method characterized in that processing is executed by a computer.
(付記12)
付記11において、
前記文字列を含むか否かを判定する処理では、前記第1記憶部を参照し、前記複数のファイルに含まれる第1ファイルが前記文字列を含むか否かを判定し、
前記正規表現に適合するか否かを判定する処理では、前記第1ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第1ファイルのファイル名が前記正規表現に適合するか否かを判定し、さらに、
前記第1ファイルのファイル名が前記正規表現に適合する場合、前記第1ファイルのファイル名を第3記憶部に記憶する、
処理をコンピュータに実行させ、
前記文字列を含むか否かを判定する処理では、前記第1ファイルのファイル名を前記第3記憶部に記憶する処理の後、前記第1記憶部を参照し、前記複数のファイルに含まれる第2ファイルが前記文字列を含むか否かを判定し、
前記正規表現に適合するか否かを判定する処理では、前記第2ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第2ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記特定する処理では、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第3記憶部を参照し、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名とにおける文字列の共通部分を特定する、
ことを特徴とするファイル分類方法。
(Appendix 12)
In Appendix 11,
In the process of determining whether or not the character string is included, referring to the first storage unit, determining whether or not a first file included in the plurality of files includes the character string,
In the process of determining whether or not the regular expression matches the regular expression, when it is determined that the first file does not contain the character string, the second storage unit is referred to, and the file name of the first file is the regular expression. Determine whether or not the expression matches, and
storing the file name of the first file in a third storage if the file name of the first file matches the regular expression;
let the computer do the work,
In the process of determining whether or not the character string is included, after the process of storing the file name of the first file in the third storage unit, the first storage unit is referred to, and the file name included in the plurality of files is stored. determining whether the second file contains the character string;
In the process of determining whether or not the second file matches the regular expression, when it is determined that the second file does not contain the character string, the second storage unit is referred to, and the file name of the second file is the regular expression. Determine whether the expression matches,
In the specifying process, if the file name of the second file matches the regular expression, the third storage unit is referred to, and one of the file names stored in the third storage unit and the second file identify the common part of the string in the file name,
A file classification method characterized by:
1:情報処理装置 2:管理装置
3:記憶装置 10:情報処理システム
NW:ネットワーク
1: information processing device 2: management device 3: storage device 10: information processing system NW: network
Claims (10)
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定する第2判定部と、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定する共通特定部と、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する情報管理部と、を有する、
ことを特徴とするファイル分類装置。 a first determination unit that refers to a first storage unit that stores a character string and determines whether each file name of a plurality of files includes the character string;
When it is determined that each of the file names of the plurality of files does not contain the character string, a second storage unit storing a regular expression is referred to, and each of the file names of the plurality of files matches the regular expression. A second determination unit that determines whether or not
a common identification unit that identifies a common portion of character strings in the file names of the plurality of files when each of the file names of the plurality of files matches the regular expression;
an information management unit that further stores a character string corresponding to the identified common portion in the first storage unit when the identified common portion matches the regular expression;
A file classification device characterized by:
前記第1記憶部に記憶された文字列は、正規表現が用いられていない文字列である、
ことを特徴とするファイル分類装置。 In claim 1,
The character string stored in the first storage unit is a character string that does not use regular expressions,
A file classification device characterized by:
前記第1判定部は、前記第1記憶部を参照し、前記複数のファイルに含まれる第1ファイルが前記文字列を含むか否かを判定し、
前記第2判定部は、前記第1ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第1ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記情報管理部は、前記第1ファイルのファイル名が前記正規表現に適合する場合、前記第1ファイルのファイル名を第3記憶部に記憶し、さらに、
前記第1判定部は、前記情報管理部が前記第1ファイルのファイル名を記憶した後、前記第1記憶部を参照し、前記複数のファイルに含まれる第2ファイルが前記文字列を含むか否かを判定し、
前記第2判定部は、前記正規表現に適合するか否かを判定する処理では、前記第2ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第2ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記共通特定部は、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第3記憶部を参照し、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名とにおける文字列の共通部分を特定する、
ことを特徴とするファイル分類装置。 In claim 1,
The first determination unit refers to the first storage unit and determines whether a first file included in the plurality of files includes the character string,
The second determination unit, when determining that the first file does not contain the character string, refers to the second storage unit and determines whether the file name of the first file matches the regular expression. judge,
The information management unit stores the file name of the first file in a third storage unit when the file name of the first file matches the regular expression, and
The first determination unit refers to the first storage unit after the information management unit stores the file name of the first file, and determines whether a second file included in the plurality of files includes the character string. determine whether or not
In the process of determining whether or not the regular expression conforms to the regular expression, the second determination unit refers to the second storage unit when determining that the second file does not contain the character string. determining whether the filename of the file matches the regular expression;
When the file name of the second file matches the regular expression, the common identification unit refers to the third storage unit and selects one of the file names stored in the third storage unit and the second file. identify the common part of the string in the file name,
A file classification device characterized by:
前記情報管理部は、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第2ファイルのファイル名を前記第3記憶部に記憶する、
ことを特徴とするファイル分類装置。 In claim 3,
The information management unit stores the file name of the second file in the third storage unit when the file name of the second file matches the regular expression.
A file classification device characterized by:
前記共通特定部は、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名との間において、前方一致する文字列を前記共通部分として特定する、
ことを特徴とするファイル分類装置。 In claim 3,
The common identifying unit identifies, as the common part, a character string that matches the beginning of any of the file names stored in the third storage unit and the file name of the second file,
A file classification device characterized by:
前記共通特定部は、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名との間において、後方一致する文字列を前記共通部分として特定する、
ことを特徴とするファイル分類装置。 In claim 3,
The common identification unit identifies, as the common part, a character string that matches the end of any of the file names stored in the third storage unit and the file name of the second file,
A file classification device characterized by:
前記第1ファイルのファイル名が前記文字列を含むと判定した場合、前記第1ファイルが前記正規表現に適合することを示す情報を出力し、前記第2ファイルのファイル名が前記文字列を含むと判定した場合、前記第2ファイルが前記正規表現に適合することを示す情報を出力する情報出力部を有する、
ことを特徴とするファイル分類装置。 In claim 3, further,
when it is determined that the file name of the first file includes the character string, outputting information indicating that the first file matches the regular expression, and outputting information indicating that the file name of the second file includes the character string an information output unit that outputs information indicating that the second file matches the regular expression when it is determined that
A file classification device characterized by:
前記情報出力部は、前記第1ファイルのファイル名が前記正規表現に適合しない場合、前記第1ファイルが前記正規表現に適合しないことを示す情報を出力し、前記第2ファイルのファイル名が前記正規表現に適合しない場合、前記第2ファイルが前記正規表現に適合しないことを示す情報を出力する、
ことを特徴とするファイル分類装置。 In claim 7,
The information output unit outputs information indicating that the first file does not match the regular expression when the file name of the first file does not match the regular expression, and the file name of the second file outputs information indicating that the file name of the second file does not match the regular expression. If the regular expression does not match, output information indicating that the second file does not match the regular expression;
A file classification device characterized by:
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定し、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する、
処理をコンピュータに実行させることを特徴とするファイル分類プログラム。 referring to the first storage unit storing the character string, determining whether each of the file names of the plurality of files includes the character string;
When it is determined that each of the file names of the plurality of files does not contain the character string, a second storage unit storing a regular expression is referred to, and each of the file names of the plurality of files matches the regular expression. determine whether or not
If each of the file names of the plurality of files matches the regular expression, identify a common portion of strings in the file names of the plurality of files;
If the identified common portion matches the regular expression, further storing a character string corresponding to the identified common portion in the first storage unit;
A file classification program characterized by causing a computer to execute processing.
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定し、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する、
処理をコンピュータに実行させることを特徴とするファイル分類方法。 referring to the first storage unit storing the character string, determining whether each of the file names of the plurality of files includes the character string;
When it is determined that each of the file names of the plurality of files does not contain the character string, a second storage unit storing a regular expression is referred to, and each of the file names of the plurality of files matches the regular expression. determine whether or not
If each of the file names of the plurality of files matches the regular expression, identify a common portion of strings in the file names of the plurality of files;
If the identified common portion matches the regular expression, further storing a character string corresponding to the identified common portion in the first storage unit;
A file classification method characterized in that processing is executed by a computer.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019090074A JP7235966B2 (en) | 2019-05-10 | 2019-05-10 | File classification device, file classification program and file classification method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019090074A JP7235966B2 (en) | 2019-05-10 | 2019-05-10 | File classification device, file classification program and file classification method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020187429A JP2020187429A (en) | 2020-11-19 |
| JP7235966B2 true JP7235966B2 (en) | 2023-03-09 |
Family
ID=73223470
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019090074A Active JP7235966B2 (en) | 2019-05-10 | 2019-05-10 | File classification device, file classification program and file classification method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7235966B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7775572B2 (en) * | 2021-02-22 | 2025-11-26 | 沖電気工業株式会社 | Text classification device, method, and program |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014235500A (en) | 2013-05-31 | 2014-12-15 | キヤノンマーケティングジャパン株式会社 | Document management server, document management server control method, and program |
| JP2017102966A (en) | 2011-09-07 | 2017-06-08 | シマンテック コーポレーションSymantec Corporation | Automatic separation of corporate and private data for backup and archiving |
| JP2017207876A (en) | 2016-05-17 | 2017-11-24 | 富士通株式会社 | Dump mask program, dump mask method, and information processing apparatus |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019028788A (en) * | 2017-07-31 | 2019-02-21 | 富士通株式会社 | Confidential word identification device, confidential word identification method, and confidential word identification program |
-
2019
- 2019-05-10 JP JP2019090074A patent/JP7235966B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017102966A (en) | 2011-09-07 | 2017-06-08 | シマンテック コーポレーションSymantec Corporation | Automatic separation of corporate and private data for backup and archiving |
| JP2014235500A (en) | 2013-05-31 | 2014-12-15 | キヤノンマーケティングジャパン株式会社 | Document management server, document management server control method, and program |
| JP2017207876A (en) | 2016-05-17 | 2017-11-24 | 富士通株式会社 | Dump mask program, dump mask method, and information processing apparatus |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020187429A (en) | 2020-11-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9208450B1 (en) | Method and apparatus for template-based processing of electronic documents | |
| US10326792B2 (en) | Virus intrusion route identification device, virus intrusion route identification method, and program | |
| RU2580036C2 (en) | System and method of making flexible convolution for malware detection | |
| JP5569935B2 (en) | Software detection method, apparatus and program | |
| JP5650982B2 (en) | Apparatus and method for eliminating file duplication | |
| JP6799255B2 (en) | Job power consumption estimation program, parallel processing device and job power consumption estimation method | |
| JP2018113034A (en) | Binary search of byte sequences using inverted indices | |
| US10540325B2 (en) | Method and device for identifying junk picture files | |
| JPWO2018021163A1 (en) | Signature creation apparatus, signature creation method, recording medium having signature creation program recorded therein, and software determination system | |
| JP7235966B2 (en) | File classification device, file classification program and file classification method | |
| JP6350296B2 (en) | Processing program, processing apparatus, and processing method | |
| CN117493169A (en) | A method, device, equipment and medium for detecting API behavior incompatibility between Java dependency library versions | |
| JP7314243B2 (en) | How to Generate Malicious Behavior Feature Information for Malware | |
| JPWO2020065778A1 (en) | Information processing equipment, control methods, and programs | |
| JP2008097249A (en) | Technique for replacing instruction string in program into higher-speed instruction | |
| RU2583712C2 (en) | System and method of detecting malicious files of certain type | |
| US8775746B2 (en) | Information processing system and method | |
| JPWO2020105308A1 (en) | Phishing site detector, phishing site detection method, and phishing site detection program | |
| CN111695327B (en) | A method, device, electronic equipment and readable storage medium for repairing garbled characters | |
| WO2021106306A1 (en) | Label assignment device and label assignment program | |
| JP6730596B2 (en) | File presentation program, file presentation device, and file presentation method | |
| US12519649B2 (en) | Image fingerprinting based on fuzzy hashing | |
| JP6124640B2 (en) | Document management apparatus, information processing method, and program | |
| WO2025109682A1 (en) | Estimation device, estimation method, and estimation program | |
| KR102289411B1 (en) | Weighted feature vector generation device and method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220208 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221214 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230124 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230206 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7235966 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |