JP7243402B2 - DOCUMENT PROCESSING METHOD, DOCUMENT PROCESSING PROGRAM AND INFORMATION PROCESSING DEVICE - Google Patents
DOCUMENT PROCESSING METHOD, DOCUMENT PROCESSING PROGRAM AND INFORMATION PROCESSING DEVICE Download PDFInfo
- Publication number
- JP7243402B2 JP7243402B2 JP2019075907A JP2019075907A JP7243402B2 JP 7243402 B2 JP7243402 B2 JP 7243402B2 JP 2019075907 A JP2019075907 A JP 2019075907A JP 2019075907 A JP2019075907 A JP 2019075907A JP 7243402 B2 JP7243402 B2 JP 7243402B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- documents
- document
- interest
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文書処理方法等に関する。 The present invention relates to a document processing method and the like.
フィールドで稼働する製品に障害が発生した場合、保守作業員は、対象製品の修理を行うと共に、障害内容を記載した障害レポート(MR:Maintenance Report)を作成し、保守管理部門等に報告する。 When a failure occurs in a product operating in the field, a maintenance worker repairs the target product, prepares a failure report (MR) describing the details of the failure, and reports it to the maintenance management department.
保守管理部門では、報告された複数のMRに対して分析を行い、たとえば、発生件数の多い障害を検出する。保守管理部門では、検出した発生件数の多い障害内容および対策を文書化し、フィールドに周知させることで、製品に起こり得る障害を未然に防止する。 The maintenance department analyzes a plurality of reported MRs to detect, for example, failures that occur frequently. The maintenance management department documents the content of the most frequently detected failures and countermeasures, and disseminates them to the field to prevent failures that may occur in products.
製品を販売する会社は、上記のような取り組みを繰り返し実行することで、製品の保守性や品質を向上させている。かかる取り組みのサイクルを迅速に行うため、現状では人手に頼っているMRの分析作業をAI(artificial intelligence)を用いて効率化することが求められている。 A company that sells products improves the maintainability and quality of its products by repeatedly implementing the above-described measures. In order to speed up the cycle of such efforts, there is a need to use AI (artificial intelligence) to improve the efficiency of MR analysis work, which currently relies on human labor.
これまで、MRの記述内容は、表記揺れや同義語、類義語を含んでおり、同一の障害のMRであるか否かの判断を、コンピュータが実行することは難しかった。しかし、単語の分散表現を活用することで、単語をベクトル化し、表記揺れや同義語、類義語を含むMRを対応付けることが可能となっている。たとえば、各単語のベクトルを重み付き合成によって文書(MR)のベクトルを算出し、文書間の類似性を定量化する従来技術もある。 Until now, descriptions of MRs have included spelling variations, synonyms, and synonyms, and it has been difficult for a computer to determine whether or not MRs have the same disorder. However, by utilizing the distributed representation of words, it is possible to vectorize words and associate MRs including spelling variations, synonyms, and synonyms. For example, there is also a prior art that calculates a document (MR) vector by weighted synthesis of each word vector and quantifies the similarity between documents.
また、文書のベクトルを用いて、文書間の類似度を算出し、類似度の高い文書同士を同一のクラスタに分類する従来技術(クラスタリング)がある。たとえば、各MRの類似度を基にして、クラスタリングを行い、所定数以上のMRが含まれるクラスタを、発生件数の多い障害に対応するMRのクラスタとして見なすことが可能である。 There is also a conventional technique (clustering) that calculates similarity between documents using vectors of documents and classifies documents with high similarity into the same cluster. For example, it is possible to perform clustering based on the similarity of each MR, and regard a cluster containing a predetermined number or more of MRs as a cluster of MRs corresponding to failures that occur frequently.
たとえば、互いに類似度が1となるMRのみで構成されるクラスタは、同一障害のクラスタと見なすことができるが、多発障害の検出漏れを抑制するためには、類似度の閾値を1未満にしたほうがよい。 For example, a cluster consisting of only MRs with a similarity of 1 can be regarded as a cluster with the same failure. Better.
MRには障害内容を記述した文以外の文が含まれている場合もあり、かかるMRに対してクラスタリングを実行すると、共通する障害内容を記述していないMR同士が同一のクラスタに分類され、適切なクラスタが生成されない。 MRs may contain sentences other than the sentence describing the failure details, and when clustering is performed on such MRs, MRs that do not describe common failure details are classified into the same cluster, Proper clusters are not generated.
MRは、一般的な文書と比べ文字数および文数が非常に少ないという特徴があり、MRに含まれる障害内容と関係のない文の存在が、クラスタリングの結果に影響を与えやすい。 MRs are characterized by having a very small number of characters and sentences compared to general documents, and the existence of sentences unrelated to the content of failures contained in MRs tends to affect the results of clustering.
たとえば、MR「syn flood攻撃の検知が頻発。対処方法を教えて欲しい。」には、文A「syn flood攻撃の検知が頻発。」と、文B「対処方法を教えて欲しい。」とを含んでいる。この文A、文Bのうち、文Aは、障害内容を記述した文であり、文Bは、障害内容を記述した文ではない。 For example, the MR "Syn flood attacks are frequently detected. Please tell me how to deal with them." contains. Of these sentences A and B, sentence A is a sentence describing the content of failure, and sentence B is not a sentence describing the content of failure.
ここで、文Aを含むMRの件数よりも、文Bを含むMRの件数の方が多い場合、障害内容に関わりなく、文Bを含むMRが一つのクラスタ(第1クラスタ)に分類される。第1クラスタに含まれるMRの件数は多くなるが、かかる第1クラスタは、障害内容とは関わりのない文Bを共通に持つMRのクラスタであるため、かかる第1クラスタを検出すると、誤検知の発生に繋がる。 Here, when the number of MRs including sentence B is larger than the number of MRs including sentence A, the MRs including sentence B are classified into one cluster (first cluster) regardless of the fault content. . The number of MRs included in the first cluster increases, but since this first cluster is a cluster of MRs that have in common the sentence B that is not related to the content of the failure, when this first cluster is detected, false positives occur. lead to the occurrence of
また、文Aを含み、文Bを含まないMRは、文Bを含むMRとは別のクラスタ(第2クラスタ)に分類される。第2クラスタは、障害内容に対応するMRを分類したクラスタであるにもかかわらず、文Aと文B両方を含むMRは第1クラスタに属してしまうため、第2クラスタに含まれるMRの件数が少なくなるので、かかる第2クラスタは検出対象から除外され、検出漏れが発生する。 Also, MRs containing sentence A but not B are classified into a cluster (second cluster) different from MRs containing sentence B. FIG. Although the second cluster is a cluster that classifies MRs corresponding to failure details, MRs that include both sentences A and B belong to the first cluster, so the number of MRs included in the second cluster becomes smaller, the second cluster is excluded from detection targets, and detection omission occurs.
このため、MR等の文書から、障害内容等を記述した所定の文を残しつつ、他の文を文書から除外することが求められている。 For this reason, it is required to exclude other sentences from documents such as MRs, while leaving predetermined sentences describing the details of failures and the like.
1つの側面では、本発明は、障害内容を記述した文を残しつつ、障害内容とは関係のない他の文を文書から除外することができる文書処理方法、文書処理プログラムおよび情報処理装置を提供することを目的とする。 In one aspect, the present invention provides a document processing method, a document processing program, and an information processing apparatus capable of leaving a sentence describing the content of a failure while excluding other sentences unrelated to the content of the failure from the document. intended to
第1の案では、コンピュータは、以下の処理を実行する。コンピュータは、一文または複数文から構成される複数の文書を取得する。コンピュータは、複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定する。コンピュータは、複数の文書の中から、特定した第一着目文を含む複数文から構成される複数の第一文書を取得する。コンピュータは、取得した複数の第一文書の中から、特定した第一着目文以外の一文から構成される第二着目文を特定する。コンピュータは、複数の文書の中から、第二着目文を含む複数文から構成される複数の第二文書を取得する。コンピュータは、複数の第一文書および複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、複数の文書の中から第二着目文を除外する。 In the first alternative, the computer performs the following processes. A computer obtains a plurality of documents consisting of one or more sentences. The computer identifies a first sentence of interest composed of a sentence that satisfies a preset condition from among a plurality of documents. The computer acquires a plurality of first documents composed of a plurality of sentences including the specified first sentence of interest from among the plurality of documents. The computer identifies a second sentence of interest composed of a sentence other than the identified first sentence of interest from among the plurality of acquired first documents. The computer acquires a plurality of second documents composed of a plurality of sentences including the second sentence of interest from among the plurality of documents. The computer selects a second sentence of interest from among the plurality of documents based on the relationship between the number of identical documents included in each of the plurality of first documents and the plurality of second documents and the number of documents other than the identical document. exclude.
障害内容を記述した文を残しつつ、障害内容とは関係のない他の文を文書から除外することができる。 Other sentences unrelated to the content of the failure can be excluded from the document while leaving the sentence describing the content of the failure.
以下に、本願の開示する文書処理方法、文書処理プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。 Exemplary embodiments of the document processing method, the document processing program, and the information processing apparatus disclosed in the present application will be described below in detail with reference to the drawings. In addition, this invention is not limited by this Example.
図1は、本実施例に係る情報処理装置の処理を説明するための図である。情報処理装置は、複数の文書(たとえば、MR)から、障害内容を記述した文1aを含み、他の文を含まない文書S1を検出する。
FIG. 1 is a diagram for explaining the processing of the information processing apparatus according to the embodiment. The information processing device detects a document S1 that includes a
また、情報処理装置は、文1aと他の文を含む文書M1,M2,M3(および他の文書)と、文1aを含まないM4、M5(および他の文書)とを検出する。図1において、文1a,文2aは、それぞれ異なる障害内容を記述した文とする。文1b,文1c、他の文は、障害内容が記述された文か否かが不明な文とする。
The information processing device also detects documents M1, M2, and M3 (and other documents) containing
同一の文書において、障害内容を記述した文1aと共起する他の文は、障害内容を記述した文、または、障害内容を記述していない文のいずれかとなる。また、障害内容を記述していない文は、特定の障害内容とは関わりなく、障害内容を記述した文と共起することが多いという特徴がある。逆に言えば、様々な障害を記述する文と共起する文は障害内容を記述していないといえる。
In the same document, other sentences co-occurring with the
ここで、各文書M1~M5を、区分10A,10B,10Cに分類する。区分10Aは、文1aと、文1bとが共起しており、かつ、文1cを含まない文書M2,M3(図示しない他の文書)を含む。区分10Bは、文2aと、文1cとが共起している文書M4,M5(図示しない他の文書)を含む。区分10Cは、文1aと、文1bと、文1cとが共起している文書M1を含む。
Here, each document M1 to M5 is classified into
ここで、区分10Aに含まれる、文書M2、M3および図示しない他の文書は、文1aと、文1bとが共起しており「文1bは、文1aの障害内容と関係のある文」と言える。一方、区分10Bにおいて、文1cは、文1aとは異なる障害内容を記述した、文2aと共起しているため、「文1cは、文1aの障害内容と関係のない文」と言える。このため、情報処理装置は、文書M1から、文1cを除外する。
Here, documents M2, M3 and other documents (not shown) included in
上記のように、本実施例に係る情報処理装置は、着目した障害内容を記述した文を含む文書を検出し、検出した文書のうち、複数の文を含む文書について、着目した障害内容に関係のある文(障害内容を記述した文)を残す。また、情報処理装置は、着目した障害内容に関係のない文(障害内容を記述していない文)を削除する処理を行う。このように、障害内容を記述した文に関連する文を残し、関連しない文を削除することができるので、クラスタリング処理による障害検出において、誤検知や検出もれを抑止することができる。 As described above, the information processing apparatus according to the present embodiment detects a document including a sentence describing the failure content of interest, and among the detected documents, a document including a plurality of sentences is related to the failure content of interest. Leave a sentence with In addition, the information processing device performs processing for deleting sentences unrelated to the focused failure content (sentences not describing the failure content). In this way, sentences related to the sentence describing the content of the failure can be left, and sentences not related can be deleted. Therefore, in failure detection by clustering processing, erroneous detection and detection omission can be suppressed.
次に、本実施例に係る情報処理装置の構成の一例について説明する。図2は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図2に示すように、この情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
Next, an example of the configuration of the information processing apparatus according to this embodiment will be described. FIG. 2 is a functional block diagram showing the configuration of the information processing apparatus according to this embodiment. As shown in FIG. 2 , this information processing apparatus 100 has a communication section 110 , an input section 120 , a
通信部110は、ネットワークを介して外部装置とデータ通信を実行する処理部である。通信部110は、通信装置の一例である。後述する制御部150は、通信部110を介して、データをやり取りする。たとえば、通信部110は、障害内容を記述した文書の情報を外部装置から受信する。 The communication unit 110 is a processing unit that performs data communication with an external device via a network. Communication unit 110 is an example of a communication device. A control unit 150 , which will be described later, exchanges data via the communication unit 110 . For example, the communication unit 110 receives information of a document describing the details of the failure from the external device.
入力部120は、情報処理装置100に各種の情報を入力するための入力装置である。たとえば、入力部120は、キーボードやマウス、タッチパネル等に対応する。利用者は、入力部120を操作して、障害内容を記述した文書の情報を、情報処理装置100に入力してもよい。 The input unit 120 is an input device for inputting various kinds of information to the information processing device 100 . For example, the input unit 120 corresponds to a keyboard, mouse, touch panel, and the like. The user may operate the input unit 120 to input the information of the document describing the content of the failure to the information processing apparatus 100 .
表示部130は、制御部150から出力される各種の情報を表示する表示装置である。表示部130は、液晶ディスプレイ、タッチパネル等の表示装置に対応する。
The
記憶部140は、文書DB(Data Base)141と、セットSテーブル142と、セットMテーブル143と、判別モデルテーブル145とを有する。記憶部140は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。 The storage unit 140 has a document DB (Data Base) 141 , a set S table 142 , a set M table 143 and a discrimination model table 145 . The storage unit 140 corresponds to semiconductor memory devices such as RAM (Random Access Memory), ROM (Read Only Memory), flash memory, and storage devices such as HDD (Hard Disk Drive).
文書DB141は、障害内容を記述した複数の文書(MR)の情報を登録するデータベースである。図3は、文書DBのデータ構造の一例を示す図である。図3に示すように、この文書DB141は、文書識別情報と、文書情報とを対応付ける。文書識別情報は、文書を一意に識別する情報である。文書情報は、障害内容を記述した一つの文または複数の文を含む文書の情報である。たとえば、一つの文書情報に含まれる各文は、句読点によって、他の文と区分される。
The
図3において、文書識別情報「MR1」に対応する文書情報は「syn flood攻撃が検知されました。対処方法を教えてください。」である。この文書情報には、文「syn flood攻撃が検知されました。」と、文「対処方法をおしえてください。」とを含む。 In FIG. 3, the document information corresponding to the document identification information "MR1" is "A syn flood attack has been detected. Please tell me how to deal with it.". This document information includes the sentence "A syn flood attack has been detected." and the sentence "Please tell me how to deal with it."
図3において、文書識別情報「MR100」に対応する文書情報は「syn flood攻撃が検知されました。」である。この文書情報は、文「syn flood攻撃が検知されました。」を含む。このように、文書情報に一つの文しか含まれない場合、かかる一つの文は、障害内容を記述した文と見なす事ができる。 In FIG. 3, the document information corresponding to the document identification information "MR100" is "A syn flood attack was detected." This document information includes the sentence "A syn flood attack was detected." In this way, when the document information contains only one sentence, the one sentence can be regarded as a sentence describing the details of the failure.
セットSテーブル142は、文書DB141に登録された各文書情報のうち、一つの文を含む文書情報を登録するテーブルである。図4は、セットSテーブルのデータ構造の一例を示す図である。図4に示すように、このセットSテーブル142は、文書識別情報と、文書情報(一つの文)とを対応付ける。
The set S table 142 is a table for registering document information including one sentence among the document information registered in the
セットMテーブル143は、文書DB141に登録された各文書情報のうち、複数の文を含む文書情報を登録するテーブルである。図5は、セットMテーブルのデータ構造の一例を示す図である。図5に示すように、このセットMテーブル143は、文書識別情報と、文書情報(複数の文)とを対応付ける。
The set M table 143 is a table for registering document information including a plurality of sentences among the document information registered in the
セットM’テーブル144は、セットMテーブル143に登録される文書情報を、一文毎に分割した情報を登録するテーブルである。図6は、セットM’テーブルのデータ構造の一例を示す図である。図6に示すように、このセットM’テーブル144は、文書識別情報と、文書サブ識別情報と、削除フラグと、文書情報とを対応付ける。文書識別情報は、図5で説明した文書識別情報に対応する。文書サブ識別情報は、複数文の文書情報に含まれる各文をそれぞれ識別する情報である。削除フラグは、対応する文書情報を削除するか否かを示すフラグである。削除する場合には「オン」となり、削除しない場合には「オフ」となる。削除フラグは、後述する除外処理部154に設定される。削除フラグの初期値は「オフ」である。文書情報は、一つの文の情報である。 The set M' table 144 is a table for registering information obtained by dividing the document information registered in the set M table 143 for each sentence. FIG. 6 is a diagram showing an example of the data structure of the set M' table. As shown in FIG. 6, this set M' table 144 associates document identification information, document sub-identification information, deletion flags, and document information. The document identification information corresponds to the document identification information described with reference to FIG. The document sub-identification information is information for identifying each sentence included in document information of multiple sentences. The deletion flag is a flag indicating whether or not to delete the corresponding document information. If it is to be deleted, it is "on", and if it is not to be deleted, it is "off". The deletion flag is set in the exclusion processing unit 154, which will be described later. The initial value of the delete flag is "off". Document information is information of one sentence.
判別モデルテーブル145は、対象文書情報と類似する文書であるか否かを判定するモデルを登録するテーブルである。図7は、判別モデルテーブルのデータ構造の一例を示す図である。図7に示すように、この判別モデルテーブル145は、対象文書識別情報と、判別モデルとを対応付ける。対象文書識別情報は、判別モデルの対象となった文書情報の文書識別情報、または、文書サブ識別情報(後述する)を示す情報である。判別モデルは、対象文書識別情報の文書と類似する文書を判別するための判別モデルの情報である。 The determination model table 145 is a table for registering a model for determining whether or not a document is similar to the target document information. FIG. 7 is a diagram showing an example of the data structure of a discriminant model table. As shown in FIG. 7, the discriminant model table 145 associates target document identification information with discriminant models. The target document identification information is information indicating the document identification information of the document information that is the target of the discriminant model, or document sub-identification information (described later). The discriminant model is information of a discriminant model for discriminating a document similar to the document of the target document identification information.
図2の説明に戻る。制御部150は、取得部151と、第一特定部152と、第二特定部153と、除外処理部154と、検出部155とを有する。制御部150は、CPUやMPU(Micro Processing Unit)などによって実現できる。また、制御部150は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
Returning to the description of FIG. The control unit 150 has an acquisition unit 151 , a
取得部151は、ネットワークを介して、外部装置等から、障害内容を記述した文書情報を取得し、取得した文書情報を、文書DB141に登録する。文書情報に対応する文書識別情報は、文書情報に予め設定されていてもよいし、取得部151が、文書情報にユニークな文書識別情報を割り当ててもよい。取得部151は、入力部120を介して、文書情報を取得してもよい。
The acquisition unit 151 acquires document information describing the details of the failure from an external device or the like via the network, and registers the acquired document information in the
第一特定部152は、文書DB141に含まれる複数の文書情報のうち、一文から構成される文書情報を特定し、特定した文書情報および文書識別情報を、セットSテーブル142に登録する。
The
また、第一特定部152は、セットSテーブル142に登録された各文書情報(文)から一つの文S1を選択し、下記の処理を実行することにより、文S1と類似する文を判別する判別モデルを生成する。
Further, the first identifying
第一特定部152が、判別モデルを生成する処理の一例について説明する。第一特定部152は、文S1と、セットSテーブル142に含まれる各文(文S1を含む)との類似度をそれぞれ算出し、セットSテーブル142に含まれる各文のうち、類似度上位の文を特定する。
An example of a process of generating a discriminant model by the first identifying
たとえば、第一特定部152は、word2vec等と同様にして、文に含まれる各単語のベクトルを算出し、文に含まれる各単語のベクトルを積算することで、文のベクトルを算出する。第一特定部152は、文S1のベクトルと、セットSテーブル142に登録された各文のベクトルとの距離をそれぞれ類似度として算出する。第一特定部152は、ベクトル間の距離が近いほど、類似度を大きくする。第一特定部152は、類似度の降順に、文をソートし、上位nに含まれる文を、類似度上位の文として特定する。
For example, the first identifying
第一特定部152は、特定した類似度上位の文を「正例」としたPU(Positive Unlabeled)学習を行い、文S1に類似する文であるか否かを判別する判別モデルを生成する。第一特定部152は、文S1を識別する対象文書識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル145に登録する。
The first identifying
ここで、PU学習は、訓練データとして、一部の正例のみが与えられている場合に機械学習を行う学習法である。PU学習により学習される判別モデルは、正負不明のデータに対して正例確率を推定する推定モデルである。また、PU学習により学習される判別モデルは、算出された正例確率によって重みづけされた判別モデルである。なお、以降の処理においてはこのPU学習を用いているが、類似度が低い文を負例とみなして通常の機械学習方式を用いて判別モデルを構築することもできる。 Here, PU learning is a learning method that performs machine learning when only some positive examples are given as training data. A discriminant model learned by PU learning is an estimation model for estimating the probability of a positive case for data whose positive or negative is unknown. Also, the discriminant model learned by PU learning is a discriminant model weighted by the calculated positive case probability. Although this PU learning is used in the subsequent processing, it is also possible to regard sentences with low similarity as negative examples and construct a discriminant model using a normal machine learning method.
たとえば、第一特定部152は、PU学習を行う場合に、確率変数x、y、zを定義する。ここで、x∈R(実数全体),y∈{-1,1},s∈{0,1}とする。xは、入力(文のベクトル)、yはクラスラベル(負例=-1,正例=1)、sはデータがラベリングされているか否か(ラベリングされていないs=0,ラベルされている=1)を示す。
For example, the first identifying
まず、第一特定部152は、p(s=1|x)の推定モデルを学習する。上記のように、類似度上位の文には「正例」ラベルが付与され(s=1)、他の文にはラベルが付与されていない(s=0)ので、ラベルが付与されているデータ(文のベクトル)は、正例である。このため、p(s=1|x)の推定モデルは、「正例らしさの確率」を推定するモデルであると言える。第一特定部152は、たとえば、NN(Neural Network)のパラメータを調整する学習を行うことで、p(s=1|x)の推定モデルを学習する。
First, the first identifying
続いて、第一特定部152は、p(s=1|x)の推定モデルの出力を正例らしさと見なして、判別モデルp(y=1|x)=p(s=1|x)/p(s=1|y=1)を学習する。第一特定部152は、NNのパラメータを調整する学習を行うことで、p(y=1|x)の判別モデルを学習する。この判別モデルに、文のベクトルを入力すると、文S1に類似する文である確からしさが出力される。
Subsequently, the
第一特定部152は、セットSテーブル142に登録された他の文(S2~Sn)についても、文S1と同様の処理を実行することで、判別モデルを生成し、対象文識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル145に登録する。
The
第二特定部153は、文書DB141に含まれる複数の文書情報のうち、複数文から構成される文書情報を特定し、特定した文書情報および文書識別情報を、セットMテーブル143に登録する。
The second identifying unit 153 identifies document information composed of a plurality of sentences among a plurality of pieces of document information contained in the
第二特定部153は、セットMテーブル143を基にして、セットM’テーブル144を生成する。たとえば、第二特定部153は、セットMテーブル143のレコードを選択し、選択したレコードに含まれる複数文を、一文毎に分割し、各文に文書サブ識別情報を割り当てる。第二特定部153は、文書識別情報と、文書サブ識別情報と、文書情報(一つの文)とを対応付けて、セットM’テーブル144に登録する。 The second identifying unit 153 generates a set M' table 144 based on the set M table 143. FIG. For example, the second identifying unit 153 selects a record of the set M table 143, divides multiple sentences included in the selected record into individual sentences, and assigns document sub-identification information to each sentence. The second specifying unit 153 registers the document identification information, the document sub-identification information, and the document information (one sentence) in the set M′ table 144 in association with each other.
第二特定部153は、判別モデルテーブル145に含まれる各文の判別モデルから、文S1の判別モデルを取得する。第二特定部153は、セットM’テーブル144に含まれる各文書情報(一つの文)を、文S1の判別モデルに適用することで、セットM’テーブル144に含まれる各文書情報のうち、文S1と類似する文書情報を特定する。 The second identifying unit 153 acquires the discriminant model of the sentence S1 from the discriminant model of each sentence included in the discriminant model table 145 . The second identifying unit 153 applies each piece of document information (one sentence) included in the set M′ table 144 to the discriminant model of the sentence S1, thereby, among the pieces of document information included in the set M′ table 144, Document information similar to sentence S1 is specified.
たとえば、第二特定部153は、セットM’テーブル144に含まれる文書情報のベクトルを、判別モデルに入力し、判別モデルから出力される確からしさの値が、閾値以上である場合に、文書情報が、文S1と類似する文書情報として特定する。 For example, the second identifying unit 153 inputs the vector of the document information included in the set M′ table 144 to the discriminant model, and if the likelihood value output from the discriminant model is equal to or greater than a threshold, the document information is specified as document information similar to the sentence S1.
第二特定部153は、特定した文S1と類似する文書情報の文書サブ識別情報と、セットM’テーブル144とを比較して、係る文書サブ識別情報に対応する文書識別情報を特定し、特定した文書識別情報を、リストL1(S1)として生成する。 The second identifying unit 153 compares the document sub-identification information of the document information similar to the identified sentence S1 with the set M' table 144 to identify the document identification information corresponding to the document sub-identification information. The document identification information obtained is generated as a list L1 (S1).
第二特定部153は、文S2~Snについても、文S1と同様の処理を行い、リストL1(S2)~リストL1(Sn)を生成する。 The second identification unit 153 performs the same processing as for sentence S1 on sentences S2 to Sn to generate lists L1(S2) to L1(Sn).
除外処理部154は、下記の処理を実行することで、セットMテーブル143の文書情報(複数文)から、障害内容と関係のない文を除外する処理部である。たとえば、除外処理部154は、判別モデルを生成する処理、リストL2を生成する処理、削除フラグを設定する処理、除外する処理を行う。 The exclusion processing unit 154 is a processing unit that excludes sentences unrelated to the failure content from the document information (plural sentences) in the set M table 143 by executing the following processing. For example, the exclusion processing unit 154 performs a process of generating a discriminant model, a process of generating a list L2, a process of setting a deletion flag, and a process of excluding.
除外処理部154が実行する「判別モデルを生成する処理」について説明する。ここでは一例として、リストL1(S1)を用いて説明する。除外処理部154は、リストL1(S1)に含まれる文書情報に含まれる複数文のうち、文S1と類似しない文を選択し、選択した文の判別モデルを生成する。 The “process for generating a discriminant model” executed by the exclusion processing unit 154 will be described. Here, as an example, the list L1 (S1) will be used for explanation. The exclusion processing unit 154 selects sentences that are not similar to sentence S1 from among multiple sentences included in the document information included in list L1 (S1), and generates a discrimination model for the selected sentences.
図8は、除外処理部の処理の一例を説明するための図(1)である。図8に示すように、たとえば、リストL1(S1)には、文書識別情報MR1、MR2、・・・、MR10が登録されているものとする。また、文書識別情報MR1の文書には、文書サブ識別情報T11,T12が含まれる。文書サブ識別情報T11の文が、文S1と類似する文とすると、除外処理部154は、文書サブ識別情報T12の文を選択し、選択した文の判別モデルを生成する。除外処理部154は、リストL1(S1)に含まれる文書識別情報MR2、・・・MR10の文書についても、文S1と類似しない文を選択し、選択した文の判別モデルを生成する。 FIG. 8 is a diagram (1) for explaining an example of the processing of the exclusion processing unit; As shown in FIG. 8, for example, it is assumed that document identification information MR1, MR2, . Document sub-identification information T11 and T12 are included in the document with document identification information MR1. Assuming that the sentence with the document sub-identification information T11 is similar to the sentence S1, the exclusion processing unit 154 selects the sentence with the document sub-identification information T12 and generates a discrimination model for the selected sentence. The exclusion processing unit 154 also selects sentences that are not similar to the sentence S1 from among the documents with the document identification information MR2, .
一例として、文書サブ識別情報T11の判別モデルを生成する処理の一例について説明する。以下の説明では、文書サブ識別情報T12の文書情報を「文T12」と表記する。除外処理部154は、文T12と、セットM’データに含まれる各文(文T12を含む)との類似度をそれぞれ算出し、セットM’テーブルに含まれる各文のうち、類似度上位の文を特定する。除外処理部154が、各文の類似度を算出する処理は、第一特定部152と同様にして、文のベクトルを用いる。
As an example, an example of processing for generating a discriminant model of document sub-identification information T11 will be described. In the following description, the document information of the document sub-identification information T12 is referred to as "sentence T12". The exclusion processing unit 154 calculates the degree of similarity between the sentence T12 and each sentence (including the sentence T12) included in the set M′ data, and selects sentences with the highest similarity among the sentences included in the set M′ table. Identify sentences. Similar to the
除外処理部154は、特定した類似度上位の文を「正例」としたPU学習を行い、文T12に類似する文であるか否かを判別する判別モデルを生成する。除外処理部154は、文T12を識別する対象文書識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル145に登録する。除外処理部154が実行するPU学習は、第一特定部152が実行するPU学習と同様である。
The exclusion processing unit 154 performs PU learning using the identified high-similarity sentences as “positive examples” and generates a discrimination model for determining whether or not the sentences are similar to the sentence T12. The exclusion processing unit 154 associates the target document identification information for identifying the sentence T12 with the discriminant model information and registers them in the discriminant model table 145 . The PU learning performed by the exclusion processing unit 154 is the same as the PU learning performed by the first identifying
除外処理部154は、リストL1(S1)に含まれる、文S1と類似しない他の文についても、文T11と同様の処理を実行することで、判別モデルを生成し、対象文書識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル145に登録する。 The exclusion processing unit 154 generates a discriminant model by executing the same process as for sentence T11 for other sentences not similar to sentence S1 included in the list L1 (S1), and generates a discriminant model, the target document identification information, It is registered in the discriminant model table 145 in association with the discriminant model information.
除外処理部154は、リストL1(S2~Sn)に含まれる、文S2~Snと類似しない他の文についても、文T12と同様の処理を実行することで、判別モデルを生成し、対象文書識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル145に登録する。 The exclusion processing unit 154 generates a discriminant model by executing the same process as for sentence T12 for other sentences not similar to sentences S2 to Sn included in the list L1 (S2 to Sn), and extracts the target document. The identification information and the discriminant model information are associated and registered in the discriminant model table 145 .
続いて、除外処理部154が実行する「リストL2を生成する処理」について説明する。除外処理部154は、各リストL1(S1~Sn)に対して、複数のリストL2を生成する。たとえば、一つのリストL1(S1)に対応するリストL2の数は、リストL1(S1)の各文のうち、文S1と類似しない文の数となる。 Next, the “processing for generating the list L2” executed by the exclusion processing unit 154 will be described. The exclusion processing unit 154 generates a plurality of lists L2 for each list L1 (S1 to Sn). For example, the number of lists L2 corresponding to one list L1 (S1) is the number of sentences not similar to sentence S1 among the sentences of the list L1 (S1).
図9は、除外処理部の処理の一例を説明するための図(2)である。たとえば、リストL1(S1)には、文書識別情報MR1、MR2、MR10が登録されているものとする。また、文書識別情報MR1の文書には、文書サブ識別情報T11,T12が含まれており、文書サブ識別情報T11の文は、文S1に類似しているものとする。 FIG. 9 is a diagram (2) for explaining an example of the processing of the exclusion processing unit; For example, it is assumed that document identification information MR1, MR2, and MR10 are registered in list L1 (S1). It is also assumed that the document with document identification information MR1 includes document sub-identification information T11 and T12, and the sentence with document sub-identification information T11 is similar to sentence S1.
文書識別情報MR2の文書には、文書サブ識別情報T21,T22が含まれており、文書サブ識別情報T21の文は、文S1に類似しているものとする。文書識別情報MR10の文書には、文書サブ識別情報T101,T102が含まれており、文書サブ識別情報T101の文は、文S1に類似しているものとする。この場合、除外処理部154は、リストL1(S1)に対応するリストL2として、文書サブ識別情報T12,T22,T102に基づく、リストL2(T12)、リストL2(T22)、リストL2(T102)を生成する。 It is assumed that the document with document identification information MR2 includes document sub-identification information T21 and T22, and the sentence with document sub-identification information T21 is similar to sentence S1. It is assumed that the document with document identification information MR10 includes document sub-identification information T101 and T102, and the sentence with document sub-identification information T101 is similar to sentence S1. In this case, the exclusion processing unit 154 uses list L2 (T12), list L2 (T22), list L2 (T102) based on document sub-identification information T12, T22, and T102 as list L2 corresponding to list L1 (S1). to generate
ここでは一例として、文S1と類似しない文(T12)のリストL2(T12)を生成する場合について説明する。 Here, as an example, a case of generating a list L2 (T12) of sentences (T12) that are not similar to sentence S1 will be described.
除外処理部154は、判別モデルテーブル145に含まれる各文の判別モデルから文T12の判別モデルを取得する。除外処理部154は、セットM’テーブル144に含まれる各文書情報(一つの文)を、文T12の判別モデルに適用することで、セットM’テーブル144に含まれる各文書情報のうち、文T11と類似する文書情報を特定する。 The exclusion processing unit 154 acquires the discriminant model of the sentence T12 from the discriminant model of each sentence included in the discriminant model table 145. FIG. The exclusion processing unit 154 applies each piece of document information (single sentence) included in the set M′ table 144 to the discrimination model for the sentence T12, so that among the pieces of document information included in the set M′ table 144, sentence Identify document information similar to T11.
たとえば、除外処理部154は、セットM’テーブル144に含まれる文書情報のベクトルを、判別モデルに入力し、判別モデルから出力される確からしさの値が、閾値以上である場合に、文書情報が、文T12と類似する文書情報として特定する。 For example, the exclusion processing unit 154 inputs a vector of document information included in the set M′ table 144 to the discriminant model, and if the likelihood value output from the discriminant model is equal to or greater than a threshold, the document information is , as document information similar to the sentence T12.
除外処理部154は、特定した文T12と類似する文書情報の文書サブ識別情報と、セットM’テーブル144とを比較して、係る文書サブ識別情報に対応する文書識別情報を特定し、特定した文書識別情報を、リストL2(T12)として生成する。 The exclusion processing unit 154 compares the document sub-identification information of the document information similar to the identified sentence T12 with the set M' table 144, and identifies the document identification information corresponding to the document sub-identification information. Document identification information is generated as a list L2 (T12).
除外処理部154は、リストL2(T12)を生成する処理と同様にして、文T22の判別モデルを用いて、リストL2(T22)を生成する。除外処理部154は、文T102の判別モデルを用いて、リストL2(T102)を生成する。 Exclusion processing unit 154 generates list L2 (T22) using the discriminant model of sentence T22 in the same manner as the process for generating list L2 (T12). The exclusion processing unit 154 uses the discriminant model of sentence T102 to generate list L2 (T102).
また、除外処理部154は、リストL1(S1)に対する複数のリストL2を生成する処理と同様にして、各リストL1(S2~Sn)に対する、複数のリストL2を生成する。 Also, the exclusion processing unit 154 generates a plurality of lists L2 for each list L1 (S2 to Sn) in the same manner as the process for generating a plurality of lists L2 for the list L1 (S1).
続いて、除外処理部154が実行する「削除フラグを設定する処理」について説明する。一例として、リストL1(S1)と、リストL2(T12)とを基にして、文書サブ識別情報T12の文を除外するか否かを判定する処理について説明する。たとえば、除外処理部154は、リストL1(S1)とリストL2(T12)とで共通する文書情報の件数が多い場合に、文S1と文T12とが関連し、文T12を残すと判定する。 Next, the “deletion flag setting process” executed by the exclusion processing unit 154 will be described. As an example, the process of determining whether or not to exclude the sentence of the document sub-identification information T12 based on the list L1 (S1) and the list L2 (T12) will be described. For example, when the list L1 (S1) and the list L2 (T12) have a large number of pieces of common document information, the exclusion processing unit 154 determines that the sentences S1 and T12 are related and that the sentence T12 should be left.
一方、除外処理部154は、リストL1(S1)とリストL2(T12)とで共通する文書情報の件数が少ない場合に、文S1と文T12とが関連せず、文T12を除外すると判定する。除外処理部154は、文T12を除外すると判定した場合、セットM’テーブル144の文書サブ識別情報「T12」の削除フラグを「オン」に設定する。また、除外処理部154は、文書サブ識別情報「T12」の判別モデルを基にして、文T12に類似する他の文(類似文)をセットM’テーブル144から検出し、検出した他の文(類似文)に対応する削除フラグを「オン」に設定する。 On the other hand, the exclusion processing unit 154 determines that the sentence T12 is excluded because the sentence S1 and the sentence T12 are not related when the number of pieces of document information common to the list L1 (S1) and the list L2 (T12) is small. . When the exclusion processing unit 154 determines to exclude the sentence T12, it sets the deletion flag of the document sub-identification information “T12” in the set M′ table 144 to “on”. Further, the exclusion processing unit 154 detects other sentences (similar sentences) similar to the sentence T12 from the set M′ table 144 based on the discriminant model of the document sub-identification information “T12”, and Set the deletion flag corresponding to (similar sentence) to "on".
図10は、除外処理部の処理の一例を説明するための図(3)である。図10に示す例では、リストL1(S1)には、文書識別情報「MR1,MR2,・・・,MR10」の文書情報が登録されているものとする。リストL2(T12)には、文書識別番号「MR1,MR2,MR3,MR11,・・・,MR20」の文書情報が含まれているもとする。 FIG. 10 is a diagram (3) for explaining an example of the processing of the exclusion processing unit; In the example shown in FIG. 10, it is assumed that document information of document identification information "MR1, MR2, . . . , MR10" is registered in the list L1 (S1). It is assumed that list L2 (T12) includes document information with document identification numbers "MR1, MR2, MR3, MR11, . . . , MR20".
また、除外処理部154は、リストL1(S1)と、リストL2(T12)とを比較し、表20Aの得るものとする。図10に示すように、リストL1(S1)に含まれ、かつ、リストL2(T12)に含まれる文書情報の数を「3件」とする。リストL1(S1)に含まれ、かつ、リストL2(T12)に含まれない文書情報の数を「7件」とする。リストL1(S1)に含まれず、かつ、リストL2(T12)に含まれる文書情報の数を「10件」とする。リストL1(S1)に含まれず、かつ、リストL2(T12)に含まれない文書情報の数を「980件」とする。 Also, the exclusion processing unit 154 compares the list L1 (S1) and the list L2 (T12) to obtain Table 20A. As shown in FIG. 10, it is assumed that the number of pieces of document information included in list L1 (S1) and included in list L2 (T12) is "three". It is assumed that the number of pieces of document information included in the list L1 (S1) and not included in the list L2 (T12) is "7". It is assumed that the number of document information not included in the list L1 (S1) and included in the list L2 (T12) is "10". Assume that the number of document information not included in the list L1 (S1) and not included in the list L2 (T12) is "980".
除外処理部154は、表20Aに対して検定(正解確率検定、カイ二乗検定等)を行い、文S1と、文T12との関連性の有無を判定する。たとえば、表20Aに対する検定では、危険度5%で、p値=1.96×10-4となり、p値の値が閾値未満であり、関連性ありと判定する。この場合、除外処理部154は、文T12を除外しないと判定する。 The exclusion processing unit 154 performs a test (correctness probability test, chi-square test, etc.) on Table 20A to determine whether sentence S1 and sentence T12 are related. For example, in the test for Table 20A, at 5% risk, p-value = 1.96 x 10 -4 , p-value values below the threshold determine association. In this case, the exclusion processing unit 154 determines not to exclude sentence T12.
図11は、除外処理部の処理の一例を説明するための図(4)である。図11に示す例では、リストL1(S1)には、文書識別情報「MR1,MR2,・・・,MR10」の文書情報が登録されているものとする。リストL2(T102)には、文書識別番号「MR1,MR21,MR22,・・・,MR40」の文書情報が含まれているもとする。 FIG. 11 is a diagram (4) for explaining an example of the processing of the exclusion processing unit; In the example shown in FIG. 11, it is assumed that document information of document identification information "MR1, MR2, . . . , MR10" is registered in the list L1 (S1). It is assumed that list L2 (T102) includes document information with document identification numbers "MR1, MR21, MR22, . . . , MR40".
また、除外処理部154は、リストL1(S1)と、リストL2(T102)とを比較し、表20Bを得るものとする。図11に示すように、リストL1(S1)に含まれ、かつ、リストL2(T102)に含まれる文書情報の数を「1件」とする。リストL1(S1)に含まれ、かつ、リストL2(T102)に含まれない文書情報の数を「9件」とする。リストL1(S1)に含まれず、かつ、リストL2(T102)に含まれる文書情報の数を「20件」とする。リストL1(S1)に含まれず、かつ、リストL2(T102)に含まれない文書情報の数を「970件」とする。 Also, the exclusion processing unit 154 compares the list L1 (S1) and the list L2 (T102) to obtain Table 20B. As shown in FIG. 11, it is assumed that the number of pieces of document information included in list L1 (S1) and included in list L2 (T102) is "one". Assume that the number of pieces of document information included in the list L1 (S1) and not included in the list L2 (T102) is "9". It is assumed that the number of document information not included in the list L1 (S1) and included in the list L2 (T102) is "20". Assume that the number of document information not included in the list L1 (S1) and not included in the list L2 (T102) is "970".
除外処理部154は、表20Bに対して検定(正解確率検定、カイ二乗検定等)を行い、文S1と、文T102との関連性の有無を判定する。表20Bに対する検定では、危険度5%で、p値=0.196となり、p値の値が閾値以上であるため、関連性なしと判定する。除外処理部154は、セットM’テーブル144の文書サブ識別情報T102に対応する削除フラグを「オン」に設定する。 The exclusion processing unit 154 performs a test (correctness probability test, chi-square test, etc.) on Table 20B to determine whether sentence S1 and sentence T102 are related. In the test for Table 20B, the risk level is 5%, p-value = 0.196, and the value of p-value is equal to or greater than the threshold, so it is determined that there is no association. The exclusion processing unit 154 sets the deletion flag corresponding to the document sub-identification information T102 in the set M' table 144 to "on".
除外処理部154は、リストL1(S1~Sn)と、対応するリストL2とを比較して、各文が関連するか否かを判定し、関連しないと判定した文については、削除フラグを「オン」にする処理を繰り返し実行する。 The exclusion processing unit 154 compares the list L1 (S1 to Sn) with the corresponding list L2 to determine whether or not each sentence is related. Repeat the process to turn it on.
続いて、除外処理部154が実行する「除外する処理」について説明する。除外処理部154は、文書DB141と、セットM’テーブル144とを比較して、削除フラグが「オン」となる文を、文書DB141から削除する処理を実行する。
Next, the “exclusion processing” executed by the exclusion processing unit 154 will be described. The exclusion processing unit 154 compares the
図12は、除外処理部の処理の一例を説明するための図(5)である。図12に示すように、文書サブ識別情報T12に対応する削除フラグが「オン」となっているため、除外処理部154は、文書識別情報「MR1」に対応する文書情報から、文書サブ識別情報T12に対応する文「対処方法を教えてください。」を削除する。 FIG. 12 is a diagram (5) for explaining an example of the processing of the exclusion processing unit; As shown in FIG. 12, since the deletion flag corresponding to the document sub-identification information T12 is "ON", the exclusion processing unit 154 removes the document sub-identification information from the document information corresponding to the document identification information "MR1". Delete the sentence "Please tell me how to deal with it" corresponding to T12.
除外処理部154は、文書サブ識別情報T22に対応する削除フラグが「オン」となっているため、文書識別情報「MR2」に対応する文書情報から、文書サブ識別情報T12に対応する文「対処方法が不明です。」を削除する。 Since the deletion flag corresponding to the document sub-identification information T22 is "on", the exclusion processing unit 154 extracts the sentence "handling" corresponding to the document sub-identification information T12 from the document information corresponding to the document identification information "MR2". I don't know how." is deleted.
除外処理部154は、他の文書情報についても、削除フラグが「オン」となっている文を削除する処理を繰り返し実行することで、文書DB141を更新する。更新した文書DB141を、文書DB141aと表記する。ここで、除外処理部154は、文書DB141aを参照し、文書DB141aに含まれる文書情報のうち、上記の除外する処理により、一つの文となった文書情報を、セットSテーブル142に登録する。
The exclusion processing unit 154 updates the
図2の説明に戻る。検出部155は、文書DB141aに対してクラスタリングを行うことで、文書DB141aに含まれる各文書情報を複数のクラスタに分類する。検出部155は、複数のクラスタのうち、クラスタに属する文書情報の数か所定数以上となるクラスタを検出する。所定数以上の文書情報が属するクラスタは、障害内容を記述した文書情報といえる。
Returning to the description of FIG. The detection unit 155 classifies each piece of document information included in the
たとえば、検出部155は、文書DB141aの各文書情報のベクトルを算出する。文書情報に一つの文が含まれている場合には、文書情報のベクトルは、かかる文のベクトルとなる。文書情報に、複数の文が含まれている場合には、各文のベクトルを積算することで、文書情報のベクトルを算出する。検出部155は、各文書情報のベクトルの類似度を算出し、類似度が閾値以上となる文書情報が同一のクラスタに属するようにクラスタリングを行う。
For example, the detection unit 155 calculates a vector of each piece of document information in the
検出部155は、検出結果を表示部130に出力して表示させてもよいし、ネットワークを介して、外部装置に通知してもよい。図13は、検出結果の一例を示す図(1)である。図13に示すように、検出部155は、更新された文書DB141aをクラスタリングすることで、複数のクラスタ30A~30Cを生成する。たとえば、検出部155は、クラスタ30Aに属する文書情報の数が所定数以上の場合には、クラスタ30Aを、検出結果として検出する。管理者は、クラスタ30Aを参照すると「syn flood(シンフラット)攻撃」に関する文書情報の数が所定数以上であるため「syn flood攻撃」を多発障害として特定することができる。
The detection unit 155 may output the detection result to the
ところで、仮に、更新していない文書DB141に対してそのままクラスタリングを行い、同様にクラスタを検出すると、図14に示すものとなる。図14は、検出結果の一例を示す図(2)である。図14に示すように、仮に、検出部155は、文書DB141をクラスタリングすることで、複数のクラスタ31A~31Cを生成する。たとえば、検出部155は、クラスタ31Aに属する文書情報の数が所定数以上の場合には、クラスタ31Aを、検出結果として検出する。クラスタ31Aに含まれる各文書情報は、障害内容に関係のない、文「対象方法を教えてください」の影響により同一のクラスタに属しているため、管理者は、クラスタ31Aを参照しても、それぞれの障害の発生件数が所定数に満たないため、多発障害なしと判断してしまう。
By the way, if clustering is performed on the
次に、本実施例に係る情報処理装置100の処理手順の一例について説明する。図15及び図16は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図15に示すように、情報処理装置100の第一特定部152は、文書DB141の各文書情報のうち、1文で構成される文書情報をセットSテーブル142に登録する(ステップS101)。情報処理装置100の第二特定部153は、文書DB141の各文書情報のうち、複数の文で構成される文書情報を、セットMテーブル143に登録する(ステップS102)。
Next, an example of the processing procedure of the information processing apparatus 100 according to this embodiment will be described. 15 and 16 are flowcharts showing the processing procedure of the information processing apparatus according to this embodiment. As shown in FIG. 15, the first specifying
第二特定部153は、セットMテーブル143を基にして、セットM’テーブル144を生成する(ステップS103)。第一特定部152は、セットSテーブル142から、1文(たとえば、文S1)を抽出する(ステップS104)。情報処理装置100は、セットSテーブル142の全ての文を抽出している場合(抽出に成功しない場合)には(ステップS105,No)、処理を終了する。
The second identifying unit 153 generates the set M' table 144 based on the set M table 143 (step S103). The first identifying
一方、第一特定部152は、セットSテーブル142の文の抽出に成功した場合には(ステップS105,Yes)、文の判別モデルを生成する(ステップS106)。第二特定部153は、文の判定モデルをセットM’テーブル144に適用し、文の類似文を含む複数の文書情報を検出し、リストL1に登録する(ステップS107)。
On the other hand, when the
情報処理装置100の除外処理部154は、リストL1の文書情報から、類似文以外の1文(たとえば、T11)を抽出し(ステップS108)、図16のステップS109に移行する。 The exclusion processing unit 154 of the information processing apparatus 100 extracts one sentence (for example, T11) other than the similar sentence from the document information of the list L1 (step S108), and proceeds to step S109 in FIG.
図16の説明に移行する。除外処理部154は、抽出に成功した場合には(ステップS109,Yes)、リストL1から抽出した文の判別モデルを生成する(ステップS110)。除外処理部154は、リストL1から抽出した文の判別モデルをセットM’テーブルに適用し、文の類似文を含む文書情報を検出し、リストL2に登録する(ステップS111)。 16 will be described. If the extraction is successful (step S109, Yes), the exclusion processing unit 154 generates a discriminant model of the sentence extracted from the list L1 (step S110). The exclusion processing unit 154 applies the sentence discrimination model extracted from the list L1 to the set M' table, detects document information including sentences similar to the sentence, and registers them in the list L2 (step S111).
除外処理部154は、リストL1およびリストL2を基にして、抽出した各文(たとえば、文S1と、文T12)との関連の有無を判定する(ステップS112)。除外処理部154は、各文が関連しない場合には(ステップS113,No)、ステップS115に移行する。 Exclusion processing unit 154 determines whether there is a relationship between the extracted sentences (for example, sentence S1 and sentence T12) based on list L1 and list L2 (step S112). If the sentences are not related (step S113, No), the exclusion processing unit 154 proceeds to step S115.
一方、除外処理部154は、各文が関連する場合には(ステップS113,Yes)、リストL1から抽出した文およびこの文に類似する類似文に対応する削除フラグをオンに設定する(ステップS114)。 On the other hand, if the sentences are related (step S113, Yes), the exclusion processing unit 154 turns on the deletion flags corresponding to the sentence extracted from the list L1 and similar sentences (step S114). ).
除外処理部154は、リストL1から、未選択の文を抽出し(ステップS115)、ステップS109に移行する。 The exclusion processing unit 154 extracts unselected sentences from the list L1 (step S115), and proceeds to step S109.
ところで、除外処理部154は、抽出に成功しない場合には(ステップS109,No)、文書DB141の各文書情報から、削除フラグがオンとなる文を削除する(ステップS116)。除外処理部154は、削除により1文となって文書情報を、セットSテーブル142に追加し(ステップS117)、図15のステップS104に移行する。 By the way, if the extraction is not successful (step S109, No), the exclusion processing unit 154 deletes sentences whose deletion flag is turned on from each piece of document information in the document DB 141 (step S116). The exclusion processing unit 154 adds the document information that has been deleted into one sentence to the set S table 142 (step S117), and proceeds to step S104 in FIG.
次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、着目した障害内容を記述した文を含む文書を検出し、検出した文書のうち、複数の文を含む文書について、着目した障害内容に関係のある文(障害内容を記述した文)を残す。また、情報処理装置は、着目した障害内容に関係のない文(障害内容を記述していない文)を削除する処理を行う。このように、障害内容を記述した文に関連する文を残し、関連しない文を削除することができるので、クラスタリング処理による障害検出において、誤検知や検出もれを抑止することができる。 Next, the effects of the information processing apparatus 100 according to this embodiment will be described. The information processing apparatus 100 detects a document containing a sentence describing the content of the failure of interest, and among the detected documents, for a document including a plurality of sentences, a sentence related to the content of the failure of interest (a sentence describing the content of the failure) is detected. sentence). In addition, the information processing device performs processing for deleting sentences unrelated to the focused failure content (sentences not describing the failure content). In this way, sentences related to the sentence describing the content of the failure can be left, and sentences not related can be deleted. Therefore, in failure detection by clustering processing, erroneous detection and detection omission can be suppressed.
たとえば、図13で説明したように、障害内容を記述した文書情報を残し、障害内容を記述していない文書情報を削除することで、類似する障害内容に関連する文書情報をクラスタに分類することができるので、多発障害を特定することが容易となる。図14で説明したように、仮に、障害内容を記述していない文書情報が残っていると、障害内容を記述していない文書情報を共通に含む文書情報が同一のクラスタに分類されてしまい、多発障害を検出することが難しい。 For example, as described with reference to FIG. 13, by leaving the document information describing the content of the failure and deleting the document information not describing the content of the failure, the document information related to the similar content of the failure can be classified into clusters. This makes it easier to identify multiple failures. As explained with reference to FIG. 14, if document information that does not describe the content of the failure remains, document information that commonly includes document information that does not describe the content of the failure will be classified into the same cluster. It is difficult to detect multiple failures.
また、情報処理装置100は、文と類似する他の文を判別する場合に、PU学習を基にして、文の判別モデルを生成し、かかる判別モデルを基にして、類似する他の文を判別する。これによって、文に関する教師データが少ない場合でも、類似する文を判別することができる。 In addition, when discriminating other sentences similar to a sentence, the information processing apparatus 100 generates a discrimination model of the sentence based on PU learning, and based on the discrimination model, discriminates other similar sentences. discriminate. This makes it possible to discriminate similar sentences even when there is little teacher data about sentences.
次に、本実施例に示した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図17は、本実施例に係る情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 Next, an example of a hardware configuration of a computer that implements the same functions as the information processing apparatus 100 shown in this embodiment will be described. FIG. 17 is a diagram showing an example of the hardware configuration of a computer that implements the same functions as the information processing apparatus according to this embodiment.
図17に示すように、コンピュータ500は、各種演算処理を実行するCPU501と、ユーザからのデータの入力を受け付ける入力装置502と、ディスプレイ503とを有する。また、コンピュータ500は、記憶媒体からプログラム等を読み取る読み取り装置504と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置505とを有する。コンピュータ500は、各種情報を一時記憶するRAM506と、ハードディスク装置507とを有する。そして、各装置501~507は、バス508に接続される。
As shown in FIG. 17, a
ハードディスク装置507は、取得プログラム507a、第一特定プログラム507b、第二特定プログラム507c、除外処理プログラム507d、検出プログラム507eを有する。CPU501は、取得プログラム507a、第一特定プログラム507b、第二特定プログラム507c、除外処理プログラム507d、検出プログラム507eを読み出してRAM506に展開する。
The
取得プログラム507aは、取得プロセス506aとして機能する。第一特定プログラム507bは、第一特定プロセス506bとして機能する。第二特定プログラム507cは、第二特定プロセス506cとして機能する。除外処理プログラム507dは、除外処理プロセス506dとして機能する。検出プログラム507eは、検出プロセス506eとして機能する。
取得プロセス506aの処理は、取得部151の処理に対応する。第一特定プロセス506bの処理は、第一特定部152の処理に対応する。第二特定プロセス506cの処理は、第二特定部550cの処理に対応する。除外処理プロセス506dの処理は、除外処理部154の処理に対応する。検出プロセス506eの処理は、検出部155の処理に対応する。
The processing of the
なお、各プログラム507a~507eついては、必ずしも最初からハードディスク装置507に記憶させておかなくてもよい。例えば、コンピュータ500に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ500が各プログラム507a~507eを読み出して実行するようにしてもよい。
Note that the
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following additional remarks are disclosed regarding the embodiments including the above examples.
(付記1)コンピュータが実行する文書処理方法であって、
一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定し、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、
取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定し、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第二文書を取得し、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する
処理を実行することを特徴とする文書処理方法。
(Appendix 1) A document processing method executed by a computer,
Get multiple documents consisting of one or more sentences,
identifying a first sentence of interest composed of a sentence that satisfies a preset condition from among the plurality of documents;
Obtaining, from among the plurality of documents, a plurality of first documents composed of a plurality of sentences including the specified first sentence of interest;
identifying a second sentence of interest composed of one sentence other than the identified first sentence of interest from among the plurality of acquired first documents;
acquiring, from among the plurality of documents, a plurality of second documents composed of a plurality of sentences including the second sentence of interest;
the second sentence of interest from among the plurality of documents based on the relationship between the number of identical documents included in each of the plurality of first documents and the plurality of second documents and the number of documents other than the same document; A document processing method characterized by performing a process of excluding
(付記2)前記除外する処理によって、前記第二着目文の除外された複数の文書を、文書間の類似度を基にして複数のクラスタに分類する処理を更に実行することを特徴とする付記1に記載の文書処理方法。 (Supplementary note 2) A supplementary note characterized by further executing a process of classifying the plurality of documents excluded from the second sentence of interest into a plurality of clusters based on the degree of similarity between the documents. 1. The document processing method according to 1.
(付記3)前記第一着目文は、障害内容に関して記述された文であり、前記複数のクラスタに属する文書の数を基にして、前記障害内容に関して記述された文に関連するクラスタを検出する処理を更に実行することを特徴とする付記2に記載の文書処理方法。
(Appendix 3) The first sentence of interest is a sentence describing the content of the failure, and based on the number of documents belonging to the plurality of clusters, a cluster related to the sentence describing the content of the failure is detected. 3. The method of
(付記4)前記複数の文書に含まれる複数の文のうち、前記第一着目文に類似する文を正例とした学習を行うことで、前記第一着目文に類似する文か否かを判別する判別モデルを生成する処理を更に実行し、前記第一文書を取得する処理は、前記判別モデルを基にして、前記複数の文書の中から、特定した第一着目文を含む複数文から構成される複数の第一文書を取得することを特徴とする付記1、2または3に記載の文書処理方法。
(Appendix 4) By performing learning using a sentence similar to the first sentence of interest among the plurality of sentences included in the plurality of documents as a positive example, whether or not the sentence is similar to the first sentence of interest is determined. The process of generating a discriminant model for discrimination is further executed, and the process of acquiring the first document is performed based on the discriminant model, from among the plurality of documents, a plurality of sentences including the specified first sentence of interest. 4. The document processing method of
(付記5)コンピュータに、
一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定し、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、
取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定し、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第に文書を取得し、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する
処理を実行させることを特徴とする文書処理プログラム。
(Appendix 5) to the computer,
Get multiple documents consisting of one or more sentences,
identifying a first sentence of interest composed of a sentence that satisfies a preset condition from among the plurality of documents;
Obtaining, from among the plurality of documents, a plurality of first documents composed of a plurality of sentences including the specified first sentence of interest;
identifying a second sentence of interest composed of one sentence other than the identified first sentence of interest from among the plurality of acquired first documents;
obtaining a plurality of second documents composed of a plurality of sentences including the second sentence of interest from among the plurality of documents;
the second sentence of interest from among the plurality of documents based on the relationship between the number of identical documents included in each of the plurality of first documents and the plurality of second documents and the number of documents other than the same document; A word processing program characterized by causing a process to be executed.
(付記6)前記除外する処理によって、前記第二着目文の除外された複数の文書を、文書間の類似度を基にして複数のクラスタに分類する処理を更に実行することを特徴とする付記5に記載の文書処理プログラム。 (Supplementary note 6) A supplementary note characterized by further executing a process of classifying the plurality of documents from which the second sentence of interest is excluded by the exclusion process into a plurality of clusters based on the degree of similarity between the documents. 5. The document processing program according to 5.
(付記7)前記第一着目文は、障害内容に関して記述された文であり、前記複数のクラスタに属する文書の数を基にして、前記障害内容に関して記述された文に関連するクラスタを検出する処理を更に実行することを特徴とする付記6に記載の文書処理プログラム。 (Appendix 7) The first sentence of interest is a sentence describing the content of the failure, and based on the number of documents belonging to the plurality of clusters, a cluster related to the sentence describing the content of the failure is detected. 7. The document processing program of Claim 6, further performing processing.
(付記8)前記複数の文書に含まれる複数の文のうち、前記第一着目文に類似する文を正例とした学習を行うことで、前記第一着目文に類似する文か否かを判別する判別モデルを生成する処理を更に実行し、前記第一文書を取得する処理は、前記判別モデルを基にして、前記複数の文書の中から、特定した第一着目文を含む複数文から構成される複数の第一文書を取得することを特徴とする付記5、6または7に記載の文書処理プログラム。
(Appendix 8) By performing learning using a sentence similar to the first sentence of interest among the plurality of sentences included in the plurality of documents as a positive example, whether or not the sentence is similar to the first sentence of interest is determined. The process of generating a discriminant model for discrimination is further executed, and the process of acquiring the first document is performed based on the discriminant model, from among the plurality of documents, a plurality of sentences including the specified first sentence of interest. 8. A document processing program according to
(付記9)一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定する第一特定部と、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定する第二特定部と、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する除外処理部と
を有することを特徴とする情報処理装置。
(Appendix 9) Acquiring a plurality of documents consisting of one or more sentences,
a first identifying unit that identifies a first sentence of interest composed of a sentence that satisfies a preset condition from among the plurality of documents;
Obtaining a plurality of first documents composed of a plurality of sentences including the specified first sentence of interest from among the plurality of documents, and obtaining the specified first sentence of interest from among the plurality of acquired first documents a second identifying unit that identifies a second sentence of interest composed of a sentence other than a sentence;
the second sentence of interest from among the plurality of documents based on the relationship between the number of identical documents included in each of the plurality of first documents and the plurality of second documents and the number of documents other than the same document; and an exclusion processing unit that excludes the information processing apparatus.
(付記10)前記除外処理部によって、前記第二着目文の除外された複数の文書を、文書間の類似度を基にして複数のクラスタに分類する検出部を更に有することを特徴とする付記9に記載の情報処理装置。 (Supplementary Note 10) A supplementary note characterized by further comprising a detection unit that classifies a plurality of documents from which the second sentence of interest is excluded by the exclusion processing unit into a plurality of clusters based on the similarity between the documents. 10. The information processing device according to 9.
(付記11)前記第一着目文は、障害内容に関して記述された文であり、前記検出部は、前記複数のクラスタに属する文書の数を基にして、前記障害内容に関して記述された文に関連するクラスタを検出する処理を更に実行することを特徴とする付記10に記載の情報処理装置。
(Supplementary Note 11) The first sentence of interest is a sentence describing the content of the failure, and the detection unit detects the sentence describing the content of the failure based on the number of documents belonging to the plurality of clusters. 11. The information processing apparatus according to
(付記12)前記第一特定部は、複数の文書に含まれる複数の文のうち、前記第一着目文に類似する文を正例とした学習を行うことで、前記第一着目文に類似する文か否かを判別する判別モデルを生成する処理を更に実行し、前記第二特定部は、前記判別モデルを基にして、前記複数の文書の中から、特定した第一着目文を含む複数文から構成される複数の第一文書を取得することを特徴とする付記9、10または11に記載の情報処理装置。
(Supplementary Note 12) The first identifying unit performs learning using, among a plurality of sentences included in a plurality of documents, sentences similar to the first sentence of interest as positive examples. Further executing a process of generating a discriminant model for discriminating whether or not the sentence includes the first sentence of interest specified from among the plurality of documents based on the discriminant model 12. The information processing apparatus according to
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
141 文書DB
142 セットSテーブル
143 セットMテーブル
144 セットM’テーブル
145 判別モデルテーブル
150 制御部
151 取得部
152 第一特定部
153 第二特定部
154 除外処理部
155 検出部
100 information processing device 110 communication unit 120
142 set S table 143 set M table 144 set M' table 145 discrimination model table 150 control unit 151
Claims (6)
一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定し、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、
取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定し、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第二文書を取得し、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する
処理を実行することを特徴とする文書処理方法。 A computer-implemented document processing method comprising:
Get multiple documents consisting of one or more sentences,
identifying a first sentence of interest composed of a sentence that satisfies a preset condition from among the plurality of documents;
Obtaining, from among the plurality of documents, a plurality of first documents composed of a plurality of sentences including the specified first sentence of interest;
identifying a second sentence of interest composed of one sentence other than the identified first sentence of interest from among the plurality of acquired first documents;
acquiring, from among the plurality of documents, a plurality of second documents composed of a plurality of sentences including the second sentence of interest;
the second sentence of interest from among the plurality of documents based on the relationship between the number of identical documents included in each of the plurality of first documents and the plurality of second documents and the number of documents other than the same document; A document processing method characterized by performing a process of excluding
一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定し、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、
取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定し、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第二文書を取得し、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する
処理を実行させることを特徴とする文書処理プログラム。 to the computer,
Get multiple documents consisting of one or more sentences,
identifying a first sentence of interest composed of a sentence that satisfies a preset condition from among the plurality of documents;
Obtaining, from among the plurality of documents, a plurality of first documents composed of a plurality of sentences including the specified first sentence of interest;
identifying a second sentence of interest composed of one sentence other than the identified first sentence of interest from among the plurality of acquired first documents;
acquiring, from among the plurality of documents, a plurality of second documents composed of a plurality of sentences including the second sentence of interest;
the second sentence of interest from among the plurality of documents based on the relationship between the number of identical documents included in each of the plurality of first documents and the plurality of second documents and the number of documents other than the same document; A word processing program characterized by causing a process to be executed.
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定する第一特定部と、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定する第二特定部と、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第二文書を取得し、前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する除外処理部と
を有することを特徴とする情報処理装置。 Get multiple documents consisting of one or more sentences,
a first identifying unit that identifies a first sentence of interest composed of a sentence that satisfies a preset condition from among the plurality of documents;
Obtaining a plurality of first documents composed of a plurality of sentences including the specified first sentence of interest from among the plurality of documents, and obtaining the specified first sentence of interest from among the plurality of acquired first documents a second identifying unit that identifies a second sentence of interest composed of a sentence other than a sentence;
Obtaining a plurality of second documents composed of a plurality of sentences including the second sentence of interest from among the plurality of documents, and acquiring the same document included in each of the plurality of first documents and the plurality of second documents and an exclusion processing unit that excludes the second sentence of interest from among the plurality of documents based on the relationship between the number of the documents and the number of documents other than the same document.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019075907A JP7243402B2 (en) | 2019-04-11 | 2019-04-11 | DOCUMENT PROCESSING METHOD, DOCUMENT PROCESSING PROGRAM AND INFORMATION PROCESSING DEVICE |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019075907A JP7243402B2 (en) | 2019-04-11 | 2019-04-11 | DOCUMENT PROCESSING METHOD, DOCUMENT PROCESSING PROGRAM AND INFORMATION PROCESSING DEVICE |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020173673A JP2020173673A (en) | 2020-10-22 |
| JP7243402B2 true JP7243402B2 (en) | 2023-03-22 |
Family
ID=72831408
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019075907A Active JP7243402B2 (en) | 2019-04-11 | 2019-04-11 | DOCUMENT PROCESSING METHOD, DOCUMENT PROCESSING PROGRAM AND INFORMATION PROCESSING DEVICE |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7243402B2 (en) |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002230012A (en) | 2000-12-01 | 2002-08-16 | Sumitomo Electric Ind Ltd | Document clustering device |
| JP2007172249A (en) | 2005-12-21 | 2007-07-05 | Fujitsu Ltd | Document classification program, document classification apparatus, and document classification method |
| JP2010146222A (en) | 2008-12-18 | 2010-07-01 | Hitachi Ltd | Document classification apparatus, document classification method, and program |
| JP2013145461A (en) | 2012-01-13 | 2013-07-25 | Kddi Corp | Dictionary generating device, document label determination system, and computer program |
| JP2014215658A (en) | 2013-04-23 | 2014-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Device and method for assisting in acquisition of information |
| US20160232222A1 (en) | 2015-02-09 | 2016-08-11 | International Business Machines Corporation | Generating Usage Report in a Question Answering System Based on Question Categorization |
| JP2018045559A (en) | 2016-09-16 | 2018-03-22 | 富士通株式会社 | Information processing apparatus, information processing method, and program |
-
2019
- 2019-04-11 JP JP2019075907A patent/JP7243402B2/en active Active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002230012A (en) | 2000-12-01 | 2002-08-16 | Sumitomo Electric Ind Ltd | Document clustering device |
| JP2007172249A (en) | 2005-12-21 | 2007-07-05 | Fujitsu Ltd | Document classification program, document classification apparatus, and document classification method |
| JP2010146222A (en) | 2008-12-18 | 2010-07-01 | Hitachi Ltd | Document classification apparatus, document classification method, and program |
| JP2013145461A (en) | 2012-01-13 | 2013-07-25 | Kddi Corp | Dictionary generating device, document label determination system, and computer program |
| JP2014215658A (en) | 2013-04-23 | 2014-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Device and method for assisting in acquisition of information |
| US20160232222A1 (en) | 2015-02-09 | 2016-08-11 | International Business Machines Corporation | Generating Usage Report in a Question Answering System Based on Question Categorization |
| JP2018045559A (en) | 2016-09-16 | 2018-03-22 | 富士通株式会社 | Information processing apparatus, information processing method, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020173673A (en) | 2020-10-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107294993B (en) | WEB abnormal traffic monitoring method based on ensemble learning | |
| Jordaney et al. | Transcend: Detecting concept drift in malware classification models | |
| EP2859418B1 (en) | Generalized pattern recognition for fault diagnosis in machine condition monitoring | |
| US20210117802A1 (en) | Training a Neural Network Using Small Training Datasets | |
| WO2017124942A1 (en) | Method and apparatus for abnormal access detection | |
| CN110807086B (en) | Text data labeling method and device, storage medium and electronic equipment | |
| JP7024364B2 (en) | Specific program, specific method and information processing device | |
| US20080201131A1 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
| JP2009122851A (en) | Technique for classifying data | |
| CN112395881A (en) | Material label construction method and device, readable storage medium and electronic equipment | |
| He et al. | A two-stage biomedical event trigger detection method integrating feature selection and word embeddings | |
| Madkour et al. | Hotspot detection using machine learning | |
| CN111291096B (en) | Data set construction method, device and storage medium, and abnormal index detection method | |
| CN109933502A (en) | Electronic device, the processing method of user operation records and storage medium | |
| CN111931229A (en) | Data identification method and device and storage medium | |
| CN112686045B (en) | Method and device for evaluating text error detection model | |
| CN110705281A (en) | Resume information extraction method based on machine learning | |
| WO2020255414A1 (en) | Learning assistance device, learning assistance method, and computer-readable recording medium | |
| WO2007132564A1 (en) | Data processing device and method | |
| JP7243402B2 (en) | DOCUMENT PROCESSING METHOD, DOCUMENT PROCESSING PROGRAM AND INFORMATION PROCESSING DEVICE | |
| JP5952441B2 (en) | Method for identifying secret data, electronic apparatus and computer-readable recording medium | |
| JP7424507B2 (en) | Detection program, detection method and detection device | |
| US20150178966A1 (en) | System and method to check the correct rendering of a font | |
| JP2015018372A (en) | Expression extraction model learning device, expression extraction model learning method and computer program | |
| JP7272455B2 (en) | DETECTION METHOD, DETECTION PROGRAM AND INFORMATION PROCESSING DEVICE |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220111 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221121 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230110 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230220 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7243402 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |