Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5379749B2 - Document classification apparatus, document classification method, program thereof, and recording medium - Google Patents
[go: Go Back, main page]

JP5379749B2 - Document classification apparatus, document classification method, program thereof, and recording medium - Google Patents

Document classification apparatus, document classification method, program thereof, and recording medium Download PDF

Info

Publication number
JP5379749B2
JP5379749B2 JP2010135350A JP2010135350A JP5379749B2 JP 5379749 B2 JP5379749 B2 JP 5379749B2 JP 2010135350 A JP2010135350 A JP 2010135350A JP 2010135350 A JP2010135350 A JP 2010135350A JP 5379749 B2 JP5379749 B2 JP 5379749B2
Authority
JP
Japan
Prior art keywords
document
distance
documents
document classification
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010135350A
Other languages
Japanese (ja)
Other versions
JP2012003334A (en
Inventor
真詞 田本
理 吉岡
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010135350A priority Critical patent/JP5379749B2/en
Publication of JP2012003334A publication Critical patent/JP2012003334A/en
Application granted granted Critical
Publication of JP5379749B2 publication Critical patent/JP5379749B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書等の分類に用いる分類基準の統計的信頼性に優れた文書分類装置、文書分類方法、そのプログラムおよび記録媒体に関する。   The present invention relates to a document classification apparatus, a document classification method, a program thereof, and a recording medium, which are excellent in statistical reliability of classification criteria used for classification of documents and the like.

複数の文書等を分類する場合、各文書の特徴量の相違を利用し、特徴量の類似性に基づき分類を行う。分類に用いる特徴量として、一般に文書に含まれる各単語の相対出現頻度を要素とする文書ベクトルが用いられ、各文書の文書ベクトル間の距離に基づき、各文書を複数のクラスタに分類する。各文書ベクトル間の距離は、各文書に含まれる単語の相対出現頻度の類似性に基づき定義する。具体的には例えば、各文書に含まれる単語の相対出現頻度の真値の事後確率密度分布の最尤値間の距離として定義する。そして、このように定義された距離が近い文書ベクトル同士が同じクラスタに属するようクラスタリングする。   When classifying a plurality of documents or the like, classification is performed based on the similarity of feature amounts using the difference in feature amounts of the documents. As a feature amount used for classification, a document vector whose element is a relative appearance frequency of each word included in a document is generally used, and each document is classified into a plurality of clusters based on the distance between the document vectors of each document. The distance between each document vector is defined based on the similarity of the relative appearance frequency of words included in each document. Specifically, for example, it is defined as the distance between the maximum likelihood values of the true posterior probability density distribution of the true value of the relative appearance frequency of the words included in each document. Then, clustering is performed so that document vectors having a close distance defined in this way belong to the same cluster.

特開2008−234482号公報JP 2008-234482 A

各文書ベクトル間の距離を、各文書に含まれる単語の相対出現頻度の類似性のみにより定義した場合、同じ相対出現頻度であっても、各相対出現頻度のサンプル数が異なる場合、すなわち、出現頻度の絶対値が異なる場合、確率密度分布にも相違が生じ、統計的信頼性に相違が生じる。この相違は、サンプル数が小さい場合に特に問題となり、具体的には、出現頻度の低い単語の影響が相対的に大きくなることで統計的信頼性が損なわれる。これにより例えば、本来同一クラスタに分類されるべきでない文書が単一のクラスタに分類される等の問題が生じる。このような問題を回避するために、出現頻度の低い単語を人為的に排除するという対策(例えば、特許文献1)も考えられるが、効率面やコスト面などの新たな問題が生じる。   When the distance between each document vector is defined only by the similarity of the relative appearance frequency of words included in each document, even if the relative appearance frequency is the same, the number of samples of each relative appearance frequency is different, that is, the appearance When the absolute value of the frequency is different, the probability density distribution is also different, and the statistical reliability is different. This difference is particularly problematic when the number of samples is small. Specifically, the statistical reliability is impaired due to the relatively large influence of words with low appearance frequency. This causes a problem that, for example, documents that should not be classified into the same cluster are classified into a single cluster. In order to avoid such a problem, a countermeasure (for example, Patent Document 1) of artificially removing words with low appearance frequency is conceivable, but new problems such as efficiency and cost arise.

本発明の目的は、複数の文書をクラスタリングする際に、文書が短い場合でも人手を介することなく精度よく文書を分類することが可能な文書分類装置、文書分類方法、そのプログラムおよび記録媒体を提供することにある。   An object of the present invention is to provide a document classification apparatus, a document classification method, a program therefor, and a recording medium that can accurately classify a plurality of documents even when the documents are short, even if the documents are short. There is to do.

本発明の文書分類装置は、複数の文書をクラスタリングする装置であって、文書ベクトル生成部と距離算出部とクラスタリング部とを備える。文書ベクトル生成部は、文書に含まれる各単語の相対出現頻度を要素とする文書ベクトルを、各文書について生成する。距離算出部は、各文書ベクトル間の距離を、単語の相対出現頻度の事後確率密度分布の最尤値間の距離に確率推定の信頼性を加味した距離尺度を用いて算出する。クラスタリング部は、各文書ベクトル間の距離に基づき、各文書を複数のクラスタに分類する。   The document classification device of the present invention is a device that clusters a plurality of documents, and includes a document vector generation unit, a distance calculation unit, and a clustering unit. The document vector generation unit generates a document vector having the relative appearance frequency of each word included in the document as an element for each document. The distance calculation unit calculates the distance between each document vector by using a distance scale in which the reliability of probability estimation is added to the distance between the maximum likelihood values of the posterior probability density distribution of the relative appearance frequency of words. The clustering unit classifies each document into a plurality of clusters based on the distance between each document vector.

本発明の文書分類装置、文書分類方法、そのプログラムおよび記録媒体によれば、本発明の文書分類装置、文書分類方法、そのプログラムおよび記録媒体によれば、各文書ベクトル間の距離を、単語の相対出現頻度の事後確率密度分布の最尤値間の距離に確率推定の信頼性を加味した距離尺度を用いて算出する。これにより、事後確率密度分布間の距離も考慮されることになるため、低出現頻度の単語の影響により低下していた分類基準の統計的信頼性を向上することができる。そのため、複数の文書をクラスタリングする際に、文書が短い場合でも人手を介することなく精度よく文書を分類することが可能となる。   According to the document classification device, document classification method, program and recording medium of the present invention, according to the document classification device, document classification method, program and recording medium of the present invention, the distance between each document vector The distance between the maximum likelihood values of the posterior probability density distribution of the relative appearance frequency is calculated using a distance scale in which the reliability of probability estimation is added. Thereby, since the distance between the posterior probability density distributions is also taken into consideration, the statistical reliability of the classification criterion that has been lowered due to the influence of the words having a low appearance frequency can be improved. Therefore, when a plurality of documents are clustered, even if the documents are short, the documents can be accurately classified without human intervention.

文書分類装置100の構成例を示すブロック図。2 is a block diagram illustrating a configuration example of a document classification device 100. FIG. 文書分類装置100の処理フロー例を示す図。FIG. 5 is a diagram showing an example of a processing flow of the document classification apparatus 100. 2つの文書の事後確率密度分布の距離を模式化した図。The figure which modeled the distance of the posterior probability density distribution of two documents. クラスタリング部130における処理フローの例を示す図。The figure which shows the example of the processing flow in the clustering part.

図1は本発明の文書分類装置100の構成例を示すブロック図である。また、図2はその処理フロー例である(S1〜S4)。文書分類装置100は、複数の文書をクラスタリングする装置であって、文書ベクトル生成部110と距離算出部120とクラスタリング部130と結果表示部140とを備える。   FIG. 1 is a block diagram illustrating a configuration example of a document classification apparatus 100 according to the present invention. FIG. 2 shows an example of the processing flow (S1 to S4). The document classification device 100 is a device that clusters a plurality of documents, and includes a document vector generation unit 110, a distance calculation unit 120, a clustering unit 130, and a result display unit 140.

文書ベクトル生成部110は、文書に含まれる各単語の相対出現頻度を要素とする文書ベクトルを、分類の対象となる各文書について生成する(S1)。このとき、文書ベクトルに含める単語は必ずしも文書に含まれる全ての単語でなくてもよく、予め文書中の単語の解析などを行い、特徴的な主要単語に限定してもよい。   The document vector generation unit 110 generates a document vector having the relative appearance frequency of each word included in the document as an element for each document to be classified (S1). At this time, the words included in the document vector do not necessarily have to be all the words included in the document, but may be limited to characteristic main words by analyzing the words in the document in advance.

距離算出部120は、各文書ベクトル間の距離を、単語の相対出現頻度の事後確率密度分布の最尤値間の距離に確率推定の信頼性を加味した距離尺度を用いて算出する(S2)。これにより、事後確率密度分布間の距離も考慮されることになるため、低出現頻度の単語の影響により低下していた分類基準の統計的信頼性を向上することができる。具体的には、例えば以下のように算出する。   The distance calculation unit 120 calculates the distance between each document vector by using a distance scale in which the reliability of probability estimation is added to the distance between the maximum likelihood values of the posterior probability density distribution of the relative appearance frequency of words (S2). . Thereby, since the distance between the posterior probability density distributions is also taken into consideration, the statistical reliability of the classification criterion that has been lowered due to the influence of the words having a low appearance frequency can be improved. Specifically, for example, the calculation is performed as follows.

或る文書hの文書ベクトルから、当該文書h中に単語がn個出現し、そのうち単語wがk回出現することが観測された場合における、条件付き確率P(w|h)の真値pの事後確率は、   The true value p of the conditional probability P (w | h) when n words appear in the document h from the document vector of a document h and it is observed that the word w appears k times. The posterior probability of

Figure 0005379749
Figure 0005379749

と表すことができる。式(1)は、約分することにより二項事後分布 It can be expressed as. Equation (1) is binomial posterior distribution by dividing

Figure 0005379749
Figure 0005379749

として表すことができる。 Can be expressed as

2つの文書i、jにおける単語wの出現確率分布から独立に標本を抽出するとき、その差の二乗の統計的期待値は次式のような距離尺度として表すことができる。   When a sample is extracted independently from the appearance probability distribution of the word w in the two documents i and j, the statistical expectation value of the square of the difference can be expressed as a distance measure such as the following equation.

Figure 0005379749
Figure 0005379749

この距離尺度di,j (w)には、2つの文書i、jにおける単語wの相対出現頻度の事後確率密度分布の最尤値間の距離に加え、確率推定の信頼性が反映される。図3に、式(3)で求められる2つの文書i、jに対応するx、yの確率密度関数間の距離を模式化して示す。図3中の2つの二項事後確率密度分布からそれぞれランダムに選ばれる点の確率密度関数が各々の分布に従い、距離尺度di,j (w)は選ばれた2点の距離の統計的期待値となる。 This distance measure d i, j (w) reflects the reliability of probability estimation in addition to the distance between the maximum likelihood values of the posterior probability density distribution of the relative appearance frequency of the word w in the two documents i and j. . FIG. 3 schematically shows the distance between the probability density functions of x and y corresponding to the two documents i and j obtained by Expression (3). The probability density function of points randomly selected from the two binomial posterior probability density distributions in FIG. 3 follows each distribution, and the distance measure d i, j (w) is the statistical expectation of the distance between the two selected points. Value.

そして、複数の単語の共起関係から2つの文書i,jの類似度を示す距離尺度di,jを、各単語について式(2),(3)に基づき定義される二項事後分布に基づき次式により定義することができる(参考文献1参照)。 Then, the distance measure d i, j indicating the similarity between the two documents i and j from the co-occurrence relationship of a plurality of words is converted into a binomial posterior distribution defined for each word based on the equations (2) and (3). Based on the following formula, it can be defined (see Reference 1).

Figure 0005379749
Figure 0005379749

〔参考文献1〕田本真詞、川端豪、「連接共起に注目した単語のクラスタリング」、電子情報通信学会技術研究報告、1993、SP、音声93-125、p.55-62   [Reference 1] Shinji Tamoto, Go Kawabata, “Clustering of Words Focusing on Concatenated Co-occurrence”, IEICE Technical Report, 1993, SP, Speech 93-125, p.55-62

クラスタリング部130は、距離算出部120で得られた各文書ベクトル間の距離に基づき、各文書を複数のクラスタに分類する(S3)。クラスタリングの方法としては種々の方法を適用できる。例えば、凝集型による階層的クラスタリング手法を用いる場合には、図4に示すような手順(S11〜S13)でクラスタリングすることができる。なお、{D|1≦p≦n}を文書の集合とし、{C|1≦p≦h}を分類の集合とし、各Cに対応付けられた文書集合を{Kpu|1≦u≦n}とする。また、初期状態では、C={D}とする。 The clustering unit 130 classifies each document into a plurality of clusters based on the distance between each document vector obtained by the distance calculation unit 120 (S3). Various methods can be applied as a clustering method. For example, when using the hierarchical clustering method based on the aggregation type, clustering can be performed by the procedure (S11 to S13) as shown in FIG. Note that {D p | 1 ≦ p ≦ n} is a set of documents, {C p | 1 ≦ p ≦ h} is a set of classifications, and a set of documents associated with each C p is {K pu | 1 ≦ u ≦ n p }. In the initial state, C p = {D p }.

まず、C、Cクラスタ間の距離 d(C,C) を計算し、最も距離の近い2つのクラスタを処理対象とする(S11)。クラスタ間の距離d(C,C)は、クラスタ内の代表文書D,Dの文書ベクトルの距離d(D,D)とし、代表文書Dは、Cの文書のうち、Σ(1≦s,t≦n,s≠t)d(Kps,Kpt)を最小にする文書Kptとする。次に、C,Cクラスタを結合し、新たなクラスタCを生成する(S12)。そして、クラスタ数hが既定数に達していなければ、S11に移行し、達していればクラスタリング処理を終了する(S13)。 First, a distance d c (C p , C q ) between C p and C q clusters is calculated, and two clusters having the closest distance are set as processing targets (S11). The distance between the clusters d c (C p, C q ) is representative document D p in the cluster, the distance of the document vector of D q d v (D p, D q) and the representative document D p is the C p Of the documents, a document K pt that minimizes Σ (1 ≦ s, t ≦ n p , s ≠ t) d v (K ps , K pt ) is set. Next, the C p and C q clusters are combined to generate a new cluster C r (S12). If the number of clusters h has not reached the predetermined number, the process proceeds to S11, and if it has reached, the clustering process is terminated (S13).

そして、結果表示部140は、クラスタリング結果を表示する(S4)。表示方法は任意であり、例えば、クラスタリング部130で分類された各クラスタと、それぞれのクラスタに属する文書のラベルのリストを表示する。   Then, the result display unit 140 displays the clustering result (S4). The display method is arbitrary. For example, each cluster classified by the clustering unit 130 and a list of labels of documents belonging to each cluster are displayed.

以上のように、本発明の文書分類装置、文書分類方法、そのプログラムおよび記録媒体によれば、各文書ベクトル間の距離を、単語の相対出現頻度の事後確率密度分布の最尤値間の距離に確率推定の信頼性を加味した距離尺度を用いて算出する。これにより、事後確率密度分布間の距離も考慮されることになるため、低出現頻度の単語の影響により低下していた分類基準の統計的信頼性を向上することができる。そのため、複数の文書をクラスタリングする際に、文書が短い場合でも人手を介することなく精度よく文書を分類することが可能となる。   As described above, according to the document classification device, the document classification method, the program, and the recording medium of the present invention, the distance between each document vector is the distance between the maximum likelihood values of the posterior probability density distribution of the relative appearance frequency of words. And a distance scale that takes into account the reliability of probability estimation. Thereby, since the distance between the posterior probability density distributions is also taken into consideration, the statistical reliability of the classification criterion that has been lowered due to the influence of the words having a low appearance frequency can be improved. Therefore, when a plurality of documents are clustered, even if the documents are short, the documents can be accurately classified without human intervention.

上記の各処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   Each of the above processes is not only executed in time series according to the description, but may also be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

また、本発明の文書分類装置をコンピュータによって実現する場合、装置の各部が有す機能の処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には必要なプログラムやデータがRAM(Random Access Memory)に読み込まれる。その読み込まれたプログラムがCPUにより実行されることにより、コンピュータ上で各処理内容が実現される。なお、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   Further, when the document classification device of the present invention is realized by a computer, the processing contents of the functions possessed by each part of the device are described by a program. The program is stored in, for example, a hard disk device, and necessary programs and data are read into a RAM (Random Access Memory) at the time of execution. The read program is executed by the CPU, whereby each processing content is realized on the computer. Note that at least a part of the processing content may be realized by hardware.

上記の処理機能を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the above processing functions can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   As an execution form different from the above-described embodiment, the computer may read the program directly from the portable recording medium and execute processing according to the program. Each time is transferred, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

Claims (6)

複数の文書をクラスタリングする文書分類装置であって、
文書に含まれる各単語の相対出現頻度を要素とする文書ベクトルを、各文書について生成する文書ベクトル生成部と、
各文書ベクトル間の距離を、単語の相対出現頻度の事後確率密度分布の最尤値間の距離に確率推定の信頼性を加味した距離尺度を用いて算出する距離算出部と、
各文書ベクトル間の距離に基づき、各文書を複数のクラスタに分類するクラスタリング部と、
を備える文書分類装置。
A document classification device for clustering a plurality of documents,
A document vector generation unit that generates, for each document, a document vector whose element is the relative frequency of occurrence of each word included in the document;
A distance calculation unit that calculates the distance between each document vector by using a distance scale in which the reliability of probability estimation is added to the distance between the maximum likelihood values of the posterior probability density distribution of the relative appearance frequency of words;
A clustering unit that classifies each document into a plurality of clusters based on the distance between each document vector;
A document classification device comprising:
請求項1に記載の文書分類装置であって、
前記距離算出部は、
前記文書ベクトルから、文書h中に単語がn個出現し、そのうち単語wがk回出現することが観測された場合の条件付き確率P(w|h)の真値pの事後確率
Figure 0005379749

を約分して得られる二項事後分布
Figure 0005379749

を用いて、2つの文書i、jにおける単語wの出現確率分布の差の二乗の統計的期待値
Figure 0005379749

を求め、2つの文書i、j間の距離di,jを、
Figure 0005379749

で定義される距離尺度を用いて求めることを特徴とする文書分類装置。
The document classification device according to claim 1,
The distance calculation unit
The posterior probability of the true value p of the conditional probability P (w | h) when n words appear in the document h from the document vector, and it is observed that the word w appears k times.
Figure 0005379749

Binomial posterior distribution obtained by reducing
Figure 0005379749

Is the statistical expectation value of the square of the difference between the probability distributions of the word w in the two documents i and j
Figure 0005379749

And the distance d i, j between the two documents i and j is
Figure 0005379749

A document classification apparatus characterized by obtaining using a distance scale defined in (1).
複数の文書をクラスタリングする文書分類方法であって、
文書に含まれる各単語の相対出現頻度を要素とする文書ベクトルを、各文書について生成する文書ベクトル生成ステップと、
各文書ベクトル間の距離を、単語の相対出現頻度の事後確率密度分布の最尤値間の距離に確率推定の信頼性を加味した距離尺度を用いて算出する距離算出ステップと、
各文書ベクトル間の距離に基づき、各文書を複数のクラスタに分類するクラスタリングステップと、
を実行する文書分類方法。
A document classification method for clustering a plurality of documents,
A document vector generation step for generating, for each document, a document vector whose element is a relative frequency of occurrence of each word included in the document;
A distance calculation step of calculating a distance between each document vector using a distance scale in which reliability of probability estimation is added to a distance between maximum likelihood values of a posteriori probability density distribution of a relative appearance frequency of words;
A clustering step of classifying each document into a plurality of clusters based on the distance between each document vector;
Document classification method to execute.
請求項3に記載の文書分類方法であって、
前記距離算出ステップは、
前記文書ベクトルから、文書h中に単語がn個出現し、そのうち単語wがk回出現することが観測された場合の条件付き確率P(w|h)の真値pの事後確率
Figure 0005379749

を約分して得られる二項事後分布
Figure 0005379749

を用いて、2つの文書i、jにおける単語wの出現確率分布の差の二乗の統計的期待値
Figure 0005379749

を求め、2つの文書i、j間の距離di,jを、
Figure 0005379749

で定義される距離尺度を用いて求めることを特徴とする文書分類方法。
The document classification method according to claim 3,
The distance calculating step includes:
The posterior probability of the true value p of the conditional probability P (w | h) when n words appear in the document h from the document vector, and it is observed that the word w appears k times.
Figure 0005379749

Binomial posterior distribution obtained by reducing
Figure 0005379749

Is the statistical expectation value of the square of the difference between the probability distributions of the word w in the two documents i and j
Figure 0005379749

And the distance d i, j between the two documents i and j is
Figure 0005379749

A document classification method characterized by being obtained using a distance scale defined in 1.
請求項1又は2に記載の文書分類装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the document classification device according to claim 1. 請求項1又は2に記載の文書分類装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium in which a program for causing a computer to function as the document classification device according to claim 1 is recorded.
JP2010135350A 2010-06-14 2010-06-14 Document classification apparatus, document classification method, program thereof, and recording medium Expired - Fee Related JP5379749B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010135350A JP5379749B2 (en) 2010-06-14 2010-06-14 Document classification apparatus, document classification method, program thereof, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010135350A JP5379749B2 (en) 2010-06-14 2010-06-14 Document classification apparatus, document classification method, program thereof, and recording medium

Publications (2)

Publication Number Publication Date
JP2012003334A JP2012003334A (en) 2012-01-05
JP5379749B2 true JP5379749B2 (en) 2013-12-25

Family

ID=45535273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010135350A Expired - Fee Related JP5379749B2 (en) 2010-06-14 2010-06-14 Document classification apparatus, document classification method, program thereof, and recording medium

Country Status (1)

Country Link
JP (1) JP5379749B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101668725B1 (en) 2015-03-18 2016-10-24 성균관대학교산학협력단 Latent keyparase generation method and apparatus

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3928351B2 (en) * 2000-11-16 2007-06-13 株式会社日立製作所 Feature word selection method using probability
JP2008299616A (en) * 2007-05-31 2008-12-11 Kyushu Univ Document classification apparatus, document classification method, program, and recording medium

Also Published As

Publication number Publication date
JP2012003334A (en) 2012-01-05

Similar Documents

Publication Publication Date Title
US12056583B2 (en) Target variable distribution-based acceptance of machine learning test data sets
JP5142135B2 (en) Technology for classifying data
US20180081978A1 (en) Method and Apparatus for Processing Information
JP2018045559A (en) Information processing apparatus, information processing method, and program
US11182804B2 (en) Segment valuation in a digital medium environment
CN112434884A (en) Method and device for establishing supplier classified portrait
CN107004141A (en) Efficient labeling of large sample groups
WO2019128311A1 (en) Advertisement similarity processing method and apparatus, calculation device, and storage medium
CN114631099B (en) Artificial Intelligence Transparency
CN113537151A (en) Training method and device of image processing model, and image processing method and device
CN113223017A (en) Training method of target segmentation model, target segmentation method and device
CN109344017A (en) A method, device and readable storage medium for predicting memory failure based on machine learning
JP6160143B2 (en) Image processing apparatus, image processing method and equipment
CN106919380A (en) Programmed using the data flow of the computing device of the figure segmentation estimated based on vector
CN107798410B (en) Method and device for product planning and electronic equipment
CN109446322B (en) Text analysis method, apparatus, electronic device and readable storage medium
EP4654017A1 (en) Composite risk score for cloud software deployments
JP5379749B2 (en) Document classification apparatus, document classification method, program thereof, and recording medium
JP5959063B2 (en) Apparatus and method for supporting acquisition of information
CN103503469B (en) Classification system for staged elements
JP5135803B2 (en) Optimal parameter search program, optimal parameter search device, and optimal parameter search method
US12474989B2 (en) Proactive problem detection using alert data and incident data
KR102242042B1 (en) Method, apparatus and computer program for data labeling
CN114764594B (en) Classification model feature selection method, device and equipment
JP6804639B2 (en) Attribute identification device, attribute identification method, program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130927

R150 Certificate of patent or registration of utility model

Ref document number: 5379749

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees