Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7020331B2 - クラスタリング装置、方法、及びプログラム - Google Patents
[go: Go Back, main page]

JP7020331B2 - クラスタリング装置、方法、及びプログラム - Google Patents

クラスタリング装置、方法、及びプログラム Download PDF

Info

Publication number
JP7020331B2
JP7020331B2 JP2018140532A JP2018140532A JP7020331B2 JP 7020331 B2 JP7020331 B2 JP 7020331B2 JP 2018140532 A JP2018140532 A JP 2018140532A JP 2018140532 A JP2018140532 A JP 2018140532A JP 7020331 B2 JP7020331 B2 JP 7020331B2
Authority
JP
Japan
Prior art keywords
matrix
self
data
clustering
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018140532A
Other languages
English (en)
Other versions
JP2020017135A (ja
Inventor
正隆 山口
豪 入江
薫 平松
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018140532A priority Critical patent/JP7020331B2/ja
Priority to US17/263,110 priority patent/US11520837B2/en
Priority to PCT/JP2019/029495 priority patent/WO2020022498A1/ja
Publication of JP2020017135A publication Critical patent/JP2020017135A/ja
Application granted granted Critical
Publication of JP7020331B2 publication Critical patent/JP7020331B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

本発明は、クラスタリング装置、方法、及びプログラムに係り、特に、データ集合をクラスタリングするためのクラスタリング装置、方法、及びプログラムに関する。
音声、音楽などの音響信号や画像信号などディジタル信号を分類する方法に関する技術がある。データ点の集合が複数の部分空間の集合の上に属すると見なせる場面が存在する。そのようなデータ点の集合を、同じ部分空間上のデータ点同士に分類する問題は部分空間クラスタリングと呼ばれる。図1に部分空間クラスタリングの概念図を示す。部分空間クラスタリングは画像クラスタリングやデータマイニングに用いられる重要な問題である。
図1左に示すデータ集合を、図1右に示すように、左斜線上の点を同一クラスタに、右斜線上の点を同一クラスタに、平面上の点を同一クラスタにまとめ上げることができた場合が正解となる。
従来、部分空間クラスタリングのために多様な枠組みが提案されてきたが、特にスペクトラルクラスタリングベースの枠組みが扱いやすさや精度の観点から有望視されている。スペクトラルクラスタリングベースの部分空間クラスタリングは、初めに、(1)同一の部分空間に属する点ほど類似度が大きくなるような基準を用いて類似度行列を構成する(図2を参照)。次に、(2)得られた類似度行列を元にスペクトラルクラスタリングによりクラスタリングを実行する、という二段階のステップから構成される枠組みである。
ここで、(1)の類似度行列を作るステップにおいて、類似度はどのように計算するべきかを検討する。類似度行列をM∈RNxNとし、Mijにはi番目とj番目のデータの類似度が格納されているものとする。類似度の計算方法としては、同一の部分空間に属するデータの点同士は類似度がなるべく大きくなり、異なる部分空間に属する点同士は類似度がゼロもしくはなるべく小さくなるような方法を採用するべきである。類似度の定義方法としては複数のものが提案されてきたが、近年では自己表現アプローチと呼ばれるアプローチが主流になっており、以下、自己表現アプローチに基づいた手法を説明する。
自己表現アプローチは、「データの各点は同一の部分空間に属する少数個の点の線形結合で表現することができる」という考えに基づいたアプローチである。例えば、図3において、一つの丸で囲われている点について考える。この点を、なるべく少ない数の他の点の線形結合で再構成したい場合、例えば、同一の部分空間に属する丸で囲われた2点だけを用いて表現することができるだろう。このように、なるべく少ない点の線形結合で各点を再構成しようとすると、その点と同じ部分空間に属する点だけが選択されて線形結合のために用いられるのである。この性質を利用して類似度を計算するのが自己表現アプローチである。
以下、自己表現アプローチのより具体的な説明を述べる。自己表現アプローチでは、はじめに次の(1)式の目的関数を解く。
Figure 0007020331000001

・・・(1)
ここでX∈RD×Nはデータ集合の各データを要素とするデータ行列である。Z∈RN×Nは線形結合の重みに相当する行列であり、自己表現行列と呼ばれる。自己表現行列は、データ集合におけるデータの各点を、各点の線形結合で表現する際の線形重みを要素とする。X-XZはXをXの線形結合XZで表現した場合の残差であり、h(X-XZ)は残差に罰則をかける項である。r(Z)は、Xの各点を他の点の線形結合で表現する際に、なるべく少ない数の点だけが用いられるようにするための正則化項である。つまりZの要素のうちなるべく多くの要素がゼロになるように促す項である。λは二つの項のバランスを取るためのパラメータである。CはZの条件となる行列集合である。
自己表現アプローチでは自己表現行列Zを計算した後に、得られたZを元に類似度行列Mを計算する。代表的な類似度行列の定義方法としてはMij=|Zij|+|Zji|とすることでMを定義する方法などが挙げられる。そして、計算した類似度行列Mをスペクトラルクラスタリングといったグラフクラスタリングのためアルゴリズムにより分類することでクラスタリング結果を得る。図4に自己表現アプローチのフローの一例を示す。
非特許文献1に記載の手法では(1)式において、h(X-XZ)=||X-XZ|| 、r(Z)=||Z|| を、そして条件集合CにはC=RNxNもしくはC={Z|Z∈RNxN,Zii=0}を用いることを提案している。行列集合Cとしてどちらを用いた場合においてもZに閉じた解が存在するため、(1)式が高速に計算可能である。
Can-Yi Lu, Hai Min, Zhong-Qiu Zhao Lin Zhu, De-Shuang Huang, and Shuicheng Yan. "Robust and Efficient Subspace Segmentation via Least Squares Regression", ECCV2012
従来技術では、他のデータ全てを線形結合の候補として用いて再構成を行う。実世界データの集合には大きな外乱(例えばスパイクノイズや全く異なるカテゴリのデータ)の乗ったデータが混じることがしばしば起こることが考えられる。そのため、再構成の際にデータ集合中の全てのデータを考慮する場合、大きな外乱の乗ったデータも全て考慮されることになり、これらのデータから結果が悪影響を受ける可能性がある。例えば図5の(a)のような1次元部分空間から生成されたデータ集合において、(a)の丸で囲われたデータを他の点の線形結合によって表現することを考える。全ての点を線形結合の候補として使う場合、例えば図5(b)に示すように少し1次元部分空間から外れたところにあるデータを用いて表現することができてしまう。このような場合、図5(b)の点線の部分にも1次元部分空間があるのではないかと誤認識してしまう恐れがある。
本発明は、上記問題点を解決するために成されたものであり、ノイズの影響を抑えた自己表現行列を用いて、クラスタリングをすることができるクラスタリング装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るクラスタリング装置は、予め定められた行列集合に含まれる行列のうち、データ集合におけるデータの各点を、各点の線形結合で表現する際の線形重みを要素とする自己表現行列を求めるための目的関数であって、前記データ集合におけるデータの各点と、前記自己表現行列を用いた各点の線形結合で表現されたデータの各点との残差を求める項と、所定の重みをかけた、前記自己表現行列においてユークリッドノルムの大きな前記データの各点の線形重みを小さくするための第1正則化項と、前記自己表現行列に関する第2正則化項とによって表される目的関数を最小化するような前記自己表現行列を算出する自己表現行列算出部と、算出された前記自己表現行列で定義される類似度行列を計算する類似度計算部と、前記類似度行列に基づいて前記データ集合をクラスタリングしたクラスタリング結果を得るクラスタリング部と、を含んで構成されている。
第2の発明に係るクラスタリング方法は、自己表現行列算出部が、予め定められた行列集合に含まれる行列のうち、データ集合におけるデータの各点を、各点の線形結合で表現する際の線形重みを要素とする自己表現行列を求めるための目的関数であって、前記データ集合におけるデータの各点と、前記自己表現行列を用いた各点の線形結合で表現されたデータの各点との残差を求める項と、所定の重みをかけた、前記自己表現行列においてユークリッドノルムの大きな前記データの各点の線形重みを小さくするための第1正則化項と、前記自己表現行列に関する第2正則化項とによって表される目的関数を最小化するような前記自己表現行列を算出するステップと、類似度計算部が、算出された前記自己表現行列で定義される類似度行列を計算するステップと、クラスタリング部が、前記類似度行列に基づいて前記データ集合をクラスタリングしたクラスタリング結果を得るステップと、を含んで実行することを特徴とする。
第3の発明に係るプログラムは、コンピュータを、第1の発明に記載のクラスタリング装置の各部として機能させるためのプログラムである。
本発明のクラスタリング装置、方法、及びプログラムによれば、予め定められた行列集合に含まれる行列のうち、データ集合におけるデータの各点を、各点の線形結合で表現する際の線形重みを要素とする自己表現行列を求めるための目的関数であって、データ集合におけるデータの各点と、自己表現行列を用いた各点の線形結合で表現されたデータの各点との残差を求める項と、所定の重みをかけた、自己表現行列においてユークリッドノルムの大きなデータの各点の線形重みを小さくするための第1正則化項と、自己表現行列に関する第2正則化項とによって表される目的関数を最小化するような自己表現行列を算出し、算出された自己表現行列で定義される類似度行列を計算し、類似度行列に基づいてデータ集合をクラスタリングしたクラスタリング結果を得ることにより、ノイズの影響を抑えた自己表現行列を用いて、クラスタリングをすることができる、という効果が得られる。
データ集合のクラスタリングの一例を示す図である。 同一の部分空間に属する点ほど類似度が大きくなるようにすることの一例を示す概念図である。 点を同一の部分空間に属する2点の線形結合で再構成する場合の一例を示す概念図である。 自己表現アプローチのフローの一例を示す図である。 部分空間におけるデータ集合について線形結合を表現した場合の概念図である。 本発明の実施の形態に係るクラスタリング装置の構成を示すブロック図である。 本発明の実施の形態に係るクラスタリング装置におけるクラスタリング処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
前述の問題を解決するために、データ集合の中から一部のデータをランダムサンプリングし、それだけを用いて(1)式を解く方法を検討する。図5の例を元に説明する。図5(c)は図5(a)のデータからランダムサンプリングした場合の一例である。大きなノイズの乗ったデータの数がそうでないデータと比べて少ない場合、ランダムサンプリングをすることでノイズの乗ったデータの大部分を無視することができるようになり、データの各点が実際の部分空間上からあまりずれていないデータによって表現される傾向を強めることができるようになる。図5(d)は同一の部分空間上の線形結合によってデータの点を表すことを想定した一例である。
まず、本発明の実施の形態の具体的な構成を説明する前に、本発明の実施の形態に係る手法の着想の経緯を述べる。以下では、h(X-XZ)=||X-XZ|| を用いることを考える。はじめに各データを確率α∈(0,1)のベルヌーイ分布に従って選択し、その結果選択されたデータだけを用いて(1)式を定義し直すと次の(2)式のようになる。
Figure 0007020331000002

・・・(2)
ここでP~p(P)は各データを確率αで選択する選択行列である。(2)式をそのまま用いるとPによって選択されなかったデータに相当する部分のデータは選ばれない。そこでFの部分で期待値をとることを考える。
Figure 0007020331000003

・・・(3)
更に、E[||F|| ]は次のように変形できる。
Figure 0007020331000004

・・・(4)
ここでdiag(x)はベクトルxを対角成分にもつ対角行列を返す演算子、Diag(X)は正方行列Xの対角成分だけを抜き出してベクトルとする演算子、trace(X)はtrace演算子(つまり対角成分の和)である。そしてZ’=αZである。
更に、Zの条件である行列集合CとしてC={Z|Z∈RN×N,Zii=0}を選択すると(3)式は次のように変形できる。
Figure 0007020331000005

・・・(5)
(5)式から、新たな正則化項||Diag(diag(XX))0.5Z’|| が自然と導出できる。この項を導入することにより、Zの各要素に重み付けをすることができる。以上の式変形による導出を元に、以下、本発明の実施の形態の構成を説明する。
<本発明の実施の形態に係るクラスタリング装置の構成>
本発明の実施の形態に係るクラスタリング装置の構成について説明する。図6に示すように、本発明の実施の形態に係るクラスタリング装置100は、CPUと、RAMと、後述するクラスタリング処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このクラスタリング装置100は、機能的には図6に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、処理の対象とするデータ集合を受け付ける。
演算部20は、自己表現行列算出部30と、類似度計算部32と、クラスタリング部34とを含んで構成されている。
自己表現行列算出部30は、受け付けたデータ集合について、予め定められた行列集合Cのうち、以下(6)式の目的関数を最小化するような自己表現行列を算出する。
Figure 0007020331000006

・・・(6)
上記(6)式によって表される目的関数は、行列集合Cに含まれる行列のうち、データ集合におけるデータの各点を、各点の線形結合で表現する際の線形重みを要素とする自己表現行列Zを求めるための目的関数である。目的関数は次の各項によって表される。h(X-XZ)は、データ集合における各データを要素とするデータ行列Xのデータの各点と、自己表現行列Zを用いた各点の線形結合で表現されたデータの各点との残差を求める項である。||Diag(diag(XX))0.5Z|| は、自己表現行列Zにおいて、ユークリッドノルムの大きなデータの各点の線形重みを小さくするための第1正則化項である。第1正則化項には、所定の重みβをかける。r(Z)は、自己表現行列に関する第2正則化項である。
ただし、λは第2正則化項に対する重みであり、diag(x)はベクトルxを対角成分にもつ対角行列を返す演算子であり、Diag(x)は行列xの対角成分を抜き出してベクトルとする演算子であり、第1正則化項はデータ集合の行列の転置とデータ集合の行列の積により計算される行列に対して、行列の対角成分を抜き出してベクトルとする演算子Diag(x)を適用した結果に対して、ベクトルを対角成分にもつ対角行列を返す演算子diag(x)を適用した結果を用いて表される。CはC=RN×N又はC={Z|Z∈RN×N、Zii=0}とし、h(・)は、以下のLpノルムのq乗とする。
Figure 0007020331000007

pとqは何らかの正の数である。
また、第2正則化項のr(Z)には様々なものを用いることができる。例えば何も用いないこと、つまりr(Z)=0や、フロベニウスノルムr(Z)=||Z||、フロベニウスノルムの二乗r(Z)=||Z|| 、又はL1ノルムr(Z)=||Z||を用いることなどが考えられる。
類似度計算部32は、自己表現行列算出部30で算出された自己表現行列Zで定義される類似度行列Mを計算する。例えばMij=|Zij|+|Zji|としてMを定義するといった方法などを用いることができる。
クラスタリング部34は、類似度計算部32で計算された類似度行列Mに基づいてデータ集合をクラスタリングしたクラスタリング結果を得る。クラスタリング手法には、例えばスペクトラルクラスタリングを用いることや最大カット法を用いることができる。
<本発明の実施の形態に係るクラスタリング装置の作用>
次に、本発明の実施の形態に係るクラスタリング装置100の作用について説明する。入力部10において処理の対象とするデータ集合を受け付けると、クラスタリング装置100は、図7に示すクラスタリング処理ルーチンを実行する。
まず、ステップS100では、受け付けたデータ集合について、予め定められた行列集合Cのうち、上記(6)式の目的関数を最小化するような自己表現行列を算出する。上記(6)式によって表される目的関数は、行列集合Cに含まれる行列のうち、データ集合におけるデータの各点を、各点の線形結合で表現する際の線形重みを要素とする自己表現行列Zを求めるための目的関数である。目的関数は次の各項によって表される。h(X-XZ)は、データ集合における各データを要素とするデータ行列Xのデータの各点と、自己表現行列Zを用いた各点の線形結合で表現されたデータの各点との残差を求める項である。||Diag(diag(XX))0.5Z|| は、自己表現行列Zにおいて、ユークリッドノルムの大きなデータの各点の線形重みを小さくするための第1正則化項である。第1正則化項には、所定の重みβをかける。r(Z)は、自己表現行列に関する第2正則化項である。
次に、ステップS102では、ステップS100で算出された自己表現行列Zで定義される類似度行列Mを計算する。
ステップS104では、ステップS102で計算された類似度行列Mに基づいてデータ集合をクラスタリングしたクラスタリング結果を得て出力部50に出力し、処理を終了する。
以上説明したように、本発明の実施の形態に係るクラスタリング装置によれば、予め定められた行列集合に含まれる行列のうち、データ集合におけるデータの各点を、各点の線形結合で表現する際の線形重みを要素とする自己表現行列を求めるための目的関数であって、データ集合におけるデータの各点と、自己表現行列を用いた各点の線形結合で表現されたデータの各点との残差を求める項と、所定の重みβをかけた、自己表現行列においてユークリッドノルムの大きなデータの各点の線形重みを小さくするための第1正則化項と、自己表現行列に関する第2正則化項とによって表される上記(6)式の目的関数を最小化するような自己表現行列を算出し、算出された自己表現行列で定義される類似度行列を計算し、類似度行列に基づいてデータ集合をクラスタリングしたクラスタリング結果を得ることにより、ノイズの影響を抑えた自己表現行列を用いて、クラスタリングをすることができる。
[実験例の検証]
実施の形態の提案手法における正則化項||Diag(diag(XX))0.5Z|| はh(X-XZ)=||X-XZ|| とした場合においてランダムサンプリングを適用することにより導出されたものである。そのため、この正則化項はノイズに対する頑健性を有していると予想できる。また、既存研究で用いられている正則化項||Z|| と比較すると正則化項||Diag(diag(XX))0.5Z|| はZにDiag(diag(XX))0.5による重み付けがなされており、この結果ユークリッドノルムの大きいデータ点が自己表現行列に大きすぎる影響を及ぼすことを防ぐ効果があることも期待される。
また、特定の場合において高速計算が可能である。特に、「h(X-XZ)=||X-XZ|| 、r(Z)=0、C=RN×N」とした場合、「h(X-XZ)=||X-XZ|| 、r(Z)=0、C={Z|Z∈RN×N,Zii=0}」とした場合、「h(X-XZ)=||X-XZ|| 、r(Z)=||Z|| 、C=RN×N」とした場合、又は「h(X-XZ)=||X-XZ|| 、r(Z)=||Z|| 、C={Z|Z∈RN×N,Zii=0}」とした場合に関してはZに閉じた解が存在し、Zを高速に計算することができる。
以下、本手法が実験的に優れた効果を有していることを示す実験例を述べる。
本手法の有効性を部分空間クラスタリング研究においてよく用いられる実世界データセットであるCOIL100、MNIST-RBを用いたクラスタリング実験を通じて実証する.COIL100はそれぞれ72枚の画像からなる100種のカテゴリについての32x32の画像データセットである。MNIST-RBは0から9までの28×28の手書き数字データセットであるMNISTの背景にRandomにノイズを加えたデータセットである。公平性のためCOIL100、MNIST-RBそれぞれのうち半分をパラメータ調整のためのValidation用、もう半分をTest用に用いることとした。COIL100ではValidation/Test用のスプリットでそれぞれランダムに10クラスを選ぶことを20回繰り返して20セットの評価セットを作って用いた。MNIST-RBではVal/Test用のスプリットでそれぞれランダムに100個ずつのデータを数字ごとに選択することを20回繰り返して20セットの評価セットを作って用いた。また、評価指標としては次の式に記載されたAccuracyを用いる。
Accuracy=(正しくクラスタリングされた点の数)/(全体の点の数)、とした。
行列Zを計算する場合にh(X-XZ)=||X-XZ|| ,C={Z|Z∈RN×N,Zii=0},r(Z)=0とした場合の結果を次の表1に示す。従来法より本手法が高い精度が出ていることがわかる。
Figure 0007020331000008

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
30 自己表現行列算出部
32 類似度計算部
34 クラスタリング部
50 出力部
100 クラスタリング装置

Claims (7)

  1. 予め定められた行列集合に含まれる行列のうち、データ集合におけるデータの各点を、各点の線形結合で表現する際の線形重みを要素とする自己表現行列を求めるための目的関数であって、
    前記データ集合におけるデータの各点と、前記自己表現行列を用いた各点の線形結合で表現されたデータの各点との残差を求める項と、所定の重みをかけた、前記自己表現行列においてユークリッドノルムの大きな前記データの各点の線形重みを小さくするための第1正則化項と、前記自己表現行列に関する第2正則化項とによって表される目的関数を最小化するような前記自己表現行列を算出する自己表現行列算出部と、
    算出された前記自己表現行列で定義される類似度行列を計算する類似度計算部と、
    前記類似度行列に基づいて前記データ集合をクラスタリングしたクラスタリング結果を得るクラスタリング部と、
    を含むクラスタリング装置。
  2. 前記第1正則化項は、データ集合の行列の転置とデータ集合の行列の積により計算される行列に対して、行列の対角成分を抜き出してベクトルとする演算子を適用した結果に対して、ベクトルを対角成分にもつ対角行列を返す演算子を適用した結果を用いて表される請求項1に記載のクラスタリング装置。
  3. 前記自己表現行列算出部は、予め定められた行列集合Cのうち、以下(1)式の前記目的関数を最小化するような前記自己表現行列を算出する請求項1又は請求項2に記載のクラスタリング装置。
    Figure 0007020331000009

    ・・・(1)
    ただし、Xは前記データ集合の各データを要素とするデータ行列、Zは前記自己表現行列、βは前記第1正則化項に対する所定の重み、r(Z)は前記第2正則化項、λは前記第2正則化項に対する重みであり、diag(x)はベクトルxを対角成分にもつ対角行列を返す演算子であり、Diag(x)は行列xの対角成分を抜き出してベクトルとする演算子であり、CはC=RN×N又はC={Z|Z∈RN×N、Zii=0}とし、h(・)は、Lpノルムのq乗とし、pとqは何らかの正の数とする。
  4. 自己表現行列算出部が、予め定められた行列集合に含まれる行列のうち、データ集合におけるデータの各点を、各点の線形結合で表現する際の線形重みを要素とする自己表現行列を求めるための目的関数であって、
    前記データ集合におけるデータの各点と、前記自己表現行列を用いた各点の線形結合で表現されたデータの各点との残差を求める項と、所定の重みをかけた、前記自己表現行列においてユークリッドノルムの大きな前記データの各点の線形重みを小さくするための第1正則化項と、前記自己表現行列に関する第2正則化項とによって表される目的関数を最小化するような前記自己表現行列を算出するステップと、
    類似度計算部が、算出された前記自己表現行列で定義される類似度行列を計算するステップと、
    クラスタリング部が、前記類似度行列に基づいて前記データ集合をクラスタリングしたクラスタリング結果を得るステップと、
    を含むクラスタリング方法。
  5. 前記第1正則化項は、データ集合の行列の転置とデータ集合の行列の積により計算される行列に対して、行列の対角成分を抜き出してベクトルとする演算子を適用した結果に対して、ベクトルを対角成分にもつ対角行列を返す演算子を適用した結果を用いて表される請求項4に記載のクラスタリング方法。
  6. 前記自己表現行列算出部は、予め定められた行列集合Cのうち、以下(1)式の前記目的関数を最小化するような前記自己表現行列を算出する請求項又は請求項に記載のクラスタリング方法。
    Figure 0007020331000010

    ・・・(2)
    ただし、Xは前記データ集合の各データを要素とするデータ行列、Zは前記自己表現行列、βは前記第1正則化項に対する所定の重み、r(Z)は前記第2正則化項、λは前記第2正則化項に対する重みであり、diag(x)はベクトルxを対角成分にもつ対角行列を返す演算子であり、Diag(x)は行列xの対角成分を抜き出してベクトルとする演算子であり、CはC=RN×N又はC={Z|Z∈RN×N、Zii=0}とし、h(・)は、Lpノルムのq乗とし、pとqは何らかの正の数とする。
  7. コンピュータを、請求項1~請求項3のいずれか1項に記載のクラスタリング装置の各部として機能させるためのプログラム。
JP2018140532A 2018-07-26 2018-07-26 クラスタリング装置、方法、及びプログラム Active JP7020331B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018140532A JP7020331B2 (ja) 2018-07-26 2018-07-26 クラスタリング装置、方法、及びプログラム
US17/263,110 US11520837B2 (en) 2018-07-26 2019-07-26 Clustering device, method and program
PCT/JP2019/029495 WO2020022498A1 (ja) 2018-07-26 2019-07-26 クラスタリング装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018140532A JP7020331B2 (ja) 2018-07-26 2018-07-26 クラスタリング装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020017135A JP2020017135A (ja) 2020-01-30
JP7020331B2 true JP7020331B2 (ja) 2022-02-16

Family

ID=69181612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018140532A Active JP7020331B2 (ja) 2018-07-26 2018-07-26 クラスタリング装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11520837B2 (ja)
JP (1) JP7020331B2 (ja)
WO (1) WO2020022498A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077012B (zh) * 2021-04-26 2022-10-04 福州大学 一种电压暂降同源检测方法及系统
CN114418652B (zh) * 2022-01-27 2025-05-02 中国农业银行股份有限公司 客户群体的确定方法和相关设备
CN114996362B (zh) * 2022-08-04 2023-03-21 河南云帆电子科技有限公司 一种数据处理和存储方法
CN116579401B (zh) * 2023-05-31 2026-02-24 厦门大学 一种基于自我迭代的深度子空间训练方法及装置
CN118094444B (zh) * 2024-04-23 2024-07-23 北京芯盾时代科技有限公司 异常账户检测模型训练方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505878A (ja) 2002-11-07 2006-02-16 本田技研工業株式会社 変化する照明条件下での物体の外観のクラスタリング
CN103400143A (zh) 2013-07-12 2013-11-20 中国科学院自动化研究所 一种基于多视角的数据子空间聚类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9274818B2 (en) * 2013-02-06 2016-03-01 International Business Machines Corporation Reliable and scalable image transfer for data centers with low connectivity using redundancy detection
WO2014197160A1 (en) * 2013-06-06 2014-12-11 Exxonmobil Upstream Research Comapny Method for decomposing complex objects into simpler components
JP6561504B2 (ja) * 2015-03-11 2019-08-21 富士通株式会社 データ配置プログラム、データ配置方法およびデータ配置装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505878A (ja) 2002-11-07 2006-02-16 本田技研工業株式会社 変化する照明条件下での物体の外観のクラスタリング
CN103400143A (zh) 2013-07-12 2013-11-20 中国科学院自动化研究所 一种基于多视角的数据子空间聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Can-Yi Lu, et al.,Robust and Efficient Subspace Segmentation via Least Squares Regression,[オンライン],2014年04月27日,インターネット:<URL: https://arxiv.org/abs/1404.6736>

Also Published As

Publication number Publication date
US20210303629A1 (en) 2021-09-30
WO2020022498A1 (ja) 2020-01-30
US11520837B2 (en) 2022-12-06
JP2020017135A (ja) 2020-01-30

Similar Documents

Publication Publication Date Title
JP7020331B2 (ja) クラスタリング装置、方法、及びプログラム
Schäfer et al. Fast and accurate time series classification with weasel
US10552737B2 (en) Artificial neural network class-based pruning
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
WO2020003533A1 (en) Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium
CN110059288B (zh) 用于获得促进机器学习任务用的最佳母小波的系统和方法
CN113377909B (zh) 释义分析模型训练方法、装置、终端设备及存储介质
US12254250B2 (en) Mask estimation device, mask estimation method, and mask estimation program
US10373028B2 (en) Pattern recognition device, pattern recognition method, and computer program product
CN108874889B (zh) 基于目标体图像的目标体检索方法、系统及装置
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN106446011A (zh) 数据处理的方法及装置
CN110059804A (zh) 待搜索网络训练方法、数据处理方法及装置
EP3371739A1 (en) High speed reference point independent database filtering for fingerprint identification
Le et al. Dual space gradient descent for online learning
CN114168788A (zh) 音频审核的处理方法、装置、设备及存储介质
Phillips et al. Class embodiment autoencoder (CEAE) for classifying the botanical origins of honey
Obaidullah et al. Indic script identification from handwritten document images—an unconstrained block-level approach
US11544563B2 (en) Data processing method and data processing device
US9792561B2 (en) Learning method, information conversion device, and recording medium
Huang et al. Flow of Renyi information in deep neural networks
WO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、および記録媒体
Lee et al. A novel sensitivity metric for mixed-precision quantization with synthetic data generation
JP6235368B2 (ja) パターン認識装置、パターン認識方法およびプログラム
JP6080580B2 (ja) パターン認識装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190731

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220117

R150 Certificate of patent or registration of utility model

Ref document number: 7020331

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350