Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5041797B2 - Method, classification device, and classification program for classifying user attributes on network - Google Patents
[go: Go Back, main page]

JP5041797B2 - Method, classification device, and classification program for classifying user attributes on network - Google Patents

Method, classification device, and classification program for classifying user attributes on network Download PDF

Info

Publication number
JP5041797B2
JP5041797B2 JP2006336427A JP2006336427A JP5041797B2 JP 5041797 B2 JP5041797 B2 JP 5041797B2 JP 2006336427 A JP2006336427 A JP 2006336427A JP 2006336427 A JP2006336427 A JP 2006336427A JP 5041797 B2 JP5041797 B2 JP 5041797B2
Authority
JP
Japan
Prior art keywords
users
user
classification device
spherical distance
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006336427A
Other languages
Japanese (ja)
Other versions
JP2008146609A (en
Inventor
ブローディ ドージェ
マイスター ベルナルド
ブローディ ジュリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006336427A priority Critical patent/JP5041797B2/en
Publication of JP2008146609A publication Critical patent/JP2008146609A/en
Application granted granted Critical
Publication of JP5041797B2 publication Critical patent/JP5041797B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラムに関する。   The present invention relates to a method, a classification device, and a classification program for classifying user attributes on a network.

近年、インターネットの社会への普及に伴い、Webその他のネットワーク環境において、ユーザはWebブラウザその他の技術的手段により情報を単に閲覧するだけではなく、商品を購入したり、属性の近いもの同士で情報を送受信してコミュニティを作ったり、といった現実社会における活動と同様の活動をするようになってきた。   In recent years, with the spread of the Internet to the society, in the Web and other network environments, users not only browse information by Web browsers or other technical means, but also purchase products or share information between those with similar attributes. It has come to perform activities similar to those in the real world, such as creating communities by sending and receiving.

ところで、当該Webその他のネットワーク環境においては、ユーザの情報閲覧、商品購入、コミュニティにおける情報の送受信等の活動を記録することは比較的容易である。具体的には、例えば、Web上でユーザの会員登録等を受け付けることによって、サーバが当該ユーザの基本属性を記憶したり、当該会員登録等を行ったユーザのWeb上での情報閲覧、商品購入等の活動を、サーバがログ(活動記録)として自動的に収集、記憶したり、といったことが可能である。   In the Web and other network environments, it is relatively easy to record activities such as user information browsing, product purchase, and information transmission / reception in the community. Specifically, for example, by accepting a user's member registration on the Web, the server stores the basic attributes of the user, information browsing on the Web of the user who performed the member registration, etc., product purchase The server can automatically collect and store the activity as a log (activity record).

そこで、当該Webその他のネットワーク環境において、登録された基本属性やログ(活動記録)等に基づいてユーザに興味があると考えられる商品やサービスを推薦したり(レコメンデーション)、広告を送信したり、属性が似ていると思われるユーザを紹介したり(ソーシャル・ネットワーキング・サービス;SNS)、といったサービスが行われている。   Therefore, in the Web and other network environments, recommend products and services that are considered to be of interest to users based on registered basic attributes, logs (activity records), etc., and send advertisements. Introducing users who seem to have similar attributes (social networking service; SNS).

例えば、特許文献1に記載の技術によれば、Webサーバは、ユーザの購買記録に基づいて当該ユーザの興味を分析し、その分析結果に基づいて、商品推薦(レコメンデーション)を行うことができる。   For example, according to the technique described in Patent Document 1, the Web server can analyze the user's interest based on the user's purchase record, and can perform product recommendation (recommendation) based on the analysis result. .

より具体的には、Webサーバが、すべてのユーザの過去の購買記録に基づいて、人気商品を特定し、その人気商品を購入したユーザが購入した別の商品の購入頻度を集計し、これらの人気商品とその他の商品との間の購入に関する相関を分析し、以ってそれぞれの人気商品について購入頻度において相関の強いその他の商品をその特定商品を購入したユーザに推薦する。   More specifically, the Web server identifies popular products based on the past purchase records of all users, aggregates the purchase frequency of other products purchased by the user who purchased the popular products, The correlation regarding the purchase between the popular product and the other product is analyzed, and therefore, the other product having a strong correlation in the purchase frequency for each popular product is recommended to the user who has purchased the specific product.

また、例えば、非特許文献1の技術によれば、Webサーバは、ユーザの購買記録や商品の評価記録(レイティング)に基づいて、商品推薦を行うことができる。   Further, for example, according to the technique of Non-Patent Document 1, the Web server can make a product recommendation based on a user's purchase record or a product evaluation record (rating).

より具体的には、Webサーバは、類似商品テーブルを生成し、人気商品を購入したユーザをサンプリングして当該ユーザの購買記録や商品の評価記録(レイティング)に基づいて、当該人気商品を購入したユーザが購入或いはレイティングを行った商品に類似した商品を相関の強い商品として推薦する。
米国特許第6,912,505号明細書 Amazon.com Recommendations,Item−to−Item Collaborative Filtering,Greg Linden, Brent Smith,and Jeremy York,Amazon.com,January・February 2003, IEEE Computer Society
More specifically, the Web server generates a similar product table, samples the users who have purchased popular products, and purchases the popular products based on the purchase records of the users and the evaluation records (ratings) of the products. A product similar to the product purchased or rated by the user is recommended as a highly correlated product.
US Pat. No. 6,912,505 Amazon. com Recommendations, Item-to-Item Collaborative Filtering, Greg Linden, Brent Smith, and Jeremy York, Amazon. com, January, February 2003, IEEE Computer Society

しかしながら、特許文献1及び非特許文献1に記載された発明において、レコメンデーションを行うに当たって、ユーザではなく、まず商品に着目するアプローチを採っていること、及び、人気商品を購入したユーザがあわせて購入した商品との「相関」を用いることに関していくつか課題が存在する。   However, in the inventions described in Patent Document 1 and Non-Patent Document 1, in making the recommendation, not the user, but first taking an approach that focuses on the product, and the user who purchased the popular product together There are several challenges associated with using “correlation” with purchased products.

第1の課題は、一般に相関は−1から1の間の値を取り得ると考えられているが、実際にはより限られた範囲の値しか取らない分布が多々存在している。具体的には例えば、−0.2から+0.6の値しか取らないことも考えられる。このような状況においては、例えば、「相関が+0.7の場合にユーザの属性が近いと判断する」などとした場合、相関を用いてもユーザの属性の重複度合いを判断することができない。   The first problem is generally considered that the correlation can take a value between -1 and 1, but there are many distributions that actually take a value in a more limited range. Specifically, for example, it can be considered that only a value of -0.2 to +0.6 is taken. In such a situation, for example, when it is determined that the user attribute is close when the correlation is +0.7, the degree of duplication of the user attribute cannot be determined using the correlation.

第2の課題は、相関を用いる分析において、あるユーザ同士の相関が負の値を持つ場合、その値は破棄されてしまうが、仮にあるユーザ同士の相関が負の大きな値を持つ場合、そのユーザ同士は明らかに依存性を持っているといえるため、相関により依存性を捉えることには限界があるといえる。   The second problem is that in the analysis using correlation, if the correlation between certain users has a negative value, that value will be discarded, but if the correlation between certain users has a large negative value, Since users can clearly be said to have dependencies, it can be said that there is a limit to capturing the dependencies by correlation.

第3の課題は、相関はユーザの属性を表す確率分布に関するグローバルな情報を含んでいないということである。具体的には、あるユーザ同士の属性の重複度合いが比較的大きい場合においても、相関はそれを察知できるとは限らない。即ち、あるユーザの属性の重複度合いが全く無い場合は、相関はゼロであるので正しい判断を下すことができるが、逆に相関がゼロであっても属性の重なり度合いが比較的大きい場合も存在し、無相関=無関係として誤った判断を下すことになるのである。特に、相関は2次のモーメントにしか依存しないため、複数のユーザの行動特性の確率分布が与えられたとき、テールに関する情報は相関を用いた分析結果に現れないことである。例として、A及びB2人のユーザがある商品を購入する頻度を示す確率分布が当該商品の価格に対して例えばAがパワー型、Bがガウス型のテールを持つ場合、このテールの部分には決定的な違いがある。即ち、Bは高額の商品を薦めても購入する見込みは無いが、Aは商品が気に入れば購入する可能性がある。しかしながら、確率分布全体としては似通っているため、相関はこのような差異を判断する情報を与えることができない。   A third problem is that the correlation does not include global information regarding the probability distribution representing the user's attributes. Specifically, even when the degree of overlapping of attributes between certain users is relatively large, the correlation cannot always be detected. In other words, if there is no degree of attribute overlap for a certain user, the correlation is zero so that a correct judgment can be made, but conversely, even if the correlation is zero, the degree of attribute overlap may be relatively large. However, an erroneous determination is made as uncorrelated = irrelevant. In particular, since the correlation depends only on the second-order moment, when a probability distribution of behavior characteristics of a plurality of users is given, information on the tail does not appear in the analysis result using the correlation. As an example, if the probability distribution indicating the frequency with which A and B users purchase a certain product has a tail with a power type and B with a Gauss type for the price of the product, for example, There is a decisive difference. That is, even if B recommends an expensive product, there is no prospect of purchasing it, but A may purchase if he likes the product. However, since the probability distribution as a whole is similar, the correlation cannot give information for determining such a difference.

第4の課題は、相関は線形の関係を表現することができるが、非線形の関係を表現することができないことである。具体的には、2つの確率変数XとYがY=aX+bの関係(線形の関係)を有している場合には、相関を用いた分析は有意義な情報を与えることができるが、これら2つの確率変数が例えばY=Sin(X)の関係(周期的に依存する関係)を有している場合(例えば、ネットワークへのアクセス数Yと時間Xとの関係がこれに当たる)、相関を用いた分析はこのような周期的に依存する関係について有意義な情報を与えることができない。   The fourth problem is that the correlation can express a linear relationship but cannot express a non-linear relationship. Specifically, when two random variables X and Y have a relationship of Y = aX + b (linear relationship), analysis using correlation can provide meaningful information. For example, if two random variables have a relationship of Y = Sin (X) (a periodically dependent relationship) (for example, the relationship between the number of accesses to the network Y and the time X corresponds to this), the correlation is used. Analyzes that have been made cannot give meaningful information about such periodically dependent relationships.

そこで、相関を用いることなく、ネットワーク上のユーザの属性を分類する方法を提供することが望まれている。   Therefore, it is desired to provide a method for classifying user attributes on a network without using correlation.

そこで、本発明は、商品重視ではなく、ユーザ重視であり、また、相関を用いることなく、ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラムを提供することを目的とする。   Therefore, an object of the present invention is to provide a method, a classification device, and a classification program for classifying user attributes on a network without using a product and focusing on a user and without using correlation.

上述の目的を達成するために、本発明者らは研究を重ね、本発明を完成するに至った。具体的には、本発明は以下のようなものを提供する。   In order to achieve the above-mentioned object, the present inventors have conducted research and have completed the present invention. Specifically, the present invention provides the following.

(1)分類装置(分類装置10)が複数のユーザの属性を分類する方法であって、
通信ネットワーク(通信ネットワーク30)を介してサーバ(サーバ20)が受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングするステップと、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算するステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類するステップと、を含む方法。
(1) A classification device (classification device 10) classifies a plurality of user attributes,
Receiving user characteristic data comprising at least the basic attribute data or log data of the plurality of users received and stored by the server (server 20) via the communication network (communication network 30);
Mapping the characteristics of the plurality of users to a probability space based on the received user characteristic data;
Calculating a spherical distance between each of the users in the mapped probability space;
Classifying the plurality of users into a plurality of groups close to the spherical distance based on the calculated spherical distance.

本発明のこのような構成によれば、前記分類装置は、通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングし、マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる、という作用効果を有する。   According to such a configuration of the present invention, the classification device accepts user characteristic data including at least the basic attribute data or log data of the plurality of users received and stored by a server via a communication network. Mapping the characteristics of the plurality of users to a probability space based on the received user characteristic data, calculating a spherical distance between each of the users in the mapped probability space, and based on the calculated spherical distance Thus, the plurality of users can be classified into a plurality of groups having a short spherical distance.

このことにより、前記分類装置は、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる。   Accordingly, the classification device can classify the plurality of users into a plurality of groups having a close spherical distance based on the calculated spherical distance.

ここで用いる球面距離は、ユーザの属性を表す分布に関してその重複度が大きければ大きいほど限りなくゼロに近づき、また小さければ小さいほどその最大値に近づく。即ち、球面距離は、0〜最大値の値を取り得、ユーザの属性の分布によって、「相関」のように、その取り得る範囲がそれ以下の範囲に限定されることがない。このように本発明の原理によれば、「相関」が依存性の大きさに関わらずゼロに近い値しか取り得ないような状況においても、当該球面距離は全ての値を取り得るので第1の課題を解決することができる。   As for the spherical distance used here, the greater the degree of overlap with respect to the distribution representing the attribute of the user, the closer to zero, and the smaller the distance, the closer to the maximum value. That is, the spherical distance can take a value from 0 to the maximum value, and the possible range is not limited to a range less than that, as in “correlation”, depending on the distribution of user attributes. As described above, according to the principle of the present invention, even when the “correlation” can take only a value close to zero regardless of the magnitude of the dependency, the spherical distance can take all the values. The problem can be solved.

なお、当該球面距離の値は、インプットであるユーザ特性データの全てを反映した値であり、「相関」のように負の値が廃棄されることがない。このように本発明の原理によれば、第2の課題を解決することができる。   Note that the value of the spherical distance reflects all of the user characteristic data as input, and negative values are not discarded as in “correlation”. Thus, according to the principle of the present invention, the second problem can be solved.

また、当該球面距離は、グローバルなレベルでユーザの属性の重複度合いを表しているので、基本的にグローバルな全てのモーメントが関与しており、包括的な情報を含んでいるといえる。従って、当該球面距離は、上述の例のように、A及びB2人のユーザがある商品を購入する頻度を示す確率分布が当該商品の価格に対して例えばAがパワー型、Bがガウス型のテールを持つ場合において、「相関」が当該テールの違いを十分に表すことができないのと対照的である。このように本発明の原理によれば、第3の課題を解決することができる。   In addition, since the spherical distance represents the degree of duplication of user attributes at a global level, it can be said that basically all global moments are involved and comprehensive information is included. Therefore, as in the above example, the spherical distance is calculated based on the probability distribution indicating the frequency with which A and B users purchase a certain product. For example, A is a power type and B is a Gaussian type with respect to the price of the product. In contrast to having a tail, “correlation” cannot contrast the tails well. Thus, according to the principle of the present invention, the third problem can be solved.

更に、距離の概念においては、異なるユーザの利用特性を表す確率変数の依存性には無関係に距離が定まる。このため、依存性が線形であるか否かに関わらず、球面距離はユーザの属性の重複度合いを表現することができる。従って、当該球面距離は、「相関」のように線形の依存関係しか十分に表現することができない、という制約から解放されている。このように本発明の原理によれば、第4の課題を解決することができる。   Further, in the concept of distance, the distance is determined regardless of the dependence of random variables representing the usage characteristics of different users. For this reason, the spherical distance can express the overlapping degree of the user's attributes regardless of whether the dependency is linear or not. Therefore, the spherical distance is freed from the restriction that only a linear dependency can be expressed sufficiently as in “correlation”. Thus, according to the principle of the present invention, the fourth problem can be solved.

(2) 前記球面距離を計算するステップにおいて、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算する(1)に記載の方法。   (2) The method according to (1), wherein in the step of calculating the spherical distance, the classification device calculates a spherical distance of a grasshopper as the spherical distance.

本発明のこのような構成によれば、前記球面距離を計算するステップにおいて、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算することができる、という作用効果を有する。   According to such a configuration of the present invention, in the step of calculating the spherical distance, the classification device has an operational effect that the spherical distance of the grasshopper can be calculated as the spherical distance.

このことにより、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算し、前記バッタチャヤの球面距離に基づいてユーザを前記バッタチャヤの球面距離の近い複数のグループに分類することができる。   Accordingly, the classification device can calculate the spherical distance of the grasshopper as the spherical distance, and classify the users into a plurality of groups having the spherical distance of the grasshopper based on the spherical distance of the grasshopper.

ここで用いるバッタチャヤの球面距離は、ユーザの属性を表す分布に関してその重複度が大きければ大きいほど限りなくゼロに近づき、また小さければ小さいほどその最大値であるπ/2に近づく。即ち、球面距離は、0〜π/2の値を取り得、ユーザの属性の分布によって、「相関」のように、その取り得る範囲がそれ以下の範囲に限定されることがない。このように本発明の原理によれば、「相関」が依存性の大きさに関わらずゼロに近い値しか取り得ないような状況においても、当該球面距離は全ての値を取り得るので第1の課題を解決することができる。   The spherical distance of the grasshopper used here is infinitely close to zero as the degree of overlap of the distribution representing the attribute of the user is large, and approaches the maximum value of π / 2 as it is small. That is, the spherical distance can take a value of 0 to π / 2, and the possible range is not limited to a range less than that, as in “correlation”, depending on the distribution of user attributes. As described above, according to the principle of the present invention, even when the “correlation” can take only a value close to zero regardless of the magnitude of the dependency, the spherical distance can take all the values. The problem can be solved.

また、前記分類装置は、バッタチャヤの球面距離に基づいて前記ユーザを分類することにより、上述の球面距離を用いる場合と同様に上述の第2乃至第4の課題を解決することができる。   Moreover, the said classification | category apparatus can solve the above-mentioned 2nd thru | or 4th subject similarly to the case where the above-mentioned spherical distance is used by classifying the said user based on the spherical distance of a grasshopper.

(3) 前記分類装置は、前記バッタチャヤの球面距離を

Figure 0005041797
によって計算する(2)に記載の方法。 (3) The classification device calculates a spherical distance of the grasshopper.
Figure 0005041797
(2) The method according to (2).

本発明のこのような構成によれば、前記分類装置は、前記バッタチャヤの球面距離を

Figure 0005041797
によって計算することができる、という作用効果を有する。 According to such a configuration of the present invention, the classification device calculates the spherical distance of the grasshopper.
Figure 0005041797
It has the effect that it can be calculated by.

(4) 前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部(表示装置1022)に表示させる(3)に記載の方法。   (4) The method according to (3), wherein the classification device displays the calculated spherical distance of the grasshopper on a display unit (display device 1022) as a map.

本発明のこのような構成によれば、前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部に表示させることができる、という作用効果を有する。   According to such a configuration of the present invention, the classification device has an effect of being able to display the calculated spherical distance of the grasshopper on the display unit as a map.

このことにより、前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部に表示させることができる。   Accordingly, the classification device can display the calculated spherical distance of the grasshopper on the display unit as a map.

その結果、前記分類装置のユーザは、視覚的に容易に前記複数のユーザの分類結果を参照することができる。   As a result, the user of the classification device can easily visually refer to the classification results of the plurality of users.

(5) 前記分類装置は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の前記ユーザとの相対距離を計算するステップを更に含み、
前記分類するステップにおいて、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類する(3)又は(4)に記載の方法。
(5) The classification device further includes a step of calculating a relative distance from the other users around the user based on the calculated spherical distance of the grasshopper.
The method according to (3) or (4), wherein, in the classifying step, the classification device classifies the plurality of users into a plurality of groups having close relative distances based on the calculated relative distance.

本発明のこのような構成によれば、前記分類装置は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の前記ユーザとの相対距離を計算し、前記分類するステップにおいて、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類することができる、という作用効果を有する。   According to such a configuration of the present invention, the classification device calculates a relative distance from the other users around the respective users based on the calculated spherical distance of the grasshopper, and performs the classification. In the step, the classification device has an operational effect that the plurality of users can be classified into a plurality of groups having a close relative distance based on the calculated relative distance.

このことにより、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類することができる。   Accordingly, the classification device can classify the plurality of users into a plurality of groups having a close relative distance based on the calculated relative distance.

ここで、ユーザの特性を表す確率空間において、前記相対距離は、それぞれの前記ユーザを中心として個々に計算されるので、当該中心となるユーザにとってのそれぞれのその他の前記ユーザとの間の属性の重複度合いを表現することができる。   Here, in the probability space representing the characteristics of the user, the relative distance is calculated individually around each of the users. Therefore, the attribute of the attribute between each other user and the user at the center is determined. The degree of overlap can be expressed.

したがって、前記分類装置は、前記ユーザの属性の重複度合いを表す前記相対距離に基づいて、属性の重複度合いの大きなユーザ同士を複数のグループに分類することができる。   Therefore, the classification device can classify users having a large degree of attribute duplication into a plurality of groups based on the relative distance representing the degree of duplication of the user attributes.

(6) 前記分類装置は、前記相対距離を

Figure 0005041797
によって計算する(5)に記載の方法。 (6) The classification device determines the relative distance.
Figure 0005041797
(5) The method according to (5).

本発明のこのような構成によれば、 前記分類装置は、前記相対距離を

Figure 0005041797
によって計算することができる、という作用効果を有する。
(7) 前記分類装置は、計算した前記相対距離をヒストグラムとして表示部(表示装置1022)に表示させる(6)に記載の方法。 According to such a configuration of the present invention, the classification device calculates the relative distance.
Figure 0005041797
It has the effect that it can be calculated by.
(7) The method according to (6), wherein the classification device displays the calculated relative distance on a display unit (display device 1022) as a histogram.

本発明のこのような構成によれば、前記分類装置は、計算した前記相対距離をヒストグラムとして表示部に表示させることができる、という作用効果を有する。   According to such a configuration of the present invention, the classification device has an effect that the calculated relative distance can be displayed as a histogram on the display unit.

このことにより、前記分類装置は、計算した前記相対距離をヒストグラムとして表示部に表示させることができる。   Thus, the classification device can display the calculated relative distance on the display unit as a histogram.

その結果、前記分類装置のユーザは、視覚的に容易に前記複数のユーザの分類結果を参照することができる。   As a result, the user of the classification device can easily visually refer to the classification results of the plurality of users.

(8) 前記分類装置は、前記分類するステップにおいてユーザを分類する際の閾値の設定を受け付けるステップを更に含む(1)から(5)のいずれかに記載の方法。   (8) The method according to any one of (1) to (5), wherein the classification device further includes a step of receiving a setting of a threshold value when the user is classified in the classification step.

本発明のこのような構成によれば、前記分類装置は、前記分類するステップにおいてユーザを分類する際の閾値の設定を受け付けることができる、という作用効果を有する。   According to such a configuration of the present invention, the classification device has an effect of being able to accept setting of a threshold value when classifying users in the classification step.

このことにより、前記分類装置は、ユーザを分類する際の閾値の設定を受け付けることができる。   Thereby, the classification device can accept setting of a threshold value when classifying the user.

その結果、前記分類装置のユーザは、前記閾値の設定を変更しつつ、ユーザの分類結果を確認することで、状況に応じてユーザの分類の数を調節することができる。   As a result, the user of the classification device can adjust the number of classifications of the user according to the situation by checking the classification result of the user while changing the setting of the threshold.

(9) 前記分類装置は、前記分類するステップにおいて、前記相対距離の集計の精度の設定を受け付けるステップを更に含む(5)から(7)のいずれかに記載の方法。   (9) The method according to any one of (5) to (7), wherein the classification device further includes a step of accepting a setting of accuracy of aggregation of the relative distance in the classification step.

本発明のこのような構成によれば、前記分類装置は、前記分類するステップにおいて、前記相対距離の集計の精度の設定を受け付けることができる、という作用効果を有する。   According to such a configuration of the present invention, the classification device has an operational effect that it can accept the setting of the accuracy of aggregation of the relative distance in the classification step.

このことにより、前記分類装置は、前記相対距離の集計の精度の設定を受け付けることができる。   Thereby, the classification device can accept the setting of the accuracy of aggregation of the relative distance.

その結果、前記分類装置のユーザは、前記集計の精度を調整しつつ、ユーザの分類結果を確認することで、状況に応じてユーザを分類する粒度を調節することができる。   As a result, the user of the classification device can adjust the granularity for classifying the user according to the situation by checking the classification result of the user while adjusting the accuracy of the aggregation.

(10) 前記グループに分類された前記複数のユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成するステップを更に含む(1)から(9)のいずれかに記載の方法。   (10) A recommendation list for making a recommendation or solicitation for a specific user among the plurality of users classified into the group is classified into a group into which the specific user is classified The method according to any one of (1) to (9), further including a step of generating based on user characteristic data of other users.

本発明のこのような構成によれば、前記分類装置は、前記グループに分類された前記複数のユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成することができる、という作用効果を有する。   According to such a configuration of the present invention, the classification device includes a recommendation list for making a recommendation or a solicitation to the community for a specific user among the plurality of users classified into the group, The specific user can be generated based on user characteristic data of other users classified into the classified group.

このことにより、前記分類装置は、特定のユーザに対するレコメンデーションリストを、前記特定のユーザと同じグループに分類されたその他のユーザのユーザ特性データに基づいて生成することができる。   Accordingly, the classification device can generate a recommendation list for a specific user based on user characteristic data of other users classified into the same group as the specific user.

その結果、前記分類装置は、同一グループに分類されたユーザ内でレコメンデーション又はコミュニティへの勧誘を行うため、前記レコメンデーション又はコミュニティへの勧誘に対してユーザの高い満足度が期待できる。   As a result, since the classification device performs recommendation or solicitation to the community within the users classified into the same group, high satisfaction of the user can be expected for the recommendation or solicitation to the community.

(11) 複数のユーザの属性を分類する分類装置であって、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付ける手段と、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングする手段と、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算する手段と、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類する手段と、を備える分類装置。
(11) A classification device for classifying attributes of a plurality of users,
Means for receiving user characteristic data comprising at least the basic attribute data or log data of the plurality of users received and stored by a server via a communication network;
Means for mapping to a probability space containing the characteristics of the plurality of users based on the received user characteristic data;
Means for calculating a spherical distance between each of the users in the mapped probability space;
Classifying apparatus comprising: means for classifying the plurality of users into a plurality of groups close to the spherical distance based on the calculated spherical distance.

本発明のこのような構成によれば、前記分類装置は、通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングし、マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる、という作用効果を有する。   According to such a configuration of the present invention, the classification device accepts user characteristic data including at least the basic attribute data or log data of the plurality of users received and stored by a server via a communication network. , Based on the received user characteristic data, mapping to a probability space including the characteristics of the plurality of users, calculating a spherical distance between the users in the mapped probability space, to the calculated spherical distance Based on this, it is possible to classify the plurality of users into a plurality of groups having a short spherical distance.

このことにより、前記分類装置を運用することにより、(1)と同様の作用効果を有する。   Thus, the same effect as (1) is obtained by operating the classification device.

(12) 分類装置に複数のユーザの属性を分類させるプログラムであって、前記分類装置に、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けさせるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングさせるステップと、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算させるステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類させるステップと、を実行させるプログラム。
(12) A program for causing a classification device to classify attributes of a plurality of users, wherein the classification device includes:
Accepting user characteristic data comprising at least the basic attribute data or log data of the plurality of users received and stored by a server via a communication network; and
Mapping the characteristics of the plurality of users to a probability space based on the received user characteristic data;
Calculating a spherical distance between each of the users in the mapped probability space;
Classifying the plurality of users into a plurality of groups close to the spherical distance based on the calculated spherical distance.

本発明のこのような構成によれば、前記分類装置は、通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングし、マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる、という作用効果を有する。   According to such a configuration of the present invention, the classification device accepts user characteristic data including at least the basic attribute data or log data of the plurality of users received and stored by a server via a communication network. , Based on the received user characteristic data, mapping to a probability space including the characteristics of the plurality of users, calculating a spherical distance between the users in the mapped probability space, to the calculated spherical distance Based on this, it is possible to classify the plurality of users into a plurality of groups having a short spherical distance.

このことにより、前記分類装置に前記プログラムを導入して運用することにより、(1)と同様の作用効果を有する。   Thus, the same effect as (1) can be obtained by introducing and operating the program in the classification device.

本発明によれば、前記分類装置は、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる。   According to the present invention, the classification device can classify the plurality of users into a plurality of groups having a close spherical distance based on the calculated spherical distance.

以下、本発明の実施形態について図面を参照して説明する。   Embodiments of the present invention will be described below with reference to the drawings.

図1は、本発明の好適な実施形態の一例に係るシステムの全体構成を示す図である。図2は、本発明の好適な実施形態の一例に係る分類装置10及びサーバ20の構成を示す図である。図3は、本発明の好適な実施形態の一例に係る分類装置10によるユーザ属性分類処理1を示すフローチャートである。図4は、本発明の好適な実施形態の一例に係る分類装置10によるユーザ属性分類処理2を示すフローチャートである。図5は本発明の好適な実施形態の一例に係る分類装置10が計算するユーザの球面距離及び相対距離を説明する図である。図6は、本発明の好適な実施形態の一例に係る分類装置10が表示する相対距離のヒストグラムの例を示す図である。
[システムの全体構成]
FIG. 1 is a diagram showing an overall configuration of a system according to an example of a preferred embodiment of the present invention. FIG. 2 is a diagram illustrating the configuration of the classification device 10 and the server 20 according to an example of the preferred embodiment of the present invention. FIG. 3 is a flowchart showing user attribute classification processing 1 by the classification device 10 according to an example of the preferred embodiment of the present invention. FIG. 4 is a flowchart showing user attribute classification processing 2 by the classification device 10 according to an example of the preferred embodiment of the present invention. FIG. 5 is a diagram illustrating the spherical distance and relative distance of the user calculated by the classification device 10 according to an example of the preferred embodiment of the present invention. FIG. 6 is a diagram illustrating an example of a relative distance histogram displayed by the classification device 10 according to an example of the preferred embodiment of the present invention.
[System overall configuration]

図1は、本発明の好適な実施形態の一例に係るシステム1の全体構成を示す図である。   FIG. 1 is a diagram showing an overall configuration of a system 1 according to an example of a preferred embodiment of the present invention.

分類装置10は、通信ネットワーク30を介して、サーバ20及びユーザの端末40と接続可能である。   The classification device 10 can be connected to the server 20 and the user terminal 40 via the communication network 30.

分類装置10とサーバ20の接続の形態としては、有線でも無線でもよく、本発明において、これらの機器が接続されていることは必要条件ではない。サーバ20が通信ネットワーク30を介して複数のユーザの端末40から受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データをオフラインで受け付けてもよい。
[分類装置10のハードウェア構成]
The form of connection between the classification device 10 and the server 20 may be wired or wireless. In the present invention, it is not a requirement that these devices be connected. The server 20 may receive user characteristic data that includes at least the basic attribute data or log data of the plurality of users received from the terminals 40 of the plurality of users via the communication network 30 and stored offline.
[Hardware Configuration of Classification Device 10]

図2は、図1で説明した本発明の好適な実施形態の一例に係る分類装置10のハードウェア構成の一例を示す図である。分類装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012など複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。   FIG. 2 is a diagram illustrating an example of a hardware configuration of the classification device 10 according to an example of the preferred embodiment of the present invention described in FIG. The classification device 10 includes a central processing unit (CPU) 1010 (a plurality of CPUs such as a CPU 1012 may be added in a multiprocessor configuration), a bus line 1005, a communication I / F 1040, a main memory 1050, and a BIOS. (Basic Input Output System) 1060, a USB port 1090, an I / O controller 1070, input means such as a keyboard and mouse 1100, and a display device 1022.

I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。   Storage means such as a tape drive 1072, a hard disk 1074, an optical disk drive 1076, and a semiconductor memory 1078 can be connected to the I / O controller 1070.

BIOS1060は、分類装置10の起動時にCPU1010が実行するブートプログラムや、分類装置10のハードウェアに依存するプログラム等を格納する。   The BIOS 1060 stores a boot program executed by the CPU 1010 when the classification device 10 is started up, a program depending on the hardware of the classification device 10, and the like.

記憶部107を構成するハードディスク1074は、分類装置10がサーバとして機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。   The hard disk 1074 constituting the storage unit 107 stores various programs for the classification device 10 to function as a server and programs for executing the functions of the present invention, and can further configure various databases as necessary.

光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。   As the optical disc drive 1076, for example, a DVD-ROM drive, a CD-ROM drive, a DVD-RAM drive, or a CD-RAM drive can be used. In this case, the optical disk 1077 corresponding to each drive is used. A program or data may be read from the optical disk 1077 by the optical disk drive 1076 and provided to the main memory 1050 or the hard disk 1074 via the I / O controller 1070. Similarly, the tape medium 1071 corresponding to the tape drive 1072 can be used mainly for backup.

分類装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、分類装置10にインストールされ実行されてもよい。   The program provided to the classification device 10 is provided by being stored in a recording medium such as a hard disk 1074, an optical disk 1077, or a memory card. The program may be installed in the classification device 10 and executed by being read from a recording medium via the I / O controller 1070 or downloaded via the communication I / F 1040.

前述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶部107を構成する記憶媒体としては、ハードディスク1074、光ディスク1077、又はメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074又は光ディスクライブラリー等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを分類装置10に提供してもよい。   The aforementioned program may be stored in an internal or external storage medium. Here, as a storage medium constituting the storage unit 107, a magneto-optical recording medium such as an MD or a tape medium can be used in addition to the hard disk 1074, the optical disk 1077, or the memory card. Further, a storage device such as a hard disk 1074 or an optical disk library provided in a server system connected to a dedicated communication line or the Internet may be used as a recording medium, and the program may be provided to the classification device 10 via the communication line.

ここで、表示装置1022は、ユーザにデータの入力を受け付ける画面を表示したり、分類装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。   Here, the display device 1022 displays a screen for accepting data input to the user or displays a screen of a calculation processing result by the classification device 10. The display device 1022 displays a cathode ray tube display device (CRT), a liquid crystal display device ( LCD).

ここで、入力手段は、ユーザによる入力の受付を行うものであり、キーボード及びマウス1100等により構成してよい。   Here, the input means accepts input by the user, and may be configured by a keyboard, a mouse 1100, and the like.

また、通信I/F1040は、分類装置10を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。   The communication I / F 1040 is a network adapter for enabling the classification device 10 to be connected to a terminal via a dedicated network or a public network. The communication I / F 1040 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter.

以上の例は、分類装置10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
[サーバ20のハードウェア構成]
In the above example, the classification apparatus 10 has been mainly described. However, the functions described above can also be realized by installing a program in a computer and operating the computer as a server apparatus. Therefore, the functions realized by the server described as an embodiment in the present invention can be realized by executing the above-described method by the computer, or by introducing the above-mentioned program into the computer and executing it. It is.
[Hardware Configuration of Server 20]

ここでサーバ20は、上述の分類装置10と同様の構成を備えてよい。
[ユーザの端末40のハードウェア構成]
Here, the server 20 may have the same configuration as the above-described classification device 10.
[Hardware Configuration of User's Terminal 40]

またユーザの端末40は、上述の分類装置10と同様の構成を備えてよい。
[ユーザ属性分類処理1]
The user terminal 40 may have the same configuration as the above-described classification device 10.
[User attribute classification process 1]

分類装置10は、図3に示すようにユーザ属性分類処理を行う。   The classification device 10 performs user attribute classification processing as shown in FIG.

まず、制御部101は、サーバ20が通信ネットワーク30を介して複数のユーザの端末40から受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受信する(ステップS101)。   First, the control unit 101 receives user characteristic data including at least the basic attribute data or log data of the plurality of users stored by the server 20 received from the terminals 40 of the plurality of users via the communication network 30 and stored. (Step S101).

具体的には、例えば、前記ユーザの性別、年齢、職業、興味のある分野等を含む基本属性データ又は、商品・サービスの購入履歴、商品・サービスに対する評価記録(レイティング)等のデータを受け付ける。   Specifically, for example, basic attribute data including the user's gender, age, occupation, field of interest, or the like, data such as purchase history of products / services, evaluation records (ratings) for the products / services, and the like are received.

次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングする(ステップS102)。   Next, the control unit 101 maps the characteristics of the plurality of users to a probability space based on the received user characteristic data (step S102).

次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間においてそれぞれの前記ユーザ間のバッタチャヤの球面距離を計算する(ステップS103)。   Next, based on the received user characteristic data, the control unit 101 calculates the spherical distance of the batcher between the users in a probability space including the characteristics of the plurality of users (step S103).

次に、制御部101は、計算した前記相対距離に基づいて、前記複数のユーザを前記バッタチャヤの球面距離の近い複数のグループに分類する際の閾値の指定操作及び精度の調整操作をユーザから受け付ける(ステップS104)。   Next, based on the calculated relative distance, the control unit 101 receives from the user a threshold specifying operation and an accuracy adjusting operation for classifying the plurality of users into a plurality of groups having a spherical distance close to the grasshopper. (Step S104).

次に、制御部101は、計算した前記バッタチャヤの球面距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類すると共に、マップを表示する(ステップS105)。具体的には、図5に示すようなマップを表示する。この例では、ユーザ1乃至ユーザ8の8人のユーザ属性を確率空間にマップしている。   Next, based on the calculated spherical distance of the grasshopper, the control unit 101 classifies the plurality of users into a plurality of groups having close relative distances and displays a map (step S105). Specifically, a map as shown in FIG. 5 is displayed. In this example, eight user attributes of users 1 to 8 are mapped to the probability space.

ユーザ1乃至ユーザ5の間のバッタチャヤの球面距離が非常に小さな値(ε)であり、同様に、ユーザ6及びユーザ7の間のバッタチャヤの球面距離も非常に小さな値(ε)である。更に、ユーザ1乃至ユーザ5とユーザ6及びユーザ7との間のバッタチャヤの球面距離はXである。更に、ユーザ1乃至ユーザ5とユーザ8との間のバッタチャヤの球面距離は√3X/2であり、ユーザ6及びユーザ7とユーザ8との間のバッタチャヤの球面距離はX/2である。   The spherical distance of the batcher between the users 1 to 5 is a very small value (ε). Similarly, the spherical distance of the batcher between the users 6 and 7 is also a very small value (ε). Furthermore, the spherical distance of the grasshopper between the users 1 to 5 and the users 6 and 7 is X. Furthermore, the spherical distance of the batcher between the users 1 to 5 and the user 8 is √3X / 2, and the spherical distance of the batcher between the users 6 and 7 and the user 8 is X / 2.

このように、分類装置10の制御部101は、ユーザ属性を確率空間にマッピングしたものを表示するので、ユーザは、視覚的に容易にこのようなユーザ属性の重複度合いを認識することができる。   Thus, since the control unit 101 of the classification device 10 displays the user attributes mapped in the probability space, the user can easily visually recognize the degree of such user attribute overlap.

なお、図5においては、説明のためにユーザの人数を比較的少ない8名としているが、実際には、数万人或いは数百万人といった規模のユーザに対しても同様に、制御部101は、これらのユーザ属性を確率空間にマップして表示することができる。   In FIG. 5, the number of users is eight, which is relatively small for the sake of explanation, but in reality, the control unit 101 is similarly applied to users with a scale of tens of thousands or millions. Can map these user attributes to the probability space and display them.

更に、図5の例において、ユーザ1乃至ユーザ5の間のユーザ属性の重複度合いを更に詳しく調査したい場合には、制御部101は、閾値として小さな値を指定したり、バッタチャヤの球面距離の精度をより細かく調整したりする操作をユーザから受け付けることによって実行することができる。   Furthermore, in the example of FIG. 5, when it is desired to investigate the degree of overlapping of user attributes among the users 1 to 5 in more detail, the control unit 101 designates a small value as the threshold value or the accuracy of the spherical distance of the grasshopper Can be executed by accepting from the user an operation for finely adjusting.

次に、図示はしていないが、制御部101は、上述のようにグループに分類したユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成することができる。   Next, although not illustrated, the control unit 101 specifies the recommendation list for making a recommendation or solicitation to the community for a specific user among the users classified into the group as described above. Can be generated based on user characteristic data of other users classified into the classified group.

次に、制御部101は、ユーザから終了指示を受け付けるまで上述のステップS104及びステップS105を繰り返す(ステップS106)。
[ユーザ属性分類処理2]
Next, the control unit 101 repeats steps S104 and S105 described above until an end instruction is received from the user (step S106).
[User attribute classification process 2]

分類装置10は、上述のユーザ属性分類処理1とは別の好適な実施形態の一例として、図4に示すようにユーザ属性分類処理2を行う。   As an example of a preferred embodiment different from the above-described user attribute classification process 1, the classification device 10 performs a user attribute classification process 2 as illustrated in FIG. 4.

まず、制御部101は、サーバ20が通信ネットワーク30を介して複数のユーザの端末40から受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受信する(ステップS201)。   First, the control unit 101 receives user characteristic data including at least the basic attribute data or log data of the plurality of users stored by the server 20 received from the terminals 40 of the plurality of users via the communication network 30 and stored. (Step S201).

具体的には、例えば、前記ユーザの性別、年齢、職業、興味のある分野等を含む基本属性データ又は、商品・サービスの購入履歴、商品・サービスに対する評価記録(レイティング)等のデータを受け付ける。   Specifically, for example, basic attribute data including the user's gender, age, occupation, field of interest, or the like, data such as purchase history of products / services, evaluation records (ratings) for the products / services, and the like are received.

次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングする(ステップS202)。   Next, the control unit 101 maps the characteristics of the plurality of users to a probability space based on the received user characteristic data (step S202).

次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間においてそれぞれの前記ユーザ間のバッタチャヤの球面距離を計算する(ステップS203)。   Next, based on the received user characteristic data, the control unit 101 calculates the spherical distance of the batcher between the users in a probability space including the characteristics of the plurality of users (step S203).

次に、制御部101は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の全ての前記ユーザとの相対距離を計算する(ステップS204)。   Next, based on the calculated spherical distance of the grasshopper, the control unit 101 calculates relative distances from all the other users around the respective users (step S204).

次に、制御部101は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類する際の閾値の指定操作及び精度の調整操作をユーザから受け付ける(ステップS205)。   Next, based on the calculated relative distance, the control unit 101 receives, from the user, a threshold designation operation and an accuracy adjustment operation when classifying the plurality of users into a plurality of groups having a relatively close relative distance (Step S101). S205).

次に、制御部101は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類すると共に、ヒストグラムを表示する(ステップS206)。   Next, based on the calculated relative distance, the control unit 101 classifies the plurality of users into a plurality of groups close to the relative distance, and displays a histogram (step S206).

次に、制御部101は、ユーザから終了指示を受け付けるまで上述のステップS205及びステップS206を繰り返す(ステップS207)。   Next, the control unit 101 repeats step S205 and step S206 described above until an end instruction is received from the user (step S207).

上述のバッタチャヤの球面距離の計算から、相対距離に基づくユーザ属性の分類までの一連の処理について、具体的な例を示して説明する。   A series of processes from the above-described calculation of the spherical distance of the grasshopper to the classification of user attributes based on the relative distance will be described with a specific example.

計算したバッタチャヤの球面距離により、各ユーザ(ユーザ1乃至ユーザ8)の特性を含む確率空間が図5に示すようになっている場合を考える。   Consider a case in which the probability space including the characteristics of each user (user 1 to user 8) is as shown in FIG. 5 based on the calculated spherical distance of the grasshopper.

ユーザ1乃至ユーザ5のグループとユーザ6及びユーザ7のグループとの間のバッタチャヤの球面距離がX、ユーザ1乃至ユーザ5のグループとユーザ8との間のバッタチャヤの球面距離が√3X/2、ユーザ6及びユーザ7のグループとユーザ8の間のバッタチャヤの球面距離がX/2であったとする。   The spherical distance of the batcher between the group of users 1 to 5 and the group of users 6 and 7 is X, and the spherical distance of the batcher between the group of users 1 to 5 and user 8 is √3X / 2, Assume that the spherical distance of the grasshopper between the group of users 6 and 7 and the user 8 is X / 2.

ここで、相対距離を計算すると、

Figure 0005041797
となる。 Here, when calculating the relative distance,
Figure 0005041797
It becomes.

この相対距離の計算結果をヒストグラムに表すと図6のようになる。   The calculation result of the relative distance is represented in the histogram as shown in FIG.

図5によると、ゼロ付近、0.09付近、0.16付近、0.18付近、0.3付近、0.35付近の計6本のヒストグラムが観察できる。   According to FIG. 5, a total of six histograms of near zero, near 0.09, near 0.16, near 0.18, near 0.3, and near 0.35 can be observed.

或いは、0.09付近のスケールを更に拡大すると、1本の0.09付近のヒストグラム(高さ4)ではなく、0.091付近及び0.094付近にそれぞれ1本ずつ合計2本(高さ2)のヒストグラムが観察できる。   Alternatively, if the scale near 0.09 is further expanded, it is not a single histogram near 0.09 (height 4), but a total of two (height), one near 0.091 and one near 0.094. The histogram of 2) can be observed.

このヒストグラムの本数が、前記ユーザを分類する単位を示している。   The number of histograms indicates a unit for classifying the user.

即ち、図6のスケールに従えば、6の共通の相対距離を持つグループに前記複数のユーザを分類することができる。或いは、更に細かなスケールを用いて、0.09付近のグループを2つのグループに分解してグループ分けすることもできる。   That is, according to the scale of FIG. 6, the plurality of users can be classified into groups having six common relative distances. Alternatively, using a finer scale, a group around 0.09 can be divided into two groups and divided into two groups.

このように、制御部101は、バッタチャヤの球面距離に基づいて計算した相対距離を用いて、前記複数のユーザをその属性の重複度合いに応じて自動的に分類することができる。   As described above, the control unit 101 can automatically classify the plurality of users according to the overlapping degree of the attributes by using the relative distance calculated based on the spherical distance of the grasshopper.

更に、その分類の細かさは、前記複数のユーザの相対距離のヒストグラムを集計する精度を調節することによって調整可能である。即ち、ヒストグラムをより細かな精度で集計すればするほど、グループの分類は細かくなり、ヒストグラムをより粗い精度で集計すればするほど、グループの分類は粗くなる。   Furthermore, the fineness of the classification can be adjusted by adjusting the accuracy of summing up the histograms of the relative distances of the plurality of users. That is, as the histogram is aggregated with finer accuracy, the group classification becomes finer, and as the histogram is aggregated with coarser accuracy, the group classification becomes coarser.

更に、図6において、閾値6以上のヒストグラムのみを集計すれば、ユーザは3つのグループ(ゼロ付近、0.18付近、0.35付近)に分類でき、残りのユーザはどの分類にも属さない。しかし、閾値を下げて5以上のヒストグラムで集計すれば、0.16付近のユーザ、0.3付近のユーザが新たにグループ分けに加えられ、場合によっては、あわせて5つのグループに分けることができる。   Furthermore, in FIG. 6, if only histograms with a threshold value of 6 or more are aggregated, users can be classified into three groups (near zero, near 0.18, and near 0.35), and the remaining users do not belong to any classification. . However, if the threshold is lowered and aggregation is performed with a histogram of 5 or more, users near 0.16 and users near 0.3 are newly added to the grouping. it can.

このように、閾値を調整することによって、制御部101は、ユーザを分類するグループの数を調整することができる。即ち、閾値を上げれば上げるほど、グループの数は少なくなり、閾値を下げれば下げるほど、グループの数は多くなる。   In this way, by adjusting the threshold value, the control unit 101 can adjust the number of groups into which users are classified. That is, the higher the threshold value, the smaller the number of groups, and the lower the threshold value, the larger the number of groups.

以上、図6を用いてヒストグラムで説明したが、実際には、閾値と集計の精度を設定しておくことにより、制御部101は、自動的なデータ処理で目的とする前記複数のユーザの分類を行うことができる。   As described above with reference to the histogram with reference to FIG. 6, the control unit 101 actually sets the classification of the plurality of users for automatic data processing by setting the threshold and the accuracy of aggregation. It can be performed.

このように、本発明の原理によれば、ユーザの属性の重複度合いに応じて分類処理を行うことにより、短期間に大まかな状況をつかむことができる。   As described above, according to the principle of the present invention, it is possible to grasp a rough situation in a short period of time by performing the classification process according to the degree of duplication of user attributes.

なお、上述の例においては、バッタチャヤの球面距離を用いる例を説明したが、本発明の技術的範囲はこれに限られず、本発明の原理は一般的な球面距離を用いる実施形態についても適用可能である。   In the above example, the example using the spherical distance of the grasshopper has been described. However, the technical scope of the present invention is not limited to this, and the principle of the present invention can be applied to an embodiment using a general spherical distance. It is.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

本発明に係るシステムの全体構成を示す図である。It is a figure which shows the whole structure of the system which concerns on this invention. 本発明に係る分類装置10及びサーバ20の構成を示す図である。It is a figure which shows the structure of the classification | category apparatus 10 and the server 20 which concern on this invention. 本発明に係る分類装置10によるユーザ属性分類処理1を示すフローチャートである。It is a flowchart which shows the user attribute classification | category process 1 by the classification device 10 which concerns on this invention. 本発明に係る分類装置10によるユーザ属性分類処理2を示すフローチャートである。It is a flowchart which shows the user attribute classification | category process 2 by the classification device 10 which concerns on this invention. 本発明に係る分類装置10が計算するユーザの球面距離及び相対距離を説明する図である。It is a figure explaining a user's spherical distance and relative distance which classification device 10 concerning the present invention calculates. 本発明に係る分類装置10が表示する相対距離のヒストグラムの例を示す図である。It is a figure which shows the example of the histogram of the relative distance which the classification device 10 concerning the present invention displays.

符号の説明Explanation of symbols

1 システム
10 分類装置
20 サーバ
30 通信ネットワーク
40 端末
101 制御部
107 記憶部
1022 表示装置
1 system 10 classification device 20 server 30 communication network 40 terminal 101 control unit 107 storage unit 1022 display device

Claims (11)

分類装置が複数のユーザの属性を分類する方法であって、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングするステップと、
マッピングした前記確率空間において、バッタチャヤの球面距離を計算することで、それぞれの前記ユーザの間の球面距離を計算するステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類するステップと、を含む方法。
A classification device is a method for classifying attributes of a plurality of users,
Receiving user characteristic data comprising at least the basic attribute data or log data of the plurality of users received and stored by a server via a communication network;
Mapping the characteristics of the plurality of users to a probability space based on the received user characteristic data;
Calculating a spherical distance between each of the users by calculating a spherical distance of a grasshopper in the mapped probability space;
Classifying the plurality of users into a plurality of groups close to the spherical distance based on the calculated spherical distance.
前記分類装置は、前記バッタチャヤの球面距離を
Figure 0005041797
によって計算する請求項に記載の方法。
The classification device calculates the spherical distance of the grasshopper.
Figure 0005041797
The method of claim 1, which is calculated by:
前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部に表示させる請求項に記載の方法。 The method according to claim 2 , wherein the classification device displays the calculated spherical distance of the grasshopper on a display unit as a map. 前記分類装置は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の前記ユーザとの相対距離を計算するステップを更に含み、
前記分類するステップにおいて、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類する請求項又は請求項に記載の方法。
The classification apparatus further includes a step of calculating a relative distance from each of the users around the user based on the calculated spherical distance of the grasshopper.
In the step of classification, the classification unit on the basis of the calculated the relative distance A method according to claim 2 or claim 3 for classifying the plurality of users into a plurality of groups close in the relative distance.
前記分類装置は、前記相対距離を
Figure 0005041797
によって計算する請求項に記載の方法。
The classification device calculates the relative distance.
Figure 0005041797
The method according to claim 4, which is calculated by:
前記分類装置は、計算した前記相対距離をヒストグラムとして表示部に表示させる請求項に記載の方法。 The method according to claim 5 , wherein the classification device displays the calculated relative distance on a display unit as a histogram. 前記分類装置は、前記分類するステップにおいてユーザを分類する際の閾値の設定を受け付けるステップを更に含む請求項から請求項のいずれかに記載の方法。 The classifier A method according to any one of claims 1 to 4, further comprising a step of accepting the setting of the threshold of the time of classifying the user in the step of classifying. 前記分類装置は、前記分類するステップにおいて、前記相対距離の集計の精度の設定を受け付けるステップを更に含む請求項から請求項のいずれかに記載の方法。 The method according to any one of claims 4 to 6 , wherein the classification device further includes a step of accepting a setting of accuracy of aggregation of the relative distance in the classification step. 前記グループに分類された前記複数のユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成するステップを更に含む請求項から請求項のいずれかに記載の方法。 Other users classified into the group into which the specific user is classified, with a recommendation list for making a recommendation or solicitation for a specific user among the plurality of users classified into the group the method according to any of claims 1 to step further comprising a generated based on the user characteristic data according to claim 8. 複数のユーザの属性を分類する分類装置であって、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付ける手段と、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングする手段と、
マッピングした前記確率空間において、バッタチャヤの球面距離を計算することで、それぞれの前記ユーザの間の球面距離を計算する手段と、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類する手段と、を備える分類装置。
A classification device for classifying attributes of a plurality of users,
Means for receiving user characteristic data comprising at least the basic attribute data or log data of the plurality of users received and stored by a server via a communication network;
Means for mapping to a probability space containing the characteristics of the plurality of users based on the received user characteristic data;
Means for calculating a spherical distance between each of the users by calculating a spherical distance of a grasshopper in the mapped probability space;
Classifying apparatus comprising: means for classifying the plurality of users into a plurality of groups close to the spherical distance based on the calculated spherical distance.
分類装置に複数のユーザの属性を分類させるプログラムであって、前記分類装置に、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けさせるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングさせるステップと、
マッピングした前記確率空間において、バッタチャヤの球面距離を計算することで、それぞれの前記ユーザの間の球面距離を計算させるステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類させるステップと、を実行させるプログラム。
A program that causes a classification device to classify the attributes of a plurality of users.
Accepting user characteristic data comprising at least the basic attribute data or log data of the plurality of users received and stored by a server via a communication network; and
Mapping the characteristics of the plurality of users to a probability space based on the received user characteristic data;
Calculating a spherical distance between the respective users by calculating a spherical distance of the grasshopper in the mapped probability space;
Classifying the plurality of users into a plurality of groups close to the spherical distance based on the calculated spherical distance.
JP2006336427A 2006-12-13 2006-12-13 Method, classification device, and classification program for classifying user attributes on network Expired - Fee Related JP5041797B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006336427A JP5041797B2 (en) 2006-12-13 2006-12-13 Method, classification device, and classification program for classifying user attributes on network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006336427A JP5041797B2 (en) 2006-12-13 2006-12-13 Method, classification device, and classification program for classifying user attributes on network

Publications (2)

Publication Number Publication Date
JP2008146609A JP2008146609A (en) 2008-06-26
JP5041797B2 true JP5041797B2 (en) 2012-10-03

Family

ID=39606667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006336427A Expired - Fee Related JP5041797B2 (en) 2006-12-13 2006-12-13 Method, classification device, and classification program for classifying user attributes on network

Country Status (1)

Country Link
JP (1) JP5041797B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101496972B1 (en) * 2013-01-30 2015-03-12 주식회사 제로믹스 Group Recommendation System using SNS of Genotype.
JP7157390B2 (en) 2019-01-30 2022-10-20 トヨタ自動車株式会社 Driving support device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309526A (en) * 2004-04-16 2005-11-04 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for configuring input data for clustering processing
JP4382573B2 (en) * 2004-05-25 2009-12-16 有限会社Somジャパン Tree diagram creation device and tree diagram creation program using spherical self-organizing map
JP2007026116A (en) * 2005-07-15 2007-02-01 Nippon Telegr & Teleph Corp <Ntt> Concept search system and concept search method

Also Published As

Publication number Publication date
JP2008146609A (en) 2008-06-26

Similar Documents

Publication Publication Date Title
JP6501855B1 (en) Extraction apparatus, extraction method, extraction program and model
CN111966886B (en) Object recommendation method, object recommendation device, electronic equipment and storage medium
US20110264617A1 (en) Reducing the dissimilarity between a first multivariate data set and a second multivariate data set
CN106022842A (en) Product information recommending method and product information recommending device
JP2010204966A (en) Sampling device, sampling method, sampling program, class distinction device and class distinction system
CN107808346B (en) A kind of evaluation method and evaluation device of potential target object
US20140188994A1 (en) Social Neighborhood Determination
CN107392667A (en) The determination method, apparatus and the network equipment of acceptance of the users
CN114066513A (en) A method and apparatus for classifying users
CN111626767A (en) Resource data distribution method, device and equipment
WO2020150597A1 (en) Systems and methods for entity performance and risk scoring
CN111752731B (en) Systems and methods for asynchronous selection of compatible components
CN114168761B (en) Multimedia data pushing method and device, electronic equipment and storage medium
CN110866698A (en) Apparatus for rating a service provider&#39;s service score
CN110348922B (en) Method and apparatus for generating information
KR20210000984A (en) Application, server, and method for providing stock information
JP5041797B2 (en) Method, classification device, and classification program for classifying user attributes on network
CN110427545A (en) A kind of information-pushing method and system
CN113011985A (en) Financial product push data processing method and device
CN111292126A (en) Supply and demand analysis method, device, equipment and readable storage medium
CN114663159B (en) User mobility identification method, device, equipment, medium and program product
JP4962950B2 (en) Recommendation method, recommendation server and program for users on network
CN113220983B (en) Deep learning-based selection method and device
CN111241382A (en) Data processing method and device, storage medium, electronic device
CN108764997A (en) Take in recognition methods, device and computer readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120110

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120710

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5041797

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees