JP7568064B2 - 情報処理装置、分類方法、および分類プログラム - Google Patents
情報処理装置、分類方法、および分類プログラム Download PDFInfo
- Publication number
- JP7568064B2 JP7568064B2 JP2023510005A JP2023510005A JP7568064B2 JP 7568064 B2 JP7568064 B2 JP 7568064B2 JP 2023510005 A JP2023510005 A JP 2023510005A JP 2023510005 A JP2023510005 A JP 2023510005A JP 7568064 B2 JP7568064 B2 JP 7568064B2
- Authority
- JP
- Japan
- Prior art keywords
- related information
- category
- similarity
- target data
- search results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。図1に示すように、情報処理装置1は、データ取得部11と分類部12を備えている。
上述の情報処理装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係る分類プログラムは、コンピュータを、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる、という構成が採用されている。このため、本例示的実施形態に係る分類プログラムによれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができるという効果が得られる。
本例示的実施形態に係る分類方法の流れについて、図2を参照して説明する。図2は、分類方法の流れを示すフロー図である。なお、この分類方法における各ステップの実行主体は、情報処理装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。
(情報処理装置2の構成)
図3に基づいて本例示的実施形態に係る情報処理装置2の構成を説明する。図3は、情報処理装置2の構成を示すブロック図である。図示のように、情報処理装置2は、情報処理装置2の各部を統括して制御する制御部20と、情報処理装置2が使用する各種データを記憶する記憶部21を備えている。また、情報処理装置2は、情報処理装置2が他の装置と通信するための通信部22、情報処理装置2に対する各種データの入力を受け付ける入力部23、情報処理装置2が各種データを出力するための出力部24を備えている。
本例示的実施形態に係る分類方法の流れについて、図4を参照して説明する。図4は、情報処理装置2が実行する分類方法の流れを示すフロー図である。なお、以下では、分類の例を示す図5についてもあわせて説明する。
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
本例示的実施形態に係る情報処理装置2Aの構成を図6に基づいて説明する。図6は、情報処理装置2Aの構成を示すブロック図である。情報処理装置2Aは、図3に示した情報処理装置2と比べて、ウェブ検索部203Aを備えている点、および記憶部21に関連情報DB212が記憶されていない点で相違している。
本例示的実施形態における類似度の算出方法の概要を図7に基づいて説明する。図7は、ウェブ検索の結果に基づく類似度の算出例を示す図である。より詳細には、図7は、対象データが「タピ茶」であり、分類先の候補が「アルコール」と「お茶」のカテゴリである例を示している。
続いて、類似度算出部204による類似度の算出方法の詳細について図8に基づいて説明する。図8は、ウェブ検索で検出されたウェブページ間の類似度に基づく類似度の算出例を示す図である。
sim(PI i,PC j)=J(bow(PI i),bow(PC j))
なお、bow(PI i)は、ウェブページPI iにおける単語のカウント値からなる多重集合である。同様に、bow(PC j)は、ウェブページPC jにおける単語のカウント値からなる多重集合である。無論、Jaccard-Indexは一例にすぎず、各検索結果から得られる集合間の類似度を算出する任意の手法を適用することができる。
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
本例示的実施形態に係る情報処理装置2Bの構成を図9に基づいて説明する。図9は、情報処理装置2Bの構成を示すブロック図である。情報処理装置2Bは、図6に示した情報処理装置2Aと比べて、階層構造特定部203Bを備えている点、および記憶部21に階層情報211Bが記憶されている点で相違している。
総合類似度の算出方法を図10に基づいて説明する。図10は、総合類似度の算出例を示す図である。この例では、対象データが「タピ茶」であり、分類先の候補が小分類のカテゴリ「ビール」と「タピオカミルクティー」である。
本例示的実施形態に係る分類方法の流れについて、図11を参照して説明する。図11は、情報処理装置2Bが実行する分類方法の流れを示すフロー図である。なお、S31およびS32は、図4のS21およびS22と同様であるからここでは説明を繰り返さない。
例示的実施形態3に係る情報処理装置2Aおよび例示的実施形態4に係る情報処理装置2Bにおいては、例示的実施形態2に係る情報処理装置2と同様に、関連情報DB212で検索した検索結果を関連情報としてもよい。なお、ここで関連情報とは、対象データ関連情報、カテゴリ関連情報、および上位カテゴリ関連情報の何れかまたは全部である。
情報処理装置1、2、2A、2Bの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と、を備える情報処理装置。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。
前記対象データについて検索した検索結果を前記対象関連情報として取得すると共に、前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得する関連情報取得手段と、前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出する類似度算出手段と、を備え、前記分類手段は、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類する、付記1に記載の情報処理装置。この構成によれば、対象データを適切に分類することができる。
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、前記類似度算出手段は、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、付記2に記載の情報処理装置。この構成によれば、類似度の確度を高めることができる。また、対象関連情報およびカテゴリ関連情報に対象データやカテゴリと関連の低い検索結果が含まれていたとしても、全体として妥当な類似度を算出することが可能になる。
前記類似度算出手段は、前記類似度の算出において、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くする、付記3に記載の情報処理装置。この構成によれば、妥当な類似度が算出される確度を高めることができる。
複数の前記カテゴリは階層構造となっており、前記分類手段は、前記類似度と、前記対象データに関連する対象関連情報と前記カテゴリの上位のカテゴリに関連する上位カテゴリ関連情報とが類似している程度を示す上位類似度とに基づいて、前記対象データを複数の前記カテゴリの何れかに分類する、付記1から4の何れかに記載の情報処理装置。この構成によれば、対象関連情報とカテゴリ関連情報との類似度のみからは適切なカテゴリを特定できないような場合にも、対象データを適切なカテゴリに分類することが可能になる。
少なくとも1つのプロセッサが、複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、を含む分類方法。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。
コンピュータを、複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、および、前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、として機能させる分類プログラム。この構成によれば、機械学習により構築した分類器を用いることなく、対象データを自動で分類することができる。
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
11 データ取得部(データ取得手段)
12 分類部(分類手段)
2、2A、2B 情報処理装置
201 データ取得部(データ取得手段)
203 関連情報取得部(関連情報取得手段)
204 類似度算出部(類似度算出手段)
205 分類部(分類手段)
Claims (5)
- 複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段と、
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段と、
前記対象データについて検索した検索結果を前記対象関連情報として取得すると共に、前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得する関連情報取得手段と、
前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出する類似度算出手段と、を備え、
前記分類手段は、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類し、
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記類似度算出手段は、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、情報処理装置。 - 前記類似度算出手段は、前記類似度の算出において、上位の検索結果間の類似の程度に対する重みを下位の検索結果間の類似の程度に対する重みよりも重くする、請求項1に記載の情報処理装置。
- 複数の前記カテゴリは階層構造となっており、
前記分類手段は、前記類似度と、前記対象データに関連する対象関連情報と前記カテゴリの上位のカテゴリに関連する上位カテゴリ関連情報とが類似している程度を示す上位類似度とに基づいて、前記対象データを複数の前記カテゴリの何れかに分類する、請求項1または2に記載の情報処理装置。 - 少なくとも1つのプロセッサが、
複数のカテゴリの何れかへの分類の対象となる対象データを取得することと、
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類することと、
前記対象データについて検索した検索結果を前記対象関連情報として取得することと、
前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得することと、
前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出することと、を含み、
前記対象データの分類においては、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類し、
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記類似度の算出においては、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、分類方法。 - コンピュータを、
複数のカテゴリの何れかへの分類の対象となる対象データを取得するデータ取得手段、
前記対象データに関連する対象関連情報と、前記カテゴリに関連するカテゴリ関連情報とが類似している程度を示す類似度に基づいて、前記対象データを複数の前記カテゴリの何れかに分類する分類手段、
前記対象データについて検索した検索結果を前記対象関連情報として取得すると共に、前記カテゴリについて検索した検索結果を前記カテゴリ関連情報として取得する関連情報取得手段、および
前記対象関連情報が示す検索結果と前記カテゴリ関連情報が示す検索結果とが類似している度合いを示す前記類似度を算出する類似度算出手段、として機能させる分類プログラムであって、
前記分類手段は、前記対象データを、前記類似度が最も高くなった前記カテゴリ関連情報に対応する前記カテゴリに分類し、
前記対象関連情報は、前記対象データについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記カテゴリ関連情報は、前記カテゴリについて検索することにより得られた上位の検索結果から下位の検索結果までを示し、
前記類似度算出手段は、前記対象関連情報と前記カテゴリ関連情報が示す上位から下位までの各検索結果の類似の程度に基づいて前記類似度を算出する、分類プログラム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/013793 WO2022208709A1 (ja) | 2021-03-31 | 2021-03-31 | 情報処理装置、分類方法、および分類プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2022208709A1 JPWO2022208709A1 (ja) | 2022-10-06 |
| JP7568064B2 true JP7568064B2 (ja) | 2024-10-16 |
Family
ID=83458190
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023510005A Active JP7568064B2 (ja) | 2021-03-31 | 2021-03-31 | 情報処理装置、分類方法、および分類プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20240104119A1 (ja) |
| JP (1) | JP7568064B2 (ja) |
| WO (1) | WO2022208709A1 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12561523B2 (en) * | 2023-04-28 | 2026-02-24 | Nec Corporation | Information processing device, information processing method, and recording medium |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008204444A (ja) | 2007-01-23 | 2008-09-04 | Just Syst Corp | データ処理装置、データ処理方法及び検索装置 |
| US20080313142A1 (en) | 2007-06-14 | 2008-12-18 | Microsoft Corporation | Categorization of queries |
| US20090292696A1 (en) | 2008-05-20 | 2009-11-26 | Gary Stephen Shuster | Computer-implemented search using result matching |
| JP2010039600A (ja) | 2008-08-01 | 2010-02-18 | Yahoo Japan Corp | 広告配信装置、広告配信方法、及び広告配信制御プログラム |
| JP2011221877A (ja) | 2010-04-13 | 2011-11-04 | Yahoo Japan Corp | 関連語抽出装置 |
-
2021
- 2021-03-31 JP JP2023510005A patent/JP7568064B2/ja active Active
- 2021-03-31 WO PCT/JP2021/013793 patent/WO2022208709A1/ja not_active Ceased
- 2021-03-31 US US18/274,692 patent/US20240104119A1/en not_active Abandoned
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008204444A (ja) | 2007-01-23 | 2008-09-04 | Just Syst Corp | データ処理装置、データ処理方法及び検索装置 |
| US20080313142A1 (en) | 2007-06-14 | 2008-12-18 | Microsoft Corporation | Categorization of queries |
| US20090292696A1 (en) | 2008-05-20 | 2009-11-26 | Gary Stephen Shuster | Computer-implemented search using result matching |
| JP2010039600A (ja) | 2008-08-01 | 2010-02-18 | Yahoo Japan Corp | 広告配信装置、広告配信方法、及び広告配信制御プログラム |
| JP2011221877A (ja) | 2010-04-13 | 2011-11-04 | Yahoo Japan Corp | 関連語抽出装置 |
Non-Patent Citations (1)
| Title |
|---|
| 山本 岳洋,役割に基づく協調検索における検索行動分析,第7回データ工学と情報マネジメントに関するフォーラム (第13回日本データベース学会年次大会) [online],電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2015年03月04日,DEIM Forum 2015 A8-5, Internet<URL:http://db-event.jpn.org/deim2015/paper/215.pdf> |
Also Published As
| Publication number | Publication date |
|---|---|
| US20240104119A1 (en) | 2024-03-28 |
| JPWO2022208709A1 (ja) | 2022-10-06 |
| WO2022208709A1 (ja) | 2022-10-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6940646B2 (ja) | 情報推奨方法、情報推奨装置、機器および媒体 | |
| US20210191509A1 (en) | Information recommendation method, device and storage medium | |
| CN106202124B (zh) | 网页分类方法及装置 | |
| CN111767713B (zh) | 关键词的提取方法、装置、电子设备及存储介质 | |
| US7444279B2 (en) | Question answering system and question answering processing method | |
| TW202008237A (zh) | 針對新場景的預測模型訓練方法及裝置 | |
| CN111507090B (zh) | 摘要提取方法、装置、设备及计算机可读存储介质 | |
| CN107153656B (zh) | 一种信息搜索方法和装置 | |
| JP2020170538A (ja) | 検索データを処理するための方法、装置及びプログラム | |
| JP6185379B2 (ja) | レコメンド装置およびレコメンド方法 | |
| CN104221015A (zh) | 图像检索装置、图像检索方法、程序以及计算机可读取的存储介质 | |
| CN110019669A (zh) | 一种文本检索方法及装置 | |
| JP7643531B2 (ja) | 情報処理装置、分類方法、および分類プログラム | |
| CN110955845A (zh) | 用户兴趣识别方法及装置、搜索结果处理方法及装置 | |
| JP7568064B2 (ja) | 情報処理装置、分類方法、および分類プログラム | |
| KR100706389B1 (ko) | 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치 | |
| CN108829699B (zh) | 一种热点事件的聚合方法和装置 | |
| CN110968687A (zh) | 一种对文本进行分类的方法及装置 | |
| CN108563713B (zh) | 关键词规则生成方法及装置和电子设备 | |
| US20210390297A1 (en) | Document classification method, document classifier, and recording medium | |
| US12367193B2 (en) | Data query apparatus, method and storage medium | |
| CN119065601A (zh) | 数据写入处理方法及装置 | |
| CN107656927A (zh) | 一种特征选择方法及设备 | |
| KR101347884B1 (ko) | 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템 | |
| CN115809328B (zh) | 一种文本摘要的生成方法、装置及设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230712 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240507 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240627 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240903 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240916 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7568064 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |