JP7707638B2 - 機械学習プログラム、機械学習方法および情報処理装置 - Google Patents
機械学習プログラム、機械学習方法および情報処理装置Info
- Publication number
- JP7707638B2 JP7707638B2 JP2021080360A JP2021080360A JP7707638B2 JP 7707638 B2 JP7707638 B2 JP 7707638B2 JP 2021080360 A JP2021080360 A JP 2021080360A JP 2021080360 A JP2021080360 A JP 2021080360A JP 7707638 B2 JP7707638 B2 JP 7707638B2
- Authority
- JP
- Japan
- Prior art keywords
- sentences
- machine learning
- named entity
- verb
- identifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Description
11 通信部
12 記憶部
13 事前学習言語モデル
14 タスクDB
15 コーパスデータDB
16 言語モデル
20 制御部
21 特定部
22 ベクトル化処理部
23 選択部
24 訓練部
Claims (4)
- 特定の文書から、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第1の組合せを特定し、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第2の組合せを特定し、
前記複数の第1の組合せそれぞれをベクトル化した複数の第1のベクトル値と、前記複数の第2の組合せそれぞれをベクトル化した複数の第2のベクトル値とを生成し、
前記特定の文書に対応する前記複数の第1のベクトル値それぞれの類似度の平均値である第1の平均値と、前記複数の文章それぞれに対応する、前記複数の第2のベクトル値それぞれの類似度の平均値である複数の第2の平均値とを算出し、
前記複数の文章それぞれに対応する前記複数の第2の平均値のうち、前記特定の文書の前記第1の平均値との類似度が閾値以上である前記第2の平均値を特定し、
前記複数の文章のうち、特定された前記第2の平均値に対応する一又は複数の文章を特定し、
前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。 - 前記特定する処理は、
前記特定の文章に含まれる動詞のうち、前記固有表現と依存関係を有する動詞として、前記固有表現からの距離が最も近い動詞を特定し、前記固有表現と前記距離が最も近い動詞との組合せを前記第1の組合せとして特定し、
前記複数の文章に含まれる動詞のうち、前記固有表現と依存関係を有する動詞として、前記固有表現からの距離が最も近い動詞を特定し、前記固有表現と前記距離が最も近い動詞との組合せを前記第2の組合せとして特定する、
ことを特徴とする請求項1に記載の機械学習プログラム。 - 特定の文書から、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第1の組合せを特定し、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第2の組合せを特定し、
前記複数の第1の組合せそれぞれをベクトル化した複数の第1のベクトル値と、前記複数の第2の組合せそれぞれをベクトル化した複数の第2のベクトル値とを生成し、
前記特定の文書に対応する前記複数の第1のベクトル値それぞれの類似度の平均値である第1の平均値と、前記複数の文章それぞれに対応する、前記複数の第2のベクトル値それぞれの類似度の平均値である複数の第2の平均値とを算出し、
前記複数の文章それぞれに対応する前記複数の第2の平均値のうち、前記特定の文書の前記第1の平均値との類似度が閾値以上である前記第2の平均値を特定し、
前記複数の文章のうち、特定された前記第2の平均値に対応する一又は複数の文章を特定し、
前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、
処理をコンピュータが実行することを特徴とする機械学習方法。 - 特定の文書から、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第1の組合せを特定し、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第2の組合せを特定し、
前記複数の第1の組合せそれぞれをベクトル化した複数の第1のベクトル値と、前記複数の第2の組合せそれぞれをベクトル化した複数の第2のベクトル値とを生成し、
前記特定の文書に対応する前記複数の第1のベクトル値それぞれの類似度の平均値である第1の平均値と、前記複数の文章それぞれに対応する、前記複数の第2のベクトル値それぞれの類似度の平均値である複数の第2の平均値とを算出し、
前記複数の文章それぞれに対応する前記複数の第2の平均値のうち、前記特定の文書の前記第1の平均値との類似度が閾値以上である前記第2の平均値を特定し、
前記複数の文章のうち、特定された前記第2の平均値に対応する一又は複数の文章を特定し、
前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、
制御部を有することを特徴とする情報処理装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021080360A JP7707638B2 (ja) | 2021-05-11 | 2021-05-11 | 機械学習プログラム、機械学習方法および情報処理装置 |
| US17/683,406 US12039275B2 (en) | 2021-05-11 | 2022-03-01 | Method of machine learning and information processing apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021080360A JP7707638B2 (ja) | 2021-05-11 | 2021-05-11 | 機械学習プログラム、機械学習方法および情報処理装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022174517A JP2022174517A (ja) | 2022-11-24 |
| JP7707638B2 true JP7707638B2 (ja) | 2025-07-15 |
Family
ID=83998757
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021080360A Active JP7707638B2 (ja) | 2021-05-11 | 2021-05-11 | 機械学習プログラム、機械学習方法および情報処理装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US12039275B2 (ja) |
| JP (1) | JP7707638B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12086547B2 (en) * | 2021-05-28 | 2024-09-10 | Paypal, Inc. | Cross-domain named entity recognition using knowledge graph |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008226104A (ja) | 2007-03-15 | 2008-09-25 | National Institute Of Information & Communication Technology | 情報処理装置、情報処理方法、及びプログラム |
| JP2018124914A (ja) | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | パッセージ型質問応答装置、方法、及びプログラム |
| JP2019215705A (ja) | 2018-06-13 | 2019-12-19 | 日本放送協会 | 情報判定モデル学習装置およびそのプログラム |
| CN111753062A (zh) | 2019-11-06 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 一种会话应答方案确定方法、装置、设备及介质 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6004452B2 (ja) | 2014-07-24 | 2016-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム |
| JP6298785B2 (ja) | 2015-03-03 | 2018-03-20 | 日本電信電話株式会社 | 自然言語解析装置、方法、及びプログラム |
| US11416229B2 (en) * | 2019-03-13 | 2022-08-16 | Google Llc | Debugging applications for delivery via an application delivery server |
| US11120221B2 (en) * | 2019-03-26 | 2021-09-14 | Tata Consultancy Services Limited | Method and system to resolve ambiguities in regulations |
-
2021
- 2021-05-11 JP JP2021080360A patent/JP7707638B2/ja active Active
-
2022
- 2022-03-01 US US17/683,406 patent/US12039275B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008226104A (ja) | 2007-03-15 | 2008-09-25 | National Institute Of Information & Communication Technology | 情報処理装置、情報処理方法、及びプログラム |
| JP2018124914A (ja) | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | パッセージ型質問応答装置、方法、及びプログラム |
| JP2019215705A (ja) | 2018-06-13 | 2019-12-19 | 日本放送協会 | 情報判定モデル学習装置およびそのプログラム |
| CN111753062A (zh) | 2019-11-06 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 一种会话应答方案确定方法、装置、设备及介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20220366142A1 (en) | 2022-11-17 |
| JP2022174517A (ja) | 2022-11-24 |
| US12039275B2 (en) | 2024-07-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7024515B2 (ja) | 学習プログラム、学習方法および学習装置 | |
| JP7052866B2 (ja) | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム | |
| KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
| WO2018167900A1 (ja) | ニューラルネットワーク学習装置、方法、およびプログラム | |
| CN108475262A (zh) | 用于文本处理的电子设备和方法 | |
| JP2019159823A (ja) | 学習プログラム、学習方法および学習装置 | |
| JP7028198B2 (ja) | 要約生成装置、方法、プログラム、及び記憶媒体 | |
| US11144724B2 (en) | Clustering of words with multiple meanings based on generating vectors for each meaning | |
| JP7707638B2 (ja) | 機械学習プログラム、機械学習方法および情報処理装置 | |
| Gong et al. | The aging multiverse: Generating condition-aware facial aging tree via training-free diffusion | |
| CN112686060B (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
| JP7537493B2 (ja) | 環境推定方法、環境推定装置、およびプログラム | |
| Reisi et al. | Authorship attribution in historical and literary texts by a deep learning classifier | |
| JP6770709B2 (ja) | 機械学習用モデル生成装置及びプログラム。 | |
| CN108829675A (zh) | 文档表示方法及装置 | |
| JP2011028638A (ja) | 要約文作成装置、要約文作成方法、プログラム | |
| JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
| KR102072162B1 (ko) | 인공 지능 기반 외국어 음성 합성 방법 및 장치 | |
| JP2003263441A (ja) | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 | |
| CN117112858B (zh) | 基于关联规则挖掘的对象筛选方法、处理器及存储介质 | |
| JP7192873B2 (ja) | 情報処理プログラム、情報処理方法および学習装置 | |
| CN116414965B (zh) | 初始对话内容生成方法、装置、介质和计算设备 | |
| US20230186155A1 (en) | Machine learning method and information processing device | |
| JP7411149B2 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム | |
| JP4226942B2 (ja) | アクセント位置推定方法、装置およびプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240208 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20241016 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241203 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250203 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250603 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250616 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7707638 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |