JP7720766B2 - 機械学習装置、自然言語処理装置、およびプログラム - Google Patents
機械学習装置、自然言語処理装置、およびプログラムInfo
- Publication number
- JP7720766B2 JP7720766B2 JP2021174466A JP2021174466A JP7720766B2 JP 7720766 B2 JP7720766 B2 JP 7720766B2 JP 2021174466 A JP2021174466 A JP 2021174466A JP 2021174466 A JP2021174466 A JP 2021174466A JP 7720766 B2 JP7720766 B2 JP 7720766B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- unit
- word embedding
- word
- break position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
また、句切れ位置予測部22は、その時点での内部パラメーター値に基づく句切れ位置予測モデルを用いて、句切れ位置を求める。系列ラベリングの損失関数算出部17は、系列ラベリング部12が出力する系列ラベルと、正解の系列ラベルとに基づいて、損失関数値を算出する。句切れ位置の損失関数算出部27は、句切れ位置予測部22が出力する句切れ位置と、正解の句切れ位置(開始位置および終了位置)とに基づいて、損失関数値を算出する。これら算出された損失関数値に基づいて、誤差逆伝播法により、各モデルの内部パラメーターの調整を行う。このようなモデルの内部パラメーターの調整を繰り返すことは、損失関数値が減少する方向に作用する。言い換えれば、パラメーターの調整を繰り返すことにより、各モデルは、より正解に近い出力値を算出できるようになる。なお、誤差逆伝播法によるモデルのパラメーターの調整の手法自体は、既存技術に属するものである。
以上の説明では、処理対象とするテキストは日本語で記述されたテキストであったが、本実施形態を日本語以外のデータに適用してもよい。後で説明する実証実験においては、日本語の他に英語のテキストのデータを処理対象としている。また、さらに、その他の言語によるテキストを処理対象としてもよい。
上記実施形態では、1台の意見分析装置1が、モデルの学習も行い、学習済みのモデルを用いてラベル系列を付与する(推定する)処理も行うものであった。変形例として、意見分析装置1が、モデルの学習と、学習済みのモデルを用いたラベル系列の推定との、いずれかのみをおこなうものであってもよい。意見分析装置1が機械学習装置として機能する場合には、学習済みのモデルのパラメーターを他の装置に移植して、移植先の装置においてラベル系列を付与する(推定する)処理を行わせることができる。また、意見分析装置1が、自らは機械学習を行わず、学習済みのモデルのパラメーターを取得して、ラベル系列を付与する(推定する)処理を行うものであってもよい。
意見分析装置1を実装し、SNS(ツイッター)における実際の投稿文や、映画に関するレビュー文を用いた実験により評価した。その実験での評価結果について説明する。
11 単語埋め込み部
12 系列ラベリング部
17 系列ラベリングの損失関数算出部
22 句切れ位置予測部
27 句切れ位置の損失関数算出部
30 学習用データ供給部
220 全結合回帰層
110 単語埋め込み層(BERTエンベディング層)
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス
Claims (6)
- 単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、
前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、
を備え、
前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、
機械学習装置。 - 前記句切れ位置予測部は、入力される前記単語埋め込み表現列に含まれるすべての単語埋め込み表現を基とする全結合回帰モデルを用いることによって、前記単語埋め込み表現列に対応する句切れ位置情報を出力する、
請求項1に記載の機械学習装置。 - 前記系列ラベリング部は、入力される元の前記単語列に含まれる所定の部分列が意見対象であることを表すラベルと、前記所定の部分列が意見であることを表すラベルと、を少なくとも出力する、
請求項1または2に記載の機械学習装置。 - 前記句切れ位置予測部は、前記句切れ位置情報として、前記部分列の開始位置および終了位置を表す数値を出力するものであり、
前記学習用データ供給部が供給する前記正解句切れ位置情報は、前記部分列の開始位置および終了位置の正解を表す数値の情報である、
請求項3に記載の機械学習装置。 - 単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、
を備え、
少なくとも、前記単語埋め込み部が内部に持つモデルは、請求項1から4までのいずれか一項に記載の機械学習装置によって学習済みである、
自然言語処理装置。 - 単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、
前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、
を備え、
前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、
機械学習装置、としてコンピューターを機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021174466A JP7720766B2 (ja) | 2021-10-26 | 2021-10-26 | 機械学習装置、自然言語処理装置、およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021174466A JP7720766B2 (ja) | 2021-10-26 | 2021-10-26 | 機械学習装置、自然言語処理装置、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023064283A JP2023064283A (ja) | 2023-05-11 |
| JP7720766B2 true JP7720766B2 (ja) | 2025-08-08 |
Family
ID=86271507
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021174466A Active JP7720766B2 (ja) | 2021-10-26 | 2021-10-26 | 機械学習装置、自然言語処理装置、およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7720766B2 (ja) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008225907A (ja) | 2007-03-13 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 |
| US20130325442A1 (en) | 2010-09-24 | 2013-12-05 | National University Of Singapore | Methods and Systems for Automated Text Correction |
| JP2020500366A (ja) | 2016-11-03 | 2020-01-09 | セールスフォース ドット コム インコーポレイティッド | 複数の自然言語処理(nlp)タスクのための同時多タスクニューラルネットワークモデル |
| CN113158808A (zh) | 2021-03-24 | 2021-07-23 | 华南理工大学 | 中文古籍字符识别、组段与版面重建方法、介质和设备 |
| JP2021108096A (ja) | 2019-12-27 | 2021-07-29 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 情報を出力する方法および装置 |
-
2021
- 2021-10-26 JP JP2021174466A patent/JP7720766B2/ja active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008225907A (ja) | 2007-03-13 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 |
| US20130325442A1 (en) | 2010-09-24 | 2013-12-05 | National University Of Singapore | Methods and Systems for Automated Text Correction |
| JP2020500366A (ja) | 2016-11-03 | 2020-01-09 | セールスフォース ドット コム インコーポレイティッド | 複数の自然言語処理(nlp)タスクのための同時多タスクニューラルネットワークモデル |
| JP2021108096A (ja) | 2019-12-27 | 2021-07-29 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 情報を出力する方法および装置 |
| CN113158808A (zh) | 2021-03-24 | 2021-07-23 | 华南理工大学 | 中文古籍字符识别、组段与版面重建方法、介质和设备 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023064283A (ja) | 2023-05-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
| US11544474B2 (en) | Generation of text from structured data | |
| CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
| CN117609444B (zh) | 一种基于大模型的搜索问答方法 | |
| CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
| CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
| CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
| CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
| CN110321426B (zh) | 摘要抽取方法、装置及计算机设备 | |
| EP3832485A1 (en) | Question answering systems | |
| WO2021001517A1 (en) | Question answering systems | |
| CN114372139B (zh) | 数据处理方法、摘要展示方法、装置、设备及存储介质 | |
| CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
| CN119577080A (zh) | 文档处理方法及装置、信息检索方法及装置 | |
| Bai et al. | Entity-level sentiment prediction in Danmaku video interaction: Q. Bai et al. | |
| CN119046432A (zh) | 基于人工智能的数据生成方法、装置、计算机设备及介质 | |
| CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
| CN114661616B (zh) | 目标代码的生成方法及装置 | |
| CN113268651B (zh) | 一种搜索信息的摘要自动生成方法及装置 | |
| JP7720766B2 (ja) | 機械学習装置、自然言語処理装置、およびプログラム | |
| CN115757760A (zh) | 文本摘要提取方法及系统、计算设备、存储介质 | |
| CN116860955B (zh) | 文本增强方法、电子设备、计算机可读存储介质 | |
| CN116561298A (zh) | 基于人工智能的标题生成方法、装置、设备及存储介质 | |
| CN117216242A (zh) | 摘要生成模型的训练方法、装置、设备、介质及程序产品 | |
| Grönroos et al. | North Sámi morphological segmentation with low-resource semi-supervised sequence labeling |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240925 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250501 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250701 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250729 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7720766 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |