Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7720766B2 - 機械学習装置、自然言語処理装置、およびプログラム - Google Patents
[go: Go Back, main page]

JP7720766B2 - 機械学習装置、自然言語処理装置、およびプログラム - Google Patents

機械学習装置、自然言語処理装置、およびプログラム

Info

Publication number
JP7720766B2
JP7720766B2 JP2021174466A JP2021174466A JP7720766B2 JP 7720766 B2 JP7720766 B2 JP 7720766B2 JP 2021174466 A JP2021174466 A JP 2021174466A JP 2021174466 A JP2021174466 A JP 2021174466A JP 7720766 B2 JP7720766 B2 JP 7720766B2
Authority
JP
Japan
Prior art keywords
sequence
unit
word embedding
word
break position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021174466A
Other languages
English (en)
Other versions
JP2023064283A (ja
Inventor
健 小早川
礼子 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2021174466A priority Critical patent/JP7720766B2/ja
Publication of JP2023064283A publication Critical patent/JP2023064283A/ja
Application granted granted Critical
Publication of JP7720766B2 publication Critical patent/JP7720766B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、機械学習装置、自然言語処理装置、およびプログラムに関する。
例えば、SNS(ソーシャル・ネットワーキング・サービス)等に投稿される多数の文章を自動的に分析することによって人々あるいは社会全体の意見の傾向を自動的に分析することは有効である。例えば数千万件から数億件またはそれ以上の文章を人手で分析することは、非現実的であり、精度よく自動的な分析を行えるようにすることは強く求められる。
従来の技術では、文章に含まれる句あるいは単語に対してそれぞれラベル付けを自動的に行うようにしている。例えば、深層学習モデルを用いて、文章の中から、意見対象と意見部分との区間をそれぞれ抽出することが試みられている。
非特許文献1には、深層学習モデルを用いて自然言語で記述された文章を分析するためのしくみであるBERT(Bidirectional Encoder Representations from Transformers)が記載されている。
非特許文献2では、機械学習を用いて文章の構成要素の系列に対してラベル付けを行う「系列ラベリング」の技術について説明されている。
Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova,BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding,Proceedings of NAACL-HLT 2019,pages 4171-4186,Association for Computational Linguistics,2019年. Takatomo Ishikawa,言語処理のための機械学習「5.系列ラベリング」,[online],インターネット<URL:https://www.slideshare.net/Takatymo/ss-64274683,2016年7月22日>.
しかしながら、従来技術において、深層学習分析モデルを用いて文章の構成要素のラベリングを行う場合には、ラベル付与の対象とする句への分割を必ずしも正しく行うことができないという問題があった。つまり、ラベル付与の処理の前段の処理である句への分割において間違いが生じ得るという問題があった。これは、文章の中の意見対象区間や意見区間を抽出するというタスクでは、意見対象区間や意見区間の句切れにおいて誤りが生じ得るという問題である。このような区間抽出の誤りが発生すると、ラベル付与も誤る結果となり得る。つまり、意見対象区間や意見区間を抽出するというタスクにおいては、それらの区間に含まれるべき表現の一部が欠落したり、本来は区間外であるべき誤った表現が区間に含まれる形で抽出されてしまったりする。また、ラベル付けにおいて上記のような誤りが生じると、その後段の処理における分析の精度も悪くなるという問題が発生し得る。例えば、SNS上の意見の動向を統計的に集計する場合にも、精度が悪くなる要因となる。
本発明は、上記のような課題認識に基づいて行なわれたものであり、単語列に含まれる分析対象の部分列(この部分列の具体例は、上記の意見対象区間や意見区間)の位置をより精度よく抽出することを可能とするための機械学習装置、自然言語処理装置、およびプログラムを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様による機械学習装置は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、を備え、前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、というものである。
[2]また、本発明の一態様は、上記の機械学習装置において、前記句切れ位置予測部は、入力される前記単語埋め込み表現列に含まれるすべての単語埋め込み表現を基とする全結合回帰モデルを用いることによって、前記単語埋め込み表現列に対応する句切れ位置情報を出力する、ものである。
[3]また、本発明の一態様は、上記の機械学習装置において、前記系列ラベリング部は、入力される元の前記単語列に含まれる所定の部分列が意見対象であることを表すラベルと、前記所定の部分列が意見であることを表すラベルと、を少なくとも出力する、というものである。
[4]また、本発明の一態様は、上記の機械学習装置において、前記句切れ位置予測部は、前記句切れ位置情報として、前記部分列の開始位置および終了位置を表す数値を出力するものであり、前記学習用データ供給部が供給する前記正解句切れ位置情報は、前記部分列の開始位置および終了位置の正解を表す数値の情報であるというものである。
[5]また、本発明の一態様は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、を備え、少なくとも、前記単語埋め込み部が内部に持つモデルは、請求項1から4までのいずれか一項に記載の機械学習装置によって学習済みである、という自然言語処理装置である。
[6]また、本発明の一態様は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、を備え、前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、機械学習装置、としてコンピューターを機能させるためのプログラムである。
本発明によれば、単語系列に対してラベル系列(タグ系列)を付与する際に、その精度を向上させることができる。
本発明の実施形態による意見分析装置の概略機能構成を示すブロック図である。 同実施形態において句切れ位置を予測するためのモデルの構成をより詳細に示す構成図である。 同実施形態による意見分析装置に入力されるテキストの実例と、その入力テキストに対して行われるラベル付けの例とを示す概略図である。 同実施形態における入力テキスト例(図3)に対応する単語系列と、その系列に対応するタグ系列の正解の例を示す概略図である。 同実施形態における入力テキスト例(図3)に対応する単語系列と、その系列に対応するタグ系列の正解の別の例を示す概略図である。 同実施形態における句切れ位置予測モデルの学習を行うための正解データの例を示す概略図である。 同実施形態による意見分析装置がモデルの学習を行う際の処理の手順を示すフローチャートである。 同実施形態による意見分析装置が、学習済みのモデルを用いて、系列ラベリングの処理を行う際の手順を示すフローチャートである。 同実施形態による意見分析装置の内部構成の一例を示すブロック図である。
次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態による装置は、入力されるテキストに含まれる意見を分析するための意見分析装置である。具体的には、本実施形態の意見分析装置は、入力されるテキストを構成する要素(句)に対して、意見対象区間であるか、意見区間であるか、そのどちらでもない区間であるかを区別するためのタグ(ラベル)を付与する。
本実施形態の意見分析装置の特徴は、抽出する区間の分割箇所(句切れ)を予測するための回帰モデルを備える点である。この本実施形態に特有の回帰モデルを、以下で「句切れ位置予測モデル」と呼ぶ場合がある。句切れ位置予測モデルは、系列ラベリングを行うためのモデル(系列ラベリングモデル)とともに、下位層における分散表現を共有する。本実施形態の意見分析装置は、内部に備えるモデルの機械学習を行うものであり、「機械学習装置」とも呼ばれる。また、本実施形態の意見分析装置は、学習済みのモデルを用いて、与えられる未知の単語列に対応するラベル系列を与えるものであり、「自然言語処理装置」とも呼ばれる。
本実施形態では、句切れ位置予測モデルの機械学習を行うために、句切れ位置予測モデルによって予測される句切れ位置と句切れ位置の正解との誤差をクロスエントロピーで与えるような損失関数を用いる。
図1は、本実施形態による意見分析装置の概略機能構成を示すブロック図である。図示するように、意見分析装置1は、単語埋め込み部11と、系列ラベリング部12と、系列ラベリングの損失関数算出部17と、句切れ位置予測部22と、句切れ位置の損失関数算出部27と、学習用データ供給部30と、を含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次に説明する通りである。
単語埋め込み部11は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力するものである。単語埋め込み部11は、内部に、機械学習可能なモデルを備える。単語埋め込み部11が備えるモデルは、「単語埋め込み層」とも呼ばれる。単語埋め込み部11が備えるモデルは、例えば、ニューラルネットワークを用いて実現される。本実施形態では、意見対象抽出装置の深層学習モデルとしてBERTを用いる。BERT自体は、既存技術であり、前記の非特許文献1等に記載されている。単語埋め込み部11が用いるBERTは、日本語で事前学習された一般的なモデルを用いてもよい。本実施形態では、単語埋め込み部11が持つBERTは、さらに学習することができるものである。入力文は、標準的な形態素解析処理によって単語単位で分割される。つまり、入力文は、単語列と等価である。入力文に対応する単語列は、単語埋め込み部11に入力され、単語埋め込み表現の列に変換される。
系列ラベリング部12は、単語埋め込み部11から出力される単語埋め込み表現列を入力し、その単語埋め込み表現列に対応するラベル系列を出力する。つまり、系列ラベリング部12は、単語ごとにラベルを付与する。ラベルの具体例については後で説明する。系列ラベリング部12は、内部に、機械学習可能なモデルを備える。系列ラベリング部12が備えるモデルは、「系列ラベリングモデル」と呼ばれる。
本実施形態では、系列ラベリング部12は、入力される元の単語列に含まれる所定の部分列が意見対象であることを表すラベルと、その所定の部分列が意見であることを表すラベルと、を少なくとも出力する。系列ラベリング部12が付与するラベルについては、後でさらに具体的な例を説明する。
系列ラベリングの損失関数算出部17は、系列ラベリング部12が出力したラベル系列と、その正解である正解ラベル系列との誤差を算出する。系列ラベリングの損失関数算出部17が算出する誤差は、系列ラベリング部12がパラメーターを調整するために行う誤差逆伝播の基となる誤差である。
句切れ位置予測部22は、単語埋め込み部11から出力される単語埋め込み表現列を入力し、その単語埋め込み表現列に対応する句切れ位置情報を出力する。句切れ位置予測部22は、内部に、機械学習可能なモデルを備える。句切れ位置予測部22が備えるモデルは、「句切れ位置予測モデル」と呼ばれる。
句切れ位置予測部22は、入力される単語埋め込み表現列に含まれるすべての単語埋め込み表現を基とする全結合回帰モデルを用いることによって、その単語埋め込み表現列に対応する句切れ位置情報を出力するようにしてよい。
句切れ位置の損失関数算出部27は、句切れ位置予測部22が出力した句切れ位置情報と、その正解である正解句切れ位置情報との誤差を算出する。句切れ位置の損失関数算出部27が算出する誤差は、句切れ位置予測部22がパラメーターを調整するために行う誤差逆伝播の基となる誤差である。
なお、前記の単語埋め込み部11は、そのモデルの機械学習を行う際には、系列ラベリング部12からの誤差の逆伝播と句切れ位置予測部22からの誤差の逆伝播との両方に基づいて内部のモデルのパラメーターを調整する。
学習用データ供給部30は、意見分析装置1が内部に備えるモデルの学習を行うための学習用データを供給する。具体的には、学習用データ供給部30は、単語埋め込み部11に入力するための単語列を供給する。また、学習用データ供給部30は、上記の単語列に対応して、系列ラベリング部12が出力するラベル系列に対応する正解である正解ラベル系列を供給する。さらに、学習用データ供給部30は、上記の単語列に対応して、句切れ位置予測部22が出力する句切れ位置情報に対応する正解である正解句切れ位置情報を供給する。
句切れ位置予測部22は、句切れ位置情報として、入力文に対応する単語列の部分列の開始位置および終了位置を表す数値を出力するものである。なお、部分列の数は、1つでも複数でもよい。学習用データ供給部30が供給する正解句切れ位置情報は、上記の部分列の開始位置および終了位置の正解を表す数値の情報である。開始位置および終了位置は、第何番目の単語であるかを表す数値の情報である。部分列の開始位置および終了位置の正解は、それぞれ、基本的に整数である。句切れ位置予測部22が予測して出力する開始位置および終了位置のそれぞれは、整数であるとは限らない。通常は、句切れ位置予測部22が予測して出力する開始位置および終了位置のそれぞれは、非整数である。それらの非整数は、開始位置および終了位置のそれぞれの近似値として予測されたものであると捉えられる。
図2は、句切れ位置を予測するためのモデルの構成をより詳細に示す構成図である。図示するように、句切れ位置を予測するためのモデルは、全結合回帰層220を含んで構成される。全結合回帰層220は、図1に示した句切れ位置予測部22に含まれるモデルである。全結合回帰層220は、単語埋め込み層110(BERTエンベディング層)からのすべての出力に接続される2つのノード(図中のyおよびy)を含む。単語埋め込み層110は、図1に示した単語埋め込み部11に含まれるモデルである。単語埋め込み層110に含まれるノード(図中のx,x,・・・,x)は、入力されるテキストに含まれる単語の分散表現に相当する。yおよびyは、それぞれ、区間の句切れの開始位置(start_position)および終了位置(end_position)を表す数値である。これらの数値は、それぞれ、テキスト中の何番目の単語であるかを表す値である。つまり、句切れ位置を予測するためのモデルは、1つまたは複数の区間のそれぞれの開始位置および終了位置を予測する。言い換えれば、全結合回帰層220は、これら2つの数値を予測するための2次元回帰モデルである。
つまり、単語埋め込み層110は、D次元の連続値x,x,・・・,xを出力する。全結合回帰層220は、上記のx,x,・・・,xを基に算出するyおよびyを出力する。yが開始位置、yが終了位置であり、yおよびyは下の式(1)の通りである。
式(1)におけるfは活性化関数である。また、aijおよびbは、全結合回帰層220のモデルの内部パラメーターである。これらの内部パラメーターの値は学習によって調整される。なお、jは、1または2のいずれかである。
つまり、開始位置yおよび終了位置yは、それぞれ、単語埋め込み層110は、単語埋め込み層110からの出力値x,x,・・・,xの重み付きの和(に所定のパラメーター値bを加算したもの)に活性化関数を適用して算出される。
全結合回帰層220からの出力yおよびyは、学習用データに含まれる区間(正解)と照合される。具体的には、意見分析装置1は、全結合回帰層220からの出力と学習用データに出現するラベル区間とのクロスエントロピーを最小化する規範を用いて、モデルの内部パラメーターの学習を行う。ラベル区間の規範を計算する際には、学習データに出現するラベル区間をどれか1つに絞り込むことなく、計算効率のための枝刈りを行う場合を除いては、すべてのラベル区間を規範に含める。
モデルの学習の際には、下の式(2)で表わされる損失関数Lspan(S)を用いる。
式(2)において、SpanSet(S)は、意見分析装置1への入力テキストである文Sに出現するアノテーション区間の集合である。集合SpanSet(S)に属するひとつの区間lの、開始位置が式(2)におけるBegin(l)であり、終了位置がEnd(l)である。言い換えれば、1つの区間(スパン)は、開始位置の値と終了位置の値とで規定される。式(2)におけるCrossEntropy(y,x)は、全結合回帰層220からの出力のひとつであるy(つまり、yまたはy)と、学習用データによって与えられる開始位置または終了位置の正解とのクロスエントロピーである。
つまり、Lspan(S)は、各アノテーション区間についてのyと開始位置の正解とのクロスエントロピーと、yと終了位置の正解とのクロスエントロピーとの和の、全アノテーション区間についての総和に基づくものである。
クロスエントロピーCrossEntropy(y,x)は、下の式(3)によって計算されるものである。
式(3)において、kは、文S内の位置を表すための指標である。また、max_seq_lengthは、文Sの系列長に対応する値である。また、expは、指数関数である。
意見分析装置1は、上記の句切れ位置予測モデルのための損失関数Lspan(S)とは別に、系列ラベリング部12(図1)が持つモデルのための損失関数Lseq(S)を用いる。損失関数Lseq(S)は、従来技術による系列ラベリング問題における損失関数である。意見分析装置1に1文(S)が入力された場合のモデルの総合的な損失関数Ltotal(S)は、下の式(4)の通り計算される。
つまり、総合的な損失関数Ltotal(S)は、句切れ位置予測モデルのための損失関数Lspan(S)と、系列ラベリング部12が持つモデルのための従来技術による損失関数Lseq(S)との和として計算される。
系列ラベリング部12が持つモデルと、句切れ位置予測部22が持つモデルとのうち、句切れ位置予測部22が持つモデルは、学習時にのみ用いられ、推論時には用いられない。つまり、総合的な損失関数の値(上記の式(4))が減少するように学習が進む過程において、下位層(単語埋め込み部11の単語埋め込み層110)の分散表現の学習精度が向上する。これによって、系列ラベリング部12が持つモデルによるラベル付け(意見対象区間や意見区間を特定するタスク)の精度が向上する。
図3は、意見分析装置1に入力されるテキストの実例と、その入力テキストに対して行われるラベル付けの例とを示す概略図である。言い換えれば、図3は、入力されるテキスト中から意見対象区間や意見区間を抽出する処理の実例を示す概略図である。
図示する入力テキスト例は、あるSNSに投稿された単文である。このテキストは、「暴力はいけない、いけないよ #アニメ」というものである。なお、このテキスト中の「#アニメ」は、特定の話題を検索しやすくするためのタグ(「#」を用いるため、ハッシュタグと呼ばれる)の記法にしたがった表現である。この入力テキストは、「暴力/は/いけない/、/いけない/よ/#/アニメ」という8個の単語に分割される(スラッシュで単語の区切りを表している)。ここでは、句読点や、「#」などという記号も、便宜的に単語の一つとして扱う。このような入力テキストから抽出される意見対象区間は、「暴力」(開始位置が1で、終了位置が1)と、「#アニメ」(開始位置が7で、終了位置が8)である。また、抽出される意見区間は、「いけない」(開始位置が3で、終了位置が3)と、「いけない」(開始位置が5で、終了位置が5)である。
図4は、図3に示した入力テキスト例に対応する単語系列と、その系列に対応するタグ系列(ラベル系列)の正解の例を示す概略図である。例示する単語系列は、「暴力/は/いけない/、/いけない/よ/#/アニメ」というものである。この図では、単語の順序にしたがって番号(位置の番号)を付与している。このような単語系列に対応する正解のタグ系列は、「TARGET/O/OPINION/O/OPINION/O/TARGET/TARGET」である。「TARGET」というタグは、対応する単語が意見対象区間に属するものであることを表すタグである。「OPINION」というタグは、対応する単語が意見区間に属するものであることを表すタグである。「O」というタグは、対応する単語が意見対象区間にも意見区間にも属さないものであることを表すタグである。
つまり、この正解のタグ系列は、単語系列内の「暴力」という表現(区間の開始位置が1で終了位置が1)と、「#アニメ」という表現(区間の開始位置が7で終了位置が8)のそれぞれが意見対象区間であることを表す。また、単語系列内の「いけない」(区間の開始位置が3で終了位置が3)と、「いけない」(区間の開始位置が5で終了位置が5)のそれぞれが意見区間であることを表す。
図5は、図3に示した入力テキスト例に対応する単語系列と、その系列に対応するタグ系列の正解の別の例を示す概略図である。図4におけるタグとの違いとして、図5における例では、「TARGET」および「OPINION」のそれぞれのタグには、「B-」あるいは「I-」という接頭辞が付加される。このようなタグは、BIO形式タグと呼ばれる。「B-」は、区間の始まりであることを表す。また、「I-」は、区間の途中であることを表す。なお、区間の終わりの単語に与えられるタグも「I-」で始まるものである。図5に示す例では、「暴力/は/いけない/、/いけない/よ/#/アニメ」という単語系列に対応する正解のタグ系列は、「B-TARGET/O/B-OPINION/O/B-OPINION/O/B-TARGET/I-TARGET」である。
つまり、この正解のタグ系列は、単語系列内の「暴力」という表現(区間の開始位置が1で終了位置が1)と、「#アニメ」という表現(区間の開始位置が7で終了位置が8)のそれぞれが意見対象区間であることを表す。また、単語系列内の「いけない」(区間の開始位置が3で終了位置が3)と、「いけない」(区間の開始位置が5で終了位置が5)のそれぞれが意見区間であることを表す。BIO形式のタグでは、「B-」あるいは「I-」を付けることによって、例えば図5の第7番目の単語と第8番目の単語とが同一の区間に属するものであることを明示的に表している。
図6は、句切れ位置予測モデルの学習を行うための正解データの例を示す概略図である。図示するように、この正解データは、区間の開始位置と終了位置のペアの集合として与えられる。図示する例では、正解データは、4つの区間に関するデータを含む。それらの区間は、開始位置が1で終了位置が1、開始位置が3で終了位置が3、開始位置が5で終了位置が5、開始位置が7で終了位置が8、の4つである。この正解データは、図4や図5で示した例に対応している。図6で示すデータは、図2にも示した開始位置と終了位置についての正解を表す。
図7は、意見分析装置1がモデルの学習を行う際の処理の手順を示すフローチャートである。以下、このフローチャートに沿って、モデルの学習の手順を説明する。
ステップS11において、学習用データ供給部30は、学習用データを供給する。学習用データは、入力テキスト(単語系列)と、その入力データに対応する正解データとのペアである。正解データは、タグ系列の正解と、区間の位置(開始位置および終了位置)とを含む。単語埋め込み部11は、入力テキスト(単語系列)を読み込む。また、系列ラベリングの損失関数算出部17は、正解のタグ系列を読み込む。そして、句切れ位置の損失関数算出部27は、区間の開始位置および終了位置の正解データ(例えば、図6)を読み込む。
ステップS12において、意見分析装置1は、算出される損失関数値に基づいて、各モデルの内部パラメーターの調整を行う。具体的には、次の通りである。
単語埋め込み部11は、入力される単語系列に対応する分散表現の系列を、系列ラベリング部12と句切れ位置予測部22とに渡す。系列ラベリング部12は、その時点での内部パラメーター値を持つ系列ラベリングモデルを用いて、系列ラベルを求める。
また、句切れ位置予測部22は、その時点での内部パラメーター値に基づく句切れ位置予測モデルを用いて、句切れ位置を求める。系列ラベリングの損失関数算出部17は、系列ラベリング部12が出力する系列ラベルと、正解の系列ラベルとに基づいて、損失関数値を算出する。句切れ位置の損失関数算出部27は、句切れ位置予測部22が出力する句切れ位置と、正解の句切れ位置(開始位置および終了位置)とに基づいて、損失関数値を算出する。これら算出された損失関数値に基づいて、誤差逆伝播法により、各モデルの内部パラメーターの調整を行う。このようなモデルの内部パラメーターの調整を繰り返すことは、損失関数値が減少する方向に作用する。言い換えれば、パラメーターの調整を繰り返すことにより、各モデルは、より正解に近い出力値を算出できるようになる。なお、誤差逆伝播法によるモデルのパラメーターの調整の手法自体は、既存技術に属するものである。
ステップS13において、意見分析装置1は、パラメーターを調整した後の各モデルの状態を保存する。具体的には、意見分析装置1は、調整後のパラメーターの値を不揮発性のメモリー等に書き込む。
図8は、意見分析装置1が、学習済みのモデルを用いて、系列ラベリングの処理を行う際の手順を示すフローチャートである。図7に示した処理手順のステップS13においてモデルの状態が保存されているため、意見分析装置1は、各モデルの状態を読み出すことができる。以下、このフローチャートに沿って、系列ラベルを推定する処理の手順を説明する。
ステップS21において、単語埋め込み部11は、入力テキスト(単語系列)を読み込む。
ステップS22において、意見分析装置1は、モデルを用いて、入力テキストに対応するタグ系列を推論する。具体的には、単語埋め込みモデルを有する単語埋め込み部11は、単語埋め込みモデルによって算出したベクトルの系列を出力する。系列ラベリングモデルを有する系列ラベリング部12は、単語埋め込み部11から渡されるベクトルの系列に基づいて、タグ系列を求める。
ステップS23において、系列ラベリング部12は、ステップS22において求めたタグ系列を出力する。入力テキスト(単語列)に対応するタグ系列の例は、図4や図5に示した通りである。
以上説明したように本実施形態の意見分析装置を用いることにより、入力される単語系列に対応してタグ系列を自動的に付与する処理において、付与するタグの精度を向上させることができる。具体例としては、入力される単語系列の各単語について、意見対象を表す単語であることを示すタグや、意見を表す単語であることを示すタグを、精度よく付与することができるようになる。つまり、入力される単語列中の、特定の性質を有する部分(例えば、意見対象や、意見など)を、精度よく抽出することが可能となる。
本実施形態のこのような装置を、SNSで投稿されるテキストの中から特定の性質の部分(例えば、意見対象の部分や、意見の部分など)を抽出するために利用することができる。例えば、SNSでの投稿内容に基づいて特定のコンテンツ(放送番組等)の視聴に対する反響を自動的に分析する場合に、投稿内容のテキスト自体にはどの部分が意見対象でどの部分が意見であるかが明示されていなくても、これらの部分を自動的に精度よく抽出することができるようになる。あるいは投稿内容のテキストにはどのコンテンツに対する反響であるかを表すハッシュタグ等が含まれていない場合にも、意見対象の部分や意見の部分等を自動的に抽出することが可能となる。つまり、本実施形態の装置によると、キーワード検索等の手法よりも強力かつ精度の高い分析が可能となる。つまり、本実施形態により、大規模な市場調査等を容易に且つ精度よく実施することが可能となる。
SNS等に投稿された大量のテキスト(例えば、数千件から数十万件の程度)について、意見対象や意見を自動的に抽出することができると、どのような意見対象に対してどのような意見がどの程度発言されたかを自動的に集計できるようになる。この集計の際には、同一の意見対象についての集計を行ったり、似通った意見対象をまとめ上げるようなクラスタリング処理を行ったりすることもできる。集計の手法やクラスタリングの手法としては、従来技術による手法を用いることができる。例えば、放送番組に対する視聴者らの意見を自動的に集計することが可能となる。
図9は、上記実施形態の意見分析装置1の内部構成の例を示すブロック図である。意見分析装置1は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
なお、上述した意見分析装置1の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の(non-transitory)コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
[第1変形例]
以上の説明では、処理対象とするテキストは日本語で記述されたテキストであったが、本実施形態を日本語以外のデータに適用してもよい。後で説明する実証実験においては、日本語の他に英語のテキストのデータを処理対象としている。また、さらに、その他の言語によるテキストを処理対象としてもよい。
[第2変形例]
上記実施形態では、1台の意見分析装置1が、モデルの学習も行い、学習済みのモデルを用いてラベル系列を付与する(推定する)処理も行うものであった。変形例として、意見分析装置1が、モデルの学習と、学習済みのモデルを用いたラベル系列の推定との、いずれかのみをおこなうものであってもよい。意見分析装置1が機械学習装置として機能する場合には、学習済みのモデルのパラメーターを他の装置に移植して、移植先の装置においてラベル系列を付与する(推定する)処理を行わせることができる。また、意見分析装置1が、自らは機械学習を行わず、学習済みのモデルのパラメーターを取得して、ラベル系列を付与する(推定する)処理を行うものであってもよい。
後者の場合には、意見分析装置1は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、を備える自然言語処理装置として機能する。このとき、少なくとも単語埋め込み部11が内部に持つモデルとしては、上記実施形態で説明した機械学習の仕組み(機械学習装置)を用いて学習済みのものを利用する。
以上、この発明の実施形態およびその変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
[実装および評価]
意見分析装置1を実装し、SNS(ツイッター)における実際の投稿文や、映画に関するレビュー文を用いた実験により評価した。その実験での評価結果について説明する。
評価に用いたデータは、テレビ番組に関する日本語のツイートと、映画に関する英語のレビューとである。具体的には、日本語テキストとして、ツイッターにおける、テレビ番組(NHK朝ドラ)「なつぞら」についての、9日間の日本語でのツイート(ツイート数は24,610、単語数は984,861)を用いた。また、英語テキストとして、評論サイトIMDbのレビュー(レビュー数は986、文数は10,360、単語数は321,807)を用いた。なお、学習用データには、人手で正解を付与した。
評価尺度としては、precision(プレシジョン)、recall(リコール)、f1を用いた。これらは、それぞれ、式(5)、式(6)、式(7)で定義される。なお、ここで、TPは真陽性、FPは偽陽性、FNは偽陰性である。
放送番組に関する日本語によるテキスト(ツイート)の分析タスクに対して、ラベルを最上位の第1階層に制限した場合の実験結果は、表1に示す通りである。
なお、この実験において、ラベルは3階層に体系化され、第1階層で大きく2種類に分けられている。その2種類とは、放送番組の内容に言及した部分に付与されるREFERENCE 系のラベルと、発信者の主観を述べた部分に付与されるOPINION系のラベルである。REFERENCE系のラベルは、第2階層におけるTITLE、MUSIC、PERSON、PROGRAM、SCENE、STORY、QUOTEという各ラベルを持つ。一方、OPINION系のラベルは、第2階層におけるEVALUATION、ACTION、INDEXという各ラベルを持つ。このうち、第2階層におけるECALUATIONは、第3階層におけるPOSITIVE、NEGATIVE、NEUTRAL、REQUESTという各ラベルを持つ。
実験では、評価対象として、第1階層のREFERENCEラベルおよびOPINIONラベルを個別に評価し、そして、全体での評価も行った。比較対象である従来技術は、学習時にも句切れ位置予測部22(図1を参照)を用いない場合である。
評価尺度recallのREFERENCEラベルに関して本実施形態の結果の値が従来技術の結果をわずかに下回ったのを除いて、他のすべての場合については、本実施形態の結果は従来技術の結果を上回ることが確認できた。
なお、本実施形態を用いることの効果は、モデルを学習する際のエポック(epoch)数によって異なる。学習のはじめの段階(10エポック以下程度の段階)では、従来技術と本実施形態との間で、f1値で評価する性能には大きな違いは見られない。しかしながら、10エポックを超えるあたりから本実施形態の効果が見られはじめ、20エポック程度になると本実施形態の優位性(従来技術に対するf1値での性能差)が顕著となる。
英語で記述された映画レビューのテキストの分析タスクに対して、ラベルを最上位の第1階層に制限した場合の実験結果は、表2に示す通りである。表1の場合と同様に、表2においても第1階層のREFERENCEラベルおよびOPINIONラベルの個別に評価と、全体での評価とを行った。
この英語のテキストの分析においても、ほとんどの場合に本実施形態が従来技術の結果を上回ることが確認できた。本実施形態の評価結果が従来技術の評価結果を下回るのは、評価尺度recallのREFERENCEラベルに関してのみである。その他の場合には、本実施形態の評価結果が従来技術の評価を上回っている。
本実施形態における改善が従来技術と比較して有意なものであるか否かを表す有意水準(p値)を、下の表3に示す。ここで示すのは、McNemar検定を行った場合の有意水準である。
放送番組に関する日本語によるテキスト(ツイート)の分析タスクに対して、ラベルの階層を制限しない場合の実験結果は、下の表4に示す通りである。表4に示す数値は、全ラベルの総合的な評価結果(マイクロ平均)である。
以上の、表1、表2、表4で示したように、本実施形態によるテキスト内の特定の位置づけの表現を抽出(意見対象の抽出)の精度が従来技術の場合よりもよいことが、実験によって確認できた。また、表3で示したように、精度の向上が有意なものであることを、検定によって確かめることができた。
本発明は、例えば、自然言語で記述された文から特定の位置づけの要素を抽出するために利用することができる。一例として、SNSに投稿されるテキストから特定の位置づけの要素を抽出するために利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
1 意見分析装置(機械学習装置、自然言語処理装置)
11 単語埋め込み部
12 系列ラベリング部
17 系列ラベリングの損失関数算出部
22 句切れ位置予測部
27 句切れ位置の損失関数算出部
30 学習用データ供給部
220 全結合回帰層
110 単語埋め込み層(BERTエンベディング層)
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス

Claims (6)

  1. 単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、
    前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、
    前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、
    前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、
    を備え、
    前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
    前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
    前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、
    機械学習装置。
  2. 前記句切れ位置予測部は、入力される前記単語埋め込み表現列に含まれるすべての単語埋め込み表現を基とする全結合回帰モデルを用いることによって、前記単語埋め込み表現列に対応する句切れ位置情報を出力する、
    請求項1に記載の機械学習装置。
  3. 前記系列ラベリング部は、入力される元の前記単語列に含まれる所定の部分列が意見対象であることを表すラベルと、前記所定の部分列が意見であることを表すラベルと、を少なくとも出力する、
    請求項1または2に記載の機械学習装置。
  4. 前記句切れ位置予測部は、前記句切れ位置情報として、前記部分列の開始位置および終了位置を表す数値を出力するものであり、
    前記学習用データ供給部が供給する前記正解句切れ位置情報は、前記部分列の開始位置および終了位置の正解を表す数値の情報である、
    請求項3に記載の機械学習装置。
  5. 単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、
    前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、
    を備え、
    少なくとも、前記単語埋め込み部が内部に持つモデルは、請求項1から4までのいずれか一項に記載の機械学習装置によって学習済みである、
    自然言語処理装置。
  6. 単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、
    前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、
    前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、
    前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、
    を備え、
    前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
    前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
    前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、
    機械学習装置、としてコンピューターを機能させるためのプログラム。
JP2021174466A 2021-10-26 2021-10-26 機械学習装置、自然言語処理装置、およびプログラム Active JP7720766B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021174466A JP7720766B2 (ja) 2021-10-26 2021-10-26 機械学習装置、自然言語処理装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021174466A JP7720766B2 (ja) 2021-10-26 2021-10-26 機械学習装置、自然言語処理装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2023064283A JP2023064283A (ja) 2023-05-11
JP7720766B2 true JP7720766B2 (ja) 2025-08-08

Family

ID=86271507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021174466A Active JP7720766B2 (ja) 2021-10-26 2021-10-26 機械学習装置、自然言語処理装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP7720766B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225907A (ja) 2007-03-13 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体
US20130325442A1 (en) 2010-09-24 2013-12-05 National University Of Singapore Methods and Systems for Automated Text Correction
JP2020500366A (ja) 2016-11-03 2020-01-09 セールスフォース ドット コム インコーポレイティッド 複数の自然言語処理(nlp)タスクのための同時多タスクニューラルネットワークモデル
CN113158808A (zh) 2021-03-24 2021-07-23 华南理工大学 中文古籍字符识别、组段与版面重建方法、介质和设备
JP2021108096A (ja) 2019-12-27 2021-07-29 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 情報を出力する方法および装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225907A (ja) 2007-03-13 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体
US20130325442A1 (en) 2010-09-24 2013-12-05 National University Of Singapore Methods and Systems for Automated Text Correction
JP2020500366A (ja) 2016-11-03 2020-01-09 セールスフォース ドット コム インコーポレイティッド 複数の自然言語処理(nlp)タスクのための同時多タスクニューラルネットワークモデル
JP2021108096A (ja) 2019-12-27 2021-07-29 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 情報を出力する方法および装置
CN113158808A (zh) 2021-03-24 2021-07-23 华南理工大学 中文古籍字符识别、组段与版面重建方法、介质和设备

Also Published As

Publication number Publication date
JP2023064283A (ja) 2023-05-11

Similar Documents

Publication Publication Date Title
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
US11544474B2 (en) Generation of text from structured data
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN117609444B (zh) 一种基于大模型的搜索问答方法
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN110321426B (zh) 摘要抽取方法、装置及计算机设备
EP3832485A1 (en) Question answering systems
WO2021001517A1 (en) Question answering systems
CN114372139B (zh) 数据处理方法、摘要展示方法、装置、设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN119577080A (zh) 文档处理方法及装置、信息检索方法及装置
Bai et al. Entity-level sentiment prediction in Danmaku video interaction: Q. Bai et al.
CN119046432A (zh) 基于人工智能的数据生成方法、装置、计算机设备及介质
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN114661616B (zh) 目标代码的生成方法及装置
CN113268651B (zh) 一种搜索信息的摘要自动生成方法及装置
JP7720766B2 (ja) 機械学習装置、自然言語処理装置、およびプログラム
CN115757760A (zh) 文本摘要提取方法及系统、计算设备、存储介质
CN116860955B (zh) 文本增强方法、电子设备、计算机可读存储介质
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN117216242A (zh) 摘要生成模型的训练方法、装置、设备、介质及程序产品
Grönroos et al. North Sámi morphological segmentation with low-resource semi-supervised sequence labeling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250701

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250729

R150 Certificate of patent or registration of utility model

Ref document number: 7720766

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150