JP7720766B2

JP7720766B2 - 機械学習装置、自然言語処理装置、およびプログラム

Info

Publication number: JP7720766B2
Application number: JP2021174466A
Authority: JP
Inventors: 健小早川; 礼子齋藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2025-08-08
Anticipated expiration: 2041-10-26
Also published as: JP2023064283A

Description

本発明は、機械学習装置、自然言語処理装置、およびプログラムに関する。

例えば、ＳＮＳ（ソーシャル・ネットワーキング・サービス）等に投稿される多数の文章を自動的に分析することによって人々あるいは社会全体の意見の傾向を自動的に分析することは有効である。例えば数千万件から数億件またはそれ以上の文章を人手で分析することは、非現実的であり、精度よく自動的な分析を行えるようにすることは強く求められる。

従来の技術では、文章に含まれる句あるいは単語に対してそれぞれラベル付けを自動的に行うようにしている。例えば、深層学習モデルを用いて、文章の中から、意見対象と意見部分との区間をそれぞれ抽出することが試みられている。

非特許文献１には、深層学習モデルを用いて自然言語で記述された文章を分析するためのしくみであるＢＥＲＴ（Bidirectional Encoder Representations from Transformers）が記載されている。

非特許文献２では、機械学習を用いて文章の構成要素の系列に対してラベル付けを行う「系列ラベリング」の技術について説明されている。

Jacob Devlin，Ming-Wei Chang，Kenton Lee，Kristina Toutanova，BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding，Proceedings of NAACL-HLT 2019，pages 4171-4186，Association for Computational Linguistics，2019年． Takatomo Ishikawa，言語処理のための機械学習「５．系列ラベリング」，［online］，インターネット＜ＵＲＬ：https://www.slideshare.net/Takatymo/ss-64274683，2016年7月22日＞．

しかしながら、従来技術において、深層学習分析モデルを用いて文章の構成要素のラベリングを行う場合には、ラベル付与の対象とする句への分割を必ずしも正しく行うことができないという問題があった。つまり、ラベル付与の処理の前段の処理である句への分割において間違いが生じ得るという問題があった。これは、文章の中の意見対象区間や意見区間を抽出するというタスクでは、意見対象区間や意見区間の句切れにおいて誤りが生じ得るという問題である。このような区間抽出の誤りが発生すると、ラベル付与も誤る結果となり得る。つまり、意見対象区間や意見区間を抽出するというタスクにおいては、それらの区間に含まれるべき表現の一部が欠落したり、本来は区間外であるべき誤った表現が区間に含まれる形で抽出されてしまったりする。また、ラベル付けにおいて上記のような誤りが生じると、その後段の処理における分析の精度も悪くなるという問題が発生し得る。例えば、ＳＮＳ上の意見の動向を統計的に集計する場合にも、精度が悪くなる要因となる。

本発明は、上記のような課題認識に基づいて行なわれたものであり、単語列に含まれる分析対象の部分列（この部分列の具体例は、上記の意見対象区間や意見区間）の位置をより精度よく抽出することを可能とするための機械学習装置、自然言語処理装置、およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による機械学習装置は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、を備え、前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、というものである。

［２］また、本発明の一態様は、上記の機械学習装置において、前記句切れ位置予測部は、入力される前記単語埋め込み表現列に含まれるすべての単語埋め込み表現を基とする全結合回帰モデルを用いることによって、前記単語埋め込み表現列に対応する句切れ位置情報を出力する、ものである。

［３］また、本発明の一態様は、上記の機械学習装置において、前記系列ラベリング部は、入力される元の前記単語列に含まれる所定の部分列が意見対象であることを表すラベルと、前記所定の部分列が意見であることを表すラベルと、を少なくとも出力する、というものである。

［４］また、本発明の一態様は、上記の機械学習装置において、前記句切れ位置予測部は、前記句切れ位置情報として、前記部分列の開始位置および終了位置を表す数値を出力するものであり、前記学習用データ供給部が供給する前記正解句切れ位置情報は、前記部分列の開始位置および終了位置の正解を表す数値の情報であるというものである。

［５］また、本発明の一態様は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、を備え、少なくとも、前記単語埋め込み部が内部に持つモデルは、請求項１から４までのいずれか一項に記載の機械学習装置によって学習済みである、という自然言語処理装置である。

［６］また、本発明の一態様は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、を備え、前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、機械学習装置、としてコンピューターを機能させるためのプログラムである。

本発明によれば、単語系列に対してラベル系列（タグ系列）を付与する際に、その精度を向上させることができる。

本発明の実施形態による意見分析装置の概略機能構成を示すブロック図である。同実施形態において句切れ位置を予測するためのモデルの構成をより詳細に示す構成図である。同実施形態による意見分析装置に入力されるテキストの実例と、その入力テキストに対して行われるラベル付けの例とを示す概略図である。同実施形態における入力テキスト例（図３）に対応する単語系列と、その系列に対応するタグ系列の正解の例を示す概略図である。同実施形態における入力テキスト例（図３）に対応する単語系列と、その系列に対応するタグ系列の正解の別の例を示す概略図である。同実施形態における句切れ位置予測モデルの学習を行うための正解データの例を示す概略図である。同実施形態による意見分析装置がモデルの学習を行う際の処理の手順を示すフローチャートである。同実施形態による意見分析装置が、学習済みのモデルを用いて、系列ラベリングの処理を行う際の手順を示すフローチャートである。同実施形態による意見分析装置の内部構成の一例を示すブロック図である。

次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態による装置は、入力されるテキストに含まれる意見を分析するための意見分析装置である。具体的には、本実施形態の意見分析装置は、入力されるテキストを構成する要素（句）に対して、意見対象区間であるか、意見区間であるか、そのどちらでもない区間であるかを区別するためのタグ（ラベル）を付与する。

本実施形態の意見分析装置の特徴は、抽出する区間の分割箇所（句切れ）を予測するための回帰モデルを備える点である。この本実施形態に特有の回帰モデルを、以下で「句切れ位置予測モデル」と呼ぶ場合がある。句切れ位置予測モデルは、系列ラベリングを行うためのモデル（系列ラベリングモデル）とともに、下位層における分散表現を共有する。本実施形態の意見分析装置は、内部に備えるモデルの機械学習を行うものであり、「機械学習装置」とも呼ばれる。また、本実施形態の意見分析装置は、学習済みのモデルを用いて、与えられる未知の単語列に対応するラベル系列を与えるものであり、「自然言語処理装置」とも呼ばれる。

本実施形態では、句切れ位置予測モデルの機械学習を行うために、句切れ位置予測モデルによって予測される句切れ位置と句切れ位置の正解との誤差をクロスエントロピーで与えるような損失関数を用いる。

図１は、本実施形態による意見分析装置の概略機能構成を示すブロック図である。図示するように、意見分析装置１は、単語埋め込み部１１と、系列ラベリング部１２と、系列ラベリングの損失関数算出部１７と、句切れ位置予測部２２と、句切れ位置の損失関数算出部２７と、学習用データ供給部３０と、を含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次に説明する通りである。

単語埋め込み部１１は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力するものである。単語埋め込み部１１は、内部に、機械学習可能なモデルを備える。単語埋め込み部１１が備えるモデルは、「単語埋め込み層」とも呼ばれる。単語埋め込み部１１が備えるモデルは、例えば、ニューラルネットワークを用いて実現される。本実施形態では、意見対象抽出装置の深層学習モデルとしてＢＥＲＴを用いる。ＢＥＲＴ自体は、既存技術であり、前記の非特許文献１等に記載されている。単語埋め込み部１１が用いるＢＥＲＴは、日本語で事前学習された一般的なモデルを用いてもよい。本実施形態では、単語埋め込み部１１が持つＢＥＲＴは、さらに学習することができるものである。入力文は、標準的な形態素解析処理によって単語単位で分割される。つまり、入力文は、単語列と等価である。入力文に対応する単語列は、単語埋め込み部１１に入力され、単語埋め込み表現の列に変換される。

系列ラベリング部１２は、単語埋め込み部１１から出力される単語埋め込み表現列を入力し、その単語埋め込み表現列に対応するラベル系列を出力する。つまり、系列ラベリング部１２は、単語ごとにラベルを付与する。ラベルの具体例については後で説明する。系列ラベリング部１２は、内部に、機械学習可能なモデルを備える。系列ラベリング部１２が備えるモデルは、「系列ラベリングモデル」と呼ばれる。

本実施形態では、系列ラベリング部１２は、入力される元の単語列に含まれる所定の部分列が意見対象であることを表すラベルと、その所定の部分列が意見であることを表すラベルと、を少なくとも出力する。系列ラベリング部１２が付与するラベルについては、後でさらに具体的な例を説明する。

系列ラベリングの損失関数算出部１７は、系列ラベリング部１２が出力したラベル系列と、その正解である正解ラベル系列との誤差を算出する。系列ラベリングの損失関数算出部１７が算出する誤差は、系列ラベリング部１２がパラメーターを調整するために行う誤差逆伝播の基となる誤差である。

句切れ位置予測部２２は、単語埋め込み部１１から出力される単語埋め込み表現列を入力し、その単語埋め込み表現列に対応する句切れ位置情報を出力する。句切れ位置予測部２２は、内部に、機械学習可能なモデルを備える。句切れ位置予測部２２が備えるモデルは、「句切れ位置予測モデル」と呼ばれる。

句切れ位置予測部２２は、入力される単語埋め込み表現列に含まれるすべての単語埋め込み表現を基とする全結合回帰モデルを用いることによって、その単語埋め込み表現列に対応する句切れ位置情報を出力するようにしてよい。

句切れ位置の損失関数算出部２７は、句切れ位置予測部２２が出力した句切れ位置情報と、その正解である正解句切れ位置情報との誤差を算出する。句切れ位置の損失関数算出部２７が算出する誤差は、句切れ位置予測部２２がパラメーターを調整するために行う誤差逆伝播の基となる誤差である。

なお、前記の単語埋め込み部１１は、そのモデルの機械学習を行う際には、系列ラベリング部１２からの誤差の逆伝播と句切れ位置予測部２２からの誤差の逆伝播との両方に基づいて内部のモデルのパラメーターを調整する。

学習用データ供給部３０は、意見分析装置１が内部に備えるモデルの学習を行うための学習用データを供給する。具体的には、学習用データ供給部３０は、単語埋め込み部１１に入力するための単語列を供給する。また、学習用データ供給部３０は、上記の単語列に対応して、系列ラベリング部１２が出力するラベル系列に対応する正解である正解ラベル系列を供給する。さらに、学習用データ供給部３０は、上記の単語列に対応して、句切れ位置予測部２２が出力する句切れ位置情報に対応する正解である正解句切れ位置情報を供給する。

句切れ位置予測部２２は、句切れ位置情報として、入力文に対応する単語列の部分列の開始位置および終了位置を表す数値を出力するものである。なお、部分列の数は、１つでも複数でもよい。学習用データ供給部３０が供給する正解句切れ位置情報は、上記の部分列の開始位置および終了位置の正解を表す数値の情報である。開始位置および終了位置は、第何番目の単語であるかを表す数値の情報である。部分列の開始位置および終了位置の正解は、それぞれ、基本的に整数である。句切れ位置予測部２２が予測して出力する開始位置および終了位置のそれぞれは、整数であるとは限らない。通常は、句切れ位置予測部２２が予測して出力する開始位置および終了位置のそれぞれは、非整数である。それらの非整数は、開始位置および終了位置のそれぞれの近似値として予測されたものであると捉えられる。

図２は、句切れ位置を予測するためのモデルの構成をより詳細に示す構成図である。図示するように、句切れ位置を予測するためのモデルは、全結合回帰層２２０を含んで構成される。全結合回帰層２２０は、図１に示した句切れ位置予測部２２に含まれるモデルである。全結合回帰層２２０は、単語埋め込み層１１０（ＢＥＲＴエンベディング層）からのすべての出力に接続される２つのノード（図中のｙ_１およびｙ_２）を含む。単語埋め込み層１１０は、図１に示した単語埋め込み部１１に含まれるモデルである。単語埋め込み層１１０に含まれるノード（図中のｘ_１，ｘ_２，・・・，ｘ_Ｄ）は、入力されるテキストに含まれる単語の分散表現に相当する。ｙ_１およびｙ_２は、それぞれ、区間の句切れの開始位置（start_position）および終了位置（end_position）を表す数値である。これらの数値は、それぞれ、テキスト中の何番目の単語であるかを表す値である。つまり、句切れ位置を予測するためのモデルは、１つまたは複数の区間のそれぞれの開始位置および終了位置を予測する。言い換えれば、全結合回帰層２２０は、これら２つの数値を予測するための２次元回帰モデルである。

つまり、単語埋め込み層１１０は、Ｄ次元の連続値ｘ_１，ｘ_２，・・・，ｘ_Ｄを出力する。全結合回帰層２２０は、上記のｘ_１，ｘ_２，・・・，ｘ_Ｄを基に算出するｙ_１およびｙ_２を出力する。ｙ_１が開始位置、ｙ_２が終了位置であり、ｙ_１およびｙ_２は下の式（１）の通りである。

式（１）におけるｆは活性化関数である。また、ａ_ｉｊおよびｂ_ｊは、全結合回帰層２２０のモデルの内部パラメーターである。これらの内部パラメーターの値は学習によって調整される。なお、ｊは、１または２のいずれかである。

つまり、開始位置ｙ_１および終了位置ｙ_２は、それぞれ、単語埋め込み層１１０は、単語埋め込み層１１０からの出力値ｘ_１，ｘ_２，・・・，ｘ_Ｄの重み付きの和（に所定のパラメーター値ｂ_ｊを加算したもの）に活性化関数を適用して算出される。

全結合回帰層２２０からの出力ｙ_１およびｙ_２は、学習用データに含まれる区間（正解）と照合される。具体的には、意見分析装置１は、全結合回帰層２２０からの出力と学習用データに出現するラベル区間とのクロスエントロピーを最小化する規範を用いて、モデルの内部パラメーターの学習を行う。ラベル区間の規範を計算する際には、学習データに出現するラベル区間をどれか１つに絞り込むことなく、計算効率のための枝刈りを行う場合を除いては、すべてのラベル区間を規範に含める。

モデルの学習の際には、下の式（２）で表わされる損失関数Ｌ_ｓｐａｎ（Ｓ）を用いる。

式（２）において、ＳｐａｎＳｅｔ（Ｓ）は、意見分析装置１への入力テキストである文Ｓに出現するアノテーション区間の集合である。集合ＳｐａｎＳｅｔ（Ｓ）に属するひとつの区間ｌの、開始位置が式（２）におけるＢｅｇｉｎ（ｌ）であり、終了位置がＥｎｄ（ｌ）である。言い換えれば、１つの区間（スパン）は、開始位置の値と終了位置の値とで規定される。式（２）におけるＣｒｏｓｓＥｎｔｒｏｐｙ（ｙ，ｘ）は、全結合回帰層２２０からの出力のひとつであるｙ（つまり、ｙ_１またはｙ_２）と、学習用データによって与えられる開始位置または終了位置の正解とのクロスエントロピーである。

つまり、Ｌ_ｓｐａｎ（Ｓ）は、各アノテーション区間についてのｙ_１と開始位置の正解とのクロスエントロピーと、ｙ_２と終了位置の正解とのクロスエントロピーとの和の、全アノテーション区間についての総和に基づくものである。

クロスエントロピーＣｒｏｓｓＥｎｔｒｏｐｙ（ｙ，ｘ）は、下の式（３）によって計算されるものである。

式（３）において、ｋは、文Ｓ内の位置を表すための指標である。また、ｍａｘ＿ｓｅｑ＿ｌｅｎｇｔｈは、文Ｓの系列長に対応する値である。また、ｅｘｐは、指数関数である。

意見分析装置１は、上記の句切れ位置予測モデルのための損失関数Ｌ_ｓｐａｎ（Ｓ）とは別に、系列ラベリング部１２（図１）が持つモデルのための損失関数Ｌ_ｓｅｑ（Ｓ）を用いる。損失関数Ｌ_ｓｅｑ（Ｓ）は、従来技術による系列ラベリング問題における損失関数である。意見分析装置１に１文（Ｓ）が入力された場合のモデルの総合的な損失関数Ｌ_{ｔｏｔａｌ}（Ｓ）は、下の式（４）の通り計算される。

つまり、総合的な損失関数Ｌ_{ｔｏｔａｌ}（Ｓ）は、句切れ位置予測モデルのための損失関数Ｌ_ｓｐａｎ（Ｓ）と、系列ラベリング部１２が持つモデルのための従来技術による損失関数Ｌ_ｓｅｑ（Ｓ）との和として計算される。

系列ラベリング部１２が持つモデルと、句切れ位置予測部２２が持つモデルとのうち、句切れ位置予測部２２が持つモデルは、学習時にのみ用いられ、推論時には用いられない。つまり、総合的な損失関数の値（上記の式（４））が減少するように学習が進む過程において、下位層（単語埋め込み部１１の単語埋め込み層１１０）の分散表現の学習精度が向上する。これによって、系列ラベリング部１２が持つモデルによるラベル付け（意見対象区間や意見区間を特定するタスク）の精度が向上する。

図３は、意見分析装置１に入力されるテキストの実例と、その入力テキストに対して行われるラベル付けの例とを示す概略図である。言い換えれば、図３は、入力されるテキスト中から意見対象区間や意見区間を抽出する処理の実例を示す概略図である。

図示する入力テキスト例は、あるＳＮＳに投稿された単文である。このテキストは、「暴力はいけない、いけないよ＃アニメ」というものである。なお、このテキスト中の「＃アニメ」は、特定の話題を検索しやすくするためのタグ（「＃」を用いるため、ハッシュタグと呼ばれる）の記法にしたがった表現である。この入力テキストは、「暴力／は／いけない／、／いけない／よ／＃／アニメ」という８個の単語に分割される（スラッシュで単語の区切りを表している）。ここでは、句読点や、「＃」などという記号も、便宜的に単語の一つとして扱う。このような入力テキストから抽出される意見対象区間は、「暴力」（開始位置が１で、終了位置が１）と、「＃アニメ」（開始位置が７で、終了位置が８）である。また、抽出される意見区間は、「いけない」（開始位置が３で、終了位置が３）と、「いけない」（開始位置が５で、終了位置が５）である。

図４は、図３に示した入力テキスト例に対応する単語系列と、その系列に対応するタグ系列（ラベル系列）の正解の例を示す概略図である。例示する単語系列は、「暴力／は／いけない／、／いけない／よ／＃／アニメ」というものである。この図では、単語の順序にしたがって番号（位置の番号）を付与している。このような単語系列に対応する正解のタグ系列は、「ＴＡＲＧＥＴ／Ｏ／ＯＰＩＮＩＯＮ／Ｏ／ＯＰＩＮＩＯＮ／Ｏ／ＴＡＲＧＥＴ／ＴＡＲＧＥＴ」である。「ＴＡＲＧＥＴ」というタグは、対応する単語が意見対象区間に属するものであることを表すタグである。「ＯＰＩＮＩＯＮ」というタグは、対応する単語が意見区間に属するものであることを表すタグである。「Ｏ」というタグは、対応する単語が意見対象区間にも意見区間にも属さないものであることを表すタグである。

つまり、この正解のタグ系列は、単語系列内の「暴力」という表現（区間の開始位置が１で終了位置が１）と、「＃アニメ」という表現（区間の開始位置が７で終了位置が８）のそれぞれが意見対象区間であることを表す。また、単語系列内の「いけない」（区間の開始位置が３で終了位置が３）と、「いけない」（区間の開始位置が５で終了位置が５）のそれぞれが意見区間であることを表す。

図５は、図３に示した入力テキスト例に対応する単語系列と、その系列に対応するタグ系列の正解の別の例を示す概略図である。図４におけるタグとの違いとして、図５における例では、「ＴＡＲＧＥＴ」および「ＯＰＩＮＩＯＮ」のそれぞれのタグには、「Ｂ－」あるいは「Ｉ－」という接頭辞が付加される。このようなタグは、ＢＩＯ形式タグと呼ばれる。「Ｂ－」は、区間の始まりであることを表す。また、「Ｉ－」は、区間の途中であることを表す。なお、区間の終わりの単語に与えられるタグも「Ｉ－」で始まるものである。図５に示す例では、「暴力／は／いけない／、／いけない／よ／＃／アニメ」という単語系列に対応する正解のタグ系列は、「Ｂ－ＴＡＲＧＥＴ／Ｏ／Ｂ－ＯＰＩＮＩＯＮ／Ｏ／Ｂ－ＯＰＩＮＩＯＮ／Ｏ／Ｂ－ＴＡＲＧＥＴ／Ｉ－ＴＡＲＧＥＴ」である。

つまり、この正解のタグ系列は、単語系列内の「暴力」という表現（区間の開始位置が１で終了位置が１）と、「＃アニメ」という表現（区間の開始位置が７で終了位置が８）のそれぞれが意見対象区間であることを表す。また、単語系列内の「いけない」（区間の開始位置が３で終了位置が３）と、「いけない」（区間の開始位置が５で終了位置が５）のそれぞれが意見区間であることを表す。ＢＩＯ形式のタグでは、「Ｂ－」あるいは「Ｉ－」を付けることによって、例えば図５の第７番目の単語と第８番目の単語とが同一の区間に属するものであることを明示的に表している。

図６は、句切れ位置予測モデルの学習を行うための正解データの例を示す概略図である。図示するように、この正解データは、区間の開始位置と終了位置のペアの集合として与えられる。図示する例では、正解データは、４つの区間に関するデータを含む。それらの区間は、開始位置が１で終了位置が１、開始位置が３で終了位置が３、開始位置が５で終了位置が５、開始位置が７で終了位置が８、の４つである。この正解データは、図４や図５で示した例に対応している。図６で示すデータは、図２にも示した開始位置と終了位置についての正解を表す。

図７は、意見分析装置１がモデルの学習を行う際の処理の手順を示すフローチャートである。以下、このフローチャートに沿って、モデルの学習の手順を説明する。

ステップＳ１１において、学習用データ供給部３０は、学習用データを供給する。学習用データは、入力テキスト（単語系列）と、その入力データに対応する正解データとのペアである。正解データは、タグ系列の正解と、区間の位置（開始位置および終了位置）とを含む。単語埋め込み部１１は、入力テキスト（単語系列）を読み込む。また、系列ラベリングの損失関数算出部１７は、正解のタグ系列を読み込む。そして、句切れ位置の損失関数算出部２７は、区間の開始位置および終了位置の正解データ（例えば、図６）を読み込む。

ステップＳ１２において、意見分析装置１は、算出される損失関数値に基づいて、各モデルの内部パラメーターの調整を行う。具体的には、次の通りである。

単語埋め込み部１１は、入力される単語系列に対応する分散表現の系列を、系列ラベリング部１２と句切れ位置予測部２２とに渡す。系列ラベリング部１２は、その時点での内部パラメーター値を持つ系列ラベリングモデルを用いて、系列ラベルを求める。
また、句切れ位置予測部２２は、その時点での内部パラメーター値に基づく句切れ位置予測モデルを用いて、句切れ位置を求める。系列ラベリングの損失関数算出部１７は、系列ラベリング部１２が出力する系列ラベルと、正解の系列ラベルとに基づいて、損失関数値を算出する。句切れ位置の損失関数算出部２７は、句切れ位置予測部２２が出力する句切れ位置と、正解の句切れ位置（開始位置および終了位置）とに基づいて、損失関数値を算出する。これら算出された損失関数値に基づいて、誤差逆伝播法により、各モデルの内部パラメーターの調整を行う。このようなモデルの内部パラメーターの調整を繰り返すことは、損失関数値が減少する方向に作用する。言い換えれば、パラメーターの調整を繰り返すことにより、各モデルは、より正解に近い出力値を算出できるようになる。なお、誤差逆伝播法によるモデルのパラメーターの調整の手法自体は、既存技術に属するものである。

ステップＳ１３において、意見分析装置１は、パラメーターを調整した後の各モデルの状態を保存する。具体的には、意見分析装置１は、調整後のパラメーターの値を不揮発性のメモリー等に書き込む。

図８は、意見分析装置１が、学習済みのモデルを用いて、系列ラベリングの処理を行う際の手順を示すフローチャートである。図７に示した処理手順のステップＳ１３においてモデルの状態が保存されているため、意見分析装置１は、各モデルの状態を読み出すことができる。以下、このフローチャートに沿って、系列ラベルを推定する処理の手順を説明する。

ステップＳ２１において、単語埋め込み部１１は、入力テキスト（単語系列）を読み込む。

ステップＳ２２において、意見分析装置１は、モデルを用いて、入力テキストに対応するタグ系列を推論する。具体的には、単語埋め込みモデルを有する単語埋め込み部１１は、単語埋め込みモデルによって算出したベクトルの系列を出力する。系列ラベリングモデルを有する系列ラベリング部１２は、単語埋め込み部１１から渡されるベクトルの系列に基づいて、タグ系列を求める。

ステップＳ２３において、系列ラベリング部１２は、ステップＳ２２において求めたタグ系列を出力する。入力テキスト（単語列）に対応するタグ系列の例は、図４や図５に示した通りである。

以上説明したように本実施形態の意見分析装置を用いることにより、入力される単語系列に対応してタグ系列を自動的に付与する処理において、付与するタグの精度を向上させることができる。具体例としては、入力される単語系列の各単語について、意見対象を表す単語であることを示すタグや、意見を表す単語であることを示すタグを、精度よく付与することができるようになる。つまり、入力される単語列中の、特定の性質を有する部分（例えば、意見対象や、意見など）を、精度よく抽出することが可能となる。

本実施形態のこのような装置を、ＳＮＳで投稿されるテキストの中から特定の性質の部分（例えば、意見対象の部分や、意見の部分など）を抽出するために利用することができる。例えば、ＳＮＳでの投稿内容に基づいて特定のコンテンツ（放送番組等）の視聴に対する反響を自動的に分析する場合に、投稿内容のテキスト自体にはどの部分が意見対象でどの部分が意見であるかが明示されていなくても、これらの部分を自動的に精度よく抽出することができるようになる。あるいは投稿内容のテキストにはどのコンテンツに対する反響であるかを表すハッシュタグ等が含まれていない場合にも、意見対象の部分や意見の部分等を自動的に抽出することが可能となる。つまり、本実施形態の装置によると、キーワード検索等の手法よりも強力かつ精度の高い分析が可能となる。つまり、本実施形態により、大規模な市場調査等を容易に且つ精度よく実施することが可能となる。

ＳＮＳ等に投稿された大量のテキスト（例えば、数千件から数十万件の程度）について、意見対象や意見を自動的に抽出することができると、どのような意見対象に対してどのような意見がどの程度発言されたかを自動的に集計できるようになる。この集計の際には、同一の意見対象についての集計を行ったり、似通った意見対象をまとめ上げるようなクラスタリング処理を行ったりすることもできる。集計の手法やクラスタリングの手法としては、従来技術による手法を用いることができる。例えば、放送番組に対する視聴者らの意見を自動的に集計することが可能となる。

図９は、上記実施形態の意見分析装置１の内部構成の例を示すブロック図である。意見分析装置１は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

なお、上述した意見分析装置１の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の（non-transitory）コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。

［第１変形例］
以上の説明では、処理対象とするテキストは日本語で記述されたテキストであったが、本実施形態を日本語以外のデータに適用してもよい。後で説明する実証実験においては、日本語の他に英語のテキストのデータを処理対象としている。また、さらに、その他の言語によるテキストを処理対象としてもよい。

［第２変形例］
上記実施形態では、１台の意見分析装置１が、モデルの学習も行い、学習済みのモデルを用いてラベル系列を付与する（推定する）処理も行うものであった。変形例として、意見分析装置１が、モデルの学習と、学習済みのモデルを用いたラベル系列の推定との、いずれかのみをおこなうものであってもよい。意見分析装置１が機械学習装置として機能する場合には、学習済みのモデルのパラメーターを他の装置に移植して、移植先の装置においてラベル系列を付与する（推定する）処理を行わせることができる。また、意見分析装置１が、自らは機械学習を行わず、学習済みのモデルのパラメーターを取得して、ラベル系列を付与する（推定する）処理を行うものであってもよい。

後者の場合には、意見分析装置１は、単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、を備える自然言語処理装置として機能する。このとき、少なくとも単語埋め込み部１１が内部に持つモデルとしては、上記実施形態で説明した機械学習の仕組み（機械学習装置）を用いて学習済みのものを利用する。

以上、この発明の実施形態およびその変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

［実装および評価］
意見分析装置１を実装し、ＳＮＳ（ツイッター）における実際の投稿文や、映画に関するレビュー文を用いた実験により評価した。その実験での評価結果について説明する。

評価に用いたデータは、テレビ番組に関する日本語のツイートと、映画に関する英語のレビューとである。具体的には、日本語テキストとして、ツイッターにおける、テレビ番組（ＮＨＫ朝ドラ）「なつぞら」についての、９日間の日本語でのツイート（ツイート数は２４，６１０、単語数は９８４，８６１）を用いた。また、英語テキストとして、評論サイトＩＭＤｂのレビュー（レビュー数は９８６、文数は１０，３６０、単語数は３２１，８０７）を用いた。なお、学習用データには、人手で正解を付与した。

評価尺度としては、precision（プレシジョン）、recall（リコール）、f1を用いた。これらは、それぞれ、式（５）、式（６）、式（７）で定義される。なお、ここで、ＴＰは真陽性、ＦＰは偽陽性、ＦＮは偽陰性である。

放送番組に関する日本語によるテキスト（ツイート）の分析タスクに対して、ラベルを最上位の第１階層に制限した場合の実験結果は、表１に示す通りである。

なお、この実験において、ラベルは３階層に体系化され、第１階層で大きく２種類に分けられている。その２種類とは、放送番組の内容に言及した部分に付与されるREFERENCE 系のラベルと、発信者の主観を述べた部分に付与されるOPINION系のラベルである。REFERENCE系のラベルは、第２階層におけるTITLE、MUSIC、PERSON、PROGRAM、SCENE、STORY、QUOTEという各ラベルを持つ。一方、OPINION系のラベルは、第２階層におけるEVALUATION、ACTION、INDEXという各ラベルを持つ。このうち、第２階層におけるECALUATIONは、第３階層におけるPOSITIVE、NEGATIVE、NEUTRAL、REQUESTという各ラベルを持つ。

実験では、評価対象として、第１階層のREFERENCEラベルおよびOPINIONラベルを個別に評価し、そして、全体での評価も行った。比較対象である従来技術は、学習時にも句切れ位置予測部２２（図１を参照）を用いない場合である。

評価尺度recallのREFERENCEラベルに関して本実施形態の結果の値が従来技術の結果をわずかに下回ったのを除いて、他のすべての場合については、本実施形態の結果は従来技術の結果を上回ることが確認できた。

なお、本実施形態を用いることの効果は、モデルを学習する際のエポック（epoch）数によって異なる。学習のはじめの段階（１０エポック以下程度の段階）では、従来技術と本実施形態との間で、ｆ１値で評価する性能には大きな違いは見られない。しかしながら、１０エポックを超えるあたりから本実施形態の効果が見られはじめ、２０エポック程度になると本実施形態の優位性（従来技術に対するｆ１値での性能差）が顕著となる。

英語で記述された映画レビューのテキストの分析タスクに対して、ラベルを最上位の第１階層に制限した場合の実験結果は、表２に示す通りである。表１の場合と同様に、表２においても第１階層のREFERENCEラベルおよびOPINIONラベルの個別に評価と、全体での評価とを行った。

この英語のテキストの分析においても、ほとんどの場合に本実施形態が従来技術の結果を上回ることが確認できた。本実施形態の評価結果が従来技術の評価結果を下回るのは、評価尺度recallのREFERENCEラベルに関してのみである。その他の場合には、本実施形態の評価結果が従来技術の評価を上回っている。

本実施形態における改善が従来技術と比較して有意なものであるか否かを表す有意水準（ｐ値）を、下の表３に示す。ここで示すのは、McNemar検定を行った場合の有意水準である。

放送番組に関する日本語によるテキスト（ツイート）の分析タスクに対して、ラベルの階層を制限しない場合の実験結果は、下の表４に示す通りである。表４に示す数値は、全ラベルの総合的な評価結果（マイクロ平均）である。

以上の、表１、表２、表４で示したように、本実施形態によるテキスト内の特定の位置づけの表現を抽出（意見対象の抽出）の精度が従来技術の場合よりもよいことが、実験によって確認できた。また、表３で示したように、精度の向上が有意なものであることを、検定によって確かめることができた。

本発明は、例えば、自然言語で記述された文から特定の位置づけの要素を抽出するために利用することができる。一例として、ＳＮＳに投稿されるテキストから特定の位置づけの要素を抽出するために利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

１意見分析装置（機械学習装置、自然言語処理装置）
１１単語埋め込み部
１２系列ラベリング部
１７系列ラベリングの損失関数算出部
２２句切れ位置予測部
２７句切れ位置の損失関数算出部
３０学習用データ供給部
２２０全結合回帰層
１１０単語埋め込み層（ＢＥＲＴエンベディング層）
９０１中央処理装置
９０２ＲＡＭ
９０３入出力ポート
９０４，９０５入出力デバイス
９０６バス

Claims

単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、
前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、
を備え、
前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、
機械学習装置。
前記句切れ位置予測部は、入力される前記単語埋め込み表現列に含まれるすべての単語埋め込み表現を基とする全結合回帰モデルを用いることによって、前記単語埋め込み表現列に対応する句切れ位置情報を出力する、
請求項１に記載の機械学習装置。
前記系列ラベリング部は、入力される元の前記単語列に含まれる所定の部分列が意見対象であることを表すラベルと、前記所定の部分列が意見であることを表すラベルと、を少なくとも出力する、
請求項１または２に記載の機械学習装置。
前記句切れ位置予測部は、前記句切れ位置情報として、前記部分列の開始位置および終了位置を表す数値を出力するものであり、
前記学習用データ供給部が供給する前記正解句切れ位置情報は、前記部分列の開始位置および終了位置の正解を表す数値の情報である、
請求項３に記載の機械学習装置。
単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、
を備え、
少なくとも、前記単語埋め込み部が内部に持つモデルは、請求項１から４までのいずれか一項に記載の機械学習装置によって学習済みである、
自然言語処理装置。
単語列を入力し前記単語列に対応する単語埋め込み表現列を出力する単語埋め込み部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応するラベル系列を出力する系列ラベリング部と、
前記単語埋め込み部から出力される単語埋め込み表現列を入力し前記単語埋め込み表現列に対応する句切れ位置情報を出力する句切れ位置予測部と、
前記単語埋め込み部に入力するための単語列を供給するとともに、前記系列ラベリング部が出力する前記ラベル系列に対応する正解ラベル系列を供給し、さらに前記句切れ位置予測部が出力する前記句切れ位置情報に対応する正解句切れ位置情報を供給する学習用データ供給部と、
を備え、
前記系列ラベリング部は、前記ラベル系列と前記正解ラベル系列との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
前記句切れ位置予測部は、前記句切れ位置情報と前記正解句切れ位置情報との誤差に基づく逆伝播を行うことによって内部のモデルのパラメーターを調整し、
前記単語埋め込み部は、前記系列ラベリング部からの誤差の逆伝播と前記句切れ位置予測部からの誤差の逆伝播とによって内部のモデルのパラメーターを調整する、
機械学習装置、としてコンピューターを機能させるためのプログラム。