JP3775239B2 - Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program - Google Patents
Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program Download PDFInfo
- Publication number
- JP3775239B2 JP3775239B2 JP2001146872A JP2001146872A JP3775239B2 JP 3775239 B2 JP3775239 B2 JP 3775239B2 JP 2001146872 A JP2001146872 A JP 2001146872A JP 2001146872 A JP2001146872 A JP 2001146872A JP 3775239 B2 JP3775239 B2 JP 3775239B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- text
- boundary
- word string
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体に係り、特に、テキストを入力とし、当該テキストを意味的なまとまりの単位である意味段落に自動分割するためのテキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
従来のテキスト分割方法としては、M.A.Hearstによって考案された単位の頻度に基づく単語列の結束度による方法( 参考文献:Hearst, M.A.,: Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16(1994)) がある。
【0003】
この方法では、まず、テキストを形態素解析して単語に分割する。
【0004】
次に、図6に示すように、任意の単語境界の前後に、ある個数の単語の集合である単語列(以下の説明では、「窓」と記す)をとり、各窓を構成する単語の頻度ベクトルをとり、前後の窓に対応する頻度ベクトル間の余弦測度を単語列結束度として計算する。各単語境界に対し、この計算を行うことにより、各単語境界に一つの単語列結束度が対応することになる。
【0005】
単語境界が意味段落境界に近づくにつれ、前後の窓に共通して含まれる単語は一般に少なくなるため、単語列結束度は減少していく。そこで、単語列結束度が極小である単語境界を当該テキストの意味段落の境界と認定する。
【0006】
ここで、ある単語境界位置をi、前の窓をbl 、後ろの窓をbr とし、単語tのbl 、br における出現頻度をそれぞれ
【0007】
【数1】
としたとき、iにおける単語列結束度Ci は、
【0008】
【数2】
と表される。
【0009】
【発明が解決しようとする課題】
テキストの意味段落の中途の単語境界位置で、前後の窓に共通して含まれる単語が少ないことは多い。しかしながら、上記従来のHearstの方法では、単語の頻度ベクトル間の余弦測度を取っているため、そのような単語境界位置における結束度は小さくなり、意味段落の境界と認定されることが多い。このように、上記従来のHearstの方法では、認定した意味段落の境界にノイズとなるものが多く含まれるという問題がある。
本発明は、上記の点に鑑みなされたもので、テキストから正解である意味段落の境界(テキストの隣接単語間境界)のみを過不足なく認定できるようなテキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体を提供することを目的とする。
【0010】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0011】
本発明(請求項1)は、テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割方法であって、
形態素解析手段が、テキストを形態素解析して、単語に分割する形態素解析過程(ステップ1)と、
単語ベクトル取得手段が、単語の意味を表現するベクトルが格納されている概念ベースを検索することによって形態素解析過程で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得過程(ステップ2)と、
単語列結束度算出手段が、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、
各単語列に対し、該単語列を構成する単語の単語ベクトルの和ベクトルまたは重心ベクトルを算出し、
前後の単語列に対応する和ベクトルまたは重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出過程(ステップ3)と、
意味段落境界認定手段が、単語列結束度が類似尺度である場合は極小である単語境界を、単語列結束度が距離尺度である場合は極大である単語境界を、テキストの意味段落の境界と認定する意味段落境界認定過程(ステップ4)と、からなる。
【0012】
本発明(請求項2)は、テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割方法であって、
形態素解析手段が、テキストを形態素解析して、単語に分割する形態素解析過程(ステップ1)と、
単語ベクトル取得手段が、単語の意味を表現するベクトルが格納されている概念ベースを検索することによって形態素解析過程で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得過程(ステップ2)と、
単語列結束度算出手段が、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、
各単語列に対し、該単語列を構成する単語のベクトルの分布から母集団ベクトル分布を推定し、
前後の単語列に対応する母集団ベクトル分布間のカルパック・リーブラー距離を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出過程(ステップ3)と、
意味段落境界認定手段が、
単語列結束度が類似尺度である場合は極小である単語境界を、単語列結束度が距離尺度である場合は極大である単語境界を、テキストの意味段落の境界と認定する意味段落境界認定過程(ステップ4)と、からなる。
【0014】
図2は、本発明の原理構成図である。
【0015】
本発明(請求項3)は、テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割装置であって、
テキストを形態素解析して、単語に分割する形態素解析手段20と、
単語の意味を表現するベクトルが格納されている概念ベース60を検索することによって形態素解析手段20で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得手段30と、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、該各単語列に対し、該単語列を構成する単語の単語ベクトルの和ベクトルまたは重心ベクトルを算出し、前後の単語列に対応する該和ベクトルまたは該重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出手段40と、
単語列結束度が類似尺度である場合は極小である単語境界を、単語列結束度が距離尺度である場合は極大である単語境界を、テキストの意味段落の境界と認定する意味段落境界認定手段50と、を有する。
【0016】
本発明(請求項4)は、テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割装置であって、
テキストを形態素解析して、単語に分割する形態素解析手段20と、
単語の意味を表現するベクトルが格納されている概念ベース60を検索することによって形態素解析手段20で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得手段30と、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、該各単語列に対し、該単語列を構成する単語のベクトルの分布から母集団ベクトル分布を推定し、前後の単語列に対応する該母集団ベクトル分布間のカルパック・リーブラー距離を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出手段40と、
単語列結束度が類似尺度である場合は極小である単語境界を、単語列結束度が距離尺度である場合は極大である単語境界を、テキストの意味段落の境界と認定する意味段落境界認定手段50と、を有する。
【0018】
本発明(請求項5)は、コンピュータを、請求項3または4記載のテキスト分割装置として機能させるプログラムである。
【0021】
本発明(請求項6)は、コンピュータを、請求項3または4記載のテキスト分割装置として機能させるプログラムを格納した記憶媒体である。
【0023】
上記のように、本発明では、単語の意味を表現するベクトルが格納されている概念ベースを用いる。この概念ベースにおける単語ベクトルは、意味的に類似している単語間ほど距離が近く、意味的に類似していない単語間ほど距離が遠くなるように値が設定されている。正解の意味段落境界の前の窓(直前の単語列)に含まれる単語と後ろの窓(直後の単語列)に含まれる単語とは意味的類似性が低いことにより、そのベクトル間の距離も遠くなるため、単語列の結束度は、類似尺度のとき低くなり、距離尺度のとき高くなる。
【0024】
また、意味段落の中途の単語境界位置においては、前の窓(直前の単語列)に含まれる単語と後ろの窓(直後の単語列)に含まれる単語とは意味的類似性が高い。前後の窓(直前・直後の単語列)に共通して含まれる単語がない場合でも、同様のことが言える。従って、そのベクトル間の距離も近くなるため、単語列の結束度は、類似尺度のとき高くなり、距離尺度のとき低くなる。
【0025】
そこで、単語列結束度が類似尺度である場合は極小である単語境界を、距離尺度である場合は極大である単語境界を当該テキストの意味段落の境界と認定することにより、正解である意味段落の境界のみを過不足なく認定できるようになる。
【0026】
【発明の実施の形態】
図3は、本発明の一実施の形態におけるテキスト分割装置の構成を示す。 同図に示すテキスト分割装置は、テキスト入力部10、形態素解析部20、単語ベクトル取得部30、単語列結束度算出部40、意味段落境界認定部50、概念ベース60から構成される。
【0027】
概念ベース60は、単語の意味を表現する単語ベクトルが格納されており、当該単語ベクトルは、意味的に類似している単語間程距離が近く、意味的に類似していない単語間ほど距離が遠くなるように値が設定されており、データベースに格納される。
【0028】
テキスト入力部10は、処理対象となるテキストを入力する。
【0029】
形態素解析部20は、入力されたテキストを形態素解析して単語に分割し、その形態素解析結果を単語ベクトル取得部30に転送する。
【0030】
単語ベクトル取得部30は、概念ベース60を検索することにより、形態素解析の結果得られた各単語に対応するベクトルを取得する。
【0031】
単語列結束度算出部40は、図6に示すように、任意の単語境界の前後に、ある個数の単語の集合である窓(単語列)をとり、各窓を構成する単語のベクトルの情報から、前後の窓の類似尺度または距離尺度である単語列結束度を算出する。各単語境界に対し、この計算を行うことにより、各単語境界に一つの単語列結束度が対応することになる。また、単語列結束度を求める際に、単語列結束度を求める際に、単語列結束度算出部40は、各窓に対し、当該窓を構成する単語のベクトルの和または重心をとり、単語列結束度として、前後の窓に対応する和または重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度をとる。あるいは、各窓に対し、当該窓を構成する単語のベクトルの分布から母集団分布を推定し、単語列結束度として、前後の窓に対応する母集団分布間のカルバック・リーブラー距離を始めとする類似尺度または距離尺度をとる。
【0032】
意味段落境界認定部50は、単語列結束度が類似尺度である場合は極小である単語境界を、距離尺度である場合は極大である単語境界を、当該テキストの意味段落の境界と認定する。
【0033】
【実施例】
以下、図面と共に本発明の実施例を説明する。
【0034】
図4は、本発明の一実施例のテキスト分割装置の動作のフローチャートである。
【0035】
ステップ101) 形態素解析部20は、入力テキストを形態素解析して単語に分割する。
【0036】
ステップ102) 単語ベクトル取得部30は、単語の意味を表現するベクトルが格納されている概念ベース60を検索することによって、ステップ101の形態素解析処理により得られた各単語に対応するベクトルを取得する。
【0037】
ステップ103) 単語列結束度算出部40は、前述の図6に示すように、任意の単語境界の前後に、ある個数の単語集合である窓を取り、各窓を構成する単語のベクトルの情報から、前後の窓の類似尺度または距離尺度である単語列結束度を算出する。単語列結束度を算出する単語境界は、1単語の刻み幅でとっていく。各単語境界に対する窓の幅は単語の一定個数分とる。窓の幅をa個としたとき、テキストの最小のa単語以内の単語境界の前の窓の幅と最後のa単語以内の単語境界の後ろの窓の幅はa個足りないが、a個に足りない窓はとれる最大幅をとって単語列結束度を算出する。あるいは、前後の窓の幅が、a個とれる単語境界のみ単語列結束度を算出する。
【0038】
ステップ104) 意味段落境界設定部50は、単語列結束度が類似尺度である場合は極小である単語境界を、距離尺度である場合は極大である単語境界を、当該テキストの意味段落の境界と認定する。ここでいう極値とは、テキスト全体における極値である。
【0039】
次に、概念ベース60について説明する。
【0040】
図5は、本発明の一実施例の概念ベースのデータの例を示す。
【0041】
概念ベース60は、各単語毎に、p次元のベクトル値が付与されている。概念ベース60中の単語は、名詞や動詞、形容詞等の自立語である。概念ベース60における単語ベクトルは、意味的に類似している単語間ほど距離が近く、意味的に類似していない単語間ほど距離が遠くなるように値が設定されている。
【0042】
概念ベースの例としては、特願平4−251513の「類似性判別装置」や、特願平6−096011の「類似性判別利用データ精錬方法及びこの方法を実施する装置」で紹介されているデータベースがある。
【0043】
また、Deerwesterの論文(Deerwester,S.,Dumais,S.T.,Furnas, G. W.,Landauer,T.K.,and Harshman, R.:Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science,pp.391-407(1990)) では、単語の文書における頻度を記録した単語・文書間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。Schutze の論文(Schutze,H.:Dimensions of Meaning, Proc. of Supercomputing '92,pp.787-796(1992))では、コーパス中の単語間の共起頻度を記録した単語・単語間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。
【0044】
前述のステップ102における単語ベクトル取得部30において、概念ベース60を検索することによって、ステップ101の形態素解析処理で得られた各単語に対応するベクトルを取得する。
【0045】
次に、上記のステップ103における単語列結束度算出部40の処理について説明する。
【0046】
単語列結束度算出部40は、各窓に対し、当該窓を構成する単語のベクトルの和または重心をとり、単語列結束度として、前後の窓に対応する和または重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度をとる。
【0047】
余弦測度は、類似尺度である。ここで、ある単語境界位置をi、前の窓に含まれる単語集合をL、後ろの窓に含まれる単語の集合をRとし、単語tに対応する概念ベース60中のベクトルをν t としたとき、前後の窓に対応する和ベクトル間の余弦測度C i は、以下のように表される。なお、以下の式における“・”は、ベクトル間の内積である。
【0048】
【数3】
余弦測度は、2つのベクトル間の角度で決まるので、前後の窓に対応する重心ベクトル間の余弦測度は、和ベクトル間の余弦測度と一致する。
【0049】
また、前後の窓に対応するベクトル間の距離尺度として、ベクトルを分布と見做して、分布間の距離尺度であるカルバック・リーブラー距離をとる方法もある。 カルバック・リーブラー距離は、以下のように表される。前の窓に対応する和ベクトルω L を以下のように成分表示したとする。
【0050】
【数4】
ここで、a L1 >0(1≦i≦p)と仮定する。
【0051】
また、あるベクトル値が表現する意味と、そのベクトル値のスカラ倍の値が表現する意味を同一視できるように概念ベースが構成されているとする。このとき、以下のようなω L の各成分の和が1となるように正規化したベクトルω L ’とω L を同一視できる。
【0052】
【数5】
後ろの窓に対応する和ベクトルのω R についても同様に正規化したベクトル
【0053】
【数6】
を作る。
【0054】
【数7】
ベクトルω L ’、ω R ’間のカルバック・リーブラ距離として、KL(ω R ’,ω L ’)をとってもよい。
【0055】
上記のカルバック・リーブラ距離は、2つの分布に対して対称ではないので、双方の分布からみたカルバック・リーブラ距離の和であるJeffery 距離を距離尺度としてとる方法もある。Jeffery 距離J(ω L ’,ω R ’)は、以下のように表される。
【0056】
【数8】
次に、上記のステップ103における単語列結束度算出部40の処理について説明する。
【0057】
単語列結束度算出部40では、各窓に対し、当該窓を構成する単語のベクトルの分布から母集団分布を推定し、単語列結束度として前後の窓に対応する母集団分布間のカルバック・リーブラー距離を始めとする類似尺度または距離尺度をとる。単語ベクトルの次元をp次元としたとき、単語ベクトルの集合を、p次元空間上の連続的なある確率分布に従う標本の集合と見て、標本集合から元の確率分布を推定する訳である。
【0058】
前述したように、カルバック・リーブラ距離は距離尺度である。カルバック・リーブラ距離の算出は、具体的には以下のようにする。
【0059】
前の窓を構成する単語ベクトルの集合
【0060】
【数9】
から母集団分布f(x)(x∈Rp )を推定する。母集団分布の推定には、母集団分布としてパラメトリックな分布をとる方法と、ノンパラメトリックな分布をとる方法がある。パラメトリックな分布の一例としては、正規分布があり、これを決定付けるパラメータは、母平均と母分散共分散行列である。V L から最尤推定等の手法により、これらのパラメータを推定することにより、母集団分布f(x)(x∈Rp )を推定する。ここで、母平均μは、次のように推定される。
【0061】
なお、|L|は、Lの要素数である。
【0062】
【数10】
また、母分散共分散行列Ωは、次のように推定される。(ν t −μ)は縦ベクトルであり、(ν t −μ)’は、それを転置した横ベクトルである。
【0063】
【数11】
推定したμ、Ωにより、正規分布である母集団分布f(x)(x∈Rp )は次のように表される。
【0064】
【数12】
後ろの窓を構成する単語ベクトルの集合からも同様に母集団分布g(x)(x∈Rp )を推定する。
【0065】
確率分布f(x),g(x)間のカルバック・リーブラ距離KL(f(x),g(x))は、
【0066】
【数13】
となる。
【0067】
確率分布f(x),g(x)間のカルバック・リーブラ距離として、KL(f(x),g(x))をとってもよい。
【0068】
上記のカルバック・リーブラ距離は、2つの確率分布に対して対称ではないので、双方の確率分布からみたカルバック・リーブラ距離の和であるJeffery 距離を距離尺度としてとる方法もある。Jeffery 距離J(f(x),g(x))は、以下のように表される。
【0069】
【数14】
実際のカルバック・リーブラ距離や、Jeffery 距離の算出では、積分領域を分割し、各分割領域のある一点に対応する積分関数の数値に基づいて積分値の近似値を求めるといった離散的な数値計算手法をとることができる。
【0070】
次に、ステップ104における意味段落境界認定部50の処理について説明する。
【0071】
ステップ103において、上記の方法により各単語境界に対応する単語列結束度を計算した後、意味段落境界認定部50において、単語列結束度が類似尺度である場合は極小である単語境界を、距離尺度である場合は極大である単語境界を、当該テキストの意味段落の境界と認定する。ここでいう極値とは、テキスト全体における極値である。
【0072】
また、上記の実施例では、図4のフローチャートに基づいて説明したが、図4に示す一連の動作をプログラムとして構築し、概念ベースをテキスト分割装置として利用されるコンピュータのバッファ等に格納し、構築されたプログラムをCPUにインストールして実行したり、ネットワークを介して流通させることも可能である。
【0073】
また、構築されたプログラムをテキスト分割装置として利用されるコンピュータに接続されるハードディスク装置や、フロッピーディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることにより、容易に本発明を実現できる。
【0074】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0075】
【発明の効果】
上述のように、本発明によれば、単語の意味を表現するベクトルの情報から単語列結束度を算出することにより、正解である意味段落の境界のみを過不足なく認定できるようになる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態におけるテキスト分割装置の構成図である。
【図4】本発明の一実施例のテキスト分割装置の動作のフローチャートである。
【図5】本発明の一実施例の概念ベースのデータの例である。
【図6】単語列結束度算出を説明するための図である。
【符号の説明】
10 テキスト入力部
20 形態素解析手段、形態素解析部
30 単語ベクトル取得手段、単語ベクトル取得部
40 単語列結束度算出手段、単語列結束度算出部
50 隣接単語列認定手段、意味段落境界認定部
60 概念ベース[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a text segmentation method and apparatus, a text segmentation program, and a storage medium storing the text segmentation program. In particular, the present invention takes text as input and automatically divides the text into semantic paragraphs that are units of semantic units. The present invention relates to a text division method and apparatus, a text division program, and a storage medium storing the text division program.
[0002]
[Prior art]
As a conventional text segmentation method, a method based on the unity of word strings based on the unit frequency devised by MAHearst (Reference: Hearst, MA ,: Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16 (1994)).
[0003]
In this method, the text is first divided into words by morphological analysis.
[0004]
Next, as shown in FIG. 6, a word string (in the following description, referred to as “window”) that is a set of a certain number of words is taken before and after an arbitrary word boundary, and the words constituting each window Taking the frequency vector, the cosine measure between the frequency vectors corresponding to the front and back windows is calculated as the word string cohesion degree. By performing this calculation for each word boundary, one word string cohesion degree corresponds to each word boundary.
[0005]
As the word boundary approaches the semantic paragraph boundary, the number of words commonly included in the front and back windows generally decreases, and the word string cohesion decreases. Therefore, a word boundary having a minimum word string cohesion is recognized as a boundary of a semantic paragraph of the text.
[0006]
Here, a certain word boundary position is i, the front window is bl, and the rear window is br, and the appearance frequency of the word t in bl and br is expressed as follows.
[Expression 1]
, The word string cohesion degree Ci in i is
[0008]
[Expression 2]
It is expressed.
[0009]
[Problems to be solved by the invention]
There are often few words that are included in the front and back windows at the word boundary position in the middle of the meaning paragraph of the text. However, since the conventional Hearst method takes a cosine measure between word frequency vectors, the degree of cohesion at such a word boundary position becomes small and is often recognized as a boundary of a semantic paragraph. As described above, the conventional Hearst method has a problem in that many recognized noise paragraphs are included in the boundaries of the recognized semantic paragraphs.
The present invention has been made in view of the above points, and is a text division method and apparatus, a text division program, and a text division program that can recognize only the boundary of a semantic paragraph that is correct from the text (the boundary between adjacent words of the text) without excess or deficiency. An object is to provide a storage medium storing a text division program.
[0010]
[Means for Solving the Problems]
FIG. 1 is a diagram for explaining the principle of the present invention.
[0011]
The present invention (Claim 1) is a text dividing method for dividing text into semantic paragraphs that are units of semantic units ,
A morpheme analyzing unit (step 1) for performing morpheme analysis on the text and dividing the text into words;
Word vector acquisition means, the word vector obtaining step of obtaining a word vectors corresponding to each word obtained by the morphological analysis process by searching the concept base vector representing a meaning of a word is stored (Step 2) When,
The word string cohesion calculating means
Take a word string that is a set of a certain number of words before and after the word boundary,
For each word string, calculate the sum vector or centroid vector of the word vectors of the words constituting the word string,
A word string cohesion degree calculating process (step 3) for calculating a similarity measure or a distance measure including a cosine measure between sum vectors or centroid vectors corresponding to preceding and following word strings as a word string cohesion degree;
The semantic paragraph boundary recognition means uses the word boundary that is minimal when the word string cohesion is a similarity measure, and the word boundary that is maximal when the word string cohesion is a distance measure as the boundary of the semantic paragraph of the text. certification means paragraph boundaries certification process (step 4), made of.
[0012]
The present invention (Claim 2) is a text dividing method for dividing text into semantic paragraphs which are units of semantic units,
A morpheme analyzing unit (step 1) for performing morpheme analysis on the text and dividing the text into words;
A word vector acquisition process in which the word vector acquisition means acquires a word vector corresponding to each word obtained in the morpheme analysis process by searching a concept base in which a vector representing the meaning of the word is stored (step 2) When,
The word string cohesion calculating means
Take a word string that is a set of a certain number of words before and after the word boundary,
For each word string, estimate the population vector distribution from the distribution of the vectors of the words constituting the word string,
A word string cohesion degree calculation process (step 3) for calculating a similarity measure or a distance measure including a Calpac-Liber distance between population vector distributions corresponding to the preceding and following word strings as a word string cohesion degree;
Meaning paragraph boundary recognition means,
Semantic paragraph boundary recognition process that recognizes a word boundary that is minimal when the word string cohesion is a similarity measure and a word boundary that is maximal when the word string cohesion is a distance measure as the boundary of the semantic paragraph of the text (Step 4) .
[0014]
FIG. 2 is a principle configuration diagram of the present invention.
[0015]
The present invention (Claim 3) is a text dividing device for dividing a text into semantic paragraphs which are units of semantic units,
Morphological analysis means 20 for analyzing the text and dividing it into words;
A word vector obtaining means 30 for obtaining the word vectors corresponding to each word obtained by the
A word string that is a set of a certain number of words is taken before and after a word boundary, and for each word string, a sum vector or a centroid vector of words constituting the word string is calculated, and the preceding and following words are calculated. A word string cohesion degree calculating means 40 for calculating a similarity measure or a distance measure including a cosine measure between the sum vector or the centroid vector corresponding to a column as a word string cohesion degree;
Meaning paragraph boundary recognition means that recognizes a word boundary that is a minimum when the word string cohesion is a similarity measure and a word boundary that is a maximum when the word sequence cohesion is a distance measure as a boundary of a semantic paragraph of the text It has a 50, a.
[0016]
The present invention (Claim 4 ) is a text dividing device for dividing a text into semantic paragraphs which are units of semantic units,
Morphological analysis means 20 for analyzing the text and dividing it into words;
A word vector acquisition means 30 for acquiring a word vector corresponding to each word obtained by the morpheme analysis means 20 by searching a
A word string that is a set of a certain number of words is taken before and after a word boundary, and for each word string, a population vector distribution is estimated from the distribution of the word vectors constituting the word string, and the preceding and following words A word string cohesion degree calculating means 40 for calculating a similarity measure or a distance measure including a Calpac-Liber distance between the population vector distributions corresponding to the columns as a word string cohesion degree;
Meaning paragraph boundary recognition means that recognizes a word boundary that is a minimum when the word string cohesion is a similarity measure and a word boundary that is a maximum when the word sequence cohesion is a distance measure as a boundary of a semantic paragraph of the
[0018]
The present invention (Claim 5 ) is a program that causes a computer to function as the text dividing device according to
[0021]
The present invention (Claim 6 ) is a storage medium storing a program for causing a computer to function as the text dividing apparatus according to
[0023]
As above SL, the present invention uses the concept base vectors representing the meaning of a word is stored. The word vectors in this concept base are set such that the distance between words that are semantically similar is closer, and the distance between words that are not semantically similar is longer. The meaning of the correct answer The words in the window before the paragraph boundary (the previous word string) and the words in the back window (the word string immediately after) have low semantic similarity, so the distance between the vectors Since it is far away, the cohesion degree of the word string is low when the similarity scale is used and is high when the distance scale is used.
[0024]
In addition, at the word boundary position in the middle of the semantic paragraph, the word included in the previous window (immediate word string) and the word included in the rear window (immediate word string) have high semantic similarity. The same can be said even when there are no words commonly included in the preceding and following windows (word strings immediately before and after). Therefore, since the distance between the vectors is also close, the cohesion degree of the word string is high when the similarity measure is used and is low when the distance measure is used.
[0025]
Therefore, by identifying a word boundary that is a minimum when the word string cohesion is a similarity measure and a word boundary that is a maximum when it is a distance measure as a boundary of a semantic paragraph of the text, a semantic paragraph that is a correct answer is recognized. It becomes possible to certify only the boundaries of these.
[0026]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 3 shows the configuration of the text segmentation apparatus according to the embodiment of the present invention. The text segmentation apparatus shown in FIG. 1 includes a
[0027]
The
[0028]
The
[0029]
The
[0030]
The word
[0031]
As shown in FIG. 6, the word string
[0032]
Meaning paragraph
[0033]
【Example】
Embodiments of the present invention will be described below with reference to the drawings.
[0034]
FIG. 4 is a flowchart of the operation of the text segmentation apparatus according to the embodiment of the present invention.
[0035]
Step 101) The
[0036]
Step 102) The word
[0037]
Step 103) As shown in FIG. 6, the word string cohesion
[0038]
Step 104) The semantic paragraph
[0039]
Next, the
[0040]
FIG. 5 shows an example of concept-based data according to one embodiment of the present invention.
[0041]
In the
[0042]
Examples of concept bases are introduced in “Similarity Discriminating Device” in Japanese Patent Application No. 4-251513 and “Similarity Discriminating Utilization Data Refinement Method and Device for Implementing this Method” in Japanese Patent Application No. 6-096011. There is a database.
[0043]
Also, Deerwester's paper (Deerwester, S., Dumais, ST, Furnas, GW, Landauer, TK, and Harshman, R .: Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, pp. 391-407 ( 1990)) converts the co-occurrence matrix between words and documents that records the frequency of word documents into a matrix whose dimensionality is reduced by singular value decomposition. This converted matrix is also an example of a concept base. It is. Schutze's paper (Schutze, H .: Dimensions of Meaning, Proc. Of Supercomputing '92, pp. 787-796 (1992)) records the frequency of co-occurrence between words in the corpus. The matrix is converted into a matrix whose dimensionality is reduced by singular value decomposition, and this converted matrix is also an example of a concept base.
[0044]
The word
[0045]
Next, the processing of the word string cohesion
[0046]
Word string cohesion
[0047]
The cosine measure is a similar measure. Here, a word boundary position is i, a word set included in the previous window is L, a set of words included in the back window is R, and a vector in the
[0048]
[Equation 3]
Since the cosine measure is determined by the angle between the two vectors, the cosine measure between the centroid vectors corresponding to the front and rear windows coincides with the cosine measure between the sum vectors.
[0049]
Further, as a measure of distance between vectors corresponding to the front and rear windows, and regarded as distribution vector, there is a method of taking a Kullback-Ribura over distance is a distance measure between the distributions. The Cullback Libler distance is expressed as follows: Sum vector ω L corresponding to the previous window Are expressed as components as follows.
[0050]
[Expression 4]
Here, it is assumed that a L1 > 0 (1 ≦ i ≦ p).
[0051]
Further, it is assumed that the concept base is configured so that the meaning expressed by a certain vector value can be equated with the meaning expressed by a scalar multiple of the vector value. At this time, the vector ω L normalized so that the sum of the components of ω L as follows becomes 1 'And ω L can be identified.
[0052]
[Equation 5]
A normalized vector is similarly applied to the sum vector ω R corresponding to the back window.
[Formula 6]
make.
[0054]
[Expression 7]
KL (ω R ′, ω L ′) may be taken as the Cullback Libra distance between the vectors ω L ′ and ω R ′.
[0055]
Since the above-mentioned Kalbach-Liber distance is not symmetric with respect to two distributions, there is a method of taking Jeffery distance, which is the sum of the Kalbach-Liber distances from both distributions, as a distance scale. Jeffery distance J (ω L ', ω R ') is expressed as follows.
[0056]
[Equation 8]
Next, the processing of the word string cohesion
[0057]
For each window, the word string
[0058]
As described above, the Cullback Libra distance is a distance measure. The calculation of the Cullback Libra distance is specifically performed as follows.
[0059]
The set of word vectors that make up the previous window
[Equation 9]
The population distribution f (x) (xεR p ) is estimated from the above. There are two methods for estimating the population distribution: a method of taking a parametric distribution as a population distribution and a method of taking a nonparametric distribution. An example of a parametric distribution is a normal distribution, and parameters determining this are a population mean and a population variance covariance matrix. The population distribution f (x) (xεR p ) is estimated by estimating these parameters from VL by a method such as maximum likelihood estimation. Here, the population mean μ is estimated as follows.
[0061]
Note that | L | is the number of elements of L.
[0062]
[Expression 10]
The population variance covariance matrix Ω is estimated as follows. ( Ν t −μ) is the vertical vector, ( ν t −μ) ′ is a horizontal vector obtained by transposing it.
[0063]
[Expression 11]
Based on the estimated μ and Ω, the population distribution f (x) (x∈R p ), which is a normal distribution, is expressed as follows.
[0064]
[Expression 12]
Similarly, a population distribution g (x) (xεR p ) is estimated from a set of word vectors constituting the back window.
[0065]
The Cullback Libra distance KL (f (x), g (x)) between the probability distributions f (x), g (x) is
[0066]
[Formula 13]
It becomes.
[0067]
KL (f (x), g (x)) may be taken as the Cullback Libra distance between the probability distributions f (x) and g (x).
[0068]
Since the above-mentioned Kalbach-Liber distance is not symmetric with respect to two probability distributions, there is a method of taking Jeffery distance as a distance scale, which is the sum of the Kalbach-Liber distances from both probability distributions. Jeffery distance J (f (x), g (x)) is expressed as follows.
[0069]
[Expression 14]
In calculating the actual Calbach-Liber distance and Jeffery distance, a discrete numerical calculation method that divides the integration region and obtains an approximate value of the integration value based on the numerical value of the integration function corresponding to a certain point in each division region. Can be taken.
[0070]
Next, the process of the semantic paragraph
[0071]
In step 103, after calculating the word string cohesion degree corresponding to each word boundary by the above method, in the semantic paragraph
[0072]
Further, in the above embodiment, the description has been made based on the flowchart of FIG. 4, but the series of operations shown in FIG. 4 is constructed as a program, and the concept base is stored in a buffer of a computer used as a text dividing device, etc. It is also possible to install the built program on the CPU and execute it, or to distribute it via a network.
[0073]
Further, the constructed program is stored in a hard disk device connected to a computer used as a text dividing device, a portable storage medium such as a floppy disk, CD-ROM, etc., and installed when the present invention is carried out. Thus, the present invention can be easily realized.
[0074]
The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.
[0075]
【The invention's effect】
As described above, according to the present invention, by calculating the word string cohesion degree from the vector information expressing the meaning of the word, it is possible to recognize only the boundary of the correct semantic paragraph without excess or deficiency.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining the principle of the present invention.
FIG. 2 is a principle configuration diagram of the present invention.
FIG. 3 is a configuration diagram of a text segmentation apparatus according to an embodiment of the present invention.
FIG. 4 is a flowchart of the operation of the text segmentation apparatus according to the embodiment of the present invention.
FIG. 5 is an example of concept-based data according to an embodiment of the present invention.
FIG. 6 is a diagram for explaining calculation of word string cohesion.
[Explanation of symbols]
DESCRIPTION OF
Claims (6)
形態素解析手段が、前記テキストを形態素解析して、単語に分割する形態素解析過程と、
単語ベクトル取得手段が、単語の意味を表現するベクトルが格納されている概念ベースを検索することによって前記形態素解析過程で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得過程と、
単語列結束度算出手段が、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、
前記各単語列に対し、該単語列を構成する単語の前記単語ベクトルの和ベクトルまたは重心ベクトルを算出し、
前後の単語列に対応する前記和ベクトルまたは前記重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出過程と、
意味段落境界認定手段が、前記単語列結束度が類似尺度である場合は極小である単語境界を、前記単語列結束度が距離尺度である場合は極大である単語境界を、前記テキストの意味段落の境界と認定する意味段落境界認定過程と、
からなることを特徴とするテキスト分割方法。A text splitting method that splits text into semantic paragraphs, which are units of semantic unity ,
A morpheme analyzing unit morphologically analyzes the text and divides the text into words;
Word vector acquisition means includes word vector obtaining step of obtaining a word vectors corresponding to each word obtained by the morphological analysis process by searching the concept base vectors representing the meaning of a word is stored,
The word string cohesion calculating means
Take a word string that is a set of a certain number of words before and after the word boundary,
For each word string, calculate the sum vector or centroid vector of the word vectors of the words constituting the word string;
A word string cohesion degree calculating process for calculating a similarity measure or a distance measure including a cosine measure between the sum vector or the centroid vector corresponding to preceding and following word strings as a word string cohesion degree;
The semantic paragraph boundary recognition means determines a word boundary that is a minimum when the word string cohesion is a similarity measure, and a word boundary that is a maximum when the word string cohesion is a distance measure. and the meaning of paragraph boundary certification process to be recognized as the boundary,
A text segmentation method characterized by comprising:
形態素解析手段が、前記テキストを形態素解析して、単語に分割する形態素解析過程と、
単語ベクトル取得手段が、単語の意味を表現するベクトルが格納されている概念ベースを検索することによって前記形態素解析過程で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得過程と、
単語列結束度算出手段が、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、
前記各単語列に対し、該単語列を構成する単語のベクトルの分布から母集団ベクトル分布を推定し、
前後の単語列に対応する前記母集団ベクトル分布間のカルパック・リーブラー距離を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出過程と、
意味段落境界認定手段が、
前記単語列結束度が類似尺度である場合は極小である単語境界を、前記単語列結束度が距離尺度である場合は極大である単語境界を、前記テキストの意味段落の境界と認定する意味段落境界認定過程と、
からなることを特徴とするテキスト分割方法。 A text splitting method that splits text into semantic paragraphs, which are units of semantic unity,
A morpheme analyzing unit morphologically analyzes the text and divides the text into words;
A word vector acquisition means for acquiring a word vector corresponding to each word obtained in the morpheme analysis process by searching a concept base in which a vector expressing the meaning of the word is stored;
The word string cohesion calculating means
Take a word string that is a set of a certain number of words before and after the word boundary,
For each of the word strings, a population vector distribution is estimated from the distribution of the word vectors constituting the word string,
A word string cohesion degree calculating process for calculating a similarity measure or a distance scale as a word string cohesion degree, such as a Calpac-Liber distance between the population vector distributions corresponding to the preceding and following word strings;
Meaning paragraph boundary recognition means,
When the word string cohesion is a similarity measure, a word boundary that is a minimum is recognized, and when the word string cohesion is a distance measure, a word boundary that is a maximum is recognized as a semantic paragraph boundary. Boundary recognition process,
A text segmentation method characterized by comprising :
前記テキストを形態素解析して、単語に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている概念ベースと、
前記概念ベースを検索することによって前記形態素解析手段で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得手段と、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、前記各単語列に対し、該単語列を構成する単語の前記単語ベクトルの和ベクトルまたは重心ベクトルを算出し、前後の単語列に対応する前記和ベクトルまたは前記重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出手段と、
前記単語列結束度が類似尺度である場合は極小である単語境界を、前記単語列結束度が距離尺度である場合は極大である単語境界を、前記テキストの意味段落の境界と認定する意味段落境界認定手段と、
を有することを特徴とするテキスト分割装置。A text splitting device that splits text into semantic paragraphs, which are units of semantic units,
Morphological analysis means for analyzing the text and dividing it into words,
A concept base that stores vectors representing the meaning of words;
A word vector obtaining means for obtaining a word vectors corresponding to each word obtained by the morphological analysis unit by searching the concept base,
Take a word string that is a set of a certain number of words before and after a word boundary, and for each word string, calculate the sum vector or centroid vector of the word vectors of the words that make up the word string, A word string cohesion degree calculating means for calculating a similarity measure or a distance measure including a cosine measure between the sum vector or the centroid vector corresponding to a word string as a word string cohesion degree;
When the word string cohesion is a similarity measure, a word boundary that is a minimum is recognized, and when the word string cohesion is a distance measure, a word boundary that is a maximum is recognized as a semantic paragraph boundary. Boundary recognition means ,
A text segmentation device characterized by comprising:
前記テキストを形態素解析して、単語に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている概念ベースと、
前記概念ベースを検索することによって前記形態素解析手段で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得手段と、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、前記各単語列に対し、該単語列を構成する単語のベクトルの分布から母集団ベクトル分布を推定し、前後の単語列に対応する前記母集団ベクトル分布間のカルパック・リーブラー距離を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出手段と、
前記単語列結束度が類似尺度である場合は極小である単語境界を、前記単語列結束度が距離尺度である場合は極大である単語境界を、前記テキストの意味段落の境界と認定する意味段落境界認定手段と、
を有することを特徴とするテキスト分割装置。 A text splitting device that splits text into semantic paragraphs, which are units of semantic units,
Morphological analysis means for analyzing the text and dividing it into words,
A concept base that stores vectors representing the meaning of words;
Word vector acquisition means for acquiring a word vector corresponding to each word obtained by the morpheme analysis means by searching the concept base;
A word string that is a set of a certain number of words is taken before and after a word boundary, and for each word string, a population vector distribution is estimated from the distribution of the word vectors constituting the word string. A word string cohesion degree calculating means for calculating a similarity measure or a distance scale as a word string cohesion degree, including a Calpac-Liber distance between the population vector distributions corresponding to columns,
When the word string cohesion is a similarity measure, a word boundary that is a minimum is recognized, and when the word string cohesion is a distance measure, a word boundary that is a maximum is recognized as a semantic paragraph boundary. Boundary recognition means,
A text segmentation device characterized by comprising:
請求項3または4記載のテキスト分割装置として機能させることを特徴とするテキスト分割プログラム。 Computer
5. A text division program that functions as the text division device according to claim 3 .
請求項3または4記載のテキスト分割装置として機能させるプログラムを格納したことを特徴とするテキスト分割プログラムを格納した記憶媒体。 Computer
5. A storage medium storing a text division program, wherein the program for functioning as the text division device according to claim 3 is stored.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001146872A JP3775239B2 (en) | 2001-05-16 | 2001-05-16 | Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001146872A JP3775239B2 (en) | 2001-05-16 | 2001-05-16 | Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002342324A JP2002342324A (en) | 2002-11-29 |
| JP3775239B2 true JP3775239B2 (en) | 2006-05-17 |
Family
ID=18992445
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001146872A Expired - Fee Related JP3775239B2 (en) | 2001-05-16 | 2001-05-16 | Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3775239B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU2006255181A1 (en) * | 2005-06-06 | 2006-12-14 | The Regents Of The University Of California | Relationship networks |
| JP4873738B2 (en) * | 2007-07-09 | 2012-02-08 | 日本電信電話株式会社 | Text segmentation device, text segmentation method, program, and recording medium |
| CN104216934B (en) * | 2013-09-29 | 2018-02-13 | 北大方正集团有限公司 | A kind of Knowledge Extraction Method and system |
| CN110020420B (en) * | 2018-01-10 | 2023-07-21 | 腾讯科技(深圳)有限公司 | Text processing method, device, computer equipment and storage medium |
| JP7771580B2 (en) * | 2021-09-10 | 2025-11-18 | 大日本印刷株式会社 | Inter-set relationship calculation device and information processing device |
-
2001
- 2001-05-16 JP JP2001146872A patent/JP3775239B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002342324A (en) | 2002-11-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8027977B2 (en) | Recommending content using discriminatively trained document similarity | |
| US20180189265A1 (en) | Learning entity and word embeddings for entity disambiguation | |
| CN111738589B (en) | Big data project workload assessment method, device and equipment based on content recommendation | |
| CN103678316B (en) | Entity relationship sorter and entity relationship sorting technique | |
| CN114330335B (en) | Keyword extraction method, device, equipment and storage medium | |
| CN114091425A (en) | Medical entity alignment method and device | |
| CN103562907B (en) | For assessing the equipment of synonymous expression, methods and procedures | |
| Hadj Taieb et al. | Fm3s: Features-based measure of sentences semantic similarity | |
| US20090157656A1 (en) | Automatic, computer-based similarity calculation system for quantifying the similarity of text expressions | |
| JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
| Üstün et al. | Unsupervised morphological segmentation using neural word embeddings | |
| JP4325370B2 (en) | Document-related vocabulary acquisition device and program | |
| JP3775239B2 (en) | Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program | |
| WO2016210203A1 (en) | Learning entity and word embeddings for entity disambiguation | |
| WO2021093871A1 (en) | Text query method, text query device, and computer storage medium | |
| Hirschberg et al. | V-Measure: a conditional entropy-based external cluster evaluation | |
| CN107092679A (en) | A kind of feature term vector preparation method, file classification method and device | |
| Claveau et al. | Strategies to select examples for active learning with conditional random fields | |
| JP3925418B2 (en) | Topic boundary determination apparatus and program | |
| JP5869948B2 (en) | Passage dividing method, apparatus, and program | |
| JP3178406B2 (en) | Hierarchical sentence classification device and machine-readable recording medium recording program | |
| JP7475844B2 (en) | Information processing device, information processing method, and program | |
| CN111368068A (en) | Short text topic modeling method based on part-of-speech feature and semantic enhancement | |
| JP2006338342A (en) | Word vector generation device, word vector generation method and program | |
| JP4938515B2 (en) | Word correlation calculation device and method, program, and recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051115 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060112 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060131 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060213 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090303 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100303 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120303 Year of fee payment: 6 |
|
| LAPS | Cancellation because of no payment of annual fees |