Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP3775239B2 - Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program - Google Patents
[go: Go Back, main page]

JP3775239B2 - Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program - Google Patents

Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program Download PDF

Info

Publication number
JP3775239B2
JP3775239B2 JP2001146872A JP2001146872A JP3775239B2 JP 3775239 B2 JP3775239 B2 JP 3775239B2 JP 2001146872 A JP2001146872 A JP 2001146872A JP 2001146872 A JP2001146872 A JP 2001146872A JP 3775239 B2 JP3775239 B2 JP 3775239B2
Authority
JP
Japan
Prior art keywords
word
text
boundary
word string
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001146872A
Other languages
Japanese (ja)
Other versions
JP2002342324A (en
Inventor
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001146872A priority Critical patent/JP3775239B2/en
Publication of JP2002342324A publication Critical patent/JP2002342324A/en
Application granted granted Critical
Publication of JP3775239B2 publication Critical patent/JP3775239B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体に係り、特に、テキストを入力とし、当該テキストを意味的なまとまりの単位である意味段落に自動分割するためのテキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
従来のテキスト分割方法としては、M.A.Hearstによって考案された単位の頻度に基づく単語列の結束度による方法( 参考文献:Hearst, M.A.,: Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16(1994)) がある。
【0003】
この方法では、まず、テキストを形態素解析して単語に分割する。
【0004】
次に、図6に示すように、任意の単語境界の前後に、ある個数の単語の集合である単語列(以下の説明では、「窓」と記す)をとり、各窓を構成する単語の頻度ベクトルをとり、前後の窓に対応する頻度ベクトル間の余弦測度を単語列結束度として計算する。各単語境界に対し、この計算を行うことにより、各単語境界に一つの単語列結束度が対応することになる。
【0005】
単語境界が意味段落境界に近づくにつれ、前後の窓に共通して含まれる単語は一般に少なくなるため、単語列結束度は減少していく。そこで、単語列結束度が極小である単語境界を当該テキストの意味段落の境界と認定する。
【0006】
ここで、ある単語境界位置をi、前の窓をbl 、後ろの窓をbr とし、単語tのbl 、br における出現頻度をそれぞれ
【0007】
【数1】

Figure 0003775239
としたとき、iにおける単語列結束度Ci は、
【0008】
【数2】
Figure 0003775239
と表される。
【0009】
【発明が解決しようとする課題】
テキストの意味段落の中途の単語境界位置で、前後の窓に共通して含まれる単語が少ないことは多い。しかしながら、上記従来のHearstの方法では、単語の頻度ベクトル間の余弦測度を取っているため、そのような単語境界位置における結束度は小さくなり、意味段落の境界と認定されることが多い。このように、上記従来のHearstの方法では、認定した意味段落の境界にノイズとなるものが多く含まれるという問題がある。
本発明は、上記の点に鑑みなされたもので、テキストから正解である意味段落の境界(テキストの隣接単語間境界)のみを過不足なく認定できるようなテキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体を提供することを目的とする。
【0010】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0011】
本発明(請求項1)は、テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割方法であって、
形態素解析手段が、テキストを形態素解析して、単語に分割する形態素解析過程(ステップ1)と、
単語ベクトル取得手段が、単語の意味を表現するベクトルが格納されている概念ベースを検索することによって形態素解析過程で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得過程(ステップ2)と、
単語列結束度算出手段が、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、
各単語列に対し、該単語列を構成する単語の単語ベクトルの和ベクトルまたは重心ベクトルを算出し、
前後の単語列に対応する和ベクトルまたは重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出過程(ステップ3)と、
意味段落境界認定手段が、単語列結束度が類似尺度である場合極小である単語境界を、単語列結束度が距離尺度である場合極大である単語境界を、テキストの意味段落の境界と認定する意味段落境界認定過程(ステップ4)とからなる。
【0012】
本発明(請求項2)は、テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割方法であって、
形態素解析手段が、テキストを形態素解析して、単語に分割する形態素解析過程(ステップ1)と、
単語ベクトル取得手段が、単語の意味を表現するベクトルが格納されている概念ベースを検索することによって形態素解析過程で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得過程(ステップ2)と、
単語列結束度算出手段が、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、
各単語列に対し、該単語列を構成する単語のベクトルの分布から母集団ベクトル分布を推定し、
前後の単語列に対応する母集団ベクトル分布間のカルパック・リーブラー距離を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出過程(ステップ3)と、
意味段落境界認定手段が、
単語列結束度が類似尺度である場合は極小である単語境界を、単語列結束度が距離尺度である場合は極大である単語境界を、テキストの意味段落の境界と認定する意味段落境界認定過程(ステップ4)と、からなる
【0014】
図2は、本発明の原理構成図である。
【0015】
本発明(請求項3)は、テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割装置であって、
テキストを形態素解析して、単語に分割する形態素解析手段20と、
単語の意味を表現するベクトルが格納されている概念ベース60を検索することによって形態素解析手段20で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得手段30と、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、該各単語列に対し、該単語列を構成する単語の単語ベクトルの和ベクトルまたは重心ベクトルを算出し、前後の単語列に対応する該和ベクトルまたは該重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出手段40と、
単語列結束度が類似尺度である場合極小である単語境界を、単語列結束度が距離尺度である場合極大である単語境界を、テキストの意味段落の境界と認定する意味段落境界認定手段50とを有する。
【0016】
本発明(請求項)は、テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割装置であって、
テキストを形態素解析して、単語に分割する形態素解析手段20と、
単語の意味を表現するベクトルが格納されている概念ベース60を検索することによって形態素解析手段20で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得手段30と、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、該各単語列に対し、該単語列を構成する単語のベクトルの分布から母集団ベクトル分布を推定し、前後の単語列に対応する該母集団ベクトル分布間のカルパック・リーブラー距離を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出手段40と、
単語列結束度が類似尺度である場合は極小である単語境界を、単語列結束度が距離尺度である場合は極大である単語境界を、テキストの意味段落の境界と認定する意味段落境界認定手段50と、を有する
【0018】
本発明(請求項)は、コンピュータを、請求項3または4記載のテキスト分割装置として機能させるプログラムである。
【0021】
本発明(請求項)は、コンピュータを、請求項3または4記載のテキスト分割装置として機能させるプログラムを格納した記憶媒体である。
【0023】
記のように、本発明では、単語の意味を表現するベクトルが格納されている概念ベースを用いる。この概念ベースにおける単語ベクトルは、意味的に類似している単語間ほど距離が近く、意味的に類似していない単語間ほど距離が遠くなるように値が設定されている。正解の意味段落境界の前の窓(直前の単語列)に含まれる単語と後ろの窓(直後の単語列)に含まれる単語とは意味的類似性が低いことにより、そのベクトル間の距離も遠くなるため、単語列の結束度は、類似尺度のとき低くなり、距離尺度のとき高くなる。
【0024】
また、意味段落の中途の単語境界位置においては、前の窓(直前の単語列)に含まれる単語と後ろの窓(直後の単語列)に含まれる単語とは意味的類似性が高い。前後の窓(直前・直後の単語列)に共通して含まれる単語がない場合でも、同様のことが言える。従って、そのベクトル間の距離も近くなるため、単語列の結束度は、類似尺度のとき高くなり、距離尺度のとき低くなる。
【0025】
そこで、単語列結束度が類似尺度である場合極小である単語境界を、距離尺度である場合極大である単語境界を当該テキストの意味段落の境界と認定することにより、正解である意味段落の境界のみを過不足なく認定できるようになる。
【0026】
【発明の実施の形態】
図3は、本発明の一実施の形態におけるテキスト分割装置の構成を示す。 同図に示すテキスト分割装置は、テキスト入力部10、形態素解析部20、単語ベクトル取得部30、単語列結束度算出部40、意味段落境界認定部50、概念ベース60から構成される。
【0027】
概念ベース60は、単語の意味を表現する単語ベクトルが格納されており、当該単語ベクトルは、意味的に類似している単語間程距離が近く、意味的に類似していない単語間ほど距離が遠くなるように値が設定されており、データベースに格納される。
【0028】
テキスト入力部10は、処理対象となるテキストを入力する。
【0029】
形態素解析部20は、入力されたテキストを形態素解析して単語に分割し、その形態素解析結果を単語ベクトル取得部30に転送する。
【0030】
単語ベクトル取得部30は、概念ベース60を検索することにより、形態素解析の結果得られた各単語に対応するベクトルを取得する。
【0031】
単語列結束度算出部40は、図6に示すように、任意の単語境界の前後に、ある個数の単語の集合である窓(単語列)をとり、各窓を構成する単語のベクトルの情報から、前後の窓の類似尺度または距離尺度である単語列結束度を算出する。各単語境界に対し、この計算を行うことにより、各単語境界に一つの単語列結束度が対応することになる。また、単語列結束度を求める際に、単語列結束度を求める際に、単語列結束度算出部40は、各窓に対し、当該窓を構成する単語のベクトルの和または重心をとり、単語列結束度として、前後の窓に対応する和または重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度をとる。あるいは、各窓に対し、当該窓を構成する単語のベクトルの分布から母集団分布を推定し、単語列結束度として、前後の窓に対応する母集団分布間のカルバック・リーラー距離を始めとする類似尺度または距離尺度をとる。
【0032】
意味段落境界認定部50は、単語列結束度が類似尺度である場合極小である単語境界を、距離尺度である場合極大である単語境界を当該テキストの意味段落の境界と認定する。
【0033】
【実施例】
以下、図面と共に本発明の実施例を説明する。
【0034】
図4は、本発明の一実施例のテキスト分割装置の動作のフローチャートである。
【0035】
ステップ101) 形態素解析部20は、入力テキストを形態素解析して単語に分割する。
【0036】
ステップ102) 単語ベクトル取得部30は、単語の意味を表現するベクトルが格納されている概念ベース60を検索することによって、ステップ101の形態素解析処理により得られた各単語に対応するベクトルを取得する。
【0037】
ステップ103) 単語列結束度算出部40は、前述の図6に示すように、任意の単語境界の前後に、ある個数の単語集合である窓を取り、各窓を構成する単語のベクトルの情報から、前後の窓の類似尺度または距離尺度である単語列結束度を算出する。単語列結束度を算出する単語境界は、1単語の刻み幅でとっていく。各単語境界に対する窓の幅は単語の一定個数分とる。窓の幅をa個としたとき、テキストの最小のa単語以内の単語境界の前の窓の幅と最後のa単語以内の単語境界の後ろの窓の幅はa個足りないが、a個に足りない窓はとれる最大幅をとって単語列結束度を算出する。あるいは、前後の窓の幅が、a個とれる単語境界のみ単語列結束度を算出する。
【0038】
ステップ104) 意味段落境界設定部50は、単語列結束度が類似尺度である場合極小である単語境界を、距離尺度である場合極大である単語境界を、当該テキストの意味段落の境界と認定する。ここでいう極値とは、テキスト全体における極値である。
【0039】
次に、概念ベース60について説明する。
【0040】
図5は、本発明の一実施例の概念ベースのデータの例を示す。
【0041】
概念ベース60は、各単語毎に、p次元のベクトル値が付与されている。概念ベース60中の単語は、名詞や動詞、形容詞等の自立語である。概念ベース60における単語ベクトルは、意味的に類似している単語間ほど距離が近く、意味的に類似していない単語間ほど距離が遠くなるように値が設定されている。
【0042】
概念ベースの例としては、特願平4−251513の「類似性判別装置」や、特願平6−096011の「類似性判別利用データ精錬方法及びこの方法を実施する装置」で紹介されているデータベースがある。
【0043】
また、Deerwesterの論文(Deerwester,S.,Dumais,S.T.,Furnas, G. W.,Landauer,T.K.,and Harshman, R.:Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science,pp.391-407(1990)) では、単語の文書における頻度を記録した単語・文書間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。Schutze の論文(Schutze,H.:Dimensions of Meaning, Proc. of Supercomputing '92,pp.787-796(1992))では、コーパス中の単語間の共起頻度を記録した単語・単語間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。
【0044】
前述のステップ102における単語ベクトル取得部30において、概念ベース60を検索することによって、ステップ101の形態素解析処理で得られた各単語に対応するベクトルを取得する。
【0045】
次に、上記のステップ103における単語列結束度算出部40の処理について説明する。
【0046】
単語列結束度算出部40は、各窓に対し、当該窓を構成する単語のベクトルの和または重心をとり、単語列結束度として、前後の窓に対応する和または重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度をとる。
【0047】
余弦測度は、類似尺度である。ここで、ある単語境界位置をi、前の窓に含まれる単語集合をL、後ろの窓に含まれる単語の集合をRとし、単語tに対応する概念ベース60中のベクトルをν t としたとき、前後の窓に対応する和ベクトル間の余弦測度C i は、以下のように表される。なお、以下の式における“・”は、ベクトル間の内積である。
【0048】
【数3】
Figure 0003775239
余弦測度は、2つのベクトル間の角度で決まるので、前後の窓に対応する重心ベクトル間の余弦測度は、和ベクトル間の余弦測度と一致する。
【0049】
また、前後の窓に対応するベクトル間の距離尺度として、ベクトルを分布と見做して、分布間の距離尺度であるカルバック・リーブラ距離をとる方法もある。 カルバック・リーブラー距離は、以下のように表される。前の窓に対応する和ベクトルω L を以下のように成分表示したとする。
【0050】
【数4】
Figure 0003775239
ここで、 L1 >0(1≦i≦p)と仮定する。
【0051】
また、あるベクトル値が表現する意味と、そのベクトル値のスカラ倍の値が表現する意味を同一視できるように概念ベースが構成されているとする。このとき、以下のようなω L の各成分の和が1となるように正規化したベクトルω L ’とω L を同一視できる。
【0052】
【数5】
Figure 0003775239
後ろの窓に対応する和ベクトルのω R についても同様に正規化したベクトル
【0053】
【数6】
Figure 0003775239
を作る。
【0054】
【数7】
Figure 0003775239
ベクトルω L ’、ω R ’間のカルバック・リーブラ距離として、KL(ω R ’,ω L ’)をとってもよい。
【0055】
上記のカルバック・リーブラ距離は、2つの分布に対して対称ではないので、双方の分布からみたカルバック・リーブラ距離の和であるJeffery 距離を距離尺度としてとる方法もある。Jeffery 距離J(ω L ’,ω R ’)は、以下のように表される。
【0056】
【数8】
Figure 0003775239
次に、上記のステップ103における単語列結束度算出部40の処理について説明する。
【0057】
単語列結束度算出部40では、各窓に対し、当該窓を構成する単語のベクトルの分布から母集団分布を推定し、単語列結束度として前後の窓に対応する母集団分布間のカルバック・リーブラ距離を始めとする類似尺度または距離尺度をとる。単語ベクトルの次元をp次元としたとき、単語ベクトルの集合を、p次元空間上の連続的なある確率分布に従う標本の集合と見て、標本集合から元の確率分布を推定する訳である。
【0058】
前述したように、カルバック・リーブラ距離は距離尺度である。カルバック・リーブラ距離の算出は、具体的には以下のようにする。
【0059】
前の窓を構成する単語ベクトルの集合
【0060】
【数9】
Figure 0003775239
から母集団分布f(x)(x∈Rp )を推定する。母集団分布の推定には、母集団分布としてパラメトリックな分布をとる方法と、ノンパラメトリックな分布をとる方法がある。パラメトリックな分布の一例としては、正規分布があり、これを決定付けるパラメータは、母平均と母分散共分散行列である。 L から最尤推定等の手法により、これらのパラメータを推定することにより、母集団分布f(x)(x∈Rp )を推定する。ここで、母平均μは、次のように推定される。
【0061】
なお、|L|は、Lの要素数である。
【0062】
【数10】
Figure 0003775239
また、母分散共分散行列Ωは、次のように推定される。(ν t −μ)は縦ベクトルであり、(ν t −μ)’は、それを転置した横ベクトルである。
【0063】
【数11】
Figure 0003775239
推定したμ、Ωにより、正規分布である母集団分布f(x)(x∈Rp )は次のように表される。
【0064】
【数12】
Figure 0003775239
後ろの窓を構成する単語ベクトルの集合からも同様に母集団分布g(x)(x∈Rp )を推定する。
【0065】
確率分布f(x),g(x)間のカルバック・リーブラ距離KL(f(x),g(x))は、
【0066】
【数13】
Figure 0003775239
となる。
【0067】
確率分布f(x),g(x)間のカルバック・リーブラ距離として、KL(f(x),g(x))をとってもよい。
【0068】
上記のカルバック・リーブラ距離は、2つの確率分布に対して対称ではないので、双方の確率分布からみたカルバック・リーブラ距離の和であるJeffery 距離を距離尺度としてとる方法もある。Jeffery 距離J(f(x),g(x))は、以下のように表される。
【0069】
【数14】
Figure 0003775239
実際のカルバック・リーブラ距離や、Jeffery 距離の算出では、積分領域を分割し、各分割領域のある一点に対応する積分関数の数値に基づいて積分値の近似値を求めるといった離散的な数値計算手法をとることができる。
【0070】
次に、ステップ104における意味段落境界認定部50の処理について説明する。
【0071】
ステップ103において、上記の方法により各単語境界に対応する単語列結束度を計算した後、意味段落境界認定部50において、単語列結束度が類似尺度である場合極小である単語境界を、距離尺度である場合極大である単語境界を、当該テキストの意味段落の境界と認定する。ここでいう極値とは、テキスト全体における極値である。
【0072】
また、上記の実施例では、図4のフローチャートに基づいて説明したが、図4に示す一連の動作をプログラムとして構築し、概念ベースをテキスト分割装置として利用されるコンピュータのバッファ等に格納し、構築されたプログラムをCPUにインストールして実行したり、ネットワークを介して流通させることも可能である。
【0073】
また、構築されたプログラムをテキスト分割装置として利用されるコンピュータに接続されるハードディスク装置や、フロッピーディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることにより、容易に本発明を実現できる。
【0074】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0075】
【発明の効果】
上述のように、本発明によれば、単語の意味を表現するベクトルの情報から単語列結束度を算出することにより、正解である意味段落の境界のみを過不足なく認定できるようになる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態におけるテキスト分割装置の構成図である。
【図4】本発明の一実施例のテキスト分割装置の動作のフローチャートである。
【図5】本発明の一実施例の概念ベースのデータの例である。
【図6】単語列結束度算出を説明するための図である。
【符号の説明】
10 テキスト入力部
20 形態素解析手段、形態素解析部
30 単語ベクトル取得手段、単語ベクトル取得部
40 単語列結束度算出手段、単語列結束度算出部
50 隣接単語列認定手段、意味段落境界認定部
60 概念ベース[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a text segmentation method and apparatus, a text segmentation program, and a storage medium storing the text segmentation program. In particular, the present invention takes text as input and automatically divides the text into semantic paragraphs that are units of semantic units. The present invention relates to a text division method and apparatus, a text division program, and a storage medium storing the text division program.
[0002]
[Prior art]
As a conventional text segmentation method, a method based on the unity of word strings based on the unit frequency devised by MAHearst (Reference: Hearst, MA ,: Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16 (1994)).
[0003]
In this method, the text is first divided into words by morphological analysis.
[0004]
Next, as shown in FIG. 6, a word string (in the following description, referred to as “window”) that is a set of a certain number of words is taken before and after an arbitrary word boundary, and the words constituting each window Taking the frequency vector, the cosine measure between the frequency vectors corresponding to the front and back windows is calculated as the word string cohesion degree. By performing this calculation for each word boundary, one word string cohesion degree corresponds to each word boundary.
[0005]
As the word boundary approaches the semantic paragraph boundary, the number of words commonly included in the front and back windows generally decreases, and the word string cohesion decreases. Therefore, a word boundary having a minimum word string cohesion is recognized as a boundary of a semantic paragraph of the text.
[0006]
Here, a certain word boundary position is i, the front window is bl, and the rear window is br, and the appearance frequency of the word t in bl and br is expressed as follows.
[Expression 1]
Figure 0003775239
, The word string cohesion degree Ci in i is
[0008]
[Expression 2]
Figure 0003775239
It is expressed.
[0009]
[Problems to be solved by the invention]
There are often few words that are included in the front and back windows at the word boundary position in the middle of the meaning paragraph of the text. However, since the conventional Hearst method takes a cosine measure between word frequency vectors, the degree of cohesion at such a word boundary position becomes small and is often recognized as a boundary of a semantic paragraph. As described above, the conventional Hearst method has a problem in that many recognized noise paragraphs are included in the boundaries of the recognized semantic paragraphs.
The present invention has been made in view of the above points, and is a text division method and apparatus, a text division program, and a text division program that can recognize only the boundary of a semantic paragraph that is correct from the text (the boundary between adjacent words of the text) without excess or deficiency. An object is to provide a storage medium storing a text division program.
[0010]
[Means for Solving the Problems]
FIG. 1 is a diagram for explaining the principle of the present invention.
[0011]
The present invention (Claim 1) is a text dividing method for dividing text into semantic paragraphs that are units of semantic units ,
A morpheme analyzing unit (step 1) for performing morpheme analysis on the text and dividing the text into words;
Word vector acquisition means, the word vector obtaining step of obtaining a word vectors corresponding to each word obtained by the morphological analysis process by searching the concept base vector representing a meaning of a word is stored (Step 2) When,
The word string cohesion calculating means
Take a word string that is a set of a certain number of words before and after the word boundary,
For each word string, calculate the sum vector or centroid vector of the word vectors of the words constituting the word string,
A word string cohesion degree calculating process (step 3) for calculating a similarity measure or a distance measure including a cosine measure between sum vectors or centroid vectors corresponding to preceding and following word strings as a word string cohesion degree;
The semantic paragraph boundary recognition means uses the word boundary that is minimal when the word string cohesion is a similarity measure, and the word boundary that is maximal when the word string cohesion is a distance measure as the boundary of the semantic paragraph of the text. certification means paragraph boundaries certification process (step 4), made of.
[0012]
The present invention (Claim 2) is a text dividing method for dividing text into semantic paragraphs which are units of semantic units,
A morpheme analyzing unit (step 1) for performing morpheme analysis on the text and dividing the text into words;
A word vector acquisition process in which the word vector acquisition means acquires a word vector corresponding to each word obtained in the morpheme analysis process by searching a concept base in which a vector representing the meaning of the word is stored (step 2) When,
The word string cohesion calculating means
Take a word string that is a set of a certain number of words before and after the word boundary,
For each word string, estimate the population vector distribution from the distribution of the vectors of the words constituting the word string,
A word string cohesion degree calculation process (step 3) for calculating a similarity measure or a distance measure including a Calpac-Liber distance between population vector distributions corresponding to the preceding and following word strings as a word string cohesion degree;
Meaning paragraph boundary recognition means,
Semantic paragraph boundary recognition process that recognizes a word boundary that is minimal when the word string cohesion is a similarity measure and a word boundary that is maximal when the word string cohesion is a distance measure as the boundary of the semantic paragraph of the text (Step 4) .
[0014]
FIG. 2 is a principle configuration diagram of the present invention.
[0015]
The present invention (Claim 3) is a text dividing device for dividing a text into semantic paragraphs which are units of semantic units,
Morphological analysis means 20 for analyzing the text and dividing it into words;
A word vector obtaining means 30 for obtaining the word vectors corresponding to each word obtained by the morphological analysis unit 20 by searching the concept base 60 vector representing the meaning of a word is stored,
A word string that is a set of a certain number of words is taken before and after a word boundary, and for each word string, a sum vector or a centroid vector of words constituting the word string is calculated, and the preceding and following words are calculated. A word string cohesion degree calculating means 40 for calculating a similarity measure or a distance measure including a cosine measure between the sum vector or the centroid vector corresponding to a column as a word string cohesion degree;
Meaning paragraph boundary recognition means that recognizes a word boundary that is a minimum when the word string cohesion is a similarity measure and a word boundary that is a maximum when the word sequence cohesion is a distance measure as a boundary of a semantic paragraph of the text It has a 50, a.
[0016]
The present invention (Claim 4 ) is a text dividing device for dividing a text into semantic paragraphs which are units of semantic units,
Morphological analysis means 20 for analyzing the text and dividing it into words;
A word vector acquisition means 30 for acquiring a word vector corresponding to each word obtained by the morpheme analysis means 20 by searching a concept base 60 in which a vector expressing the meaning of the word is stored;
A word string that is a set of a certain number of words is taken before and after a word boundary, and for each word string, a population vector distribution is estimated from the distribution of the word vectors constituting the word string, and the preceding and following words A word string cohesion degree calculating means 40 for calculating a similarity measure or a distance measure including a Calpac-Liber distance between the population vector distributions corresponding to the columns as a word string cohesion degree;
Meaning paragraph boundary recognition means that recognizes a word boundary that is a minimum when the word string cohesion is a similarity measure and a word boundary that is a maximum when the word sequence cohesion is a distance measure as a boundary of a semantic paragraph of the text 50 .
[0018]
The present invention (Claim 5 ) is a program that causes a computer to function as the text dividing device according to Claim 3 or 4 .
[0021]
The present invention (Claim 6 ) is a storage medium storing a program for causing a computer to function as the text dividing apparatus according to Claim 3 or 4 .
[0023]
As above SL, the present invention uses the concept base vectors representing the meaning of a word is stored. The word vectors in this concept base are set such that the distance between words that are semantically similar is closer, and the distance between words that are not semantically similar is longer. The meaning of the correct answer The words in the window before the paragraph boundary (the previous word string) and the words in the back window (the word string immediately after) have low semantic similarity, so the distance between the vectors Since it is far away, the cohesion degree of the word string is low when the similarity scale is used and is high when the distance scale is used.
[0024]
In addition, at the word boundary position in the middle of the semantic paragraph, the word included in the previous window (immediate word string) and the word included in the rear window (immediate word string) have high semantic similarity. The same can be said even when there are no words commonly included in the preceding and following windows (word strings immediately before and after). Therefore, since the distance between the vectors is also close, the cohesion degree of the word string is high when the similarity measure is used and is low when the distance measure is used.
[0025]
Therefore, by identifying a word boundary that is a minimum when the word string cohesion is a similarity measure and a word boundary that is a maximum when it is a distance measure as a boundary of a semantic paragraph of the text, a semantic paragraph that is a correct answer is recognized. It becomes possible to certify only the boundaries of these.
[0026]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 3 shows the configuration of the text segmentation apparatus according to the embodiment of the present invention. The text segmentation apparatus shown in FIG. 1 includes a text input unit 10, a morpheme analysis unit 20, a word vector acquisition unit 30, a word string cohesion degree calculation unit 40, a semantic paragraph boundary recognition unit 50, and a concept base 60.
[0027]
The concept base 60 stores a word vector expressing the meaning of a word, and the word vector is closer in distance between words that are semantically similar, and is closer in distance between words that are not semantically similar. Values are set to be far away and stored in the database.
[0028]
The text input unit 10 inputs text to be processed.
[0029]
The morpheme analysis unit 20 morphologically analyzes the input text and divides it into words, and transfers the morpheme analysis result to the word vector acquisition unit 30.
[0030]
The word vector acquisition unit 30 acquires a vector corresponding to each word obtained as a result of morphological analysis by searching the concept base 60.
[0031]
As shown in FIG. 6, the word string cohesion calculating unit 40 takes a window (word string) that is a set of a certain number of words before and after an arbitrary word boundary, and information on the vectors of words constituting each window. from, or similarity measure before and after the window for calculating the word string cohesion is distance measure. By performing this calculation for each word boundary, one word string cohesion degree corresponds to each word boundary. Further, when obtaining the word string cohesion, in determining a word string cohesion, word string cohesion calculator 40, for each window, sums or centroid vectors of words constituting the window, as word string cohesion, or the sum corresponding to the front and rear windows or similarity measure including cosine measure between centroid vector taking distance measure. Alternatively, for each window, and estimate the population distribution from the distribution of the vector of words constituting the window, as a word string cohesion degree, began Kullback Lee Bed Ra distance between the population distribution corresponding to the front and rear of the window similarity measure and also take the distance scale.
[0032]
Meaning paragraph boundary discriminating section 50, the word boundary for word string cohesion degree is similarity measure is minimum, if the distance measure word boundary is a maximum, is recognized as the boundary of the meanings paragraph of the text.
[0033]
【Example】
Embodiments of the present invention will be described below with reference to the drawings.
[0034]
FIG. 4 is a flowchart of the operation of the text segmentation apparatus according to the embodiment of the present invention.
[0035]
Step 101) The morpheme analysis unit 20 performs morphological analysis on the input text and divides it into words.
[0036]
Step 102) The word vector acquisition unit 30 acquires a vector corresponding to each word obtained by the morphological analysis processing in Step 101 by searching the concept base 60 in which a vector representing the meaning of the word is stored. .
[0037]
Step 103) As shown in FIG. 6, the word string cohesion degree calculation unit 40 takes a window, which is a certain number of word sets, before and after an arbitrary word boundary, and information on the vectors of words constituting each window. from, or similarity measure before and after the window for calculating the word string cohesion is distance measure. The word boundaries for calculating the word string cohesion are taken in increments of one word. The window width for each word boundary is a certain number of words. When the width of the window was a number, but the width of the window of the back of the minimum width and a word boundary within the words of the end of the front of the window of the word boundary within a word of the text is missing a number, a The word string cohesion degree is calculated by taking the maximum width of windows that are not enough. Alternatively, the word string cohesion degree is calculated only for word boundaries where the widths of the front and rear windows are a.
[0038]
Step 104) The semantic paragraph boundary setting unit 50 sets a word boundary that is a minimum when the word string cohesion is a similarity measure, and a word boundary that is a maximum when it is a distance measure as a boundary of a semantic paragraph of the text. Authorize. The extreme value here is an extreme value in the entire text.
[0039]
Next, the concept base 60 will be described.
[0040]
FIG. 5 shows an example of concept-based data according to one embodiment of the present invention.
[0041]
In the concept base 60, a p-dimensional vector value is assigned to each word. The words in the concept base 60 are independent words such as nouns, verbs, and adjectives. The word vectors in the concept base 60 are set such that the distance between words that are semantically similar is closer, and the distance between words that are not semantically similar is longer.
[0042]
Examples of concept bases are introduced in “Similarity Discriminating Device” in Japanese Patent Application No. 4-251513 and “Similarity Discriminating Utilization Data Refinement Method and Device for Implementing this Method” in Japanese Patent Application No. 6-096011. There is a database.
[0043]
Also, Deerwester's paper (Deerwester, S., Dumais, ST, Furnas, GW, Landauer, TK, and Harshman, R .: Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, pp. 391-407 ( 1990)) converts the co-occurrence matrix between words and documents that records the frequency of word documents into a matrix whose dimensionality is reduced by singular value decomposition. This converted matrix is also an example of a concept base. It is. Schutze's paper (Schutze, H .: Dimensions of Meaning, Proc. Of Supercomputing '92, pp. 787-796 (1992)) records the frequency of co-occurrence between words in the corpus. The matrix is converted into a matrix whose dimensionality is reduced by singular value decomposition, and this converted matrix is also an example of a concept base.
[0044]
The word vector acquisition unit 30 in step 102 described above searches the concept base 60 to acquire a vector corresponding to each word obtained in the morphological analysis process in step 101.
[0045]
Next, the processing of the word string cohesion degree calculation unit 40 in step 103 will be described.
[0046]
Word string cohesion degree calculation unit 40, for each window, also the sum of the vectors of the words constituting the window take a heavy heart, as word string cohesion, or the sum corresponding to the front and rear windows between centroid vector also similar measure, including the cosine measure taking the distance scale.
[0047]
The cosine measure is a similar measure. Here, a word boundary position is i, a word set included in the previous window is L, a set of words included in the back window is R, and a vector in the concept base 60 corresponding to the word t is ν t . Then, the cosine measure C i between the sum vectors corresponding to the front and back windows is expressed as follows. In the following expression, “·” is an inner product between vectors.
[0048]
[Equation 3]
Figure 0003775239
Since the cosine measure is determined by the angle between the two vectors, the cosine measure between the centroid vectors corresponding to the front and rear windows coincides with the cosine measure between the sum vectors.
[0049]
Further, as a measure of distance between vectors corresponding to the front and rear windows, and regarded as distribution vector, there is a method of taking a Kullback-Ribura over distance is a distance measure between the distributions. The Cullback Libler distance is expressed as follows: Sum vector ω L corresponding to the previous window Are expressed as components as follows.
[0050]
[Expression 4]
Figure 0003775239
Here, it is assumed that a L1 > 0 (1 ≦ i ≦ p).
[0051]
Further, it is assumed that the concept base is configured so that the meaning expressed by a certain vector value can be equated with the meaning expressed by a scalar multiple of the vector value. At this time, the vector ω L normalized so that the sum of the components of ω L as follows becomes 1 'And ω L can be identified.
[0052]
[Equation 5]
Figure 0003775239
A normalized vector is similarly applied to the sum vector ω R corresponding to the back window.
[Formula 6]
Figure 0003775239
make.
[0054]
[Expression 7]
Figure 0003775239
KL (ω R ′, ω L ′) may be taken as the Cullback Libra distance between the vectors ω L ′ and ω R ′.
[0055]
Since the above-mentioned Kalbach-Liber distance is not symmetric with respect to two distributions, there is a method of taking Jeffery distance, which is the sum of the Kalbach-Liber distances from both distributions, as a distance scale. Jeffery distance J (ω L ', ω R ') is expressed as follows.
[0056]
[Equation 8]
Figure 0003775239
Next, the processing of the word string cohesion degree calculation unit 40 in step 103 will be described.
[0057]
For each window, the word string cohesion calculating unit 40 estimates the population distribution from the distribution of the vectors of the words constituting the window, and as the word string cohesion, the kullback- similarity measure, including Ribura over distance or take a distance scale. When the dimension of the word vector is p-dimensional, the set of word vectors is regarded as a set of samples that follow a certain probability distribution in the p-dimensional space, and the original probability distribution is estimated from the sample set.
[0058]
As described above, the Cullback Libra distance is a distance measure. The calculation of the Cullback Libra distance is specifically performed as follows.
[0059]
The set of word vectors that make up the previous window
[Equation 9]
Figure 0003775239
The population distribution f (x) (xεR p ) is estimated from the above. There are two methods for estimating the population distribution: a method of taking a parametric distribution as a population distribution and a method of taking a nonparametric distribution. An example of a parametric distribution is a normal distribution, and parameters determining this are a population mean and a population variance covariance matrix. The population distribution f (x) (xεR p ) is estimated by estimating these parameters from VL by a method such as maximum likelihood estimation. Here, the population mean μ is estimated as follows.
[0061]
Note that | L | is the number of elements of L.
[0062]
[Expression 10]
Figure 0003775239
The population variance covariance matrix Ω is estimated as follows. ( Ν t −μ) is the vertical vector, ( ν t −μ) ′ is a horizontal vector obtained by transposing it.
[0063]
[Expression 11]
Figure 0003775239
Based on the estimated μ and Ω, the population distribution f (x) (x∈R p ), which is a normal distribution, is expressed as follows.
[0064]
[Expression 12]
Figure 0003775239
Similarly, a population distribution g (x) (xεR p ) is estimated from a set of word vectors constituting the back window.
[0065]
The Cullback Libra distance KL (f (x), g (x)) between the probability distributions f (x), g (x) is
[0066]
[Formula 13]
Figure 0003775239
It becomes.
[0067]
KL (f (x), g (x)) may be taken as the Cullback Libra distance between the probability distributions f (x) and g (x).
[0068]
Since the above-mentioned Kalbach-Liber distance is not symmetric with respect to two probability distributions, there is a method of taking Jeffery distance as a distance scale, which is the sum of the Kalbach-Liber distances from both probability distributions. Jeffery distance J (f (x), g (x)) is expressed as follows.
[0069]
[Expression 14]
Figure 0003775239
In calculating the actual Calbach-Liber distance and Jeffery distance, a discrete numerical calculation method that divides the integration region and obtains an approximate value of the integration value based on the numerical value of the integration function corresponding to a certain point in each division region. Can be taken.
[0070]
Next, the process of the semantic paragraph boundary recognition unit 50 in step 104 will be described.
[0071]
In step 103, after calculating the word string cohesion degree corresponding to each word boundary by the above method, in the semantic paragraph boundary recognition unit 50, if the word string cohesion degree is a similarity measure, the word boundary that is the minimum is determined as the distance. If it is a scale, the word boundary that is the maximum is recognized as the boundary of the semantic paragraph of the text. The extreme value here is an extreme value in the entire text.
[0072]
Further, in the above embodiment, the description has been made based on the flowchart of FIG. 4, but the series of operations shown in FIG. 4 is constructed as a program, and the concept base is stored in a buffer of a computer used as a text dividing device, etc. It is also possible to install the built program on the CPU and execute it, or to distribute it via a network.
[0073]
Further, the constructed program is stored in a hard disk device connected to a computer used as a text dividing device, a portable storage medium such as a floppy disk, CD-ROM, etc., and installed when the present invention is carried out. Thus, the present invention can be easily realized.
[0074]
The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.
[0075]
【The invention's effect】
As described above, according to the present invention, by calculating the word string cohesion degree from the vector information expressing the meaning of the word, it is possible to recognize only the boundary of the correct semantic paragraph without excess or deficiency.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining the principle of the present invention.
FIG. 2 is a principle configuration diagram of the present invention.
FIG. 3 is a configuration diagram of a text segmentation apparatus according to an embodiment of the present invention.
FIG. 4 is a flowchart of the operation of the text segmentation apparatus according to the embodiment of the present invention.
FIG. 5 is an example of concept-based data according to an embodiment of the present invention.
FIG. 6 is a diagram for explaining calculation of word string cohesion.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 10 Text input part 20 Morphological analysis means, Morphological analysis part 30 Word vector acquisition means, Word vector acquisition part 40 Word string cohesion degree calculation means, Word string cohesion degree calculation part 50 Adjacent word string recognition means, semantic paragraph boundary recognition part 60 Concept base

Claims (6)

テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割方法であって、
形態素解析手段が、前記テキストを形態素解析して、単語に分割する形態素解析過程と、
単語ベクトル取得手段が、単語の意味を表現するベクトルが格納されている概念ベースを検索することによって前記形態素解析過程で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得過程と、
単語列結束度算出手段が、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、
前記各単語列に対し、該単語列を構成する単語の前記単語ベクトルの和ベクトルまたは重心ベクトルを算出し、
前後の単語列に対応する前記和ベクトルまたは前記重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出過程と、
意味段落境界認定手段が、前記単語列結束度が類似尺度である場合極小である単語境界を、前記単語列結束度が距離尺度である場合極大である単語境界を、前記テキストの意味段落の境界と認定する意味段落境界認定過程と
からなることを特徴とするテキスト分割方法。
A text splitting method that splits text into semantic paragraphs, which are units of semantic unity ,
A morpheme analyzing unit morphologically analyzes the text and divides the text into words;
Word vector acquisition means includes word vector obtaining step of obtaining a word vectors corresponding to each word obtained by the morphological analysis process by searching the concept base vectors representing the meaning of a word is stored,
The word string cohesion calculating means
Take a word string that is a set of a certain number of words before and after the word boundary,
For each word string, calculate the sum vector or centroid vector of the word vectors of the words constituting the word string;
A word string cohesion degree calculating process for calculating a similarity measure or a distance measure including a cosine measure between the sum vector or the centroid vector corresponding to preceding and following word strings as a word string cohesion degree;
The semantic paragraph boundary recognition means determines a word boundary that is a minimum when the word string cohesion is a similarity measure, and a word boundary that is a maximum when the word string cohesion is a distance measure. and the meaning of paragraph boundary certification process to be recognized as the boundary,
A text segmentation method characterized by comprising:
テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割方法であって、
形態素解析手段が、前記テキストを形態素解析して、単語に分割する形態素解析過程と、
単語ベクトル取得手段が、単語の意味を表現するベクトルが格納されている概念ベースを検索することによって前記形態素解析過程で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得過程と、
単語列結束度算出手段が、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、
前記各単語列に対し、該単語列を構成する単語のベクトルの分布から母集団ベクトル分布を推定し、
前後の単語列に対応する前記母集団ベクトル分布間のカルパック・リーブラー距離を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出過程と、
意味段落境界認定手段が、
前記単語列結束度が類似尺度である場合は極小である単語境界を、前記単語列結束度が距離尺度である場合は極大である単語境界を、前記テキストの意味段落の境界と認定する意味段落境界認定過程と、
からなることを特徴とするテキスト分割方法。
A text splitting method that splits text into semantic paragraphs, which are units of semantic unity,
A morpheme analyzing unit morphologically analyzes the text and divides the text into words;
A word vector acquisition means for acquiring a word vector corresponding to each word obtained in the morpheme analysis process by searching a concept base in which a vector expressing the meaning of the word is stored;
The word string cohesion calculating means
Take a word string that is a set of a certain number of words before and after the word boundary,
For each of the word strings, a population vector distribution is estimated from the distribution of the word vectors constituting the word string,
A word string cohesion degree calculating process for calculating a similarity measure or a distance scale as a word string cohesion degree, such as a Calpac-Liber distance between the population vector distributions corresponding to the preceding and following word strings;
Meaning paragraph boundary recognition means,
When the word string cohesion is a similarity measure, a word boundary that is a minimum is recognized, and when the word string cohesion is a distance measure, a word boundary that is a maximum is recognized as a semantic paragraph boundary. Boundary recognition process,
A text segmentation method characterized by comprising :
テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割装置であって、
前記テキストを形態素解析して、単語に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている概念ベースと、
前記概念ベースを検索することによって前記形態素解析手段で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得手段と、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、前記各単語列に対し、該単語列を構成する単語の前記単語ベクトルの和ベクトルまたは重心ベクトルを算出し、前後の単語列に対応する前記和ベクトルまたは前記重心ベクトル間の余弦測度を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出手段と、
前記単語列結束度が類似尺度である場合極小である単語境界を、前記単語列結束度が距離尺度である場合極大である単語境界を、前記テキストの意味段落の境界と認定する意味段落境界認定手段と
を有することを特徴とするテキスト分割装置。
A text splitting device that splits text into semantic paragraphs, which are units of semantic units,
Morphological analysis means for analyzing the text and dividing it into words,
A concept base that stores vectors representing the meaning of words;
A word vector obtaining means for obtaining a word vectors corresponding to each word obtained by the morphological analysis unit by searching the concept base,
Take a word string that is a set of a certain number of words before and after a word boundary, and for each word string, calculate the sum vector or centroid vector of the word vectors of the words that make up the word string, A word string cohesion degree calculating means for calculating a similarity measure or a distance measure including a cosine measure between the sum vector or the centroid vector corresponding to a word string as a word string cohesion degree;
When the word string cohesion is a similarity measure, a word boundary that is a minimum is recognized, and when the word string cohesion is a distance measure, a word boundary that is a maximum is recognized as a semantic paragraph boundary. Boundary recognition means ,
A text segmentation device characterized by comprising:
テキストを意味的なまとまりの単位である意味段落に分割するテキスト分割装置であって、
前記テキストを形態素解析して、単語に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている概念ベースと、
前記概念ベースを検索することによって前記形態素解析手段で得られた各単語に対応する単語ベクトルを取得する単語ベクトル取得手段と、
単語の境界の前後に、ある個数の単語の集合である単語列をとり、前記各単語列に対し、該単語列を構成する単語のベクトルの分布から母集団ベクトル分布を推定し、前後の単語列に対応する前記母集団ベクトル分布間のカルパック・リーブラー距離を始めとする類似尺度または距離尺度を単語列結束度として算出する単語列結束度算出手段と、
前記単語列結束度が類似尺度である場合は極小である単語境界を、前記単語列結束度が距離尺度である場合は極大である単語境界を、前記テキストの意味段落の境界と認定する意味段落境界認定手段と、
を有することを特徴とするテキスト分割装置。
A text splitting device that splits text into semantic paragraphs, which are units of semantic units,
Morphological analysis means for analyzing the text and dividing it into words,
A concept base that stores vectors representing the meaning of words;
Word vector acquisition means for acquiring a word vector corresponding to each word obtained by the morpheme analysis means by searching the concept base;
A word string that is a set of a certain number of words is taken before and after a word boundary, and for each word string, a population vector distribution is estimated from the distribution of the word vectors constituting the word string. A word string cohesion degree calculating means for calculating a similarity measure or a distance scale as a word string cohesion degree, including a Calpac-Liber distance between the population vector distributions corresponding to columns,
When the word string cohesion is a similarity measure, a word boundary that is a minimum is recognized, and when the word string cohesion is a distance measure, a word boundary that is a maximum is recognized as a semantic paragraph boundary. Boundary recognition means,
A text segmentation device characterized by comprising:
コンピュータを、
請求項3または4記載のテキスト分割装置として機能させることを特徴とするテキスト分割プログラム。
Computer
5. A text division program that functions as the text division device according to claim 3 .
コンピュータを、
請求項3または4記載のテキスト分割装置として機能させるプログラムを格納したことを特徴とするテキスト分割プログラムを格納した記憶媒体。
Computer
5. A storage medium storing a text division program, wherein the program for functioning as the text division device according to claim 3 is stored.
JP2001146872A 2001-05-16 2001-05-16 Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program Expired - Fee Related JP3775239B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001146872A JP3775239B2 (en) 2001-05-16 2001-05-16 Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001146872A JP3775239B2 (en) 2001-05-16 2001-05-16 Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program

Publications (2)

Publication Number Publication Date
JP2002342324A JP2002342324A (en) 2002-11-29
JP3775239B2 true JP3775239B2 (en) 2006-05-17

Family

ID=18992445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001146872A Expired - Fee Related JP3775239B2 (en) 2001-05-16 2001-05-16 Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program

Country Status (1)

Country Link
JP (1) JP3775239B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2006255181A1 (en) * 2005-06-06 2006-12-14 The Regents Of The University Of California Relationship networks
JP4873738B2 (en) * 2007-07-09 2012-02-08 日本電信電話株式会社 Text segmentation device, text segmentation method, program, and recording medium
CN104216934B (en) * 2013-09-29 2018-02-13 北大方正集团有限公司 A kind of Knowledge Extraction Method and system
CN110020420B (en) * 2018-01-10 2023-07-21 腾讯科技(深圳)有限公司 Text processing method, device, computer equipment and storage medium
JP7771580B2 (en) * 2021-09-10 2025-11-18 大日本印刷株式会社 Inter-set relationship calculation device and information processing device

Also Published As

Publication number Publication date
JP2002342324A (en) 2002-11-29

Similar Documents

Publication Publication Date Title
US8027977B2 (en) Recommending content using discriminatively trained document similarity
US20180189265A1 (en) Learning entity and word embeddings for entity disambiguation
CN111738589B (en) Big data project workload assessment method, device and equipment based on content recommendation
CN103678316B (en) Entity relationship sorter and entity relationship sorting technique
CN114330335B (en) Keyword extraction method, device, equipment and storage medium
CN114091425A (en) Medical entity alignment method and device
CN103562907B (en) For assessing the equipment of synonymous expression, methods and procedures
Hadj Taieb et al. Fm3s: Features-based measure of sentences semantic similarity
US20090157656A1 (en) Automatic, computer-based similarity calculation system for quantifying the similarity of text expressions
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
Üstün et al. Unsupervised morphological segmentation using neural word embeddings
JP4325370B2 (en) Document-related vocabulary acquisition device and program
JP3775239B2 (en) Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program
WO2016210203A1 (en) Learning entity and word embeddings for entity disambiguation
WO2021093871A1 (en) Text query method, text query device, and computer storage medium
Hirschberg et al. V-Measure: a conditional entropy-based external cluster evaluation
CN107092679A (en) A kind of feature term vector preparation method, file classification method and device
Claveau et al. Strategies to select examples for active learning with conditional random fields
JP3925418B2 (en) Topic boundary determination apparatus and program
JP5869948B2 (en) Passage dividing method, apparatus, and program
JP3178406B2 (en) Hierarchical sentence classification device and machine-readable recording medium recording program
JP7475844B2 (en) Information processing device, information processing method, and program
CN111368068A (en) Short text topic modeling method based on part-of-speech feature and semantic enhancement
JP2006338342A (en) Word vector generation device, word vector generation method and program
JP4938515B2 (en) Word correlation calculation device and method, program, and recording medium

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060213

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090303

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110303

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110303

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120303

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees