【レポート】
情報処理学会第67回全国大会 - 情報の検索・抽出最先端
2005/03/04
文書の電子化やWebによる情報公開が進んだ現在、膨大な情報の中から必要な情報を検索する技術が重要性を増している。特に、欧米の言語と違って単語が分かち書きされない日本語では、情報の効率的な検索・抽出は、形態素解析などの様々な基礎研究の上に成り立っていると言える。本稿では、3月2日から東京・調布の電気通信大学で開催されている情報処理学会の第67回全国大会より、「人工知能と認知科学」の1セッションとして情報通信研究機構の村田真樹氏を座長に行われた「情報検索・抽出」の模様の一部をレポートし、情報検索技術の動向を見ていきたい。
単語共起行列の次元圧縮に基づく概念検索方式の評価
同セッションでは、三菱電機情報技術総合研究所から、文書検索方式に関する2つの研究発表が行われた。まずそのひとつ、検索のための基盤技術として提案された「概念検索方式」から紹介しよう。
概念検索方式は、自然文の入力から類似度の高い文書を検索する技術であり、様々な企業が研究を行っている。概ねその前提となるのは、従来のベクトル空間モデルによる検索方式があくまでも全文検索の拡張であるため、キーワードに含まれる単語そのものの検索はできても、類義語辞書がないと関連語が検索できないという問題である。検索対象となる文書毎に類義語辞書を用意するのは手間やコストの面でも現実的でなく、入力された語句と蓄積された文書の間の類似度をいかに測るか、というのが大きな課題となる。
三菱電機の概念検索方式の特徴は、文書中の語の出現頻度から「概念索引」と呼ばれる索引を自動生成し、線形代数手法に基づく計算によって、言葉の関連性を自動抽出することである。この概念抽出処理では、文書中で近くに現れる語の頻度(共起頻度)から単語共起頻度表を作成する。この単語共起頻度表は極めて膨大なデータとなるため、これを「特異値分解」と呼ばれる手法を使って次元圧縮したものが、実際の抽出に利用される。
研究では、特許明細書200万件に対して、「OCR」「文字認識」「ワープロ」「かな漢」などの言葉で検索を行い、概念検索方式、ベクトル空間モデルそれぞれの適合率、再現率を比較するという実験が行われた。一般に、適合率とは検索結果中の正解の割合、再現率は全正解のうち検索結果として含まれた割合を指すが、概念検索方式は従来のベクトル空間モデルによる抽出よりも、適合率・再現率共に上回ることが確認されたという。
N-gram全文検索と概念検索を融合した文書検索方式の検討
三菱電機のもうひとつの研究は、先の概念検索方式とN-gram全文検索を融合した文書方式の検討である。全文検索は、指定されたキーワードを確実に取得できる利点があるが、一方で類義語、関連語の検索に向かない。概念検索は既に述べた通り、類義語・関連語の取得も可能だが、関連性の低い文書については検索漏れが起きる可能性がある。そこで、この2つの方式を融合することにより、より高い精度の情報抽出を可能にしようというのが、この研究の試みである。
実験では、概念検索方式と同様に特許明細書を利用し、「自動販売機」や「浄水器」などの語の検索を行った結果から評価が行われた。N-gram全文検索でキーワードの抽出、検索を通して算出されたスコアと、概念検索で算出されたスコアをもとに、「統合一致度計算」を行うことで両方式を融合するというのがその手順だ。その結果、適合率、再現率共に、全文検索、概念検索を単独で実行する場合より良好な結果が得られたという。例えば全文検索では1,250位まで抽出してようやく全正解が得られるのに対し、融合方式では200位までに全正解が出現するといった精度の向上が見られたということだ。
Webを対象としたプロフィール情報の項目化と統合
現在、企業内で蓄積される文書だけでなく、Web上にも多くの情報が散在している。これを有益なデータとして抽出する技術も、今後特に重要とされていくだろう。大阪府立大学による研究は、Web上の記述から人物の情報を抽出し、「プロフィール」として項目化、情報統合を行うというものだ。
まず、プロフィール情報を抽出する手順から見ていこう。最初に、対象となるWebページの選別が行われる。発表では、例として米大リーグ・シアトルマリナーズの「イチロー」選手の情報を選別する方法が示されたが、ここでは、多くの場合対象となる人物の名前がWebページ中の最初の方に出現するという特徴を利用する。具体的には、HTMLドキュメントのタグからページの階層的な構造を割り出し、ツリーの上位ノードに出現する人名から判断してページを選別することになる。
次に、選別されたページから項目の抽出を行う。大抵の人物紹介のページに記載されている「生年月日」や「出身地」などの項目を抜き出す作業がこの手順になる。さらに、各項目について、「TF-IDF重み」でベクトル化し、SVM(サポートベクトルマシン)によるパターン識別を行うというプロセスを経て、その項目がプロフィール情報を含む情報かどうかが判断される。
この結果として得られるプロフィール情報には、例えばイチローの場合には「出身地:愛知県」「愛知県出身」のように、同じ意味でも異なる書かれ方をしている情報が重複して含まれる場合も多い。そこで、形態素解析を利用して類似した情報を統合し、無駄な冗長性を排除する処理も行う。実際にGoogleを使って検索を行った場合にヒットする上位100件のページを利用し、再現率、精度、F値を評価する実験では、高い再現率、F値を記録すると共に、情報統合によって精度が大幅に向上することも導き出されたという。
まとめ
こういった基礎研究は一般のエンドユーザにはあまり馴染みがない世界だが、今後も増え続ける様々な情報、文書の有効活用を実現する技術として、将来の情報処理の一端を担うものであることは間違いない。
今回のセッションは、Webにしても、オフィスで活用するアプリケーションにしても、利便性の向上はこれらの研究の上に成り立っているのだということを実感できたという点で、非常に有意義なものだった。こと情報処理に関して、日本語は欧米の言語に対して様々なハンデを負っているが、それだけに優れた技術を生む土壌にもなり得るとも言えるのではないだろうか。
関連記事
- 【コラム】Yet Another 仕事のツール 第45回 日本語形態素解析ツール「ChaSen」[2004/11/30]
- シマンテック、サーバー向けウイルス対策/コンテンツフィルタリングソフト[2003/12/25]
関連サイト
ヘッドライン
- IBM、初の米国政府機関向け研究所を開設 - 技術革新、開発、教育に特化[21:01 4/27]
- IMAP 4 / CalDAVクライアント「Mulberry」がオープンソースに[19:31 4/27]
- Samsung、2つのICカード用小型マイコンを発売 - パスポートでも利用可能[19:12 4/27]エレクトロニクス
- 日立マクセル、DDS-6対応のサーババックアップ用磁気テープを発売[16:59 4/27]
- 【レビュー】JavaでWebページをレンダリング! - WebRendererを試す[16:43 4/27]
- 人気のAjaxフレームワークがメジャーバージョンアップ! - DWR 2.0.1リリース[16:19 4/27]Web2.0
- 【レポート】今のアドビを裏で支える!? Flex User Groupコミュニティ潜入レポート[15:06 4/27]
- WS-Context 1.0がOASIS標準へ - Webサービスの組み合わせ方法を規定する[13:00 4/27]
- "Groovyは革新的かつ独創的" - JAX 2007 innovation awardでGroovyが優勝[12:50 4/27]Java
- 米Sun、大容量ビデオ配信プラットフォーム「Sun Streaming System」[12:34 4/27]