会社に顔を出すとペリカン便の箱が。
やっと帰ってきたよ、私のThinkpad。
ブートしてみる。いい感じで立ち上がる。 完全復帰。
しかし、この2週間の間のデータやら、 作業やらを移したり復旧させたりするのがそれなりに面倒だ。
一番面倒なのはmorq、もっと具体的にはRastのデータだなあ。 データベース壊しちゃったしなあ。
というわけで、Rast担当者と話をしてみる。
「ちょっと遅いんじゃない?」とか「ちょっとスケーラビリティに欠けるんじゃない?」とか。 身内なのに容赦ないな。いや、「ちょっと」が付いてるぶんだけ優しいのか。
が、彼自身は本業が忙しくて手が出せないらしい。 うーむ。会社としてはお金になる仕事が当然優先だしな。 しかたない。私が手を出すか。 あんまり得意じゃないんだけどな、スピードが要求されるプログラミングは。
しかし、いい話も聞いた。 http://www.j96.org/w3ml/rast-ja/msg/52に投稿されたパッチを使うと(機能制限は出るが)、ずいぶん高速化されるらしい。
今度試してみよう。しかし、自前でRastコンパイルできる環境があったかな。 まず環境整備から始めないと。
今度、情報処理学会の全国大会でこういう発表をします、という話。
5つの主要なオープンソース全文検索エンジン(Namazu, Lucene, Senna, Estraier, Hyper Estraier)について、登録文書数1万件−500万件の範囲での、インデクシング速度および検索速度を測定した結果と、そこから得られた知見を報告します。
だそうです。Rastは仲間に入れてもらえませんよ、ぐすん。
これもスケールしないからだろうか。今後に期待。
以前にRastの評価を試みたことがあります。Rastは5万件の登録で数時間かかり、他の検索エンジンと比較してあまりにも遅いと判断し、評価終了としました。
インデックス方式と比較するのは意味がないので、Hyper EstraierのN-gram方式と比較しますが、インデクシング速度には二桁以上の差、検索速度も数倍の差があります。
再現率と適合率は悪くなかったので、これからの速度向上に期待しています。
Rastって現状ではcygwinでコンパイル通らないんですよね。
そのせいでまだmorqに移行できないでいます。
もっとも、cmailがEmacs 22でも動くようになったし、仕事の上ではほとんどのメールを別フォルダに飛ばしてしまうようにしてINBOXになにも残さないようにしたら、それなりに使えるようになってます。
家のメールは死んでますけど。
SPAMをなんとかしなきゃ。