"2005年08月" archive
8 27, 2005
せがた三四郎 CM集
うは。懐かしい。せがた三四郎はほんとうに秀逸なキャラクタだったと思います。
17本も撮ってたんですね。ひょっとするともっとあるのかな。
せがた三四郎 CM集
http://gameads.gamepressure.com/tv_games_commercials.asp?SEARCH=Segata
8 25, 2005
IBM Student Live 2005
"IBM Student Live 2005"はIBMが主催する学生向けイベントです。2005年9月16日(金)、早稲田大学理工学部にて開催されます。参加費は無料で、現在参加申し込み受付中。
"IBM Student Live 2004"でぐぐっても一件もヒットしませんし、今年初めて開催するイベントのようです。プログラムを見ると、Microsoftの"The Student Day"に比べてかなり堅いなという印象。学生相手だと、ある程度エンターテインメント性を持たせないと参加者が集まらないかも。
IBM Student Live 2005
http://www-6.ibm.com/jp/software/scholars/event/s-live2005/index.html
google talkインストールしたよ
アカウント名は shinsuke.ihara@gmail.com です。どうぞ登録してやってくださいませ。
マイクが無いのでボイスチャットは出来ません。そのうち買ってきます。
8 22, 2005
メモ: blog研究の現状
一ヶ月遅れになっちゃいましたが、人工知能学会・第10回セマンティックWebとオントロジー研究会での大向一輝氏の発表「サーベイ:Blog研究の現在 2005」のメモ。
もうどこかが書いているかもしれませんけど、備忘録も兼ねて。
2003年まで
黎明期。
blogをネタにした研究発表は少ない。
特に査読付き論文はほとんどない。
2004年
勃興期。
blogを研究対象とする人が増え、研究発表も盛んになる。
WWW2004では"Weblogging Ecosystem: Aggregation, Analysis and Dynamics"と題したワークショップが催され、多くの研究者が集まる。
この年のblog研究におけるトレンドは以下。
・国勢調査
・リンク構造分析
・カルスタ(カルチュラル・スタディーズ)
・クローリング
・スパムフィルタリング
2005年
隆盛期。
blog研究はさらに勢いを増し、技術的・学術的にも興味深い試みがblogosphereから産まれてくるようになる(ex. microformats)。
この年のblog研究におけるトレンドは以下。
・時系列分析
blogoshereは流行に対する鋭敏性が高く、ある時点でのトレンドを取りやすい。(ex. blogWatcher)
・リンク構造分析
blogに特化したスコアリング手法。blogを評価するのにPageRankはあまり適切でない。
・個人とそのつながり
個人を評価するアルゴリズム。そいつの書いた記事を餌にしてレコメンデーション。
・メタデータ応用
RSSを拡張(地理情報埋め込むとか)したり、RSSを大量に持ってきてマイニングしたりとかそのへん。
・bloggerの行動分析
まーなんですかね、アレとか。
2006年、さらにその先
未来は僕らの手の中!
8 21, 2005
Ai Kijimaのコラージュ (via we make money not art)
Ai Kijimaはシカゴ在住のアーティストです。ベッドシーツやカーテン、枕カバー、服、etc...を組み合わせたコラージュ作品を作っています。こちらにインタビュー記事があります(英語)
上に貼ったものは白雪姫がメインモチーフになっており、まだしも柔らかく調和の取れた感じがしますが、多くの作品は色調や遠近感の乱れから、ある種の異様さ、不安定さを感じさせるものになっています(たとえばこれとか)。その異様さが、コラージュの材料となったキャラクタや模様のポップさ・明るさと鬩ぎ合い、何とも云えない持ち味となっていて素晴らしいです。
AI KIJIMA (オフィシャルサイト)
http://www.artic.edu/~akijima/index.html
Ai Kijima's quilted collages(@ we make money not art)
http://www.we-make-money-not-art.com/archives/006793.php
Post a comment to 'Ai Kijimaのコラージュ (via we make money not art)'
RingBits: google poweredなRingtone(着メロ)検索エンジン
このサイトのおかげで、海外では着メロを"Ringtone"と呼ぶことを知りました。なんてニッチな知識。
RingBitsは着メロの検索エンジンです。900,000の着メロをインデクシングしてるそうです。ジャンルによる絞り込みも出来ます。
着メロ検索は、国内ではCroozというのがやっています。背後でどういうテクノロジーを使ってるのか気になるところ。この手のdomain specificな検索エンジンはこれからどんどん増えていくのでしょうね。
RingBits.com
http://search.ringbits.com/
Post a comment to 'RingBits: google poweredなRingtone(着メロ)検索エンジン'
8 19, 2005
PodWalker: ポッドキャスティングに時空をクロスさせる試み
僕のマイミクシィの川井 拓也という人が面白いことを言っているので勝手に紹介したいとおもいます。
川井氏は"PodWalker"というのを提案しています。PodWalkerとは、mixiのコミュニティから引用すると、
■PodWalkerって何? ポッドキャスティングに時空をクロスさせる世界初の試み!「A地点からB地点までを実際に歩きながらそのプロセスを見えるように解説した音声を、別の人がA地点からB地点を目指しながら聞く」ことを「ポッドウォーカー」といいます。さあ!どんどん「道草」と「寄り道」をしよう!
というものです。また、氏の「PodWalker~耳で見る地図」というblogでは、実際にいくつかのPodWalker音源を公開しています。たとえば以下のように。そのままiPodに転送して聴くこともできます。
これがどれだけ流行るのかは良く分からないのですが、とても面白い試みだとおもいます。たとえば、誰かにお勧めのスポットを紹介するのに使えます。路地裏にある隠れた名店を紹介するのにもっておいです。街や駅前の歩き方を教えるのにも使えます。渋谷や新宿のような都市は巨大で雑多すぎて、どこをどう歩いたら良いか分からないので、その道の達人に教えてもらいたい。誰かが「新宿のオタクな店をぐるりと回るコース」のPodWalkerを公開してくれたらぜひ聴きます。あと、僕はよく道に迷うので、色んな会社が最寄り駅からオフィスまでの道筋をPodWalkerで公開してくれると嬉しいです。他にも色んな場面で使い道があるような。
「音声による道案内」という着想自体は前々からあると思うんですが、それをiPodというある程度普及したデバイスに引っ張ってきて、遊び心を適度に加えたのにはセンスの良さを感じます。実際に聴いてみると、現地に居なくてもそれなりに面白い。生録ならではのリアルさがあるのも良い感じ。
統計学が面白い件
時代はベイズらしいということで「ベイズ統計学入門」という本を買ってきてちょこちょこと読んでる。 igucciさんの日記でも紹介されてた本だ。
目下、ベイズの定理に本格的に入る前の、統計学の基礎知識を扱う部分で足踏みしてる状態。統計学って学部で習ってない(選択科目であったっけ?)し、ほとんど知識がないっぽ。
で、今日は中心極限定理というのを知った。
http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86
http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/tyuusin2/chuusin.htm
http://dsl4.eee.u-ryukyu.ac.jp/DOCS/error/node21.html
特に「母集団がどのような分布を持っていても,そこから取り出した標本の算術平均は正規分布にしたがう」という性質が面白い。2つ目のURLにあるJavaアプレットで実際に試してみることができる。魔法のように感じる。数学的にきちんと証明もされているらしい。
情報工学のカリキュラムとして、統計学と情報理論は学部で仕込んでおくべきだと思う。学部生に何を教えるかというのは難しい問題だが、「その知識をどれだけ広く応用できるか」というのが取捨選択の際に重大な基準となると思われる。その観点から見ると、統計学と情報理論は入っていて欲しいところだ。 僕の卒業した情報工学科のカリキュラムはそうじゃなかったのが残念。
それにしても統計学はおもしろいな。 二項分布を近似したのが正規分布とポアソン分布だったとか知らなかった。別々のものだと認識しとった。
8 16, 2005
Google Alternate Searches
google先生がこんなの作ってるらしいよ。
8 15, 2005
色彩の錯視, This is the most amazing optical effect in the world.
「色彩の錯視」というのがあります。人間の色彩感覚というのは面白くて、まったく同じ色が周りの色彩によって違った色に見えることがあります。今までにいくつかの実例を見たことがありますが、これほど見事なものは初めてみました。
上の図を見てください。十字架のような形をしたオブジェクトが2つあります。この2つのオブジェクトの、中心部(十字架の交差部分)のパーツの色はどちらも同じです。しかし、左側は灰色に、右側は黄色に見え、両者が同じ色とはとても思えません。
この図は下のflashからスクリーンキャプチャしたものです。他にもいくつかの「色彩の錯視」の実例を見ることができますし、マスクを被せて本当に両者が同じ色なのか確認することも出来ます。超お勧めです。
eChalk colour perception This is the most amazing optical effect in the world
http://www.echalk.co.uk/amusements/OpticalIllusions/colourPerception/colourPerception.html
Post a comment to '色彩の錯視, This is the most amazing optical effect in the world.'
8 14, 2005
ピッケのおうち
ブラウザで見られる「動く絵本」。黄色い色をした子ブタのキャラクタが「ピッケ」で、こいつと色々なコミュニケーションをしながら、インタラクティブな仕掛けを楽しむことができます。これはすごい。
実装は SHOCKWAVE + Microsoft Agent + JavaScript でしょうか。よく作るなあ。
8 13, 2005
田中製作所の「新発想 自動ドア」
うわ、なにこれ。欲しい。
新発想 自動ドア
http://www.e-taf.co.jp/cgi-bin/e-taf/sitemaker.cgi?mode=page&page;=page2&category;=0
尾内研究室クローラ勉強会 レジュメ
第一回 http://blog.windy.ac/archives/onailab_crawler_study_meeting_part1.pdf
第二回 http://blog.windy.ac/archives/onailab_crawler_study_meeting_part2.pdf
第三回 http://blog.windy.ac/archives/onailab_crawler_study_meeting_part3.pdf
第四回 http://blog.windy.ac/archives/onailab_crawler_study_meeting_part4.pdf
第五回 http://blog.windy.ac/archives/onailab_crawler_study_meeting_part5.pdf
これは何ですか
僕の研究室で去年の夏に開催した「クローラ勉強会」のレジュメです。全部で5回分あります。
クローラ勉強会とレジュメの中身について
クローラ勉強会は、僕の研究室の有志6~7名によって、以下のような目標のもとで行われました。
・クローラについて基礎的な知識を得る
・オープンソースなクローラ「JSpider」のソースコードを読んで、その動作を知る
・JSpiderを弄くって用途に応じた機能を追加したりできるようになる
レジュメの内容もこれに沿ったものになっています。
第一回目の前半で、クローラについて軽く説明。第一回目の後半以降は、ひたすらJSpiderのソースコードを追っかけています。いかんせん内容がニッチなもので、あまりこんなものを必要とする人は居ないだろうとも思うのですが、クローラについて知りたいとか、自分でクローラを書きたいとかいう人にはそれなりに役に立つかも知れません。……誰かの役に立つと良いのだけど。
JSpiderについて
JSpiderは中~小規模のクローリングを目的としたオープンソースなクローラです。あるWebサイトをまるごとクローリングする、あるURLを起点としてそこから数階層をクローリングする、といった用途を対象として設計されています。googlebotやYahoo! Slurpのように、億単位のWebページを蒐集することは想定されていません。
言語はJAVA、ライセンスはLGPLです。251のクラスから成り、ソースコードの総量は419KBです。あまり苦にせず片手間にでも読める規模かと思います。pureなJavaで書かれているので、Windowsでも動きます。クラス構造が洗練されており、カスタマイズ性が高いです。ドキュメントもそこそこ優秀です。また、僕の研究室では「もぶろげっと」というblog検索エンジンを公開していますが、このシステムのクローラには、JSpiderをカスタマイズしたものを使っています。
クローラのソースコードを読みたいという人、クローラを作りたいけど1から作るのはだるいから既存のものをカスタマイズして対応したいという人、どちらにも概ねお勧めできると思います。ソースコード・クラス構造ともに綺麗で読みやすいことと、プラグインで機能を拡張できるなどカスタマイズ性が高いということがメリットといえます。
JSpiderのWebサイトはこちらです。
JSpider
http://j-spider.sourceforge.net/
再配布等について
リンク、再配布など、ご自由に。
内容に間違いや気になる点があれば、御指摘を歓迎します。
8 12, 2005
ノラ牛にRFID
今までに聞いたRFIDの使い道のなかで、いちばん面白いです。
Cows are revered as sacred among Hindus and are protected by law. Some 40,000 cows are thought to be roaming the streets of Delhi, posing a serious traffic hazard. The authorities in the Indian capital have turned to microchips to tackle the growing problem of stray cows roaming the streets.A court had earlier ordered authorities in south Delhi to offer a reward of $45 to anyone delivering a stray cow. The authorities then sell the cow to a new owner but they are concerned people might take advantage by bringing back the same cow for quick money.
A $11 microchip in the cow's gut will now allow resident welfare associations to determine whether the cow brought to the authorities was a stray one or not.
試訳:
牛はヒンズー教徒にとって神聖なものであり、また法律でも保護されています。デリー(インドの首都)にはおよそ4万頭のノラ牛が居て、深刻な交通の障害になっています。当局はこのノラ牛問題に対して、マイクロチップを使った取り組みをしています。法廷は当局に対し、ノラ牛を連れてきた者には45ドルの報酬を与えることを命じています。当局はそうして連れてこられたノラ牛を新しい飼い主に売却するのですが、彼らは利益を得るため、買い取った牛をふたたび連れてきているのではないかという心配がありました。
そこで11ドルのマイクロチップを牛の内臓(?)に埋め込み、連れてこられた牛がノラなのかそうでないのか(すでに誰かの飼い主になっているのか)分かるようにしました。
RFID tags for stray Delhi cows (@ we make money not art)
http://www.we-make-money-not-art.com/archives/006723.php
8 11, 2005
「誰か書いたか」よりも「誰が選んだか」でフィルタリングしたほうが精度高いねっていうお話
「今さらこんなこと書いてるんじゃネーよ」って思われるであろうことを書きますごめんなさい。
ぼくはRSSリーダに200くらいのRSS(以下、blogのRSSと書く)を登録して、毎日だいたい1時間くらい掛けて、それらの新着記事をチェックしています。で、最近になって、はてなブックマークやdel.icio.usで自分と興味の似通った記事をブックマークしている人を何人かピックアップして、そのRSS(ブックマーカーのRSSと書く)をあわせて登録してみました。
すると、直ぐにブックマーカーのRSSから先に新着記事をチェックするようになり、blogのRSSは後回しで、時間が無いときにはチェックをすっ飛ばすようになりました。今では、ブックマーカーのRSSの数をもう少し増やして、blogのRSSはほとんど削除してしまおうかと考えています。
というのは、ブックマーカーのRSSの方が、blogのRSSに比べて、得られる記事の平均的な質が高いんです。明らかにそうだと分かるくらい高いと思います。
では、両者で何が違うのかってことなんですが、これは明確で、blogのRSSは「誰が書いたか」ということに着目して記事を抽出します。対して、ブックマーカーのRSSは「誰が選んだか」に着目します。Webに登場してくる無数の記事から、自分にとって価値のあるものを取り出してくるときには、「誰が選んだか」に着目した方がより効率的のようです。
どうしてそうなるのか考えてみました。第一に、ブレの幅ということがあるように思えます。blogというのは個人によって書かれる媒体なので、やはり一つのblogに様々な内容の記事が投稿されることが多いです。技術的な考察と音楽CDのレビューと今週の週刊少年ジャンプの感想と今日のランチの写真が一つのblogにごっちゃになっていたりするわけで、ここで「この人の書いた技術的な考察を読みたい」と思ってそのRSSをチェックしている読み手にとっては、それ以外の記事はノイズになってしまいます。
それに対して、ブックマーカーのRSSでは、話題のブレが小さいという感じがします。ある特定のテーマを、たとえば技術的な話題なら概ねそれだけをブックマークする人が多いという印象があります。……とか書きながら、本当にそうなのか怪しい気がしてきたな。まあいいや。
次に、網羅性が上がる(対象となるWebの領域が広がる)ということがあります。blogのURLを沢山登録するという方法だと、それらのblogに新しく投稿された記事しか拾えません。対して、ブックマーカーのRSSだと、RSSに乗らないURLや、時間的にそれより以前に登場したURLも含まれてきます。
最後に、単純にフィルタリングの階層が一つ増えてるから、というのが考えられます。ブックマーカーのみなさんは、たぶんRSSリーダなり何なりでお気に入りのblogやニュースサイトをチェックしつつ、気に入った記事をブックマークしていく、というスタイルでやっている人が多いと思います。ブックマーカーの厳しい目をくぐり抜けたURLだけが、ブックマーカーのRSSに載ってくるわけです。たぶんこれが、ブックマーカーのRSSのほうが質が高いと感じる、一番大きな原因でしょうか。
Post a comment to '「誰か書いたか」よりも「誰が選んだか」でフィルタリングしたほうが精度高いねっていうお話'
8 9, 2005
laboo: 印象や目的から検索できる車種検索エンジン
これは凄い。今月一日にリリースされたとのことですが、どうしてCNETやITMediaなどのニュースサイトで報じられていないのかが分かりません。はてなブックマークでもまったくブックマークされていないようです。ちゃんとプレスリリースを打たなかったんでしょうか。
labooは「車種」の検索エンジンです。主要な車種は現在800くらいあるんだそうですが、それを印象や目的といった曖昧な要求から絞り込んでいくことができます。Flashベースのインタフェースも素晴らしいです。これだけのものを作れる会社はそうそう無いでしょう。
言葉で説明するよりも絵を見た方が分かりやすいと思います。上に2つ、スクリーンショットを載せました。
一つ目ではある車種に関連性の高い車種を、ネットワークのようにして表示しています。表示されている別の車種を選ぶことによって、次々とネットワークを辿っていくことができます。グラフ構造の可視化アルゴリズムは独自に開発したとのことですが、かなり良くできていると思います。
2つ目では、ユーザの好む服や装飾品のブランド、有名人などから、その人に合っていると思われる車種を推薦しています。
面白いのは、車種の名前や価格帯を直截的に入力させるのではなく、好きなブランドやライフスタイルといったユーザの属性から車種を推薦していく方法を採っていること。また、調査データや優れた実装能力&デザイン能力を背景に、実装として質の高いものになっているということ。
車を買う予定なんて無くても、検索エンジンに興味を持っているなら、是非触っておくべきサービスと思います。
8 8, 2005
Xango! ブログ検索
「未来検索ブラジル」によるblog検索エンジン。未来検索ブラジルは全文検索エンジンSennaやWebクローラXangoを作ってる会社で、自社技術のプロモーションとして作っているのではないかと思います。
記事数はいまのところ約1千万件。インタフェースはごく普通。検索速度はかなり速いです。
Xango! ブログ検索
http://xango.razil.jp/
8 7, 2005
はてなブックマークにネガティブ投票の機能を実装して欲しい
はてなブックマーク(以下はてブ)をWebページのレーティングシステムとして捉えることも出来ると思います。で、そうすると、ネガティブ票を投じる機能が欲しくなってきます。
実際、はてブの熱心なユーザならこういうことを幾度と無く体験しているはずです。つまり、
1. 「最近の人気エントリー」から、人気のあるURLにアクセスしてみる
2. しかし、そのURLは自分には質の低いものに思える
3. なぜこんなURLが人気を集めているのか分からない
4. その気持ちをフィードバックしたい
というようなことを。ここで、そういう気持ちをはてブに対してフィードバックできないというのはシステムの欠陥とすら言えるように思えます。
現在のはてブでは、あるURLをブックマークすることを、そのURLに対するポジティブな投票と見なし、よってWebページに対する一種のレーティングを行っています。しかし、投票はポジティブなものに限られ……換言すると、すべての投票はポジティブなものと見なされ、ネガティブな票を投じる機能は提供されていません。ネガティブ票を投じる機能を提供したときに、はてブがどうなるかというのは、個人的には非常に興味深いところです。
また、ネガティブ投票の実装は、はてブの人気エントリーリストのクオリティをさらに高めることになる可能性があります。ネガティブ投票の機能には、スケール補正の効用があるからです。
現在のはてブでは、特定のblog、特定のWebサイトのURLが極端に人気を集める傾向が見られます。たとえばnaoya氏のblogや、はてな近藤社長のCNETの記事などは、かなり高い確率で「人気エントリー」のリストに登場してきます。
(断っておきたいのですが、僕はそれらのURLの質が低いと言いたいのではありません。単純に、それらのURLに人気が集中する傾向があると言うことを述べています)
これは、はてブのユーザの大きな割合が、それらの記事を閲覧しているためではないかと思います。はてブにおけるブックマーク数は
閲覧したユーザ数 × 閲覧したユーザがそのURLをブックマークする確率
で与えられると考えられます。ここで、そのURLの質の高さはブックマーク率に概ね従うと考えられます。同時に、閲覧ユーザ数が大きければ、ブックマーク率が小さくても結果としてそのURLは沢山のブックマークを集めることになります。
端的に言うと、現在のはてブの仕組みだと、単に多くのユーザに閲覧されているだけのURLが、相対的に高い評価を受けてしまいます。これはあまり望ましいことではないと思われます。ネガティブ投票の機能には、これを修正する役割を期待できます。
……とはいえ、ここまで偉そうに書いたことを翻すようで恐縮ですが、ネガティブ投票に多々問題があることも確かです。「ソーシャルなブックマーク」というサービスのコンセプトにやや外れる機能でもあります。大勢のユーザが広くWebページをレーティングする、あるいはWebページに注釈を付けるという試みは今までに多数なされてきました(たとえばAnnotea projectのような)が、どれも成功しているとは言えません。はてなブックマークがその最初の成功例になると面白いと思うのですが、如何でしょうか。
8 5, 2005
mixiComCom: mixiのユーザ同士で、共通するコミュニティを表示するツール
mixiComComとは
mixiComCom(mixi Common Communities)は、mixiのユーザ同士で、共通するコミュニティを表示するツールです。
使い方
http://mixicomcom.windy.ac/ にアクセスして下さい。
mixiのユーザIDを2つ入力して、"Submit"ボタンを押して下さい。
共通するコミュニティの一覧が表示されます。
mixiのユーザIDとは、ユーザプロフィール等のURLで、id= の後に指定されているナンバーです。
たとえば下は僕のユーザプロフィールのURLですが、この場合は 15481 がユーザIDになります。
http://mixi.jp/show_friend.pl?id=15481
自分のユーザIDを調べるには、自分のプロフィールのページで「プロフィール」ボタンを押して下さい。
何の役に立つんですか?
自分とあるユーザが、どんなコミュニティを共有しているか知りたいという場合があります。
たとえば以下のようなケースが考えられます。
・自分と友人が、どんな共通の興味・関心を持っているのかを知りたい。
・足跡に残っていた見知らぬユーザが、どんなコミュニティを経由して自分のプロフィールにアクセスしたか調べたい。
しかし、コミュニティの数が多くなってくると、お互いのコミュニティを照合するのは一手間です。
そこでmixiComComを使えば楽ちんに共有コミュニティを調べることができます。
ソースコード
動くようになるところまで作ったら飽きたので、僕にはこれ以上このアプリケーションを弄るつもりはありません。
ソースコードを公開しますので、その気のある人は、どうぞ好き勝手に弄くってみてください。
ソースコードは ASP.net + C# で書かれています。また、あなたのcookieをソースコード中に設定する必要があります。詳細はreadme.txtをお読み下さい。
http://blog.windy.ac/archives/mixiComCom0.0.1.lzh
Post a comment to 'mixiComCom: mixiのユーザ同士で、共通するコミュニティを表示するツール'
JavaScript製のDemo ( via Google Blogoscoped )
これはすごい。JavaScriptだけでここまで出来るのか。
JavaScript Graphics Demo
http://www.west.co.tt/matt/js/redbug/redbug.html
Post a comment to 'JavaScript製のDemo ( via Google Blogoscoped )'
8 4, 2005
Skype Conference 2005、参加受付開始
(前略)そこで今回は、Skypeという現在最も注目を浴びているP2Pソフトウェアについて、ビジネスと技術の両面から議論するイベントを開催いたします。SkypeとP2Pに関心を持たれている皆様のご参加をお待ちしています。(Skype Conference事務局一同)
Skype Conference 2005の参加受付が始まりました。
僕は残念ながら都合が付かず参加できないのですが、充実したカンファレンスになると良いなと思います。2005年9月3日、調布(電気通信大)にて開催されます。
Skype Conference 2005
http://muziyoshiz.jp/sc2005/
Skype conference参加受付開始しました。 (@ Tomo's HotLine)
http://toremoro.tea-nifty.com/tomos_hotline/2005/08/skype_onference_60b8.html
8 3, 2005
適合フィードバックがかつてのExciteで実装されていたらしい
適合フィードバックとは、1回目の検索結果から、結果として妥当とユーザーが感じた文書を数件選択し、それら選ばれた文書と内容が類似している文書のみに、検索結果を絞り込む機能のことです。キーワードではなく、文書内容の類似性で絞り込み検索を行いますので、絞込みに使うキーワードの選択に悩む必要はありません。
……で、今まで、適合フィードバックってWeb検索エンジンでは実装例がねーよな使ってみたいんだけどなやっぱ難しいんだろうなとか思っていたんだけど、かつて今は亡きExciteで「似たものサーチ」という名前で提供されていたらしい。知らなかった。Exciteなんてろくに使ったことなかったからな。どんなものなのか、実際に使っておきたかった。ちょっと残念。
はてなブックマークをベースにして検索エンジンを作ったら万人向けにはならないよね
無印吉澤 - 「良質なコミュニティ」によるソーシャルブックマークの狭さ
http://muziyoshiz.jp/20050801.html#p01
ソーシャルブックマーク、とくにはてなブックマーク(以下はてブ)をベースにした検索システムについて考察した記事です。
興味深いのは、「Folksonomy(みんなで分類)」と「Search(検索)」を分けて扱っているところです。確かに、いまのはてブというのは「Folksonomy機能のユーザとSearch機能のユーザがほとんど一体である」ということが言えると思います。感覚的にですが。
実際、今、はてブのユーザ層というのは比較的に均質なものになっていて、ある種の文化を共有する人たち(=early adopterたち)で構成されていると思うんですが、ここに「普通のユーザ」を対比したときにどうなのかというのは面白いとおもいます。
(early adopterと普通のユーザにざっくりと二分割してしまうのはちょっと荒っぽいですが)
論点としては2つあると思います。
a. はてブをベースとした検索が、普通のユーザにとって、はたして魅力的なのか。
b. はてブがより普及し、普通のユーザも使うようになったときに、現在のような(early adopterにとっての)質の高さは維持されるのか
a.について。
たとえば最近はてブで上位に位置している話題としては、「モヒカン族」やら「ajax」やらがありますが、ああいったコンテンツが普通のユーザにとっても面白いものであるかというとたぶん違うでしょう。
「early adopterにとって面白いコンテンツ」と「普通のユーザにとって面白いコンテンツ」の2つでベン図を書いたら、両者が重なる部分というのはかなり小さなものとなると思います。
もし「del.icio.usにブックマークされているURLのみをクロールするGoogle」というのがあっても、普通のユーザにはあまり使われないのでは。
b.について。
普通のユーザが多数派となったソーシャルブックマークのイメージとして、「MyClip」というサービスを挙げたいと思います。
たとえば昨日(8月2日)のランキングはこんな感じです。
「南海キャンディーズM-1優勝なら結婚?」や「セが来季にもプレーオフ導入」なんてのが上位に入ってくるはてブはどーなんですかね。今よりも面白いんでしょうか。
で、もしソーシャルブックマークをベースにした検索システムなるものが作られるとして、それは「Folksonomy機能のユーザとSearch機能のユーザが一緒である」限りにおいて面白くて魅力的なものでありうると思います。
現在のはてブが面白いのは、ほとんどearly adopterしか居ないからです。ユーザ層が均質で幅が狭いからこそ、そのデータの質は高い。しかし、それを質が高いと思うのはそのユーザ層に含まれるか、それに近い性質を持つ人に限られるので、それをベースにして検索システムを作っても、それを面白がって使うのはそういう人だけなんじゃないかなあ、と。
GMailのアカウントあげます (おかわり)
前回のがだいたい売り切れた感じなので、追加しておきますね。
アカウントを取得するには、下のURLから適当に一つ選んでアクセスしてください。登録フォームが出てきたら当たりです。「既に登録済みです」みたいなメッセージははずれです。別のものを試してみてください。
http://mail.google.com/mail/a-eea94b9c82-b6f7b93942-bdf06848c8
http://mail.google.com/mail/a-eea94b9c82-ede16dc567-ea227cbdd3
http://mail.google.com/mail/a-eea94b9c82-9e1e36b341-cf43a81296
http://mail.google.com/mail/a-eea94b9c82-d6b1aea915-feab9186fa
http://mail.google.com/mail/a-eea94b9c82-00f5221f1d-80c11945ab
http://mail.google.com/mail/a-eea94b9c82-33dd6b4d72-13f76c0e5a
http://mail.google.com/mail/a-eea94b9c82-b74ffff1c1-8fde8fd2c1
http://mail.google.com/mail/a-eea94b9c82-409af81cb6-740cf4d1b3
http://mail.google.com/mail/a-eea94b9c82-43c2ae3bd4-315363c9c2
http://mail.google.com/mail/a-eea94b9c82-e1fa454350-120cdae391
http://mail.google.com/mail/a-eea94b9c82-1fe3fcb366-389b0b9f1f
http://mail.google.com/mail/a-eea94b9c82-d98d973613-46d920f3aa
http://mail.google.com/mail/a-eea94b9c82-b23778ccba-047ffd3c98
http://mail.google.com/mail/a-eea94b9c82-39c9ed5041-acb694c11f
http://mail.google.com/mail/a-eea94b9c82-df54ae944b-c644066371
http://mail.google.com/mail/a-eea94b9c82-288429e8e3-eb355433a6
http://mail.google.com/mail/a-eea94b9c82-70bac921f1-1cc8c09d45
http://mail.google.com/mail/a-eea94b9c82-a66738c5ba-77a0faaefc
http://mail.google.com/mail/a-eea94b9c82-141c760dfa-919f0bc37e
http://mail.google.com/mail/a-eea94b9c82-ef253c6fd0-2f5fc7e06a
8 1, 2005
戯れに作ってみた Noun-Verb Network
1. これはなんですか
関連度の高い名詞と動詞の組み合わせを線で結んだものです。
上の画像をクリックすると、全体図が新しいウィンドウで開きます。サイズがでかい(9610×1142 pixel, 1.97MB)ので御注意。
(上の画像は、全体の一部を切り出して縮小したものです)
2. どうやってつくったんですか
まず、名詞と動詞を以下のようにして選びました。
・名詞
研究室に転がってた類語辞書をめくりながら、適当に単語を選んだ。全部で107語。
・動詞
日本語能力試験3・4級の試験範囲に含まれる動詞から、他動詞として働くものを選んだ。全部で110語。
続いて、googleを叩いて、以下のように検索件数を取得しました。
ここで、H(w)で単語wの検索件数を表すものとしましょう。
H(w1, w2)なら、2つの単語w1とw2のand検索の検索件数とします。
・すべての名詞Nについて、H(N)
・すべての動詞Vについて、H(V)
・すべての名詞Nと動詞Vの組み合わせについて、H(N, V)
次に、すべての名詞Nと動詞Vの組み合わせについて、以下のようにして、その関連度Rを算出します。
Rは1~0の値を取ります。ただし、R(N, V)が負の値になるときはゼロに丸めています。
式は適当に作ったもので、これといった根拠はありません。
R'(N, V) = H(N, V) / H(N) + H(V)
R(N, V) = 1.0 + log10( R'(N, V) ) - log10( max( R'(N, V) ) )
最後に、ここまでの処理結果をグラフ構造として描画しました。
名詞と動詞の一つ一つをノードとします。また、関連度が0を超えるときに、その名詞と動詞の間にエッジが引かれるものとします。
グラフの描画にはオープンソースで開発されているグラフ構造可視化ツール「Graphviz」を使いました。
3. なんのためにつくったんですか
暇つぶしのために。
強いて言えば、こんなラフな方法でどれくらいの品質のアウトプットが得られるのか、実際にデータに出して眺めてみたかったというところです。
4. これってなんのやくにたつんですか
うーん。どうなんでしょう。
「こういうことに使えそうだ」というのがあったら是非おしえてください。