2004-04-29 Thu
* The Happy Prince [r]
お馬鹿な文字列検索だけで、どういう対訳がとれそうか、試してみる。い
ろんな意味で詰めが甘い近似結果でしかないけど、抽出されている種類が
異なる。
頻度を手がかりにする[2004-04-22]。
辞書を手がかりにする。
あっ、辞書って、子文字でしか登録されていないから、case insensitive
な検索にしないとまずいよな…。今、気がつくなんて…。
* 年だから… [l]
仮眠のつもりが、マジ寝になった。2 AM まで頑張って起きていたんだが、
疲れがピークに達していて、意識が飛んだまま帰ってこなかった。Kさん
に、結果的に迷惑をかけてしまった。すみませぬ。
2004-04-28 Wed
* 通訳学校 [t]
基礎訓練が始まる。shadowing と reproduction 。どうも、通訳者を目指
す人は、短期記憶の保持力を高めないとまずいようだ。素人考えでは、検
索力を向上するための訓練の方が、重要だと思うのだが…。
つぎに、発音練習。講師の人に、あなたの英語は British だから鼻につ
くのよねー、と言われる。悪かったな。British で。これだから、日本で、
英語を話すのは嫌なのだ。発音なんてどうでもいいのだ。内容をできるか
ぎり正確に伝達するという使命が達成できればいいのだ。
滑舌がよいのは、重要かもしれないが、なんか、表層的なスキルにすぎな
いような気がする。話の大意をとらえることが疎かになっていないか?
2004-04-27 Tue
* shadowing [t]
明日は通訳学校の日なので、宿題だったやつを、テープレコーダーに録音
してみる。やっぱり、役者さんの朗読が速くて、聞き取りがあやふやな箇
所は、脳内でリアルタイム書きおこしができないようだ。そもそも、声の
合成すらできず、結果的に、shadowing のタスク、再現、ができない。と
いう当たり前なことを体験した。
* The Happy Prince [r]
とりあえず、見かけ上の単語区切りという概念を取り払って、単純に(お
バカに)辞書を文字列検索( da.commonPrefixSearch() ) して、単語レベ
ルの対訳関係を見つけることができそうか、やってみようとする。
でも、日本語文に出現する半角スペースで、激沈。うぅー。
2004-04-23 Fri
* 設定いろいろ [o]
実は、昨日の騒動で、怒り心頭に発する、といった感じでしたが、一日たっ
て、冷静になると、恩恵を受けた側面もあることがわかる。中でも、どの
ファイルが X の起動ファイルがわかるようになったこと。昔のように、
dot-xsession に戻っただけです。そうすると、gnome-ssh-askpass を設
定することができるようになって、ssh するときに、いちいちターミナル
毎に ssh-agent と ssh-add しなくてもよくなりました。便利。
.xsession に
eval `ssh-agent -s`
env SSH_ASKPASS=/usr/lib/ssh/gnome-ssh-askpass ssh-add < /dev/null
をウィンドウマネージャを(gnome-session)起動する前に設定すると、パ
スフレーズの入力が、ログインの時の一度だけですむ。M研時代に、T林さ
んに教えてもらって以来、重宝している機能の一つ。
という訳で、良い変化のきっかけを作っていただき、ありがとうございま
した。> S助教授とO研のadmin各位
# 昨日のメールで、管理者さんたちの「やっかいゆーざりすと」に載っ
# たのは間違いなしですけど。まぁ、しゃーない。
2004-04-22 Thu
* The Happy Prince [r]
内山さん@NICT が公開している幸福の王子 に対訳表現抽出をやっ
てみました。全部で 378 文ありました。少量のコーパスなので、自立語
だけで対訳系列を作って、マイニングは連続 n-gram だけを対象にしまし
た。具体的なパラメータは、最低 2 回以上出現して、系列パターンの長
さを 3 までに区切る。(サポート 2、長さ[1,3] ) 要するに、北村モデル。
上位はこんな感じ。「王子」と「言い」が既に抽出されているから「王子
言い」ってのは冗長に抽出されているというツッコミが…。
163.457 Prince|NNP 王子|名詞-一般
126.646 said|VBD 言い|動詞-自立
88.3962 Swallow|NNP ツバメ|名詞-一般
81.9171 Happy|JJ Prince|NNP 幸福|名詞-形容動詞語幹 王子|名詞-一般
81.9171 Happy|JJ 幸福|名詞-形容動詞語幹 王子|名詞-一般
68.2913 said|VBD Prince|NNP 王子|名詞-一般 言い|動詞-自立
66.482 Egypt|NNP エジプト|名詞-固有名詞-地域-国
55.6727 statue|NN 像|名詞-一般
いわゆる、頻出しまくりな単語を含む系列(Swallow|ツバメ)や頻度による
類似度が同点の場合(Town Councillors|市会議員)、問題。要検討か。
50.1805 Swallow|NNP Swallow|NNP little|JJ ツバメ|名詞-一般 ツバメ|名詞-一般 ツバメ|名詞-一般
50.1805 Swallow|NNP Swallow|NNP little|JJ ツバメ|名詞-一般 ツバメ|名詞-一般
50.1805 Swallow|NNP Swallow|NNP ツバメ|名詞-一般 ツバメ|名詞-一般 ツバメ|名詞-一般
50.1805 Swallow|NNP Swallow|NNP ツバメ|名詞-一般 ツバメ|名詞-一般
46.7377 city|NN 町|名詞-一般
44.358 answered|VBD 答え|動詞-自立
40.2162 river|NN 川|名詞-一般
38.2899 Councillors|NNPS 議員|名詞-一般
38.2899 Councillors|NNPS 市会|名詞-一般 議員|名詞-一般
38.2899 Councillors|NNPS 市会|名詞-一般
38.2899 Town|NNP Councillors|NNPS 議員|名詞-一般
38.2899 Town|NNP Councillors|NNPS 市会|名詞-一般 議員|名詞-一般
38.2899 Town|NNP Councillors|NNPS 市会|名詞-一般
全部で 242 個抽出されてました。実行時間は、対訳系列を前処理で用意
した時間を除くと、0m0.376s です。正解率はどのくらいなんだろう。と
いうのと、ほとんど、英辞郎に掲載されているのでは、という懸念が叫ばれています。
2004-04-21 Wed
* 制約つき解析に対する需要は高い。 [o]
HTML 文書などタグつきテキストを形態素解析したいという、無茶な使い
方を考えてみる。
思いつくのは、制約つき解析 や 括弧制約を考慮した解析器 を発展させて
みることなんですが。もう少し考えてみよう。
* ChaSen では、全角空白は文字として認識します。 [o]
グループミーティングで嘘をついてしまいました。
ごめんなさい> S山さん
% chasen
これは 全角スペースのテストです。
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
記号-空白
全角 ゼンカク 全角 名詞-一般
スペース スペース スペース 名詞-一般
の ノ の 助詞-連体化
テスト テスト テスト 名詞-サ変接続
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
ipadic に、エントリがありました。
(品詞 (記号 空白)) ((見出し語 ( 0)) (読み ) (発音 ) )
半角スペースは、自動的に区切り文字とみなして、すっ飛ばされます。
% chasen
これは 半角スペースのテストです。
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
半角 ハンカク 半角 名詞-一般
スペース スペース スペース 名詞-一般
の ノ の 助詞-連体化
テスト テスト テスト 名詞-サ変接続
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
オリジナル文字位置情報が失われるのですが、これについては、いろいろ
議論されているので、割愛する。
chasen/lib/tokenizer.h に
#define is_space(c) (((c) == ' ') || ((c) == '\t'))
とあるので、タブと半角スペースはすっ飛ばされると思う。
2004-04-14 Wed
* 勉強会 [o]
なんとなくしか、理解できなかった。discriminative model vs
generative model の話なんだが、、conditional はどこに位置づけられ
るのか、今だに謎。
* flex で敗北 [r]
昨日の敗北のつづき。どうも、g++ がまずいみたい。gcc だと問題ない。
ということで、c の関数にして、cpp 側で extern "C" で呼び出して、
wrapper 関数を書くのが良いのがいいのかな。
2004-04-13 Tue
* Kleinberg の burst って待ち行列のことらしい [o]
Fさんに、NL研の発表内容を、1.5時間もかけて、ご解説いただく。待ち行
列といえば、QoS (IP routing でパケット配送をうまく考えて一定速度を
保証するってやつ) を連想してしまう。確かに、電子メールの到着もそう
かも。
random にモノがくるのは、一様分布なんだよね。
なんとなくエッセンスはつかめたかも。
あとは、金曜日までに、英語の修正をしないと。
* 敗北 [r]
なんだか、redhad 上で flex から生成されたコードが debian 上で走らん。
おんなじ、gcc 3 系の compiler だと思うけど…。
今日は、疲れたから、追跡は中止。
* 研究紹介 [o]
こうちゃんの発表は、好評でした。皆さん、やさしく、パクついてました。
私の発表は、まあ、適当にやって、質問もコメントも少なく、ほとんど雑
談状態になって、フェードアウトしていった感じ。
2004-04-06 Tue
2004-04-03 Sat
* 無料で入手できそうな対訳コーパス [r]
オープンソース系
http://logos.uio.no/opus/
新聞系
http://www.mag2.com/m/0000089609.htm
2004-04-02 Fri
* cpp [p]
operator>> と operator<< の override で挫折。
istream_iterator や ostream_iterator と copy を組み合わせると楽できる。
標準入力から vector 型の v へ整数を格納。
std::vector< int >::iterator iter = v.begin();
copy( std::istream_iterator< int >( std::cin ), std::istream_iterator< int >(), iter );
vector 型の v を標準出力で表示。
copy( v.begin(), v.end(), std::ostream_iterator< int >( std::cout, " " ) );
fstream も (i|o)stream_iterator と連結できるからお得。
2004-04-01 Thu
* いまさら CVS [p]
trial-and-error の域を越えず。
* お仕事はじめ(ドキュメント) [o]
9:00 -
出勤しても誰もいない。廊下に座って、待つ。(寒)
9:30 -
奥村先生、ご出勤。部屋にいれてもらう。(暖)
9:45 -
こうちゃん、ご出勤。まったり、世間話。
10:00 -
高村さん登場。配置変えする!ということだが、あべかわさん待ち。
私の Emacs と メール設定を参考に、こうちゃんの環境を設定。
11:00 -
あべかわさん登場。
物理的な移動。掃除。
13:00 -
お昼。話題は、ポスドクとは何ぞや。所属のなぞ。研究室の雑用。
揺るがない結論:名刺は、作らない。
14:00 -
設定などなど。
15:30 -
高村さんが、巧妙に自分担当の雑用を減らすべく、無駄な努力をしていた。
外野からみて、楽しい。
19:00 -
帰宅