yasuokaのページ

yasuokaの日記：「これから私は君のペンにインクを入れる」における係り受け解析 0

日記 by yasuoka 2022年01月27日 17時35分

坂本俊之『作ってわかる！自然言語処理AI』(C&R研究所、2022年1月)を読んでいたところ、p.51に妙な「◉係り受け解析」の図が現れた。「これから私は君のペンにインクを入れる」における係り受けを図示しているのだが、係り受け先が変なのだ。

これから → 入れる
私は → インクを
君の → ペンに
ペンに → インクを
インクを → 入れる

いくら何でも変だと思うので、ちょっとUniDic2UDで試してみよう。

yasuokaの日記： gojiteji/byt5-small-ain-jpn-mtによるアイヌ語→日本語自動翻訳 0

日記 by yasuoka 2022年01月25日 20時01分

gojiteji/byt5-small-ain-jpn-mtという言語モデルがリリースされているのを見つけた。名前からすると、ByT5によるアイヌ語→日本語自動翻訳モデルのようだ。試しに使ってみよう。

yasuokaの日記：国語研長単位において「はありません」は1語なのか 0

日記 by yasuoka 2022年01月22日 12時04分

1月18日・1月19日の日記のカラミで、国語研長単位コーパスUD_Japanese-GSDLUWをざっとチェックし直したのだが、「はありません」の扱いがイマイチ分からなかった。私(安岡孝一)なりに、4つほど例文を並べてみよう。

まずはsent_id = test-s78の「筋ではありません」。

yasuokaの日記：アイヌ語Universal Dependenciesで書く「ohaw pirkano ukopoye wa, itanki or o yan.」 0

日記 by yasuoka 2022年01月21日 15時51分

佐藤知己『アイヌ語学の諸問題 : 近年の議論と関連して』(北海道大学文学研究院紀要, 第165号(2021年12月), pp.1-29)を読んでいたところ、p.4に出てくる

ohaw pirkano ukopoye wa, itanki or o yan.

が、果たしてアイヌ語Universal Dependenciesで書けるのかどうか、気になった。とりあえず、私(安岡孝一)の知識の範囲内で書くと、以下のようになる。

yasuokaの日記：国語研長単位Universal Dependenciesで読む『食べるとはどういうことか』 0

日記 by yasuoka 2022年01月19日 10時46分

昨日の日記に加えて、大学入学共通テスト「国語」第1問【文章Ⅱ】も、国語研長単位Universal Dependenciesで書いてみることにした。

yasuokaの日記：国語研長単位Universal Dependenciesで読む『食べることの哲学』 0

日記 by yasuoka 2022年01月18日 22時32分

一昨昨日の日記の続きだが、大学入学共通テスト「国語」第1問【文章Ⅰ】を、国語研長単位Universal Dependenciesで書いてみることにした。

yasuokaの日記： Universal Dependenciesで読む共通テストの『揅経室集』 0

日記 by yasuoka 2022年01月15日 22時12分

大学入学共通テスト初日の「国語」第4問(漢文)は、『揅経室集』から蝶夢園が出題された。Universal Dependenciesで見てみよう。

yasuokaの日記： cl-tohoku/roberta-base-japaneseのトークナイザをBertJapaneseTokenizerで置き換えるには 0

日記 by yasuoka 2022年01月09日 13時14分

昨日の日記で紹介したcl-tohoku/roberta-base-japaneseだが、RobertaJapaneseTokenizerをあきらめてBertJapaneseTokenizerで置き換えることを考えてみた。端的にはSentencePieceからWordPieceへの乗り換えになるので、精度が下がるのは致し方ないのだが、to_zenkaku=Trueをエミュレートするためにvocab_fileそのものを入れ替えることにしたので、かなりヤヤコシクなった。Google Colaboratoryでやってみよう。

yasuokaの日記： cl-tohoku/roberta-base-japaneseのトークナイザRobertaJapaneseTokenizerの謎 0

日記 by yasuoka 2022年01月08日 14時29分

日本語BERT/RoBERTa/ALBERTモデルのトークナイザ比較でcl-tohoku/roberta-base-japaneseも扱いたかったのだが、RobertaJapaneseTokenizerという謎のトークナイザを使っているらしく、どうもうまくいかなかった。それで私(安岡孝一)なりにアレコレ悩んで、XLMRobertaTokenizerとBertJapaneseTokenizerの組み合わせで、それらしいトークナイザをデッチ上げてみた。Google Colaboratoryで試してみよう。

yasuokaの日記： Transformersにおける日本語トークナイザBertJapaneseTokenizerFastの改良 0

日記 by yasuoka 2022年01月04日 11時28分

昨日の日記でデッチ上げたBertJapaneseTokenizerFastだが、テキストペアのlistを受け取れるようにすると同時に、[UNK]の処理を多少改善してみた。Google Colaboratoryで動かしてみよう。