Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
yasuokaのページ | スラド
[go: Go Back, main page]



パスワードを忘れた? アカウント作成

こちらは、yasuokaさんのユーザページですよ。

15551950 journal
日本

yasuokaの日記: 「これから私は君のペンにインクを入れる」における係り受け解析

日記 by yasuoka

坂本俊之『作ってわかる!自然言語処理AI』(C&R研究所、2022年1月)を読んでいたところ、p.51に妙な「◉係り受け解析」の図が現れた。「これから私は君のペンにインクを入れる」における係り受けを図示しているのだが、係り受け先が変なのだ。

これから → 入れる
私は → インクを
君の → ペンに
ペンに → インクを
インクを → 入れる

いくら何でも変だと思うので、ちょっとUniDic2UDで試してみよう。

15550478 journal
人工知能

yasuokaの日記: gojiteji/byt5-small-ain-jpn-mtによるアイヌ語→日本語自動翻訳

日記 by yasuoka

gojiteji/byt5-small-ain-jpn-mtという言語モデルがリリースされているのを見つけた。名前からすると、ByT5によるアイヌ語→日本語自動翻訳モデルのようだ。試しに使ってみよう。

15547771 journal
日本

yasuokaの日記: 国語研長単位において「はありません」は1語なのか

日記 by yasuoka

1月18日1月19日の日記のカラミで、国語研長単位コーパスUD_Japanese-GSDLUWをざっとチェックし直したのだが、「はありません」の扱いがイマイチ分からなかった。私(安岡孝一)なりに、4つほど例文を並べてみよう。

まずはsent_id = test-s78の「筋ではありません」。

15547030 journal
人工知能

yasuokaの日記: アイヌ語Universal Dependenciesで書く「ohaw pirkano ukopoye wa, itanki or o yan.」

日記 by yasuoka

佐藤知己『アイヌ語学の諸問題 : 近年の議論と関連して』(北海道大学文学研究院紀要, 第165号(2021年12月), pp.1-29)を読んでいたところ、p.4に出てくる

ohaw pirkano ukopoye wa, itanki or o yan.

が、果たしてアイヌ語Universal Dependenciesで書けるのかどうか、気になった。とりあえず、私(安岡孝一)の知識の範囲内で書くと、以下のようになる。

15544630 journal
教育

yasuokaの日記: 国語研長単位Universal Dependenciesで読む『食べるとはどういうことか』

日記 by yasuoka

昨日の日記に加えて、大学入学共通テスト「国語」第1問【文章Ⅱ】も、国語研長単位Universal Dependenciesで書いてみることにした。

15544253 journal
教育

yasuokaの日記: 国語研長単位Universal Dependenciesで読む『食べることの哲学』

日記 by yasuoka

一昨昨日の日記の続きだが、大学入学共通テスト「国語」第1問【文章Ⅰ】を、国語研長単位Universal Dependenciesで書いてみることにした。

15541764 journal
教育

yasuokaの日記: Universal Dependenciesで読む共通テストの『揅経室集』

日記 by yasuoka

大学入学共通テスト初日の「国語」第4問(漢文)は、『揅経室集』から蝶夢園が出題された。Universal Dependenciesで見てみよう。

15536103 journal
人工知能

yasuokaの日記: cl-tohoku/roberta-base-japaneseのトークナイザをBertJapaneseTokenizerで置き換えるには

日記 by yasuoka

昨日の日記で紹介したcl-tohoku/roberta-base-japaneseだが、RobertaJapaneseTokenizerをあきらめてBertJapaneseTokenizerで置き換えることを考えてみた。端的にはSentencePieceからWordPieceへの乗り換えになるので、精度が下がるのは致し方ないのだが、to_zenkaku=Trueをエミュレートするためにvocab_fileそのものを入れ替えることにしたので、かなりヤヤコシクなった。Google Colaboratoryでやってみよう。

15535522 journal
人工知能

yasuokaの日記: cl-tohoku/roberta-base-japaneseのトークナイザRobertaJapaneseTokenizerの謎

日記 by yasuoka

日本語BERT/RoBERTa/ALBERTモデルのトークナイザ比較cl-tohoku/roberta-base-japaneseも扱いたかったのだが、RobertaJapaneseTokenizerという謎のトークナイザを使っているらしく、どうもうまくいかなかった。それで私(安岡孝一)なりにアレコレ悩んで、XLMRobertaTokenizerとBertJapaneseTokenizerの組み合わせで、それらしいトークナイザをデッチ上げてみた。Google Colaboratoryで試してみよう。

15531515 journal
人工知能

yasuokaの日記: Transformersにおける日本語トークナイザBertJapaneseTokenizerFastの改良

日記 by yasuoka

昨日の日記でデッチ上げたBertJapaneseTokenizerFastだが、テキストペアのlistを受け取れるようにすると同時に、[UNK]の処理を多少改善してみた。Google Colaboratoryで動かしてみよう。

typodupeerror

Stableって古いって意味だっけ? -- Debian初級

読み込み中...