yasuokaの日記: UDPipe APIのpython3ラッパー
昨日の日記を読みながら、LINDAT/CLARINのUDPipe API向けpython3ラッパー「UDPipe2UD.py」を書いてみた。Universal Dependenciesのid、form、lemma、upos、xpos、feats、head、deprel、deps、miscを全部格納するようにしたため、ちょっと長くなってしまった。
#! /usr/bin/python3 -i
昨日の日記を読みながら、LINDAT/CLARINのUDPipe API向けpython3ラッパー「UDPipe2UD.py」を書いてみた。Universal Dependenciesのid、form、lemma、upos、xpos、feats、head、deprel、deps、miscを全部格納するようにしたため、ちょっと長くなってしまった。
#! /usr/bin/python3 -i
一昨昨日の日記で、私(安岡孝一)は書いた。
せめてCOTOHA APIも、ちゃんとUniversal Dependencies v2対応してくれないかなぁ。
『自然言語処理のためにMeCabを入れるのに疲れたのでCOTOHA APIを使った』を横目に見つつ、私なりにあれこれ考えてみて、COTOHA API構文解析v1のUniversal Dependencies v2向けpython3ラッパー「Cotoha2UD.py」を書いてみた。UPOSへの変換を、ある程度ちゃんとしようとしたら、思ったより長くなってしまった。
UDPipe 1.2が古典中国語(漢文)をサポートした、との御連絡をいただいた。Universal Dependencies 2.4の「四書」を学習させたモデルなのだが、「文切り」の性能が38.9%までしか上がらなかったので、あくまで「単語切り」「品詞付与」「係り受け」に限定した方がいいだろう、とのことである。LINDAT/CLARINのサーバAPIにも実装されたので、ちょっと使ってみよう。
AdobeのNLP-Cube 0.1.0.7がリリースされた、との御連絡をいただいた。とりあえず、pip3とpython3で、日本語モデル1.1も含め、インストール。
% pip3 install nlpcube==0.1.0.7
% python3
>>> from cube.api import Cube
>>> Cube().load("ja",1.1)
>>> quit()
COTOHA APIの係り受け解析がUniversal Dependencies準拠だと聞いたので、試しに使ってみることにした。「アクセストークン」の取得がかなり面倒くさいのだが、そこまで行けば、あとはcurl一発で「望遠鏡で泳ぐ彼女を見た」を文法解析できる。
Graphviz 2.38の「バグ」(shape=record内の日本語が出ない)を回避する方法を、今日の日記に書きました。
昨日の日記で書いたDOT言語だが、私(安岡孝一)の手元のGraphviz 2.38にはバグがあるらしく、shape=recordの中の日本語がうまく表示されない。ちなみに、このバグには「回避策」があって、日本語の前後に空白(U+0020)を入れれば大丈夫らしい。
『GraphvizでStanfordNLPの係り受け構造を描画』に触発されて、私(安岡孝一)もGraphvizを触ってみた。例として「望遠鏡で泳ぐ彼女を見た」
本日(5月31日)付の官報号外第23号で、戸籍法の一部を改正する法律が告示された。デジタルファースト法による住民基本台帳法改正とマイナンバー法改正が、一体となっておこなわれたものなので、改正が非常に多岐に渡るのだが、私(安岡孝一)なりに勘所をまとめておこうと思う。
戸籍法改正の目玉は、これまでは紙の「帳簿」が戸籍の正本だった(第七条)ものが、今後はデジタルデータが戸籍の正本となる、という点である。第百十八条の改正と附則第三条の経過措置によって、もう、紙の戸籍には戻れなくなる。また、第百二十条の二を新設することで、これまで本籍地でしか取得できなかった「戸籍謄本」(戸籍全部事項証明書)が、全国どこの市区町村においても「戸籍電子証明書」の形で取得できるようになる。
本日(5月31日)付の官報号外第23号で、戸籍法の一部を改正する法律が告示された。デジタルファースト法による住民基本台帳法改正とマイナンバー法改正が、一体となっておこなわれたものなので、改正が非常に多岐に渡るのだが、私(安岡孝一)なりに勘所をまとめておこうと思う。戸籍法改正の目玉は、これまでは紙の「帳簿」が戸籍の正本だった(第七条)ものが、今後はデジタルデータが戸籍の正本となる、という点である。第百十八条の改正と附則第三条の経過措置によって、もう、紙の戸籍には戻れなくなる。また、第百二十条の二を新設することで、これまで本籍地でしか取得できなかった「戸籍謄本」(戸籍全部事項証明書)が、全国どこの市区町村においても「戸籍電子証明書」の形で取得できるようになる。
住民基本台帳法改正の目玉は「戸籍の附票」のデジタルネットワーク化である。第三十条の四十一~第三十条の四十四の十二を新設することで、住民基本台帳ネットワークと同様の、戸籍の附票ネットワークを全市区町村と全都道府県とJ-LIS(地方公共団体情報システム機構)の間で構築する。戸籍の附票ネットワーク上を流れるのは、第十七条(改正後)の以下の7つの項目である。
第十七条 戸籍の附票には、次に掲げる事項について記載(前条第二項の規定により磁気ディスクをもつて調製する戸籍の附票にあつては、記録。以下同じ。)をする。
一 戸籍の表示
二 氏名
三 住所(国外に転出をする旨の第二十四条の規定による届出(次号及び第七号において「国外転出届」という。)をしたことによりいずれの市町村においても住民基本台帳に記録されていない者(以下「国外転出者」という。)にあつては、国外転出者である旨)
四 住所を定めた年月日(国外転出者にあつては、その国外転出届に記載された転出の予定年月日)
五 出生の年月日
六 男女の別
七 住民票に記載された住民票コード(国外転出者にあつては、その国外転出届をしたことにより消除された住民票に記載されていた住民票コード。第三十条の三十七及び第三十条の三十八において同じ。)マイナンバー法改正の目玉は、国外転出者にもマイナンバー(個人番号)を付与する、という点である。住民票コードとマイナンバーの間の紐付は、現状は住民票(および住民基本台帳ネットワーク)によっておこなわれているが、今後はこれに、戸籍の附票ネットワークが加わる。この際、通知カードは廃止され、本人へのマイナンバーの通知は、別の方法(場合によっては紙以外の方法)でおこなわれることになる。一方、第二十一条の二および第四十五条の二を新設(ただし一部はその後に第九条第三項へ移動)することで、戸籍の「副本」と情報提供用個人識別符号(いわゆる機関別符号)が紐付けられる。つまり、戸籍(つまりは日本国民全部)とマイナンバーが直接に結び付けられないよう法律上は書かれているものの、実際には、戸籍の附票や住民基本台帳ネットワークを経由して、戸籍とマイナンバーが紐付けられることになる。
なお、戸籍法改正の施行日は6月19日だが、他の法律改正の施行日は年末以降になりそうである。また、全システムが稼働するには、実際には2年程度かかりそうである。
一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy