注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
PythonでASCII以外の文字コードが使われている文字列を扱うときは、いったんcodecs.getWriter()やらcode... PythonでASCII以外の文字コードが使われている文字列を扱うときは、いったんcodecs.getWriter()やらcodecs.decode()やらでUnicodeに変換すると便利だが、 適切な文字コードを選択している*つもり*にも関わらず、 codecs.getWriter('shift_jis')やらcodecs.getWriter('euc-jp')が UnicodeDecodeErrorを吐いて困った。 調べてみると、いわゆる機種依存文字が使われていてデコードに失敗している模様。 早い話、機種依存文字が使われている文字列は、Shift_JIS、euc-jpでもない何かでエンコードされているわけである。 そういうわけで、対策法は、それ用の別の文字コードでデコードしましょう。 例えば Shift_JIS を cp932 にしてみたり euc-jp を euc_jisx0213
2009/07/01 リンク