[B! unicode] cu39のブックマーク

cu39 id:cu39

unicodeに関するcu39のブックマーク (36)

人間にUnicode正規化は難しい - エムスリーテックブログ
【AI・機械学習チームブログリレー2日目】 AI・機械学習チームの池嶋 (@mski_iksm) です。私達のチームでは、機械学習バッチの実行方法やインターンを含む新配属者のPC初期セットアップ手順など多くのドキュメントがGitLab上で管理されています。Gitでドキュメントを管理するのは、Wiki等と比較して更新時のピアレビューがしやすかったり、CIによる自動チェックがやりやすかったりなどのメリットから採用されています。 CIの自動チェックの１つとしてリンクチェッカーがあります。これは切れているリンクがないかを更新時にチェックするものです。ある日、ファイルはあるように「見える」のに、なぜかリンクチェッカーのCIが落ちているという事象が発生しました。タイトルでネタバレしているのですが、原因はUnicodeの正規化でした。この記事では、何が起きていたのか？どのようなケースで起こりう
cu39 2025/09/02
coding

unicode

字

mac

windows

あとで読む
リンク
Unicode正規化 - Qiita
とは「ア」と「ｱ」, 「①」と「1」など等価な文字の表記を統一する操作. NLPで前処理としてよく使われる "Unicode正規化（ユニコードせいきか、英語: Unicode normalization）とは、等価な文字や文字の並びを統一的な内部表現に変換することでテキストの比較を容易にする、テキスト正規化処理の一種である。" - Wikipedia NFD, NFC, NFKD, NFKC 4種類の正規化形式が存在する. 「NFD (Normalization Form Canonical Decomposition)」「NFC (Normalization Form Canonical Composition)」「NFKD (Normalization Form Compatibility Decomposition)」「NFKC (Normalization Form Com
cu39 2025/09/02
coding

unicode

字

mac

windows

あとで読む
リンク
ファイルアップロードではNFC/NFD問題に気をつけろ！~MacファイルシステムにおけるUnicode正規化の闇~
NFCではそのまま「パ」として表されますが、NFDでは「ハ」（基底文字）と「゜」（結合文字）の組み合わせとしての「パ(UTF-8でe3 83 8f e3 82 9a)」（合成文字）で表されます。試しにNFDで正規化された「パ(e3 83 8f e3 82 9a)」を任意のテキストエリアに貼り付けて削除してみると、半濁音のみが取れて「ハ」のみになると思います。このように文字列の正規化形式が異なる場合、単純な比較演算子での評価は困難であり、文字列によっては想定外の挙動を引き起こす可能性があります。特にMacファイルシステムではNFDを正規化方式と採用しているため、NFC/NFD問題が度々引き起こされています。先日(2023年03月27日)リリースされた「macOS 13.3 Ventura (22E252)」では、ファイル名に濁音や半濁音が含まれるファイルがFinderから開けなくなる
cu39 2025/09/02
coding

unicode

字

mac

windows

あとで読む
リンク
Unicode正規化 (NFC, NFKC, NFD, NFKD) 変換 Online - DenCode
Unicode正規化について Unicode正規化とは、文字を分解・合成することをいいます。Unicodeの文字は、見た目は同じでも複数の表現方法が存在するものがあります。例えば、「â」は「â」(U+00E2)の1つのコードポイントとしても表せますし、「a」(U+0061)と「 ̂」(U+0302)の2つの分解されたコードポイント（基底文字＋結合文字）でも表せます。前者を合成済み文字、後者を結合文字列(combining character sequence, CCS)と呼びます。 Unicode正規化には、以下の種類があります。
cu39 2020/06/19
coding

unicode

字
リンク
C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - c
cu39 2018/12/23
Unicode絵文字が当事者意識を持たせたと同時に、中国が無視できないほど存在感のある他者になってきたことも効いてそう。

あとで読む

coding

c++

字

unicode

history
リンク
Does Unicode have a defined maximum number of code points?
cu39 2018/01/29
coding

unicode

字
リンク
Ruby にて文字と Unicode コードポイントの相互変換を行う - vivid memo
Unicode のコードポイントを指定して文字を得たり、逆にある文字のコードポイントを調べたり、ということをする機会は結構多いと思います。が、Ruby でそれをやる方法をぐぐってもあまり上位に情報が出てこないなー、と思ったので簡単にまとめておきます。 Unicode コードポイントとはそもそも Unicode コードポイントとは何か。 Unicode というのは世界中の文字が集められた文字集合であり、Unicode に収録されている文字には順番に番号が振られています。この番号のことをコードポイントといいます。あるコードポイントが指す文字を表現するときに "U+" という文字の後ろに 16 進数表記のコードポイントを書いて表すことがあります。例えば、コードポイント 0x3041 が指す文字 (ひらがなの「あ」) を U+3041 と書いて表します。各文字とコードポイントの関係は
cu39 2018/01/29
coding

ruby

unicode

字
リンク
Unicode 内のそれぞれの文字種の範囲 - みちのぶのねぐら工作室旧館
郵便番号データを利用するサンプルを作っている最中に気になって、ひらがな、カタカナなどの文字種の Unicode の文字コードの範囲を調べました。資料として http://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/SHIFTJIS.TXT を使います。 “OBSOLETE” となっていますが参考にはなります。これを表計算のシートに貼り付けて Unicode 順に並べ替えるとわかりやすいです。以下の説明には unicode.org の対応する “Code Charts” の URL も記しておきましたので、個別の字面とコード値の確認のためにご参照ください。
cu39 2017/11/18
coding

unicode

字

regexp
リンク
絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama
UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
cu39 2017/11/13
coding

unicode

字

history
リンク
漢字検索 - 読みや画数などから人名用漢字含む1万字を検索
特徴: 読みが分からなくとも、漢字の部品(構成要素)や画数などから調べられます子供の命名に使える漢字で絞り込むことができます JIS第1〜第4水準の10,053文字に対応し(非漢字領域の「〆、仝、々」含む)、日本の漢字をほぼ網羅しています検索結果には異体字もあわせて表示されます問い合わせの入力方法以下で、背景が黄色い文字列は入力例です。よくある例 [金高] → 「金」「高」の両方を構成要素として含む漢字。検索結果として「鎬」がヒットし、読みや文字コードなどが表示されます。 [さんずいこう] → 構成要素にさんずいを含み、読みが「こう」の漢字。例えば「江」などがヒットします。 [さんずいはん 5-6画] → 構成要素にさんずいを含み、「はん」という読みを持ち、総画数が5〜6画の漢字。例えば「汎」など。 [にんべん常用] → にんべんを含む常用漢字。例えば「仁」や「仏
cu39 2016/04/27
coding

字

unicode
リンク
Python2.x/3.0のunicode内部表現について : DSAS開発者の部屋
イントロ Python2.6/3.0共にRC版がリリースされ、正式リリースが近づいて来ました。Python3.0の大きな変更の一つが、 Python2.xのstrとunicodeがunicode文字列のstrに統合され、従来のstrの代わりにbytesを導入することで、バイト列と文字列が明確に分けられたことです。現在、Python2.5では、unicode文字列の内部表現がucs2のものとucs4のものがあり、それぞれの間では拡張モジュールの互換性がなくなっています。Python2.6/3.0でこの状況がどう変化するのか調べてみました。 Python2.xのunicode内部表現について Python2.5/2.6では、configureオプションに、--enable-unicode=ucs[24] というものがあり、デフォルトでは2になっています。また、FedoraやUbuntuの
cu39 2016/03/22
coding

admin

python

unicode
リンク
Regular Expression: Match Unicode Block Range | korp
This is an online tool that builds a JavaScript regular expression that matches characters that fall in any number of specified Unicode blocks. [] Selected Code Range Block Name
cu39 2014/04/17
coding

unicode
リンク
Unicodeの似た文字を整理してみた - y-kawazの日記
XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。分かりやすいよう、青は文字化けなし、黄
cu39 2014/03/20
text

textencoding

字

coding

unicode
リンク
Shapecatcher: Draw the Unicode character you want!
Unicode character recognition! This is a tool to help you find Unicode characters. Finding a specific character whose name you don't know is cumbersome. On shapecatcher.com, all you need to know is the shape of the character! How do I use it? Draw your character as best you can in the "drawbox". You can do this by clicking and holding the left mouse button and moving around. You can switch to a fi
cu39 2014/01/10
字

textencoding

unicode

reference
リンク
: wが二つ重なった文字「ʬ」がバイラビアル・パーカッシブだと調べる方法
もともと2ちゃんねるで回答されたものみたいですが、「ｗが縦に二つ重なった文字の出し方教えて」という質問に対して、「ʬ」を出したり、その読み方が「バイラビアルパーカッシブ」だと回答した人はどうやって調べたんでしょうね。その回答者がこれを使ったかどうかはわかりませんが、ユニコード内の文字だと、ShapeCatcherというサイトで調べられます。左側のボックスに、マウスで探したい文字を書き、"Recognize"(認識せよ)をクリックすると、下にそれに近い文字が列挙されます。wを縦に二つ書いてみましょう。コード 0x2ac のラテン文字 bilabial percussive と出ました。これが難しい漢字とかなら、日本語IMEの手書き入力モードでも調べられます。しかし、Windows 7の標準IMEの手書き入力では、バイラビアル・パーカッシブは出てきませんでした。 Unicodeに限らず
cu39 2014/01/10
字

textencoding

unicode

reference
リンク
従来の文字コードとUnicodeの対応に関する諸問題
最終更新: 1998.12.20 目次はじめに似た文字旧JISと新JIS ベンダー固有文字「全角」「半角」 ASCIIとJIS X 0201ローマ文字おわりに余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、すでにいろいろなところで陰に陽に使われるようになってきました。 Windows NTの内部コードがUnicodeであるのはよく知られています。 BeOSでは、内部だけでなく全面的にUnicodeが使われています。また、Javaのchar型もUnicodeです。しかし、とくに入出力においては、当分は従来の文字コードと共存することになります。すなわち、意識するしないに関わらず、Unicodeと従来コードの変換が頻繁に行われます。変換といっても、Unicodeコンソーシアムが提供しているテーブル
cu39 2010/06/23
coding

unicode
リンク
文字コード入門
コンテンツ一覧インデックスページ←いまここコンピュータ上での数値の扱いコンピュータで文字を扱うには？ ASCIIとJISローマ字 JIS漢字コード：JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字中国の文字コード台湾の文字コード Unicode 大規模文字集合参考資料（書籍）本ページを作るにあたって参考にした書籍です。川俣晶『パソコンにおける日本語処理文字コードハンドブック』技術評論社芝野耕司編『JIS漢字字典』日本規格協会漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版小池和夫／府川充男／直井靖／永瀬唯／『漢字問題と文字コード』　太田出版　1999 安岡孝一／素子『文字コードの世界』　東京電気大学出版局　1999 ユニコード漢字情報辞典編纂委員会編　『ユニコード漢字情報辞典』　三省堂　2000 小林／安岡／戸村／三上編　bi
cu39 2010/03/30
textencoding

unicode

coding
リンク
GitHub - unicode-org/last-resort-font: Last Resort Font
This repository includes two versions of the Last Resort font: Last Resort and Last Resort High-Efficiency. Although both fonts can be installed at the same time—because they have different names—you are encouraged to download and install only the one that is expected to work in the environments that you use: The file LastResort-Regular.ttf is a font named Last Resort, and its 'cmap' table include
cu39 2010/01/14
font

unicode
リンク
引用符 - Wikipedia
引用符を用いて注意喚起をしている看板（日本語）引用符（いんようふ）は、約物の一つ。文中において、他の文や語を引用していることを示す役割を果たす記号で、多くの場合一対で引用部分を囲む。引用符号とも呼ばれ、またその英語からコーテーションマーク、クォーテーションマーク、クオーテーションマーク（quotation mark、スペイン語: comillas）と呼ぶ場合も多い。
cu39 2010/01/14
U+0027とU+2019の使い分けはわかりにくい。

字

unicode
リンク
備忘録: Unicode, UCS, and UTF : 404 Blog Not Found
2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。電脳社会の日本語加藤弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。これをどう実際のデータにするのかがEncoding (
cu39 2009/12/11
字

characterencode

unicode
リンク
1 2 次のページ