[B! 字] cu39のブックマーク

人間にUnicode正規化は難しい - エムスリーテックブログ

【AI・機械学習チームブログリレー2日目】 AI・機械学習チームの池嶋 (@mski_iksm) です。私達のチームでは、機械学習バッチの実行方法やインターンを含む新配属者のPC初期セットアップ手順など多くのドキュメントがGitLab上で管理されています。Gitでドキュメントを管理するのは、Wiki等と比較して更新時のピアレビューがしやすかったり、CIによる自動チェックがやりやすかったりなどのメリットから採用されています。 CIの自動チェックの１つとしてリンクチェッカーがあります。これは切れているリンクがないかを更新時にチェックするものです。ある日、ファイルはあるように「見える」のに、なぜかリンクチェッカーのCIが落ちているという事象が発生しました。タイトルでネタバレしているのですが、原因はUnicodeの正規化でした。この記事では、何が起きていたのか？どのようなケースで起こりう

cu39 2025/09/02

リンク

Unicode正規化 - Qiita

とは「ア」と「ｱ」, 「①」と「1」など等価な文字の表記を統一する操作. NLPで前処理としてよく使われる "Unicode正規化（ユニコードせいきか、英語: Unicode normalization）とは、等価な文字や文字の並びを統一的な内部表現に変換することでテキストの比較を容易にする、テキスト正規化処理の一種である。" - Wikipedia NFD, NFC, NFKD, NFKC 4種類の正規化形式が存在する. 「NFD (Normalization Form Canonical Decomposition)」「NFC (Normalization Form Canonical Composition)」「NFKD (Normalization Form Compatibility Decomposition)」「NFKC (Normalization Form Com

cu39 2025/09/02

リンク

ファイルアップロードではNFC/NFD問題に気をつけろ！~MacファイルシステムにおけるUnicode正規化の闇~

NFCではそのまま「パ」として表されますが、NFDでは「ハ」（基底文字）と「゜」（結合文字）の組み合わせとしての「パ(UTF-8でe3 83 8f e3 82 9a)」（合成文字）で表されます。試しにNFDで正規化された「パ(e3 83 8f e3 82 9a)」を任意のテキストエリアに貼り付けて削除してみると、半濁音のみが取れて「ハ」のみになると思います。このように文字列の正規化形式が異なる場合、単純な比較演算子での評価は困難であり、文字列によっては想定外の挙動を引き起こす可能性があります。特にMacファイルシステムではNFDを正規化方式と採用しているため、NFC/NFD問題が度々引き起こされています。先日(2023年03月27日)リリースされた「macOS 13.3 Ventura (22E252)」では、ファイル名に濁音や半濁音が含まれるファイルがFinderから開けなくなる

cu39 2025/09/02

リンク

オプティカル？メトリクス？Adobeソフトの文字詰め機能を解説！｜モリサワ　note編集部

「InDesignやIllustratorを使ってデザインを作ったはいいが、何か締まらない……」と悩んだことはありませんか？例えば…… 全体をもう一段階まとめたい！全体的にもう少し締まったまとまりのある感じを出したい！というとき、デザイン作業で意外と盲点になりがちなのが文字の「間隔」です。この画像の場合、文字周辺がパラパラしていることでかなりゆったりした感じが出ています。日本語における文字配置の基本日本語書体は原則、正方形の枠（仮想ボディ）を基準に作られています。そして、日本語組版の原則はベタ組み……つまりこの正方形の枠が接する形で配置されるのが基本です。（このあたりの話を詳しく知りたい方はぜひこちらもご覧ください！）しかし見出しなど、大きく文字を使う時は文字間が目立って見えてしまうことがあるため、文字を詰める作業が必要な場合があります。文字配置の調整はプロのひと手間、料理で

cu39 2024/06/06

リンク

FONTDASU.COM

クリエイターのために使いやすいサイトを目指していますので商用利用OKのフォントのみ紹介しています。個人利用のみのものはここでは紹介しません。なお、フォントを利用される際は、配布先ページに記載されている利用条件やライセンスを必ずご確認ください。

cu39 2022/05/23

リンク

游ゴシックの話題の解説

「フォントの関係性はそんなのだったの！？」リアルに9割の人が気づいていない「游ゴシック」の話 https://togetter.com/li/1662198 のブクマ https://b.hatena.ne.jp/entry/s/togetter.com/li/1662198 わかりづらいとかキョトーンな人が散見されたので、蛇足とは思うけど解説をこころみる。正直なところ説明として元ツイがいちばんシンプルだと私は思うので、この解説は元ツイが言ってることを別の言い回しで回りくどく言い換えるだけになる。つまり逆にわかりにくいかもしれない。なお私は発端のツイートのひとではない。善意のいちハテナーである。さらに言えば私は組版の専門家でもない。仕事で多少フォントを扱う機会がある程度の素人＋毛である。太字には２種類あるまず、コンピューターの画面に映し出される「太字」には２種類ある。ひとつは、最

cu39 2021/02/04

OfficeのBボタンとか使わないでウェイト使い分けましょうって話だよね？

リンク

Unicode正規化 (NFC, NFKC, NFD, NFKD) 変換 Online - DenCode

Unicode正規化について Unicode正規化とは、文字を分解・合成することをいいます。Unicodeの文字は、見た目は同じでも複数の表現方法が存在するものがあります。例えば、「â」は「â」(U+00E2)の1つのコードポイントとしても表せますし、「a」(U+0061)と「 ̂」(U+0302)の2つの分解されたコードポイント（基底文字＋結合文字）でも表せます。前者を合成済み文字、後者を結合文字列(combining character sequence, CCS)と呼びます。 Unicode正規化には、以下の種類があります。

cu39 2020/06/19

リンク

第二水準漢字が入っている、普段よく使いそうな言葉 | 鈴木メモ

第二水準漢字は3,390文字もありますが、フォント制作に取り掛かってみたら大半が知らない漢字だったので実際に普段使われている文字はどの程度なのか探してみました。自分の感覚でざっと選んだのであまりにも難しいものや見慣れないものは入ってません。普段の生活で「綺麗な薔薇の蕾」とか「贅沢な苺のケーキ」「珈琲を淹れる」あたりは意識せずに使ってるのでフォントでも必要そう。フォントによっては、かわいい系なら殺戮だの髑髏だの物騒な漢字は要らなさそう。歴史物の人名や昔の小説の難しい単語などは第二水準を完備しても埋まらないものがあるので、ジャンルによって必要な文字は違いそうです。第二水準を珈琲のように赤字で表示しています。同じ文字でも鶯谷と鶯色のように繰り返し出てくることがあります。【食べ物】などの区分けは大雑把です。ふりがなも大雑把です。このページに使われている第二水準は844文字でした。調べる

cu39 2020/03/04

font
字

リンク

日本船主協会：海運資料室：海運雑学ゼミナール：127　「船」と「舶」の意味の違いは？―船をあらわすさまざまな言葉

cu39 2019/11/13

船舶舟艇艦 ship vessel boat craft

リンク

What is the significance of the character "j" at the end of a Roman Numeral?

cu39 2019/11/06

リンク

ゆうちょPayアプリで「佐々木」姓が認識されず、アカウント登録できないと話題に　現在は修正済み

ゆうちょ銀行が5月8日に開始したモバイル決済サービス「ゆうちょPay」だが、「『佐々木』姓がアカウント登録できない」と、8日夜からTwitterなどで話題になった。ゆうちょ銀行は9日午後1時に、修正版を配信した。【修正：2019年5月9日午後3時　第1段落の文言の一部を変更しました】ゆうちょPayのスマートフォンアプリは、初回利用時にアカウント登録をする必要がある。アカウント登録はメールアドレスを入力した後に氏名やパスワード入力に進むのだが、9日11時に試したところ、Android版アプリで氏名の登録時に「佐々木」を入力すると、「ひらがな、カタカナ、漢字、アルファベットのみ入力してください」というエラーが出てしまい、先に進めなかった。名字を削ってみると、「々」の字がエラーの原因と分かる。つまり、「佐々木」の他、「佐々」「等々力」などの名字も登録できない。

cu39 2019/05/09

coding
字

リンク

【速報】名フォントを輩出した株式会社「写研」の石井裕子社長、9月24日に逝去されていた | いまどきの鉄道サイトの作り方

写研の業績・売上株式会社写研は、本来義務である決算公告もしていないのか、データが見当たりません。後述の資料でも「従業員持株会において配付されたもので、Ｂ４判１枚程度のもの」と書かれるなど、身内向けにすら積極的でないようです。限られた資料から読み取れる範囲では、次の通りです。 ①1991年度では年商350億円→しかし1998年度には175億円まで落ち込み、ライバル企業のモリサワと逆転。（読売新聞、1999年1月より） ②2005年度(2005/7/1～2006/6/30)では営業利益が▲2億9500万円、経常利益が▲1億8600万円。内部留保が425億円。 ③2006年度(2006/7/1～2007/6/30)では営業利益が▲3億3200万円、経常利益が▲5900万円。内部留保が435億円。内部留保が増えたのは為替差益の特益によるもの。会社の業績等 (1) 会社の売上げは、ここ数年、前

cu39 2019/02/20

リンク

C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - c

cu39 2018/12/23

Unicode絵文字が当事者意識を持たせたと同時に、中国が無視できないほど存在感のある他者になってきたことも効いてそう。

リンク

What does CSS measurement unit 'em' actually stand for? - Stack Overflow

cu39 2018/12/21

EM spaceとEN spaceがそれぞれMの幅、Nの幅だからMとNはいいとしてEは何なんだろう。

リンク

ローマ字で使う横棒(長音記号マクロン)を加えた英字を表示する方法

2017年5月10日(水) 12時23分45秒 [Web関連] ローマ字で使う横棒(長音記号マクロン)を加えた英字を表示する方法長音(伸ばす音)が含まれる日本語の単語をローマ字で表記する際には、母音を示す「a,A」「i,I」「u,U」「e,E」「o,O」のアルファベットの上に横棒を加えて、「ā,Ā」「ī,Ī」「ū,Ū」「ē,Ē」「ō,Ō」のように表記します。例えば「交番」なら「KŌBAN」、「九州」なら「KYŪSYŪ」のような感じです。この英字の上に載せる横棒のことは「マクロン(MACRON)」と呼びます。このような横棒(長音記号/マクロン)を付加した英字をウェブ上に表示したい場合には、以下の3通りの方法があります。 ①Unicodeで定義されているマクロン付き英字をそのまま記述する。 ②マクロン付き英字を表す文字実体参照を記述する。 ③長音記号(マクロン)を合

cu39 2018/11/21

アルファベットの上に付く横棒は「マクロン」（MACRON）。

字
web

リンク

良質なデザインを作るため揃えるべき日本語フリーフォント10種類 - ベーコンさんの世界ブログ

フォント大好きデザイナーのベーコン（@dogdog464646）です！良質なデザインを作るには、良いフォントが欠かせません。それでは、「良いデザイン」ってなんでしょう？ちょっと頭に思い浮かべてみてください例えば… ・かわいいデザイン？・お客さんが使いやすいデザイン？・意味が伝わりやすいデザイン？こんな感じでしょうか？じゃあ正解の発表です正解は… 全部です！というかデザインの正解は、状況によって変わるんですよねなので、状況によって変わる「いいデザイン」に対応するためには「たくさんの種類のフォント」が必要になりますたくさんの種類のフォントで、表現の幅を広く持つことで、デザインを正解に導きやすくなりますこの記事はデザイナーだけではなく・イラストレーター・エンジニア・ブロガー・プレゼン資料を作っている人・学校やサークルでチラシを作る人このような人たちに役立つ、

cu39 2018/09/23

リンク

プログラミング用フォント Ricty

Ricty (リクティ) は Linux 環境での研究・開発を想定したプログラミング用フォントです。テキストエディタやターミナルエミュレータ、プログラミング言語やマークアップ言語に対する使用に適しています。Inconsolata と Migu 1M の合成、および、プログラミング用フォントとしてのいくつかのチューニングを行う生成スクリプトを配布しています。Inconsolata 作者の Raph Levien 氏、Migu 1M 作者の itouhiro 氏、M+ M Type-1 作者の coz 氏、IPA ゴシックのベースとされている TB ゴシック作者の林隆男氏、私のイニシャルから Ricty と命名しました。また、JIS 第二水準の漢字が不足している姉妹フォント Ricty Diminished はフリーな TrueType フォントを配布しています。ハイライトラテン文字には

cu39 2018/03/03

リンク

プログラミング用フォント Ricty Diminished

Ricty Diminished (リクティ・ディミニッシュト) は Ricty の姉妹フォントであり、 Linux 環境での研究・開発を想定したプログラミング用フォントです。テキストエディタやターミナルエミュレータ、プログラミング言語やマークアップ言語に対する使用に適しています。Inconsolata と Circle M+ 1m の合成、および、プログラミング用フォントとしてのいくつかのチューニングを行ったフリーな TrueType フォントを配布しています。JIS 第二水準の漢字が不足しているため Ricty Diminished と命名しました。また、JIS 第四水準の漢字をサポートする姉妹フォント Ricty は生成スクリプトを配布しています。ハイライトラテン文字には Inconsolata が適用されます。それ以外の文字には Circle M+ 1m が適用されます。M

cu39 2018/03/03

リンク

下書きなしで？！大阪の看板職人の技「ブッツケ書き」を喰らえ

この記事は総合就業支援拠点『OSAKAしごとフィールド』が、さまざまな業界の魅力をみなさんにお伝えするための、業界魅力発信記事です。OSAKAしごとフィールドでは、キャリアカウンセリング・セミナーの開講などのサービスも実施しております。就職活動のヒントにぜひご活用ください。（全て無料・要登録） OSAKAしごとフィールドについてはこちら突然ですが、クイズです。上の画像の文字は、ある1文字を除いて全てが手書きになっています。しかも、下書きをしないで「筆で一発勝負」で書かれた文字なんです。この文字を書いたのは、大阪府の泉州地域に住んでいる2人の看板職人。上林修さんとの板倉賢治さんです。

cu39 2018/02/28

製造業寄りじゃないけど一時期カリグラフィの画像や動画にはまったことがあって、きっかけになった動画を貼っておく → Legacy of Letters https://vimeo.com/12733075 。記事の2人もカリグラフィに手を出すべき。

リンク

ISO-2022-JPを扱う際の注意 - blanket log

ISO-2022-JP(いわゆるJIS)で書かれたファイルから特定の文字列を検索する、というのはそれほど簡単な話ではありません。単純に部分一致するバイト列を探すだけではできないからです。 ISO-2022-JPという文字コードは、エスケープシーケンスによって文字セットを切り替えながら文字列を表現します。どういうことかというと、文字列の中で文字がASCIIから日本語に切り替わるときに、「ここから日本語」と宣言してから日本語を表すバイト列が続きます。逆に日本語からASCIIに切り替わるときに「ここからASCII」と言ってからASCIIの文字列が続きます。IMEで入力する文字を切り替える度に[半角/全角]キーを押すのと似たようなものです。つまり文字列の各部分において状態を持つのです。例えば「0x24 0x22」というバイト列は、ASCII状態では「$"」になりますが、日本語状態(JIS X

cu39 2018/01/29

coding
字

リンク

はてなブックマーク

タグ

関連タグで絞り込む (53)

字に関するcu39のブックマーク (92)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第1週）

今週のはてなブックマーク数ランキング（2025年10月第4週）

今週のはてなブックマーク数ランキング（2025年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス