DeepSeek-OCRの仕組みが面白いので遊んでしまっている。 最初に試したときは、純粋にOCRさせてますね。きれいな心をしている。 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena そして前回はランダムな文字列を読ませて誤認識を誘ってみた。 DeepSeek-OCRにはランダム文字列が読めない - きしだのHatena もう2つ、弱点ぽいところをついてみる。 その前に、DeepSeek-OCRの構造を確認。 https://arxiv.org/abs/2510.18234 ここで、DeepEncoderがSAM->Conv->CLIPってなってるのがキモ。 SAM(Segment Anything Model)は、画像の領域分けをする仕組み。 GitHub - facebookresearch/segment-anything: The