[B! OCR] bfojのブックマーク

bfoj id:bfoj

OCRに関するbfojのブックマーク (3)

画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena
おとといくらいにDeepSeek-OCRというのが出てました。 https://github.com/deepseek-ai/DeepSeek-OCR ただのOCRじゃなくて、「テキストを画像にしたほうがトークンサイズを小さくできるのでは？」というのをやっていて、テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったという感じですね。 LLMの開発効率化に革新？中国DeepSeekが「DeepSeek-OCR」発表 “テキストを画像化”でデータ圧縮：Innovative Tech（AI+） - ITmedia AI＋中身的には、3Bでアクティブパラメータが0.6BのMoEモデルに0.4Bの画像エンコーダーを載せた画像言語モデルです。導入や使い方は、モデルのページに書いてあります。何も考えずに最新のTransf ormers 4.57.1を入れ
bfoj 2025/10/23
OCR

AI
リンク
「DeepSeek-OCR」を試す
実運用の強さ：少トークンでSOTA級に迫る OmniDocBenchで比較するとさ、 Small（100トークン）で既にGOT-OCR2.0（256トークン）を超えがちだし。 Large（400, 有効285トークン）でSOTAと肩並べる感じ。 Gundam（<800トークン）でMinerU2.0（約6790トークン）より優秀。コスパ良すぎでしょ。カテゴリ別の肌感: スライドは64トークンで十分。本・レポートは100トークンで良。新聞はテキスト密度高すぎなのでGundam以上が欲しい。なんでこんなに軽いの？ウィンドウ注意＋16×圧縮＋グローバル注意の直列デザインがマジ効いてる。前段で大量パッチを安く見て、中間でトークンをギュッと圧縮してから、後段でリッチに解釈。 GPUメモリのアクティベーション低め、トークン数少なめ、多解像度対応で、訓練も推論も扱いやすい。具体的にでき
bfoj 2025/10/21
OCR

あとで読む
リンク
GPUなしローカルでも高速・高精度なOCRができるOnnxOCRが凄い
from onnxocr.onnx_paddleocr import ONNXPaddleOcr def sample(): ocr = ONNXPaddleOcr(use_gpu=False, lang="japan") result = ocr.ocr("sample.png") for data in result: for box, (text, score) in data: print(f"text: {text}, score: {score}") ONNXとは OnnxOCRを紹介する上でONNXとは何ぞやということも軽く解説します。 ONNX（Open Neural Network Exchange）とは、機械学習モデルを異なるフレームワーク間で共有・運用するためのオープンなフォーマットです。このフォーマットに従うことで、PyTorch、TensorFlow、Sciki
bfoj 2025/09/30
「Tesseractは上記３つとは少し毛色が違うので今回は比較しませんでした｣「このレベルのモデルをオープンソースで公開する Baidu（百度）は恐ろしいですね｣

OCR
リンク
1