Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
[B! OCR] bfojのブックマーク
[go: Go Back, main page]

タグ

OCRに関するbfojのブックマーク (3)

  • 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena

    おとといくらいにDeepSeek-OCRというのが出てました。 https://github.com/deepseek-ai/DeepSeek-OCR ただのOCRじゃなくて、「テキストを画像にしたほうがトークンサイズを小さくできるのでは?」というのをやっていて、テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったという感じですね。 LLMの開発効率化に革新? 中国DeepSeekが「DeepSeek-OCR」発表 “テキストを画像化”でデータ圧縮:Innovative TechAI+) - ITmedia AI+ 中身的には、3Bでアクティブパラメータが0.6BのMoEモデルに0.4Bの画像エンコーダーを載せた画像言語モデルです。 導入や使い方は、モデルのページに書いてあります。 何も考えずに最新のTransformers 4.57.1を入れ

    画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena
    bfoj
    bfoj 2025/10/23
  • 「DeepSeek-OCR」を試す

    実運用の強さ:少トークンでSOTA級に迫る OmniDocBenchで比較するとさ、 Small(100トークン) で既にGOT-OCR2.0(256トークン)を超えがちだし。 Large(400, 有効285トークン) でSOTAと肩並べる感じ。 Gundam(<800トークン)でMinerU2.0(約6790トークン) より優秀。コスパ良すぎでしょ。 カテゴリ別の肌感: スライドは64トークンで十分。 ・レポートは100トークンで良。 新聞はテキスト密度高すぎなのでGundam以上が欲しい。 なんでこんなに軽いの? ウィンドウ注意+16×圧縮+グローバル注意の直列デザインがマジ効いてる。 前段で大量パッチを安く見て、中間でトークンをギュッと圧縮してから、後段でリッチに解釈。 GPUメモリのアクティベーション低め、トークン数少なめ、多解像度対応で、訓練も推論も扱いやすい。 具体的にでき

    「DeepSeek-OCR」を試す
  • GPUなしローカルでも高速・高精度なOCRができるOnnxOCRが凄い

    from onnxocr.onnx_paddleocr import ONNXPaddleOcr def sample(): ocr = ONNXPaddleOcr(use_gpu=False, lang="japan") result = ocr.ocr("sample.png") for data in result: for box, (text, score) in data: print(f"text: {text}, score: {score}") ONNXとは OnnxOCRを紹介する上でONNXとは何ぞやということも軽く解説します。 ONNX(Open Neural Network Exchange)とは、機械学習モデルを異なるフレームワーク間で共有・運用するためのオープンなフォーマットです。 このフォーマットに従うことで、PyTorch、TensorFlow、Sciki

    GPUなしローカルでも高速・高精度なOCRができるOnnxOCRが凄い
    bfoj
    bfoj 2025/09/30
    「Tesseractは上記3つとは少し毛色が違うので今回は比較しませんでした」「このレベルのモデルをオープンソースで公開する Baidu(百度)は恐ろしいですね」
  • 1