note.com[B!]新着記事・評価 - はてなブックマーク

Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
note.com[B!]新着記事・評価 - はてなブックマーク

『note.com』

Qwen2-VLの画像エンコーダーを使って日本語CLIPモデルを学習する｜oshizo
4 users
note.com/oshizo

この記事では、日本語のドキュメント画像検索に使える独自CLIPモデルの構築について紹介します。実験段階のモデルのため十分実用的といえる精度ではないですが、ある程度の結果が出たのでモデル、ソースコードを公開し、検討した内容などを本記事で共有しようと思います。さて、前回の記事「ドキュメント画像RAGのための検索機能をJDocQAを使って比較（ColQwen2、Jina CLIP v2、OCR+テキスト埋め込み）」では、OCRによる文字起こしをせずに直接ドキュメント画像からベクトルを作り検索するモデルを使ってみました。実験ではColQwen2が高い精度になりましたが、ColQwen2がドキュメント画像検索に強いのは2つの理由があると思っています。 1. Qwen2-VLの画像エンコーダが任意の解像度の画像を扱える、高解像度向けの特殊なViTであること従来のViTのように、画像を縮小したり
- テクノロジー
- 2025/01/03 23:26

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx