[B! AI] naskinのブックマーク

画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena

おとといくらいにDeepSeek-OCRというのが出てました。 https://github.com/deepseek-ai/DeepSeek-OCR ただのOCRじゃなくて、「テキストを画像にしたほうがトークンサイズを小さくできるのでは？」というのをやっていて、テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったという感じですね。 LLMの開発効率化に革新？中国DeepSeekが「DeepSeek-OCR」発表 “テキストを画像化”でデータ圧縮：Innovative Tech（AI+） - ITmedia AI＋中身的には、3Bでアクティブパラメータが0.6BのMoEモデルに0.4Bの画像エンコーダーを載せた画像言語モデルです。導入や使い方は、モデルのページに書いてあります。何も考えずに最新のTransf ormers 4.57.1を入れ

naskin 2025/10/23

AI
画像

リンク

我々はCodexとどう向き合うべきなのか

この記事は、すでにCodexやClaudeCodeなどのAIコーディングツールを実際に使い始めているエンジニアに向けて書いている。「期待ほど効率が上がらない」と感じている人や、運用の型を模索している個人開発者を想定している。導入方法や基礎理論は扱わない。ひとりのエンジニアが数ヶ月間Codexと向き合って得た、実践的な運用知見を語る。数ヶ月で変わったことまず、ここ数ヶ月でAIコーディングツールの使い方が大きく変わったという話からしたい。数ヶ月前のClaudeCodeガードレール戦略全盛期と比べると、隔世の感がある。あの頃は、AIが暴走しないように制御する、余計なことをさせないようにガードレールを張り巡らせることに頭を悩ませていた。Kiroが登場したときも、その延長線上にあった。しかしGPT-5-Codexの登場で、その流れが変わった。コンテキスト詰め込み時代の終わり何が変わったの

naskin 2025/10/10

AI
開発

リンク

“今いちばん使うAI”は国産ローカルLLM。｢PLaMo翻訳｣で言語の壁が粉々に

“今いちばん使うAI”は国産ローカルLLM。｢PLaMo翻訳｣で言語の壁が粉々に2025.10.03 13:0037,210 かみやまたくみ最優のAIのひとつだと思います。英語から日本語への翻訳に特化したローカルLLM｢PLaMo翻訳（plamo-2-translate）｣。バケモノじみた翻訳能力は｢便利｣の次元を越えており、気づいたらいちばん使うAIに。見える世界も変わっていました。長い外国語の文章を1発で日本語にplamo-2-translateはLM Studioなどで動かすローカルLLM、その名の通り｢翻訳専門のAI｣です。年商要件はありますが、企業・個人でも無償で利用できます。（執筆時点、変更の可能性もありますので、ご利用のタイミングで必ずご確認ください） Photo: かみやまたくみ｢運用がめちゃ楽｣なのがまず大きな特徴です。なんとプロンプト不要、いちいち｢あなたは優秀な

naskin 2025/10/04

AI
翻訳

リンク

社長が、自腹のRTX2080で国産生成AIをゼロから作ってみた話｜片山良平＠paiza代表

そうしたところ、主催者のぬこぬこさんから思いがけず声をかけていただいたので、せっかくだったらやってみるかと、3連休でLLMを自作で作ってみる（モデルの事前学習してみる）ことにしました。結論としては、全体として7時間ほど（GPUが計算している時間含む）で作ることができました。オチとしては、事前学習やった実績できたので勉強会に参加しようと思ったのですが、予定見たら勉強会がある9/26の夜は既に別の予定が入っていたことです。せっかく作ったけど参加できない、、残念…。今回は自作LLM（国産生成AIと言っても過言ではない）をどんなふうに作ったかざっくり解説していきたいと思います。 ■やろうとしてること青空文庫の著作期限切れテキスト（GLOBIS University / 青空文庫）だけを用いて、日本語LLMの事前学習（Pre-Training）を最小構成でやり、LLMとして動作するところまで持

naskin 2025/09/21

AI

リンク

開発にも運用にも使える「Gemini CLI」が便利すぎてやばい【生成AIストリーム】

naskin 2025/07/04

AI
Gemini

リンク

MacでGeminiを快適に！デスクトップアプリ化で作業効率を大幅UP！｜ほぼほぼAIで

最近Geminiをよく使っているんですよ。特に Deep Research 機能が登場してからは、便利になったと感じています。でも、Geminiの可能性、最大限に引き出せているだろうか？ブラウザのタブに埋もれてしまったり、起動に時間がかかったり…もっとサクサク、ストレスフリーに使いたい！そう感じているのは、きっと私だけではないはずです。そこで今回は、GeminiをMacのデスクトップアプリとして、まるでネイティブアプリのように使いこなす方法をご案内します！デスクトップアプリとして使用すれば、Geminiはあなたの最強？パートナーとなり、作業効率が爆上がりすること間違いなしです！なぜデスクトップアプリ化で生産性が爆上がりするのか？そもそも、Geminiをデスクトップアプリ化することで、一体何が変わるのでしょうか？そのメリットを具体的に見ていきましょう。まず、ブラウザを起動す

naskin 2025/05/24

リンク

LLMにJSONやソースコードを出力させるStructured Generationの技術 - NTT docomo Business Engineers' Blog

こんにちは、イノベーションセンターの加藤です。この記事では、大規模言語モデル(LLM)にJSONやソースコードを正しく出力させるための生成手法であるStructured Generationについて紹介します。 Structured Generationとはパーサーを用いた制約手法正則言語とは正則言語のStructured Generation 文脈自由言語とは字句解析について正則言語+文脈自由言語のStructured Generation まとめ Structured Generationとは大規模言語モデル(LLM)はよくチャットボットとしての活用が目立ちますが、LLMの入出力を外部のプログラムに繋ぎ込むことでより高度な自然言語処理システムを作ることができます。例えばOpenAIのCode Interpreter1はLLMをPythonの実行環境と接続することで、ユーザ

naskin 2025/03/20

AI
LLM

リンク

生成AI向けのドキュメント変換技術 rokadoc の使い方 - NTT docomo Business Engineers' Blog

こんにちは。イノベーションセンター Generative AI チームの安川です。今回はrokadocのパブリックベータ版（ https://rokadoc.ntt.com/ ）が公開されたため、その紹介と解説をします。本記事では「ドキュメント変換技術」であるrokadocの概要を説明した上で、実際の使い方や結果を紹介します。使い方の部分では、WebUIを用いて簡便にドキュメント解析を行う方法や、解析結果が実際にRAG（Retrieval-Augmented generation、検索拡張生成）で有用なのかを示します。また、手元のRAGへ組み込むためにAPI経由で処理を実行する方法についても紹介します。 rokadoc概要多様なファイルへの対応高い検索精度オンプレミス対応利用方法 WebUIからの利用方法ドキュメントの解析 RAGの実行 APIを用いた利用方法前提解析の実

naskin 2025/03/20

AI

リンク

gemini-2.0-flashが賢くてコスパがよすぎる件

この記事はLLMをAPIで使うこと前提の記事です。 AI エージェント開発ハッカソン参加記事：Gemini 2.0 Flash で技術文書分析ツール「Tascario」を作ってみたの、技術的補足記事です。 APIでLLMを使っている皆さん gemini-2.0-flash を使っていますか？APIで使う限り、かなり性能が高く、コスパも良すぎて、APIならこれ一択で良いのでは？とすら思い始めています。

naskin 2025/02/13

リンク

「Copilot+ PC」登場でもう「AI PC」も時代遅れ!? “NPU”、“40TOPS”など要件の疑問に迫る【イニシャルB】

naskin 2024/06/24

AI
Copilot

リンク

PostgreSQLを生成AIの情報源として使える高速ベクトルデータベース化拡張「Pgvectorscale」がオープンソースで公開。Pgvectorをさらに高性能化

PostgreSQLのマネージドサービスなどを提供しているTimescaleは、PostgreSQLで高速なベクトルデータベース機能を実現する拡張機能「Pgvectorcale」をオープンソースとして公開したことを発表しました。大規模言語モデルを用いた生成AIの注目度が高まる中で、文章や画像、音声といったデータの特徴を数値で表現するベクトル化（もしくはエンベディング）により、大規模言語モデルで扱えるようにすることへの注目も高まってきています。ベクトルデータベースは、このベクトル化された膨大なデータの保存や類似度の検索などが可能です。例えば、RAG（Retrieval Augmented Generation）と呼ばれる手法により大規模言語モデルの回答に外部のデータベースから取得したデータを組み込むことができます。こうした場面でベクトルデータベースが活用されます。高速ベクトルデータベ

naskin 2024/06/21

postgres
AI

リンク

［速報］マイクロソフト、PCに話しかけながら画面を操作するだけで生成AIがRPAフローを自動生成してくれる、Power Automate「AIレコーダー」発表

［速報］マイクロソフト、PCに話しかけながら画面を操作するだけで生成AIがRPAフローを自動生成してくれる、Power Automate「AIレコーダー」発表マイクロソフトは、日本時間5月22日未明から開催中のイベント「Microsoft Build 2024」で、PCに話しかけながら画面を操作するだけでRPAフローを自動生成してくれる、Power Automateの新機能「AIレコーダー」を発表しました。人間に操作を教えるように、AIに話しながら操作これまでRPAフローを作成する方法として、マウスやキーボードなどの操作を記録することで基本的なRPAフローを作成することが可能でした。今回発表された新機能「AIレコーダー」は、まるで人間に言葉で説明しながら業務アプリケーションの操作を教えるように、マウスとキーボードを操作しつつ音声で説明することで、どのような意図で操作しているのかを詳

naskin 2024/05/22

AI
RPA

リンク

ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? その後良書が出たこと、分野間のレベルを合わせるため入替の書籍があることなど大幅Updateした記事を書きました！ Developer Roadmapsというサイトがすごいです。IT エンジニアの分野別にスキルアップのロードマップが示されています。言語、基盤、アプリ、かなり網羅されています。その中のAI and Data Scientist Roadmapについての推薦図書まとめです。雑感これだけ学んでいれば「こいつ知ってるな」感がありますね。ただ気になる点としてはビジネス、ドメイン知識や分析目的定義などのスキルについて言及がない

naskin 2024/04/10

リンク

AIイラストが理解る！StableDiffusion超入門【2024年夏最新版】A1111、Forge対応｜賢木イオ

AIイラストが理解る！StableDiffusion超入門【2024年夏最新版】A1111、Forge対応こんにちは、2022年10月からAIイラストの技術解説記事をweb連載してます、賢木イオです。この記事は、これまでFANBOXで検証してきた120本（約70万文字）を超える記事をもとに、2024年春現在、画像生成を今から最短距離で学ぶための必要情報をまとめたメインコンテンツです。これから画像生成を学びたい初心者の方や、手描きイラストにAI 技術を取り入れてみたい方が最初に読む記事として、必要知識が網羅的に備わるよう解説しています。素敵なイラストを思い通りに生成するために覚えるべきことを紹介しつつ、つまずきやすいポイントや参照すべき過去記事、やってはいけないことなどを紹介していますので、最初にこの記事から読んでいただくとスムーズに理解できるはずです。解説役は更木ミナちゃんです。よろし

naskin 2024/03/09

AI
画像

リンク

「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった (1/4)

先日本サイトで「めちゃくちゃ重いけど動くぞ！Excelで『GPT-2』を再現したスプレッドシート」というニュースを執筆したのだが、実際に触ってみたところ想像以上に素晴らしかったのでレポートする。「Spreadsheets-are-all-you-need」とは記事で紹介した「Spreadsheets are all you need」とは、Excelの標準的なスプレッドシート機能を使ってGPT2（ChatGPTの先祖）のフォワードパス（入力から出力までのプロセス）をExcelの中で完全に実装したものだ。と言ってももちろんExcel内で「ChatGPT」的な会話ができるわけではない。ChatGPTの心臓である大規模言語モデル（LLM）のごくごく基本的な機能をシミュレートできるだけだ。本シートの説明文には「開発者でない人でも本物のLLMが内部でどのように機能しているのかを、最小限の抽象

naskin 2024/03/09

chatGPT
AI

リンク

AIにプログラミング作業を奪われている - k0kubun's blog

せっかく10年以上かけて学んだプログラミングだが、人間がコード書くよりChatGPTにやらせた方が早いなということが度々あり、だんだん自分でプログラミングをやる時間が減ってきた。AIにコードを書かせてそれをGitHubにコピペして残りの時間は遊んでるだけで成果が出てお給料ももらえる日は近いし、段々会社もそのことがわかってきて失職する日も近い。残念ながら現時点では全ての仕事がAIで上手くいくわけではないが、どういう時に使えるかを知っておくと楽をしやすくなるので、僕がどう使っているかをまとめておく。失職できるケース簡単なスクリプトを高速に書かせる僕はRubyが全ての言語の中で一番慣れており、StackOverflowやドキュメントをほぼ見ずに大抵のプログラムを書き切れるため、Rubyを書いている時がプログラマとして一番生産性が高いのだが、それでも最近AIにRubyを書かせたことがあった

naskin 2024/01/19

リンク

［速報］Google、PostgreSQLにAI対応を組み込んだ「AlloyDB AI」発表、オンプレミスでも他社クラウドでも利用可能に。Google Cloud Next '23

［速報］Google、PostgreSQLにAI対応を組み込んだ「AlloyDB AI」発表、オンプレミスでも他社クラウドでも利用可能に。Google Cloud Next '23 Googleは、8月29日（日本時間の30日未明）から米サンフランシスコで開催中のイベント「Google Cloud Next '23」で、同社が提供するPostgreSQL互換のデータベース「AlloyDB」にAI対応機能を組み込んだ「AlloyDB AI」を発表しました。 AlloyDB AIは、データベース内に保存されているデータをAIと組み合わせて利用しやすくする機能を搭載しており、企業などが持つ商品データや顧客データなどをAIで活用するアプリケーション構築を容易にします。一般に、企業がAIや機械学習を利用したアプリケーションを開発する場合、既存の大規模言語モデルなどをそのまま利用するのではなく、自社

naskin 2023/08/30

リンク

LLMで自動運転車を動かしてみた話｜aoshun7

こんにちは、自動運転EVをつくるTuring（チューリング）株式会社で共同創業者CTOをやっている青木俊介です。先日Turingは噂のLLM（Large Language Model：大規模言語モデル）で自動運転車を動かすプロジェクトを完遂させました。上の動画にもあるように、今回開発したデモではユーザ（乗客）が音声で指示を出すと、LLMが裏で動き、自動運転車がユーザの指示に従って動いてくれます。LLMで実際の自動車が動いたのは世界初な気がします。もちろんこのシステムで公道を走るわけではないのですが、我々Turingの開発思想的には非常に重要なデモでした。この記事では「なぜTuringがLLMで自動運転車を動かしたのか」「実際どんな風にLLMで自動運転車が動いているのか」「Turingの開発体制の今後」について書いていこうと思います。 1. LLMと自動運転とTuring「LLMで自

naskin 2023/07/02

AI
自動車

リンク

オープンなLLMをローカルPCのDocker環境で動かす

次々と発表されるオープンな日本語大規模モデルどうなっているの？？という感じですよね。我らがnpakaさんは、さっそくGoogle Colabで動かしていらっしゃいます。ただ、Google Colabだと毎回モデルのダウンロードが大変なので、ローカルでDocker使って手軽に動かせるといいな、ということでやってみました。以下GitHubのリポジトリにDockerfileとサンプルプログラムをおいています。チャットっぽいことをできるようにしています。上記で、サイバーエージェントとリンナのLLMが両方動きます。使用環境前提となる環境です。使用しているPCのスペックは以下です。項目内容

naskin 2023/05/18

AI
docker

リンク

エンジニアのためのChatGPTプラグイン3選+1 - きしだのHatena

前のブログでも紹介したのだけど、ChatGPTプラグインのローリングアウトが始まって使えるようになっていて、結局みんな使うのはこの3つくらいかなーとなったので、まとめておきます。前のブログはこれ。 Bardも世の中のサービスぜんぶGoogle製と思ってるらしい - きしだのHatena 同時に使えるのは3つまでのようだけど、他のプラグインはアメリカの不動産情報など日本からは使いづらかったり、作ってみたレベルだったりなので、結局この３つに落ち着くかなーという気がします。 WebPilot これは手放せなくなります。Web記事を読み込んでくれるプラグイン。 ChatGPTには「この記事を要約して」しか入力しなくなりそう。このエントリを要約してもらっています。大規模言語モデルの「脳波」が反応してる部分を壊すとどうなるか試した - きしだのHatena ※ 追記 15:21 ぼくのところには

naskin 2023/05/15

AI
chatGPT

リンク

はてなブックマーク

タグ

関連タグで絞り込む (26)

AIに関するnaskinのブックマーク (29)

お知らせ

今週のはてなブックマーク数ランキング（2025年10月第3週）

今週のはてなブックマーク数ランキング（2025年10月第2週）

今週のはてなブックマーク数ランキング（2025年10月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス