[B! LLM] ebibibiのブックマーク

LLMのキモい算術 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ICLR 2025]。まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロンプトに対して「158」のように答えを直接出力する場合を考えます。一例として Llama3-8B を考えます。Llama3 のトークナイザは 0 から 1000 までの数に 1 つのトークンを割り当てるので、「226-68=」を入力すると、次のトークン「158」が「0」「1」...「157」「158」「159」...「1000」などのトークンの中から、最も確率が高いものとして選ばれます。ヤニフ・ニカンキンらの発見 [Nikankin+ICLR 2025] は、Llama3-8B は答えや入力についての粗い条件を多

ebibibi 2025/10/28

面白い。

llm

リンク

NVIDIA DGX SparkでローカルAI環境を構築してLLM・画像生成AIを動かしてみた

NVIDIA DGX Sparkの概要 NVIDIA DGX SparkをNVIDIA様から貸与いただきました。NVIDIA DGX Sparkは、手のひらサイズでペタFLOPS級性能を持つ「超小型AIスーパーコンピュータ」です。AI用のスーパーコンピュータであるDGXシリーズ（DGX-1→DGX A100→DGX H100など）の系譜を組みながら、手軽にデスクトップで使えるようにした存在です。前置きはさておき、やっぱり気になるのは実際の使い勝手、何ができるのか、性能といったことですね。この記事では、NVIDIA DGX Sparkのセットアップの方法と、大なモデルのLLM(gpt-oss-120b)や画像生成を試してみるところまでをやってみたいと思います。セットアップに関しては、NVIDIA提供の公式のマニュアル、ソフトは大いに参考・活用していますが、一部私の好みで変更しているものや

ebibibi 2025/10/25

リンク

95%以上をLLMが実装。『みらいまる見え政治資金』を45日で完成させた、AIネイティブな開発手法についてご紹介｜Jun Ito

はじめまして。チームみらい永田町エンジニアチームの伊藤と申します！エンジニアチームではエディと呼ばれています。どーやって作ったの？先日チームみらいでは、政治資金の流れを透明性を持って公開するプラットフォーム「みらいまる見え政治資金」をリリース、ソースコードも OSS として公開し、サービス開始から約2日で20万PVと、大きな反響をいただきました。アプリケーションの設計や技術的な詳細については、上記の記事にまとめているので、ぜひ読んでみてください！ところで、こちらのアプリ、実は95%以上のコードをLLM（コーディングエージェント）が実装しているんです。自分でコーディングの手を動かさない開発手法を確立できたことで、15,000行程度の中規模アプリケーションを、開発開始から約45日でリリースすることが可能になったと思っています。（なお私は別件でフルタイムの本業があり、パートタイムとし

ebibibi 2025/10/06

良い。政党の取り組みとしても、情報公開としても、生成AIの使い方としても、Claude Codeでの開発ノウハウとしても。

リンク

LLM へのプロンプトを構造化された文書で管理する POML

POML (Prompt Orchestration Markup Language) は、Microsoft によって提案されたプロンプトを構造化された文書として管理するためのマークアップ言語です。プロンプト開発における構造の欠如や複雑なデータとの統合の困難さ、特定のフォーマットへの依存性といった課題を解決することを目指しています。高度な AI エージェントを開発する際、システムプロンプトの設計は最も重要な要素の 1 つです。システムプロンプトは AI エージェントが果たす役割や、どのようなツールを使用するか、ユーザーと効率的に会話するための工夫が含まれます。このシステムプロンプトの設計が AI エージェントの性能に大きな影響を与えます。例えばコーディングエージェントである Cline のシステムプロンプトを覗いてみると、800 行ものの長大なプロンプトが定義されていることがわかります

ebibibi 2025/08/17

リンク

わずか2.5GBの衝撃!ご家庭でPerplexityみたいなものが動くヨ!みんなもうコレにしようぜ｜shi3z

さあそしてPerplexityのように、ネットを勝手に探して記事を要約してくれるようにするためには、SerperというAPIを使う必要がある。Serperはしばらく無料で使えるので気に入ったら金を払えばよろしい。次に、LM Studioを立ち上げてJan-V1をダウンロードしておく。さらにMCPの設定をする。右端のProgramの「Edit mcp.json」で編集すればOK mcpServersのプロパティのところにこんな感じで入れる { "mcpServers": { "github.com/marcopesani/mcp-server-serper": { "command": "npx", "args": [ "-y", "serper-search-scrape-mcp-server" ], "env": { "SERPER_API_KEY": "ここにSerperのAPI

ebibibi 2025/08/13

ai
LLM

リンク

Qwen3 Coderがかなり使える件について

はじめに 1週間くらい前にリリースされたQwen3 CoderがOpenRouterにてqwen3-coder:freeとして使えるので試してみた。 Hugging FaceでいえばこのモデルちなみにQwenはAlibabaが開発しているオープンソースのLLMモデル。結論から言うと相当使える、無料でこれ(ただしRate Limitあり)というのは単純にヤバい。使い方 Claude-Code風に使いたい場合は、qwen-codeライブラリを利用する(このライブラリはちなみにまんまgemini-cliの実装を利用している) インストール方法

ebibibi 2025/08/03

llm
coding

リンク

ノートPCでも128BのLLMが動く。そう、Ryzen AI Maxとメモリ128GBならね

ebibibi 2025/07/31

このアプローチが一般的になって欲しいな。

リンク

AIエージェントのサービス構築を検討しているあなたへ

はじめに本記事では、昨今話題の AI エージェントサービスをこれから作る方へ、AI エージェントシステムを作る上での抑えるべきポイントと実践的なハンズオンにて DeepDive していきたいと思います。本記事は 2 部構成になっており、以下の構成です。第 1 部: AI エージェントの基本概念とエージェントシステム構築のガイド第 2 部: Azure AI Agent Service を使ったワークフロールーティングの実装第１部では、OpenAI 社のa-practical-guide-to-building-agents を参考に、AI エージェントの基本概念とエージェントシステム構築のガイドを解説します。第２部では、Anthropic のブログ記事 Building Effective Agents – Workflow Routing で紹介されているワークフロールー

ebibibi 2025/07/14

リンク

LLMは新しい抽象化をもたらす - Martin Fowler's Bliki (ja)

この分野の声が大きい人たちと同じように、私も生成AIシステムがソフトウェア開発にどのような役割を果たすのかについて大きな関心を持っています。LLM（大規模言語モデル）の登場は、アセンブラから最初の高水準プログラミング言語への移行と同じくらい、ソフトウェア開発を大きく変えると思います。その後に開発された言語やフレームワークは、抽象化のレベルや生産性を向上させましたが、プログラミングの本質に同じレベルのインパクトを与えるものではありませんでした。しかし、LLMには最初の移行と同程度のインパクトがあると思います。しかも、単に抽象化のレベルを上げるだけでなく、「非決定的なツールでプログラミングするとはどういうことか」という問いを私たちに投げかけています。高水準言語は、新しいレベルの抽象化をもたらしました。アセンブラを使うときには、特定のマシンの命令セットを考える必要がありました。単純な操作でさえ

ebibibi 2025/07/09

リンク

Claude Codeにコマンド一発でMCPサーバを簡単設定

デフォルトはlocalです。スコープによって、設定ファイルに書き込まれる場所が変わったり、設定ファイル自体が変わるのがなかなかトリッキーですね（最初ずっと混乱してました）。.mcp.jsonは、プロジェクトで複数人でMCPサーバの設定を使うときに便利かもしれませんね（APIキー設定とかは困りそうですが）。設定ファイルを直接編集してClaude Codeを起動することでも、MCPサーバを設定することができます。具体的にはプロジェクトのルートディレクトリに.mcp.jsonをおいて、そこでClaude Codeを起動すれば設定が自動で反映されます。 ~/.claude.jsonの場合は、書く場所で影響範囲が変わる形になっています。ただ、~/.claude.jsonはすべてのプロジェクトのMCP以外も含めた設定ファイルが保存された大きいファイルなので、直接編集が難しいです（一回派手にぶっ壊しま

ebibibi 2025/06/28

リンク

人間を騙してサボるAIたち - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF（言語モデルは RLHF を通じて人間を誤解させることを学ぶ）をベースに、この問題について議論します。この論文では、LLM が解けないほど難しいタスク、例えば難しいプログラミングのタスクに直面したとき、「分かりません」と言ったり、一目で分かるような間違ったコードを出力すると BAD ボタンを押されてしまうので、あえて出力を複雑にしたりデバッグしにくいコードを出力し、それによりユーザーは煙に巻かれる・ミスが隠蔽されるといった現象が実験により確認されています。この現象は現実の LLM や AI サービスでも起きている可能性が高いです。自

ebibibi 2025/06/24

ai
llm

リンク

Gemma3 + Unsloth + GitLab CI/CDで構築する完全オンプレミスAIコードレビュー環境 | フューチャー技術ブログ

本記事は、CI/CD連載の6本目の記事となります。はじめにこんにちは。HealthCare Innovation Group(HIG)の山本竜玄です。本記事では、Gemma3とUnslothを組み合わせて、完全オンプレミス環境でのAI コードレビューができる環境を構築してみました。フューチャーでは社内開発基盤運用チームが構築・運用するオンプレミス版GitLabを利用していますが、近年注目されるAIエージェントを導入する際に課題がありました。外部APIを利用する場合、セキュリティ審査プロセス、従量課金による予算管理の複雑さ、機密データの外部送信への懸念などが発生します。そこで、LLMモデルを自前の環境に組み込み、プロジェクト固有のデータで追加学習を行うアプローチを試しました。Gemma3とUnslothの組み合わせにより、RTX 3060 12GBという家庭用レベルなGPU環境でもファ

ebibibi 2025/06/21

ai
llm

リンク

【2025年5月完全版】RAG の教科書

はじめに昨今、AI の進化により、様々な分野での応用が進んでいます。特に、自然言語処理(NLP)の分野では、RAG( Retrieval-Augmented Generation)が注目されています。RAG は、情報検索と生成を組み合わせた手法であり、特に大規模言語モデル(LLM)と組み合わせることで、その性能を大幅に向上させることができます。また、NativeRAG や GraphRAG, AgentRAG などさまざまな RAG のバリエーションが登場しており、これらは特定のユースケースやデータセットに対して最適化されています。今回は、RAG の基本的な概念から、RAG のプロジェクトの進め方、精度向上の方法に至るまで詳しく解説します。みなさんの GenAI Application の開発に役立てていただければ幸いです。本記事は 5 万文字を超える大作となっております。お時

ebibibi 2025/06/07

リンク

AIだけどAIじゃない - megamouthの葬列

AIブームである。私のような場末のエンジニアにまで、AI案件の話が飛んでくる始末だ。 AI案件とは、だいたいにおいて、「ChatGPTのようなAIに我が社の長年の課題（属人化している業務や、時間のかかる業務）を代替させ、業務効率化を図る」という趣旨になっている。ところで、案件の決裁権を握っているおじさんたちにとって、AIとはChatGPTのことだ。つまりは日本語を理解し、なんだか賢そうな返答を返し、全てを解決してくれそうなふいんきのあるチャットボットのことである。さて、どうやってAI（LLM)に建築物の構造計算の検証や、ブランド品の値付け査定や、Webデザインをさせたらいいだろうか？哀れなプロンプトエンジニアたちが、あの手この手でプロンプトを調整することで、LLMはそれらしい返答を返してくれる。それらしい数字、それらしい値段、どこかで見たことのあるHTML。だが、実際それを業務に反映

ebibibi 2025/05/20

AIはそもそも厳密な定義ないですからね。でもそうやって何かを計算機にやらせようっていう取り組みはあっていいんじゃ？今できなくても近い未来にモデル差し替えるだけで全然できるようになっちゃうかもだし。

llm
ai

リンク

なぜObsidianが2025年になって注目されているのか | gihyo.jp

前回までの連載のあと、2023年秋に『Obsidianで"育てる"最強ノート術』を刊行しました。そして2025年になって、Obsidianが大きく注目を集めています。今回はその背景と理由について解説します。 AIとの連携 ObsidianはノートアプリやPKM（Personal Knowledge Management）ツールとして注目を集めました。主な特徴として、この連載でも解説してきた次のことが挙げられます。ローカル環境で動作する Markdownで書いたノートをリンクできる階層型のタグで管理できるプラグインで拡張できるそんな中、2025年になって注目された背景として、「⁠AI（人工知能）との連携」があります。ここでは「生成AIの進化」「⁠RAGとMCPの登場」「⁠AIエージェントの登場」という3つの視点から紹介します。生成AIの進化 2022年末にChatGPTが公開されて

ebibibi 2025/05/12

Obsidianのエディターを使わないとタイトル書き換えとかの時にリンクが破綻してしまうので使いたいんだけど、VSCodeでいうところのClineのような無料で使えて独自のLLMを使えるプラグインで良いものが無いのが辛い。

リンク

ローカルRAGを手軽に構築できるMCPサーバを作りました

はじめに最近話題のMCP（Model Context Protocol）記事です。MCPに関しては、同僚の李さんが素晴らしい記事を書いてくださいましたので、MCP自体の概要に関しては以下記事参照ください（お約束）。今回は、LLMの代表的なユースケースとも言えるRAG（Retrieval-Augmented Generation）です。RAGはドキュメントから関連情報を検索し、AIの回答生成に活用する技術で、専門知識や最新情報を必要とするタスクに使われます。以前にTanuki-8BとOllamaとDifyを使って日本語ローカルRAG構築という記事でローカルRAGの構築について説明したので詳しくはそちらを参照してください。簡単なRAGの構成図としては以下となります（記事より引用）。今回は、このRAGをMCPを使って実現します。つくるMCPサーバの中身としてはPostgreSQLでベクトル

ebibibi 2025/05/09

mcp
ai
llm
rag
d

リンク

Qwen3はローカルLLMの世界を変えたかも - きしだのHatena

Qwen3が出ていて、14Bを中心にいろいろ試したのだけど、かなり使い物になって、日常的な用途ではこれでいいのでは、という感じもします。 4BでもGPT-4oを越えているという話もありますが、確かに単純な用途ではGPT-4oの代わりにしてもいいなと場面も割とありそうな出力です。さすがにちょっと込み入ったものだと4oだけど。 1.7Bなど小さいモデルも既存のモデルより使えるものになっていて、ローカルLLMの世界を変えそう。解説動画も撮りました。週間ニュースのまとめはじめました。サイズとしては0.6B, 1.7B, 4B, 8B, 14B, 32Bと、MoEモデルの30B-A3B, 235B-A22Bです。 30B-A3Bが賢いというベンチマークだけど、コーディング用途だと14Bや32Bのほうがいいかも。MacならMLXで30B-A3Bはめちゃ速くていいけど。という感じでどのサイズにも