RAGでのデータ整形(改行・インデント)がLLMの回答精度に与える影響を検証したでは、ダミーのテストデータやテストケースを色々作っている。実はこのデータはAIと壁打ちしながら作ったので、やり方を共有する。 ダミーのテストデータを作る まずslack-explorer-mcpのメッセージ検索のレスポンスを模したダミーデータを用意したかった。流れとしては、slack-explorer-mcpで適当にメッセージ検索してJSONをゲット => そのJSONをClaude Codeに与えてダミーデータに変えてもらう、ということをした。 下記の会話内容が壁打ち&データ生成の流れ。最初からはうまくいかないので、データを作りながら修正していった。 > Slack Explorer MCPの挙動を色々試すため、ダミーのMessageのJSONを用意したい。以下のJSONをフォーマット例として、スレッド内メッ
UGC「星々の幻境」登場! Luna Ⅱでは、原神の全く新しい遊びを提供する常設コンテンツとしてUGC(ユーザークリエイトコンテンツ)「星々の幻境」が実装されます。 そして本コンテンツの実装時から、数百種類ものバラエティ豊かなステージで遊ぶことができます。モンドの魔神任務 序章 第一幕「風を捕まえる異邦人」をクリアすると、この不思議な世界に入ることができるようになり、経営シミュレーション、パーティーゲーム、対戦ゲーム、冒険挑戦など、様々なゲームを思う存分楽しめます。 プレイヤーはここで、新たなフレンドと出会ったり、かつて一緒にプレイしたフレンドと再会したりして、協力プレイや対戦の楽しさを共有するもよし、一人でじっくり遊んで、謎解きを心ゆくまで楽しむもよし、各々の好きなスタイルでプレイを満喫できます。さらに、多くのステージにはアチーブメントやランキングシステムが用意されており、プレイスキルを
きっかけ Federico Castagna らの論文「Critical-Questions-of-Thought」(CQoT) を読んだ。要するに、LLM に回答を生成させた後、その回答を批判的に検証させるステップを挟むと精度が上がる、という話だ。 論文では Toulmin の議論モデルに基づいた批判的質問(Critical Questions)を使って、LLM の推論プロセスを検証している。具体的には、以下の 8 つの質問で推論の妥当性をチェックする: 推論は明確な前提から始まっているか? 前提は証拠や事実で裏付けられているか? 前提と結論の間に論理的なつながりがあるか? その論理的つながりは妥当か? 推論は論理的誤謬を避けているか? 結論は前提から論理的に導かれているか? 推論は既存の知識や原則と整合しているか? 推論の結論は妥当で合理的か? これらの質問に対して、AI 自身が Pa
2025年9月25日から28日(25日、26日はビジネスデイ)にかけて開催中の“東京ゲームショウ2025”(以下、TGS2025)。KONAMIの新プロジェクト発表ステージにて『ワイワイワールド Craft(仮)』が発表された。対応プラットフォームはiOS、Android、Steam、基本無料のタイトルで配信日は未定。なお、『コナミワイワイワールド』の続編ではないとのこと。 ユーザーがゲームを作って公開できる、いわゆるUGC(ユーザー生成コンテンツ)の新プロジェクト。プレイヤーや敵としてシモンやビルなどのKONAMI歴代キャラクターも登場し、過去作品のシステムも自分が作ったゲームに入れられるという。
「やらずにすむゲームはないか?」は漫画「はまり道」の名セリフである。ゲームはやりたいのだが、やるのがおっくうなので、やらなくていい安心なゲームが欲しいということだ。よく分かる。 今の時代、おっくうなことはAIにまかせよう。もっと言えばゲームを作るのもおっくうなので、AIが勝手に作ってAIが勝手にプレイすればいいのでは? それを実現するのがこのNarrative Engineです。AIがRPGのシナリオを勝手に作り、GM(ゲームマスター)やプレイヤーとして勝手にプレイし、勝手にクリアします。 まあそれだと何がプレイされたのかが分からないので、 そのリプレイをブラウザで見られる ようにしました。 小説風のナラティブに書き起こしたもの と、それに対応する プレイログ が閲覧できるので、気が向いたらゲームのプレイ内容を知ることもできます。 ここで行っていることは、TRPG(テーブルトークRPG)を
コーディングエージェントのためのオープンフォーマット「AGENTS.md」についてまとめました。 1. AGENTS.md「AGENTS.md」は、コーディングエージェントを効率的に利用するための、シンプルでオープンなフォーマットです。2万以上のオープンソースプロジェクトで採用されています。 「AGENTS.md」は、コーディングエージェント向けの「README」のようなものです。 ・README.md クイックスタート、プロジェクトの説明、貢献ガイドラインなど、人間のためのファイルです。 ・AGENTS.md コーディングエージェントに必要な、ビルド手順、テスト、規約など、README では分かりにくくなったり、人間の貢献者には関係のない、詳細なコンテキストを追加することで、人間のためのファイルを補完します。 意図的に「AGENTS.md」分離したのは、以下の理由からです。 ・エージェン
Here are some posts related to “demo” and “demoscene” culture; an audio-visual art created by very advanced computer programming technique. 非常に高度なコンピュータ・プログラミング技術を使った芸術性の高い映像作品「デモ」と「デモシーン」に関連する投稿です。 🟡 What is Demoscene?(デモシーンとは?) 🟡 Interview with Demosceners(インタビューシリーズ) 🟡 Related Posts(デモシーン関連記事) 🟡 Exploring the Demoscene: A Guide for New Explorers(初心者のためのデモシーン・ガイド) What is DEMOSCENE? “The dem
This is an explanation and demo of software I wrote that learns how to play a Nintendo Entertainment System game and then automatically plays it. This is real. Research paper published in SIGBOVIK 2013: "The first level of Super Mario Bros. is easy with lexicographic ordering a and time travel ...after that it gets a little tricky." http://tom7.org/mario/mario.pdf Follow-up video with more games
claude-trace (via) I've been thinking for a while it would be interesting to run some kind of HTTP proxy against the Claude Code CLI app and take a peek at how it works. Mario Zechner just published a really nice version of that. It works by monkey-patching global.fetch and the Node HTTP library and then running Claude Code using Node with an extra --require interceptor-loader.js option to inject
この前の記事で、LLMを新人と扱って積極的に質問させることで、LLMをドライバーとしたペアプログラミングでも、仕様を適切に実現した良質なコードを得ることができるかもね、という話を書いた。 なんでこんな話を書いたかというと、私がLLMに作って欲しいのは主にゲームで、ゲームにおいては仕様と実装の乖離、というか仕組み的にはよさそうだったんだけど実際に作ってみたらそんなに面白くない、ということがまま起こるので、それを何とかできないかという試みをしていたからだ。 まだ懲りずに続けているLLMにワンボタンミニゲームを作らせる取り組み、前回はもうLLMにちゃんとしたゲームを作らせるのはあきらめて、いろんなトイを作ってもらってそれを人間がゲームに仕立てるという方法を取った。でもこの方法だと、使えそうなトイが出てくるまでの打率が低いとか、トイからなんとかゲームっぽさを見出してそれを頑張ってゲームにするのが大
Masato Hagiwara Open in Recto Pad Google Colab Github Recto Pad TL;DR Recto is a 2D programming language that uses nested rectangles as its core syntax, encoding structure and recursion directly in space instead of a linear stream of text. Recto explores new ways to write, parse, and reason about code—and even natural language—spatially. Introduction Open in Recto Pad Virtually all the languages w
ある開発者が自身のLLMを用いたコード生成ワークフローを次のように語っている。 tl;dr まずブレインストーミングで仕様を固め、次に “計画そのものを計画” し、それから LLM のコード生成で実装。小さなループを回していき、あとは魔法 ✩₊˚.⋆☾⋆⁺₊✧ Step 1: アイデアを絞り込む 対話型LLMに、アイデアを磨き上げさせる。 Ask me one question at a time so we can develop a thorough, step-by-step spec for this idea... Remember, only one question at a time. (訳:このアイデアを徹底的かつ段階的な仕様に落とし込むために、一度に一つずつ質問してください... 覚えておいて、質問は一度に一つだけです。) これでかなりsolidなspec.mdが手に入
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く