Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
[B! deeplearning] stealthinuのブックマーク
[go: Go Back, main page]

タグ

deeplearningに関するstealthinuのブックマーク (1,848)

  • @motemen/ai-streamerでAIずんだもんに実況してもらう - 詩と創作・思索のひろば

    ちょっと前の Kyoto Tech Talk #8 というイベントで「AIに実況させる」という発表をしたので、もうちょっと詳細な情報も補足しつつ紹介します。 AIに実況させる / AI Streamer - Speaker Deck きっかけ 対戦ゲームポケモンSVランクバトル)の上達につなげたい気持ちで激安USBキャプチャボードを入手してプレイを録画できるようになったのがけっこう前のこと。録画に使うOBSをちょっと設定すれば配信までできることがわかったので試しに配信をしてみると、だんだん実況風のことをしたくなってくるもので、プログラムでゲーム画面の分析をしつつ、コメントをAIに生成させて立ち絵とともに音声化するだけでなんだかそれっぽく、こちらのほうが楽しくなってくる。 最初は全部まとめてひとつのプロジェクトとして作っていたのだけど、ゲーム特有の分析から離れた「コメント生成+立ち絵+音声

    @motemen/ai-streamerでAIずんだもんに実況してもらう - 詩と創作・思索のひろば
    stealthinu
    stealthinu 2025/10/31
    自動でゲーム配信をするシステム。キャプチャした動画から解説を自動生成してVOICEVOXで音声生成してOBSでコンテンツを組み合わせて配信へ。似たようなことやってるからすごくわかる。
  • LLMのキモい算術 - ジョイジョイジョイ

    LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ICLR 2025]。 まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロンプトに対して「158」のように答えを直接出力する場合を考えます。 一例として Llama3-8B を考えます。Llama3 のトークナイザは 0 から 1000 までの数に 1 つのトークンを割り当てるので、「226-68=」を入力すると、次のトークン「158」が「0」「1」...「157」「158」「159」...「1000」などのトークンの中から、最も確率が高いものとして選ばれます。 ヤニフ・ニカンキンらの発見 [Nikankin+ICLR 2025] は、Llama3-8B は答えや入力についての粗い条件を多

    LLMのキモい算術 - ジョイジョイジョイ
    stealthinu
    stealthinu 2025/10/27
    まあでも人間もだいたいこのくらい、みたいな粗い演算とちゃんとCoTして出すのとを組み合わせてる感じあるからそんなにキモくないかも。あとソロバンやってる人の暗算中の頭の中考えたらそっちのがキモいはず。
  • Koida Lab

    stealthinu
    stealthinu 2025/10/17
    技科大の視覚神経科学研究室の冒頭文がすごく示唆的。『視覚科学の分野が成熟してきてわれわれは一体何をしているのだという自己批判がある』『深層学習に始まるAIブームによってそれは達成されてしまった』
  • Huawei、LLMの精度を保持したまま最大70%メモリ削減できる新手法を発表──コンシューマーGPUでの高精度生成AI実行も視野に | Ledge.ai

    Top > 学術&研究 > Huawei、LLMの精度を保持したまま最大70%メモリ削減できる新手法を発表──コンシューマーGPUでの高精度生成AI実行も視野に

    Huawei、LLMの精度を保持したまま最大70%メモリ削減できる新手法を発表──コンシューマーGPUでの高精度生成AI実行も視野に | Ledge.ai
    stealthinu
    stealthinu 2025/10/13
    ローカルLLMにとって量子化は必須だしメモリ削減出来るのはすごくありがたい。この手の技術は中国系のとこから出てくる率高いよな…
  • トランスフォーマーは RNN である - ジョイジョイジョイ

    拙著『深層ニューラルネットワークの高速化』が重版して第 2 刷となりました。皆さまありがとうございます! 深層ニューラルネットワークの高速化 (ML Systems) 作者:佐藤 竜馬技術評論社Amazon もはや恒例、重版に感謝して書き下ろし専門記事をお届けします。 稿では、SNS などでもたびたび話題になるトランスフォーマーは RNN であるという話をします。稿では単に形式的に包含性を指摘するだけでなく、トランスフォーマーと RNN はどの程度似ているのかや、そこから導かれる応用上の意味についても詳しくご紹介します。 稿は『深層ニューラルネットワークの高速化』の第 6.3 節と第 7.2 節に基づいています。 過去回 拡散モデルと最適輸送(最適輸送第 5 刷) GNN の最新動向(グラフニューラルネットワーク第 3 刷) 深層学習で部分空間を扱うときは射影行列を考えるとよい(グラ

    トランスフォーマーは RNN である - ジョイジョイジョイ
    stealthinu
    stealthinu 2025/09/30
    これ読んでなかった。transformerはRNNを展開して並列処理できるようにしてある、みたいな雑な理解だった。めちゃくちゃ勉強になる。
  • LLM のアテンションと外挿 - ジョイジョイジョイ

    LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。稿ではさまざまな種類の注意機構を観察することでこの問題をひも解きたいと思います。 目次 目次 基的な考え方 文法ヘッド 注意の受け皿とレジスタトークン 逐次ヘッドと検索ヘッド 帰納ヘッド 関数ベクトル 反復ヘッド まとめ 基的な考え方 LLM の多くは注意機構と多層パーセプトロン (MLP) を交互に積み上げたアーキテクチャを持ちます。各層は複数の注意機構をもち、それぞれの機構を注意ヘッドと呼びます。 注意機構の役割は 文脈内の検索 ルール・アルゴリズムの実現 です。文脈とはプロンプトと今までの出力のことで、これを踏まえて次トークン予測を行います。注意機構は文脈から次トーク

    LLM のアテンションと外挿 - ジョイジョイジョイ
    stealthinu
    stealthinu 2025/09/30
    非常に面白かった。アテンションがやってることについての研究がいろいろ紹介されてる。なぜtransformerがこれほどうまくいくのかよくわかってないところもあったと思うんだけど理論的な研究もだいぶ進んでるのだな。
  • 世界初!日本企業がGPUを不要とする生成AI (LLM) の開発に成功。/2025年10月10日の都内イベントで先行発表

    世界初!日企業がGPUを不要とする生成AI (LLM) の開発に成功。/2025年10月10日の都内イベントで先行発表IYP社は、GPUを必要とせず従来型LLMと同様に動作する、ビジネスに最も適したエージェントAI/SLMの開発に成功しました※1。この成果は、10月10日のNexTech Week秋で発表されます。 株式会社I.Y.P Consulting(社:東京都中央区、代表取締役社長:崔晉豪、設立:2023年10月)は、GPU等の特殊な機材を必要とせず、従来型のLLMと同様の性能を発揮できる生成AI"SVG"の開発に成功したことを発表します。成果は2025年9月18日、人工知能機械学習分野で最も権威のある国際会議のひとつ、NeurIPS(米ニューラル情報処理学会)の会議で正式承認(アクセプト)されました※2。 ※1 特許準備中  ※2 Shohei Ohsawa, Neur

    世界初!日本企業がGPUを不要とする生成AI (LLM) の開発に成功。/2025年10月10日の都内イベントで先行発表
    stealthinu
    stealthinu 2025/09/26
    えっ!?そんなの可能??と思ったら開発者は大澤昇平氏か。
  • 「自分の声が無断で生成AIに」──プリキュア声優の山村響さんが告発 とある音声合成AIが波紋 経緯は

    無料のAI音声合成ソフト「AivisSpeech」の標準モデル「Anneli」の開発では、声優の山村響(やまむら ひびく)さんの許諾を取っていない――同モデルの作成者による告白により、AivisSpeechがSNS上で波紋を広げている。これを受け、AivisSpeechを運営するWalkers(東京都文京区)は9月8日、「現在、SNSなどで指摘されている事項について、内部確認を行っている」との声明を発表した。一体、何があったのか。 きっかけは「Go! プリンセスプリキュア」の「天ノ川きらら/キュアトゥインクル」役などで知られる声優の山村響さんが、自身のXアカウント(@hibiku_yamamura)で5日に投稿したポストだ。同ポストで、山村さんは「先日、自分の声が無断で生成AIナレーションとして使用されている動画を見つけた」と指摘。所属事務所経由で、動画の制作元に連絡していると明かした。

    「自分の声が無断で生成AIに」──プリキュア声優の山村響さんが告発 とある音声合成AIが波紋 経緯は
    stealthinu
    stealthinu 2025/09/09
    AivisSpeechのAnneliモデル問題、結構大きく取り上げられてるな。商用利用可能ライセンスでオープンで公開していたのを公式で取り入れてしまったと。うーん…
  • kaunista/style-bert-vits2-Anneli · Hugging Face

    Style-Bert-VITS2 用のAnneliモデルを公開していた跡地です。 一部報道での時系列に関する誤報に関して(2025/09/09 11時頃追記) 件について、一部報道で、「9/5の山村響さんの声明を受けてから、ここに学習元を明かした」という時系列での報道があります。 これについては、下記経緯で記載されている通り誤りであり、8/29に学習元の明記を行いました (参考: 9/3時点でのWeb魚拓)。 なお、山村響さんの声明と、8/29での学習元明記との関係は現状では不明です。 時系列まとめ 2024/02/19: こことBOOTHにモデル公開 2024/11/19: AivisSpeech公開(Anneliモデル標準搭載、事前連絡無し) 2024/11/20: こちらからAivisSpeech側に連絡を取り、Anneliモデルの学習元を伝える 2025/8/29: こことBOO

    kaunista/style-bert-vits2-Anneli · Hugging Face
    stealthinu
    stealthinu 2025/09/09
    AivisSpeechのデフォルト利用可能なモデルととして入ってたAnneliというモデルの作成者がノベルゲームの音声を学習元に使ったと告知して炎上。ライセンスを「CreativeML Open RAIL-M」でやってたから公式が取り込んだのが原因ぽい
  • Google Text-to-Speech 完全ガイド - 天体の名を持つ30の音声とその詳細

    はじめに Google Cloud Text-to-Speech(TTS)は、テキストを自然な音声に変換する最先端のAI技術です。このブログでは、特に注目すべき天体の名前を持つ30種類の音声について詳しく解説します。これらの音声は、惑星、衛星、恒星などの名前から取られており、それぞれが独自の音声特性を持っています。 まずは、Google Cloud TTSで作成したポッドキャストをご視聴ください。 Google Text-to-Speechの概要 主な特徴 多言語対応:380以上の音声と50以上の言語と方言に対応 高品質な音声合成:DeepMindの音声合成技術Googleの強力なニューラルネットワークを活用し、人間に近い品質の音声を生成 カスタマイズ可能:SSMLタグによる詳細な音声制御で、一時停止、数字、日付と時刻のフォーマット、その他の発音指示を追加 複数の音声技術:WaveNet

    Google Text-to-Speech 完全ガイド - 天体の名を持つ30の音声とその詳細
    stealthinu
    stealthinu 2025/09/02
    Google CloudeのTTSで音声タイプ毎の違いについて。Chirpが一番新しいモデルのやつなのね。この辺の公式の説明ってどこにあんだろ?
  • リアルタイムAIアプリケーションにおけるONNXのチューニング

    Parakeet株式会社でResearcherをしている金子(nadare)です。CPUのみで動作するリアルタイムAIボイスチェンジャーのParavoの研究開発をしております。 ParavoはAIモデルをPythonPyTorchで学習した後、モデルをONNXというフォーマットに変換し、Rust上でONNX Runtimeを用いて動かしています。Paravoは音声変換時に最短で10msごとに推論しており、これの処理間隔や処理時間が短くなるほど、変換した音声をループバック再生する際の遅延が減ってしゃべりやすくなります。また、わずかにでも遅れると音声がプツっと途絶え体験を損ねてしまう問題もあります。そのため、Paravoではモデル推論が高速化するように様々なチューニングに力を入れています。 記事ではONNXを用いたリアルタイムAIアプリケーションを作成する方向けに、ONNX作成時や推論時の

    リアルタイムAIアプリケーションにおけるONNXのチューニング
    stealthinu
    stealthinu 2025/09/01
    これすごく実用上ためになるtipsばっかだわ。最近全然ONNX化とかやってないんだけどまた音声系のことやるときあったら参考にしよう。
  • GitHub - microsoft/VibeVoice: Frontier Open-Source Text-to-Speech

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - microsoft/VibeVoice: Frontier Open-Source Text-to-Speech
    stealthinu
    stealthinu 2025/09/01
    7.5Hzという超低周波数でトークナイズして生成しているため、これまでより多人数で長時間の生成が可能になっているらしい。7Bモデルだとあまり自然じゃないけど日本語の生成もできるっぽい。
  • 「推論する生成AI」は事前学習されていない課題を正しく推論することができない(共変量シフトに弱い) - 渋谷駅前で働くデータサイエンティストのブログ

    先日の記事で「CoTを用いて『推論』する生成AI」の「推論」能力の限界について、論文2点を挙げて論じたところ思いの外反響が大きくてちょっとびっくりしたのでした。 なのですが、最近になって同じテーマに対して「厳密に条件統制されたデータセットを用いてLLMを実際に構築した上で実験した」という論文が出てきたとのことで、ちょっと読んでみました。それがこちらです。 実のところ、読んでみたらかなり技巧的かつ綿密に設計された内容の論文で当初一読した範囲では理解し切れない感じがありました。なのですが、非常に興味深い内容だったのと、その検証手法が斬新だったということもあり、このブログでは珍しいことですが2回連続で論文紹介をしてみようと思います*1。なおいつもながらですが、記事中に理解不足や認識の誤りなどの箇所がありましたら何なりとご指摘くだされば幸いです。 巧みな実験設計:CoT推論に影響し得る「3つの次元

    「推論する生成AI」は事前学習されていない課題を正しく推論することができない(共変量シフトに弱い) - 渋谷駅前で働くデータサイエンティストのブログ
    stealthinu
    stealthinu 2025/08/28
    実験デザインの意図はわかったが比較対象となる人間は問題セットを解いてる最中にその問題で学習してしまうから性能が良く見えるってことは考慮に入ってるのだろうか
  • GitHub - google/langextract: A Python library for extracting structured information from unstructured text using LLMs with precise source grounding and interactive visualization.

    Precise Source Grounding: Maps every extraction to its exact location in the source text, enabling visual highlighting for easy traceability and verification. Reliable Structured Outputs: Enforces a consistent output schema based on your few-shot examples, leveraging controlled generation in supported models like Gemini to guarantee robust, structured results. Optimized for Long Documents: Overcom

    GitHub - google/langextract: A Python library for extracting structured information from unstructured text using LLMs with precise source grounding and interactive visualization.
    stealthinu
    stealthinu 2025/08/26
    非構造化データから構造化テキストを抽出するGoogle製のオープンソースライブラリ。PDFから直接Markdownとかそういうのとはまた違うことのために作られてる感じ?
  • 国産LLM開発着手について - GPUで戦うな

    アジェンダ はじめに 私について 開発することになった流れ 現在の国産LLMの課題 どこを目指すか 解決方法:GPUなど使うな 具体的な技術 今後の研究開発について 我々からのお願い Q&A はじめに 取材などのご連絡はこちらから:https://magicdelta.ai/contact/ 2025/08/23 9:29現在、数えきれない反応とコメント、25万件表示。数時間前まで1500フォロワーだったのが2000フォロワー超えました。 説明:この記事は以下の記事がバズったのでそれの補足説明やQ&Aなど書いてます 注意:私は学者でも政府機関関係者でもないただの変態エンジニア→国産LLMが作れるかどうかは半信半疑でエンタメとして楽しんでもらうぐらいの温度感でお願いします 注意:権利、プロジェクト、組織的な問題で現段階では全技術とContextは公開できません 公開したら米国にそりゃ真似され

    国産LLM開発着手について - GPUで戦うな
    stealthinu
    stealthinu 2025/08/25
    うーむ… とりあえず「CoT」だよね?ってとこだけ指摘しとく。競合学習のCNN使ったLLMとかどうか。これだとネオコグニトロンのLLM版になり純国産感が高いのだが。
  • GitHub - EIT-NLP/LLaSO

    stealthinu
    stealthinu 2025/08/23
    LLM使った音声生成モデルのフレームワーク。BERTとかの代わりにLlama-3とか使うようなやつ。
  • 話題の画像生成AI「nano-banana」とは?画像編集に強い謎のAIモデルを徹底解説【使い方・注意点・活用アイデア】|GENEL | AI動画制作

    「服だけ変えたいのに、顔まで別人になっちゃう…」 「アングルを変えたいだけなのに、全体がグニャッと破綻…」 画像生成AIを触ったことがある人なら、一度は感じるこの“もどかしさ”。 そんな悩みを一気に減らすゲームチェンジャー?とXで話題なのが、画像編集に強い謎のモデル「nano-banana」です。 GoogleOpenAIの研究モデル? と謎の多い画像生成AI「nano-banana」 1枚の画像から角度や構図を変えてみました。 肌の色や顔の一貫性、背景も同じ。 辛口評価ができないレベルで精度すごいです😳 pic.twitter.com/dnS0dqoXYD — GENEL | 動画生成AI (@genel_ai) August 17, 2025 海外のブラインド評価サイト LMArena に突如現れ、多くの比較で好評価を取っていると報告されています(ただし公式の正体や配布は未公表)

    話題の画像生成AI「nano-banana」とは?画像編集に強い謎のAIモデルを徹底解説【使い方・注意点・活用アイデア】|GENEL | AI動画制作
    stealthinu
    stealthinu 2025/08/19
    プロンプトでの画像編集で元画像の状況を残したまま意図通りに編集しやすいモデルらしい。Google製で今日辺りから普通に使えるようになってるっぽい。
  • Claude Opus 4.1

    Today we're releasing Claude Opus 4.1, an upgrade to Claude Opus 4 on agentic tasks, real-world coding, and reasoning. We plan to release substantially larger improvements to our models in the coming weeks. Opus 4.1 is now available to paid Claude users and in Claude Code. It's also on our API, Amazon Bedrock, and Google Cloud's Vertex AI. Pricing is the same as Opus 4. Claude Opus 4.1Opus 4.1 adv

    Claude Opus 4.1
    stealthinu
    stealthinu 2025/08/06
    性能改善の事例として楽天での例を挙げてるがそんなに強い関係性なんだ。anthropicはamazonと関係強いから楽天は逆かと思ってた。
  • 謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ) | テクノエッジ TechnoEdge

    2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、わずか2700万パラメータという小規模なモデルでありながら、複雑な推論タスクにおいて最先端の大規模言語モデル(LLM)を凌駕するモデルを開発した論文「Hierarchical Reasoning Model」を取り上げます。 この論文はシンガポールのSapient Intelligenceと清華大学による研究発表です。Sapient Intelligenceはシンガポールに社を置き、サンフランシスコと北京に研究センターを構えるグローバルなAGI研究企業です。精華大

    謎の超小型AI「HRM」、たった2700万パラメータで巨大なOpenAI o3やClaude 3.7を蹴散らす(生成AIクローズアップ) | テクノエッジ TechnoEdge
    stealthinu
    stealthinu 2025/08/05
    高次ニューラルネットと低次ニューラルネットで言語介さずに直接CoTのループ回すみたいな感じ?Metaの概念ベクトルでCoTするのとかも近い話か。すごく小さいモデルなのは概念実証用なのかな。
  • AIの「ASMRボイス」に脳ゾワゾワ 合成音声の進化と、収益化への課題 (1/4)

    AI音声合成プロジェクトの「Aivis Project」が7月23日に、「Aivis Cloud API」のベータ提供を開始しました。LLMと連携させて、15文字換算で最速で0.3秒未満で応答を得られるという反応速度を実現しているとしています。応答速度の速さは、AIキャラクターとの音声での自然なやり取りをする上で、重要な要素です。 無料で使える音声合成Aivis Project」 ニケちゃんさんが開発中の「AITuberKit」が早速対応したため、API接続をして試してみました。LLMはグーグルの「Gemini 2.5 Flash」をAPI接続して、東京の天気について会話をしています。実際、応答は速く、話してからほとんど間を開けずに返答が返ってきます。感覚的にはGrokの「Ani」と話しているときと、あまり差を感じません。 現在はテストを兼ねて、無料で提供されていますが、いずれは課金が開

    AIの「ASMRボイス」に脳ゾワゾワ 合成音声の進化と、収益化への課題 (1/4)
    stealthinu
    stealthinu 2025/08/04
    aivisの生成すごく速くなったのね。あとにじボイスのこととかも触れられてる。音声生成系のネタ最近あまり聞かなくなってたがあまり大きな変化はないな。