オープンソース VOICEVOX は OSS(オープンソース・ソフトウェア)版 VOICEVOX をもとに構築されています。 製品版と OSS 版の違いやモジュール構成は VOICEVOX の全体構成 をご参照ください。 ソフトウェア部分は Electron + Vue 、音声合成エンジン部分は Python + FastAPI です。 追加したい・改善したい機能があれば、ぜひ開発にご参加ください。
Youtubeで配信しながら全プロンプトを実行しましたので、各節へのリンクを整理しました。時間のところにYoutubeへのリンクになっています。 もしずれていたら、その時間まで移動して視聴ください。 はじめに (4:00) 1章 ChatGPTの基礎知識 (5:50) 2章 ChatGPTの基本的な使い方 (6:28) 3章 ChatGPT Plusのセットアップ (7:32) 4章 ファイルのアップロードとダウンロード (12:40)4.1 アップロード・ダウンロード (13:03) 4.2 扱うことができるファイル (16:02) 5章 繰り返し作業を一瞬で (16:55)5.1 文字列操作 (17:20) 5.2 正規表現でのパターンマッチ (25:36) →54ページの正規表現でできることの例の説明 (29:09) 5.3 ファイルの一括操作 (46:20) 5.4 QRコード作成
プログラミングアプリ「Springin'」(スプリンギン)などを提供するしくみデザインは6月23日、商用利用OKの無償音楽素材サイト「Springin’ Sound Stock」を公開した。戦闘ゲームの攻撃音や、8bitサウンドの効果音、システム音、乗り物の音など、600点以上をそろえた。 過去のプログラミングコンテスト使用音源など、同社のサウンドデザイナーが手掛けた音源を中心に提供。「つくる楽しさを知り、誰でもクリエイターになってほしいという願い」から公開したという。 誰でも無料で使うことができ、スプリンギンでの利用だけでなく、動画制作やイベントなどの商用利用も可能だ。 関連記事 タップやフリックなどのシステム操作音のフリー素材、電通が公開 商用利用も可能 電通は、タップやフリック、文字入力などの操作を想定したオリジナルのシステム操作音をフリー素材として公開した。「SND」と名付けられた
なぜオジサンは一人でブツブツと喋るのか。 それは、音声入力こそが最強のプロンプトを生み出すからである。 両手をキーボードから解放する時が来た。 忙しい人向けの説明 さっそくChatGPTを開き、iOSのマイクから音声入力を起動したら、 これを使って入力 「本しゃぶりというブログにChatGPTの使い方について、面白そうな記事があったのでメモ。なんか音声入力を使うといいらしい。これまで話した内容について整理し、マークダウンで出力して」 と喋っておこう。誤字脱字などの修正をせずに投稿すればいい。 以上。 音声入力と生成AIの組み合わせが強い 生成AIをうまく使いたいならば、詳細なコンテキストを与えるのが良い。しかし、ここに大きな問題があった。 人間というものは楽をしたがる生き物である。特にAIに助けを求めるような人は、なおさらだ。文章を入力することに面倒くささを感じ、つい最小限の指示で済ませて
Microsoft、文字起こしアプリ「Group Transcribe」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcribe(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う
※この記事は、音を再生できる環境で読むとより楽しめます。イヤフォン等がある方はぜひお手元にご用意ください。(もちろん音無しでも楽しめます!) 突然ですが、これらの音を聞いたことはあるでしょうか? 『和太鼓でドドン』 『男衆「オウ!」』 『ドンドンパフパフ』 YouTubeを見ていれば、必ず一度は耳にする音ばかりですね。実はこれらの効果音、すべて「効果音ラボ」というフリー音源素材サイトが提供している音なんです。 「効果音ラボ」は国内のフリー効果音サイトでは最大手と言っても過言ではありません。YouTubeに限らず、ゲームやコマーシャルでも様々な音が使われています。 効果音ラボ トップページ ただ皆さんご存知でしたか? このサイト、創設から9年の間ずっと、たった1人の方が運営しているんです。 さらに、銃声を録音するために海外に行ったり、録音のためだけにヘリコプターをチャーターしたりと、音源を作
世界地図上にマッピングされたポイントをクリックすることで、その地域の民族にゆかりのある音楽を再生できる。例えば日本の東北地方なら、安全を願うために歌われてきた「津軽山唄」、東京都なら作業時に歌われてきた「木遣節」がある。他にもヨーロッパやアフリカ、米国など世界各国の伝統音楽が聞ける。 2017年に暫定版としてデータベースを一度リリースしていた。研究チームは、改めて楽曲の種別や特徴などを見直し、呼吸方法や楽器情報など、より詳細な情報や会話などの音楽ではない音源も加え、データの正確性を上げて再度リリースしたという。 データベース中の全ての楽曲は、個人や研究での利用など非営利での使用を推奨しており、著作権とその文化継承者が許す範囲内のみで利用できる。今後も継続的に新しいデータも追加していくという。研究チームは「Global Jukeboxが他の研究者に刺激を与え、音楽の伝統や文化の進化に関する多
こんにちは、けいすけです。 突然ですが、 あなたは自分専用のDiscordサーバーを持っていますか? 「え、ゲームしないからDiscordは使わない」 「チャットアプリでしょ?一人で使ってどうするの?」 そう思っているなら、 ものすごくもったいないことをしています。 今日は、なぜ全人類が 自分専用のDiscordサーバーを作るべきなのか、 その理由と具体的な活用方法をお話しします。 多くの人がDiscordを 「ゲーマー向けのチャットアプリ」だと思っています。 確かにそれは事実ですが、 それは氷山の一角に過ぎません。 Discordの本当のすごさは、 その拡張性にあります。 テキストメッセージはもちろん、 音声メッセージ、画像、ファイル共有、 さらにはBot機能を使った自動化まで、 あらゆることができるプラットフォームなんです。 つまり、Discordは「自分だけの秘書」を 雇えるプラット
注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。 追記(24/11/20)DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。 キャラクターが15人増える なぜか久世凛さんとイルミルの声優が変更されるツッコミがあった利用規約の修正それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。 DMMボイス(現にじボイス)最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス。 https://nijivoice.com/ それの学習元に、エロゲーのテキスト音声データが使われているのではないかと
Google NotebookLMには、PDF、テキスト、YouTubeなどを読み込んで、その内容についてリアルな対話ポッドキャスト解説を生成する機能があります。 2024年9月11日にローンチした時点では英語でしか使えなかったのですが、4月30日、ついに日本語対応しました。 早速試しました。 ネタ元にしたのは、一緒にポッドキャストをやっている散財小説ドリキンの最新YouTubeエピソード。 このURLをNotebookLMにソースとして入力すると、概要が表示され、その内容についてチャット形式で質問できるようになります。すると、右上に「音声概要」という表示がされます。そこで生成ボタンを押すと、男女二人のポッドキャスト的会話形式で、音声による解説が生成されるのです。特定の方向性を指定するなどのカスタマイズも可能。 今回は、カスタマイズ無指定で生成しましたが、6分24秒の音声が、5分ほどで出来
現実世界にさようなら。「VRChat」を今さら始めたら,あっという間に美少女に堕ち,100万円近く飛んでいった 編集部:御月亜希 2024年9月末。本当に,本当に今さらなのですが,「VRChat」を始めました。それから5か月ほどが経った今,私の生活は完全にこのVR SNSに乗っ取られてしまい,ログインしない日はありません。☆5キャラを引くためのガチャも,札束でビンタする対人要素もないのに,もう100万円近くのお金が飛んでいきました。いったいどこで,なぜ足を踏み外してしまったのでしょうか……。 いえ,心当たりはいっぱいあるんですけど,とにかく危険な世界なんですよ,VRChatは。多くのプレイヤーは平和に楽しく過ごしているのだと思うのですが,恐ろしいことに,私のようにあっという間に壊れてしまう人もいます。何があったのかを,ここに残しておきましょう。お砂糖の話とかではないですよ。 本稿のスクリー
以前当ブログで紹介した時からずっと愛用しているEagleがver.2に神アップデートしたので、改めて紹介したいと思います。 簡単に言うと、フォント(ttf,otf,ttc,woffも)、画像(jpg,png,gif,svg,webpはもちろん、raw,psd,ai,xd,sketch,clipも)、動画、音声、PDFやテキストも管理でき、タグ付けやフォルダ分けやカラーフィルターなどで整理も簡単できるアプリです。 Windows, macOS(M1対応)に対応したアプリで、1ライセンスで2つ使用でき、サブスクではなく買い切り、しかもバージョンアップの追加料金なしです。 ver.2が先日リリースされ、ver.1の人は無料でアップデートできます! Eagle Eagleとは Eagle ver.2の神アップデート Eagleのダウンロード・インストール Eagleの使い方 Eagleとは Eag
まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい 企業の業務の中でも会議やプレゼンなどの議事録作成は効率化したい作業の上位に挙がってくるのではないでしょうか。実際、2023年8月にソースネクスト株式会社が行った「議事録に関する意識調査」によると、議事録の作成には平均50.4分の時間が費やされており、また部下の75.8%が会議中の議事録の作成によって発言しにくいと感じることがあるといいます。 そこで利用を検討したいのが、AIによる自動音声認識を利用した議事録の作成です。本記事では、日本語に特化して高い精度と速度を誇ると話題を呼んだ『kotoba-whisper-v2.0』を主に取り上げ、AIによる議事録作成の最前線をご紹介します。 日本語特化の文字起こしAI『kotoba-whisper-v2.0』とは? 『kotoba-whi
7000億円以上の営業損失を出したデバイス事業の見直しを進めているAmazonが手がける音声アシスタント「Alexa」は、2022年だけで100億ドル(1兆4000億円)を食いつぶす大きな失敗だったと、Amazonの社員が語りました。 Amazon Alexa is a “colossal failure,” on pace to lose $10 billion this year | Ars Technica https://arstechnica.com/gadgets/2022/11/amazon-alexa-is-a-colossal-failure-on-pace-to-lose-10-billion-this-year/ Amazonは営業不振により最大で1万人を解雇する史上最大規模の人員整理を進めており、その中で最も大きな影響を受けているのが音声アシスタントであるAlexa
この数日でバズっていた一連の記事を読んで自分も試してみることにした。 【発端】音声入力とAIの組み合わせが強力だという骨しゃぶり氏の記事 https://honeshabri.hatenablog.com/entry/talk2ai 【音声入力】SuperWhisperが良いよというお話 https://umiyosh.hatenablog.com/entry/2025/02/26/215102 【テキストエディター】Cursorはコード書くだけじゃなく、AIを使った文章作成にもいいよというお話 https://ascii.jp/elem/000/004/253/4253872/ 結論から言うと骨しゃぶり氏の言ってることがよくわかった。めっちゃ便利というかちょっとしたイノベーション感じてる。 音声入力自体は以前にも試したことあるけど、そこから先が人力編集なのと、間にAIをかますのとではまっ
日本マクドナルドは1月17日、ポテトが揚がったときに店内で流すタイマー音「公式ティロリサウンド」の配布を始めた。使い方について「作業用BGMとして流すもよし、アラーム音にして目覚めるもよし、ご自身でリミックスして楽しむもよし。ぜひご活用ください」(同社)としている。 同音源を利用した楽曲「ティロリミックス」の公開に合わせた施策。これまでも音源を加工した楽曲などは公開していたが、オリジナル音源を公式に配布するのは初めてという。 関連記事 チキンを温めるゲーミングPC、KFCが正式発表 「ネタじゃなかったの?」ネットざわつく KFCのゲーム部門KFC Gamingが、プレイ中にフライドチキンを温めるゲーミングPC「KFConsole」を正式に発表した。 「星のカービィ」オーケストラ楽譜を無料配布 結婚式での演奏などに利用可能 オーケストラコンサートなどで使用された「星のカービィ」の楽譜が無料配
本日8月1日、音声合成技術の世界に、また画期的な動きがありました。「Seiren Voice」や「Yukarinライブラリ」の開発者としても知られるヒロシバ(@hiho_karuta)さんが、ITAコーパスを利用した商用利用も可能なAI音声合成システム、VOICEVOXなるソフトウェアをオープンソースのとして無料でリリースしたのです。具体的には現時点Windowsで動くシステムで、「ずんだもん」および「四国めたん」の声でテキストを読み上げるシステムとなっています。 これがオープンソースとなったことで、一般ユーザーが自由に利用できるというだけでなく、さまざまなシステムに組み込んで喋らせることが可能になったのが画期的なところ。たとえばロボットなどに組み込んで対話型のシステムを作ることや、観光案内システムに導入して喋らせる……といったこともできるほか、クラウド型のシステムを構築し、ブラウザを経由
san junipero @ftheminion2023 邦画、俳優はボソボソ喋るしマイクはセリフを拾わないしで普通の音量じゃなにを喋ってるのか全然わからないから音量を上げるとBGMだけ爆音で響いてびっくりして音量を下げる→セリフ聴こえないからまた上げるの繰り返しで健常者でも字幕必要だよ。基本全部字幕つけて欲しいよ。みんなが助かるよ。 x.com/daigarashi/sta… 2025-05-20 21:12:58 五十嵐大⇄イガラシダイ/『「コーダ」のぼくが見る世界』が課題図書になりました! @daigarashi 邦画にも字幕を付けてほしいという声が上がると、「そもそも邦画を観にくるろう者、難聴者がいないじゃん」なんて反対意見も出てくるんだけど、勝手に「いない」ことにしないでほしい。字幕がないから観にいけないだけで、「いない」わけではない。映画好きの父は字幕版の洋画をかなり観ている。
こんな簡単なコマンドで、Windowsは「しゃべって」くれる。画面キャプチャーでは声をお聞かせすることはできないが、お手元のWindows PowerShellで試してほしい スクリプトを作るとき、ちょっとユーザーの気を引きたくなることがある。たとえば、少し時間のかかる処理をするときに、終わったことを通知したい場合などだ。あるいは、実行後にすこし時間が経過してからエラーを通知するような場合にも、気を引きたくなることがある。 こんなとき昔のコンピューターならベル音やビープ音を鳴らすのが一般的だった。端末装置からコンピューターを使っていた頃、Ctrl+Gを出力するとベル音が鳴った。マイクロプロセッサが使われ始め、パソコンの原型ができあがった頃、BEEPと呼ばれる機能ができた。プログラムでビットをオンオフし、これをスピーカーに接続することで音を出していた。今もマザーボード上には、そのための小さな
筆者はUTAUによる波形接続の時代から「その人の声になりきる」技術を試してきましたが、このほど、その中でも画期的と思える技術に出会いました。『Seed-VC』(Seed Voice Conversion)というオープンソースソフトです。 ■AIボイチェンの進化どこが画期的なポイントかというと、高い音質を維持しながら、ゼロショット、つまりファインチューニングをせずに、1秒から30秒までの短い音源を参照するだけで、短時間でオリジナルに近いボイチェンができるところにあります。 以前紹介したDiff-SVCやRVCは、オリジナル音声に近いボイチェンが可能ですが、学習にはそれなりの長さのオーディオデータと高性能GPUによる処理が必要です。
はじめにAITuberと書いて、アイチューバーと読みます。VTuberとは違って中の人が存在しないことが特徴です。 AITuber開発は高尚な深層学習のモデル開発ではまったくなく、むしろ、ただの推しの育成ゲームです。 なので、GPUもPythonもいりません。PCさえあれば今すぐはじめられます! この記事でできること以下のようなAITuberが作れます。可愛いですね(親バカ) 妹系AITuber🌸桜井りりか Twitter: https://twitter.com/Ririka_AIsister YouTube: https://www.youtube.com/@ririkasakurai 早い人で週末に2日で作れると思います! 土日に作ったAITuberをみんなに公開しちゃいましょう!!! AITuber作成手順立ち絵の生成 モデル・VAEの選定 Google ColabでStable
(CNN) 黒海に浮かぶ島を防衛するウクライナ軍兵士と、ロシア海軍の将校が交わしたものとみられる音声が明るみに出た。 ウクライナのゼレンスキー大統領によると、スネーク島の守備に当たっていた兵士全員が戦死したと報告されているという。 同大統領は、「国境警備隊の全員が英雄的に死亡したが、降伏しなかった。彼らには死後、ウクライナの英雄勲章が授与されることになる」と述べた。 ロシアの戦艦は24日のある時点で同島に接近。 両者のやり取りとされる音声によると、ロシア軍の将校が「こちらは軍艦、ロシア軍の軍艦。流血と不必要な犠牲を回避するため、武器を置くことを提案する。さもなくば、爆撃を受けることになる」と述べた。 ウクライナ兵士からのものとされる応答は、「ロシア軍艦、消え失せろ」という内容だった。
低遅延、高音質、小容量なボイスチェンジャー、Parakeet.VC Parakeet.VCは、マイクでしゃべる自分の声をまったく別の声にリアルタイムに変換するAIボイスチェンジャー。今回、Windows版およびMac版がリリースされましたが、PC以外のスマホなどについては、今後順次対応していくとのことです。 このParakeet.VCにはトータル109キャラクタの音声が入っていて、ユーザーはキャラクタを選択するだけで、その声でしゃべることが可能になるのです。 まずは以下のビデオをご覧ください。左チャンネルが元の声で、右チャンネルが変換後の声となっていますが、まったく違う声に、そして非常に滑舌のいいキレイな声質の音声に変換されていることがわかると思います。 元の声と変換後の声に若干のタイムラグがありますが、これが変換にかかる時間。従来のAIボイスチェンジャーだとここが結構な時間差となっていま
Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようです ライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提 ざっくりと雑に解説。 どんな技術を使っていてこんな感じだろうという妄想は以下をどうぞ。 Clubhouse リアルタイム配信の仕組みについて (妄想編) 著者 商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 Clubhouse の仕組みはとてもシンプルで配信者が N 人で、それを数千人が聞くという co-streaming と呼ばれる仕組みの一つ。この方式は今までは主に映像ありでパネルディスカッション的な使い方が主だっだ。それを
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く