speechの人気記事 63件 - はてなブックマーク

1 - 40 件 / 63件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

speechの検索結果1 - 40 件 / 63件

speechに関するエントリは63件あります。 AI、音声、 voice などが関連タグです。人気エントリには『令和5年度東京大学学部入学式　祝辞（グローバルファンド保健システム及びパンデミック対策部長馬渕俊介様） | 東京大学』などがあります。

令和5年度東京大学学部入学式　祝辞（グローバルファンド保健システム及びパンデミック対策部長馬渕俊介様） | 東京大学
- 2063 users
- www.u-tokyo.ac.jp
- 暮らし
- 2023/04/13
HOME 教育・学生生活行事・シンボル式典・式服式辞・告辞・祝辞集令和5年度東京大学学部入学式　祝辞（グローバルファンド保健システム及びパンデミック対策部長馬渕俊介様）新入生の皆さん、そしてご家族、ご親族の皆さま、おめでとうございます。私自身も東大の卒業生ですので、入学時の受験戦争からの解放感、新しい学生生活を始めるわくわく感は、今もよく覚えています。長い受験勉強が終わって、ついに自由。たくさん遊んで、恋人作って、ガンガンやっていいと思います。同時に、大学の4年間は、「自分で創り、自分で切り拓く、自分の人生」のスタート地点です。そしてこれからの皆さんの人生の中で、一番自由に、自分の器を広げ、自分の夢を探して突き進める時期でもあります。私は東大卒業後、発展途上国を日本の立場から支援する国際協力機構JICA、民間の経営コンサルティング会社のマッキンゼーの日本オフィスと
- 人生
- あとで読む
- 教育
- 考え方
- 大学
- education
- 仕事
- 文化
- 言葉
- 東大
商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース
- 587 users
- www.dtmstation.com
- テクノロジー
- 2021/08/01
本日8月1日、音声合成技術の世界に、また画期的な動きがありました。「Seiren Voice」や「Yukarinライブラリ」の開発者としても知られるヒロシバ（@hiho_karuta）さんが、ITAコーパスを利用した商用利用も可能なAI音声合成システム、VOICEVOXなるソフトウェアをオープンソースのとして無料でリリースしたのです。具体的には現時点Windowsで動くシステムで、「ずんだもん」および「四国めたん」の声でテキストを読み上げるシステムとなっています。これがオープンソースとなったことで、一般ユーザーが自由に利用できるというだけでなく、さまざまなシステムに組み込んで喋らせることが可能になったのが画期的なところ。たとえばロボットなどに組み込んで対話型のシステムを作ることや、観光案内システムに導入して喋らせる……といったこともできるほか、クラウド型のシステムを構築し、ブラウザを経由
- DTM
- あとで読む
- AI
- 音声合成
- ソフトウェア
- VOICEVOX
- 音声
- ツール
- software
- voice
GitHub - openai/openai-fm: Code for openai.fm, a demo for the OpenAI Speech API
- 577 users
- github.com/openai
- テクノロジー
- 2025/03/21
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- AI
- あとで読む
- OpenAI
- 音声
- webサービス
- api
- demo
- speech
- 自動生成
- 機械学習
表現規制を求める請願が各委員会に付託、まさに表現の自由の危機です - 参議院議員山田太郎公式webサイト
- 394 users
- taroyamada.jp
- 政治と経済
- 2025/07/02
【表現規制を求める請願が、多数の国会議員の紹介で各委員会に付託されている状況。新サイバー犯罪条約の締結手続でしっかりと対応しないと創作表現の自由が失われてしまう！】表現の自由が危機に瀕している、私がこのように言うと「噓を言うな」「大げさだ」「不安を煽っているだけだろう」といった声をいただきます。しかし、今年2025年通常国会（第217回国会）でも、表現規制を求める請願が複数行われており、多数の国会議員が紹介議員となって各委員会に付託されています。その一つ、『子供への性加害を根絶するための施策強化と児童買春・児童ポルノ禁止法などの改正を求めることに関する請願』では、「子供、又は主に子供のように見えるよう描かれた者が明白な性的行為を行っている画像及び描写、又は、性目的で子供の体の性的部位の描写を製造、流通、頒布、提供、販売、アクセス、閲覧及び所持することを犯罪化すること。」が国に対して要
- 表現規制
- 政治
- 表現の自由
- あとで読む
- 山田太郎
- 社会
- 表現
- 人権
- 規制
- politics

デ・ニーロ、受賞スピーチを検閲されたとアップル非難。壇上で気付き「消された部分」を読み上げ喝采受ける | テクノエッジ TechnoEdge
- 337 users
- www.techno-edge.net
- テクノロジー
- 2023/11/30
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他映画俳優のロバート・デ・ニーロ氏が、2023年度のゴッサム・インディペンデント映画賞の授賞式におけるスピーチに登壇した際、読み上げるスピーチ原稿から当初予定していた記述が削除されていたことに関して、アップルと映画賞主催者を非難しました。問題のスピーチはゴッサム賞のなかの一部門を受賞した作品を紹介するため、デ・ニーロ氏が用意したものでした。事前の原稿は冒頭部分で「前大統領は在任中の4年間に3万回以上も嘘をつき、現在の報復キャンペーンでもそのペースを維持しています。しかし、その嘘の数々をもってしても、その本心を隠すことはできません。弱者を叩き、自然の恵みを破壊し、例えば『ポカホンタス』を差別的な言葉として使う
- Apple
- 映画
- アメリカ
- 政治
- あとで読む
- movie
- 表現規制
- 歴史
- これはひどい
トランプ大統領のスピーチの内容が翻訳かけても理解出来ず、英語力が足りないからと思ってたらネイティブの人も「理解できない」って言ってる
- 295 users
- togetter.com
- 学び
- 2025/04/10
池澤春菜 @haluna7 トランプのスピーチ、ちっとも理解できなくて、わたしの英語力が足りないのか、と落ち込んでたんだけど、翻訳かけても理解できないし、なんならネイティブも理解できん、って言ってる多分本人も、理解できていない 2025-04-08 16:30:03 池澤春菜 @haluna7 池澤春菜:読書、海外SFとFTを偏愛。黒パグクーちゃんを溺愛。台湾と中国茶に片思い、きのこまみれ。料理とガンプラ、作るもの全般。趣味だらけの人生を謳歌中。【@のRT不可の場合は一言お書き添え下さい】 across-ent.com/talent/women/h…
- アメリカ
- 英語
- あとで読む
- 政治
- トランプ
- togetter
- ネタ
- 大統領
- MAGA
- SF
求人で良さそうなところあったのに、朝礼前に1分間スピーチあるって書いてて応募するの辞めた→経験者の声や肯定派の意見など色々集まる
- 230 users
- togetter.com
- 政治と経済
- 2024/04/16
おいも🍠 @oimoga_daisuki 求人で良さそうなところあったのに、朝礼前に1分間スピーチあるって書いてて応募するの辞めた。そんなん業務の１つにして何になるんやろ？小学生かよ。 2024-04-15 15:29:55
- togetter
- 会社
- 仕事
- 労働
- あとで読む
- コミュニケーション
- 就職
- work
Aivis Project | AivisSpeech でかんたんに感情豊かな音声合成、使ってみませんか？
- 224 users
- aivis-project.com
- アニメとゲーム
- 2024/11/20
声に革命を。Aivisアイビス Projectプロジェクトが切り拓く、感動の音声体験。 Aivis Project は、感情豊かな音声合成技術を誰もがかんたんに活用できる未来を目指す、壮大な開発プロジェクトです。機械的な響きに留まらない、まるで魂を宿したかのような音声が、あなたの想いや言葉に豊かな感情をのせて世界へと響き渡る。Aivis Project が描く未来は、これまでにない感動と驚きに満ちています。解説動画に聞き取りやすい良質な音声を添え、好きなキャラとボイスチャットで会話を楽しむ。社内向けの研修動画やプレゼン資料に、説得力のあるナレーションを加えて伝達力を高める。そうした多様な表現が、私たちのプロダクトを通じて数クリックで実現します。 AivisSpeech でのローカル音声合成から、音声合成モデルの制作・公開、高速なクラウド API まで。 Aivis Proje
- 音声合成
- AI
- あとで読む
- 音声
- sound
- voice
- TTS
- ソフトウェア
- PC
- マネジメント
writeout.ai
- 171 users
- writeout.ai
- テクノロジー
- 2023/03/09
Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.
- AI
- あとで読む
- audio
- transcription
- speech
- 音声
- webservice
- ツール
OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
- 126 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/23
- 音声認識
- AI
- whisper
- 機械学習
- OpenAI
- あとで読む
- python
- 音声
GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog
- 124 users
- techblog.enechain.com
- テクノロジー
- 2024/12/14
この記事はenechain Advent Calendar 2024の14日目の記事です。はじめにこんにちは。enechainで統計・機械学習モデルの構築やLLM（大規模言語モデル）の活用推進を担当している@udon_tempuraです。私達のチームでは、以前紹介した会議動画要約のノウハウを活用し、社内用の動画・音声文字起こしツールを構築・運用しています。本記事では、その精度向上の仕組みについて紹介します。実装も比較的少なく実現できたため、セキュリティなどの関係により内製で文字起こしを構築している方々の参考になれば幸いです。はじめに背景と課題システム要件システム実装アーキテクチャ入力データ形式ドメイン固有用語の管理処理フロー Cloud Speech-to-Textによる文字起こし Gemini 1.5 Flashによる認識処理 Gemini 1.5 Proによ
- 文字起こし
- LLM
- あとで読む
- Gemini
- AI
- 自然言語処理
- google
最近のAIボイスチェンジャー(RVC、so-vits-svc)
- 121 users
- zenn.dev/tonimono
- テクノロジー
- 2023/04/10
私は趣味で機械学習を学ぶ初学者であり、説明に間違いや勘違いがある可能性があります。そういった点がありましたらコメントで指摘していただけると助かります。また、so-vits-svcやRVCは論文ベースでの技術発表が無いため、以下はコードや周辺情報からの想像を含みます。修正履歴 2023/04/15 RVCの動作について誤りがあったので修正しました。nadare🌱さんご指摘ありがとうございます。 AIボイスチェンジャーとはある発話音声の入力を特定の話者が発話したような声質の発話音声に変換するための、深層学習を使用したアプローチがそう呼ばれている印象です。以前から、深層学習を用いたリアルタイムボイスチェンジャーはMMVCなどが存在していました。最近(2022年11月頃から2023年4月頃)では、Retrieval-based-Voice-Conversion 通称RVC や、Soft
- AI
- 機械学習
- あとで読む
- 音声
- 音声合成
- voice
- column
OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
- 120 users
- vivinko.com
- テクノロジー
- 2022/09/26
OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は、ASDFを使ってPythonのバージョンを使い分けており、今回使用するのは、miniforge3-4.10.3-10です。Python 3.9.13が動作しています。まず、仮想環境を作ります。miniforgeを使っていながらPython標準のvenvを使っていました。（あまり意識して
- python
- whisper
- あとで読む
- mac
- AI
- インストール
- github
自動化にこだわるのはエンジニアとして正しいあり方。CTOに聞いた生産性をあげるためにやっていること。【ep.9 #論より動くもの .fm】 - STORES Product Blog
- 97 users
- product.st.inc
- テクノロジー
- 2022/08/17
CTO 藤村がホストするPodcast、論より動くもの.fmの第9回を公開しました。今回はCTO藤村が生産性をあげるためにやっていることについて話しました。論より動くもの.fmはSpotifyとApple Podcastで配信しています。フォローしていただくと、新エピソード公開時には自動で配信されますので、ぜひフォローしてください。テキストで読みたい方は下記からどうぞ。パンを作るだけじゃなく、パンを作る機械も作る藤村：みなさん、こんにちは、論より動くもの.fmです。論より動くもの.fmは、heyのCTO藤村が技術や技術にまつわるさまざまなことについてざっくばらんにお話しするPodcastです。今回はゲストに技術広報のえんじぇるさんを招いております。よろしくお願いします。えん：よろしくお願いします。藤村：今日は生産性について話したいというお題を受けたので、それについて話そうと思い
ReazonSpeech - Reazon Human Interaction Lab
- 76 users
- research.reazon.jp
- テクノロジー
- 2023/01/19
ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。
- AI
- speech
- 機械学習
- voice
- japanese
- 学習
- 日本語
- api
Free AI Voice Generator & Voice Agents Platform | ElevenLabs
- 72 users
- elevenlabs.io
- テクノロジー
- 2023/01/13
In the ancient land of Eldoria, where skies shimmered and forests, whispered secrets to the wind, lived a dragon named Zephyros. [sarcastically] Not the “burn it all down” kind... [giggles] but he was gentle, wise, with eyes like old stars. [whispers] Even the birds fell silent when he passed. In the ancient land of Eldoria, where skies shimmered and forests, whispered secrets to the wind, lived
- AI
- voice
- TTS
- 音声合成
- 音声
- audio
- text
Whisperによる映像文字起こしの精度をLLMとOCRの力で向上させる - NTT docomo Business Engineers' Blog
- 66 users
- engineers.ntt.com
- テクノロジー
- 2025/07/14
イノベーションセンターの加藤です。この記事ではWhisperによる音声認識の前処理と後処理にLLMとOCRを組み込むことで、映像の文字起こし精度の向上を図った際の検証結果を紹介します。 Whisperとは OCRの結果を盛り込み専門用語を認識させる大規模言語モデルで全体の文章を調整する各アプローチの融合結果の考察まとめ Whisperとは Whisper1はOpenAIによって提供されているオープンソースの音声認識モデルです。色々なサイズのモデルが提供されており、最も大きいモデルであるlarge-v3は日本語を含む多言語に対応し高い認識精度を誇ります。しかしもちろん完璧ではなく、Whisper(large-v3)で日本語の音声を書き起こしてみるとそれなりに誤認識が見られます。また、専門用語や人名など、あらかじめ知っていないと正しく書けない単語についてもうまく書き起こせないという
開会式で話題となった"長いスピーチ"、どうしてそう感じたのかをスピーチライターがガチ分析してみた
- 60 users
- togetter.com
- テクノロジー
- 2021/07/28
千葉佳織 / 初著書『話し方の戦略』 @kaolly13 オリンピック開会式のバッハ会長のスピーチ、「長かった」との感想を多く目にしました。みなさんの違和感の正体が、スピーチのどのような技術に由来するのか、スピーチライターの視点で分析してみました。明日から使えるスピーチ・プレゼンのポイントも添えています。 pic.twitter.com/eTV12Q3fRh 2021-07-26 19:40:32 千葉佳織 / kaeka @kaolly13 株式会社カエカ代表取締役、スピーチライター。話す力を数値化しあなたの課題を解決する話し方トレーニング「kaeka（@kaeka_official）」を個人・企業・政治向けに提供。SFC→DeNA→kaeka。弁論全国大会3回優勝、内閣総理大臣賞、採用情報（https://t.co/O4P5SsjZ4d）著書『話し方の戦略』 kaeka.jp
GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
- 60 users
- github.com/openai
- 学び
- 2022/09/17
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- Whisper
- OpenAI
- translate
- voice
- audio
- 機械学習
- Tech
- Python
Googleの新しい音声AIが、高性能だし、無料で使えるしで、これは使える！と思いました｜カレーちゃん
- 59 users
- note.com/currypurin
- テクノロジー
- 2025/05/23
結論Googleが、新しい音声AIを出しました。テキストを入力して、音声を出力できるAIです。それが、無料で誰でも使うことができるし、APIでも使えます（APIの方は有料）。しかも高性能すぎるし、簡単に使えるし、カスタマイズも自由自在っぽいです。今日のYouTube配信ではじめて使ったのですが、一人でめちゃくちゃ驚きました。ということで、以下、使い方の説明と、作ってみた音声を貼ります。使ってみた音声と、使い方これが作成された音声です。新しく出た、Native speech generationの2人語りすごくない！？漫才でもこんな感じでやらせることができた。PodCast風も楽勝だわ。 pic.twitter.com/KwoK2skNKx — カレーちゃん (@currypurin) May 22, 2025 使い方は、Google Ai Studioに行って、スタイルと話すこ
Crossing the uncanny valley of conversational voice
- 51 users
- www.sesame.com
- テクノロジー
- 2025/03/01
How do we know when someone truly understands us? It is rarely just our words—it is in the subtleties of voice: the rising excitement, the thoughtful pause, the warm reassurance. Voice is our most intimate medium as humans, carrying layers of meaning through countless variations in tone, pitch, rhythm, and emotion. Today’s digital voice assistants lack essential qualities to make them truly useful
- AI
- sesame
- 音声
- voice
- LLM
- 人工知能
- English
- 英語
GitHub - ggml-org/whisper.cpp: Port of OpenAI's Whisper model in C/C++
- 44 users
- github.com/ggml-org
- テクノロジー
- 2022/11/07
Stable: v1.7.6 / Roadmap High-performance inference of OpenAI's Whisper automatic speech recognition (ASR) model: Plain C/C++ implementation without dependencies Apple Silicon first-class citizen - optimized via ARM NEON, Accelerate framework, Metal and Core ML AVX intrinsics support for x86 architectures VSX intrinsics support for POWER architectures Mixed F16 / F32 precision Integer quantization
- whisper
- C++
- speech
- 音声
- voice
- AI
- C
GitHub - isletennos/MMVC_Trainer: AIを使ったリアルタイムボイスチェンジャー(Trainer)
- 41 users
- github.com/isletennos
- テクノロジー
- 2022/03/28
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- 音声
- 機械学習
- あとで読む
- github
- AI
日本語TTS用の学習データの精度を上げる「ふりがなWhisper」を作った話
- 41 users
- zenn.dev/parakeet_tech
- テクノロジー
- 2025/06/24
この記事の内容はどこかに投稿する予定でしたが、この記事ほぼ同じアイデアを持つ論文が先日arXivに2本も立て続けに発表されたため（[1, 2]、ともにINTERSPEECH2025採択）、供養のために公開しています。この記事の最後でそれらの論文も軽く紹介します。はじめに Parakeet株式会社リサーチャーの榎本 (X: @henomoto1025)です。純粋数学で博士号を取りポスドクをしていましたが、音声の分野に興味が移り、現在は音声界隈の研究のキャッチアップをしながら研究開発をしています。今回は、弊社で開発している日本語音声合成エンジンParattsの質を向上させるために行った社内での取り組みについて紹介します。短くまとめ日本語TTSの学習データセットの中のあるテキストに「明日」という単語が入っていても、それが音声ファイルでは「アス」「アシタ」「ミョウニチ」のどの読みか分から
- あとで読む
https://www.waseda.jp/top/assets/uploads/2022/04/2204_speech_koreeda.pdf
- 34 users
- www.waseda.jp
- 暮らし
- 2022/04/10
- memo
- あとで読む
音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
- 32 users
- qiita.com/halhorn
- テクノロジー
- 2022/12/05
本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化重みの fp16 化 TorchScript 化認識の長さを30秒ごとから10秒ごとに結果処理速度が約2倍にソースコード： https://github.com/projectlucas/efficient_whisper 実験結果： https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめにこんにちは株式会社 MIXI Romi 事業部 Engineering Manager の
Seamless Translation | Meta FAIR
- 28 users
- seamless.metademolab.com
- テクノロジー
- 2023/08/23
Create translations that follow your speech style. Translate from nearly 100 input languages into 35 output languages. This is a translation research demo powered by AI.
- Meta
- ai
- translation
- voice
- 自然言語処理
- 人工知能
- text
Whisper Web - a Hugging Face Space by Xenova
- 28 users
- huggingface.co
- テクノロジー
- 2023/06/10
This application lets you turn your voice recordings into written text. Simply upload an audio file, and it will generate a transcription for you.
- AI
- ツール
- text
- 文章
- 日本語
- サイト
- あとで読む
Whisperの音声認識精度および認識速度の検証 - RevComm Tech Blog
- 27 users
- tech.revcomm.co.jp
- テクノロジー
- 2022/11/09
TL;DR🤩 音声認識器Whisperの認識精度と認識速度について調査認識精度英語では論文同様の結果日本語の認識精度はドメインに依存 baseモデルの推論がドメインにより不安定ビームサーチの利用により、推論の頑健性が向上 largeモデルのCERはbaseモデルの半分程度認識速度 baseモデルのRTFはGPUで0.104　largeのRTFは0.408 バッチサイズなどを最適化することで改善こんにちは。RevCommのリサーチチームでインターンをしている中田亘です。 2022年9月21日にOpenAIからWhisperと呼ばれる音声認識器が一般に公開されました。今回は、Whisperの性能に関して調査を行ったので紹介します。 TL;DR🤩 Whisperとは実験と結果実験条件認識精度英語でのWER LibriSpeech test-clean test-other
- 人工知能
- あとで読む
AI Agents
- 24 users
- www.d-id.com
- テクノロジー
- 2023/03/09
Deploy visual AI agents that respond naturally, carry out tasks, and integrate securely with your systems. D-ID Visual Agents bring together powerful language models and expressive, real-time avatars to create natural, multilingual interactions at enterprise scale. Customize appearance, voice, personality, and knowledge, then deploy agents that deliver consistent, on-brand guidance and support acr
- AI
- chat
- webサービス
- webservice
tl;dv - AI Meeting Notetaker for Zoom, Google Meet & Teams
- 23 users
- tldv.io
- テクノロジー
- 2021/07/02
Our AI note taker delivers crisp, AI-generated summaries instantly after every meeting. Customize your meeting notes, MEDDIC in Japanese, Smart AI Topics in Spanish, or your own AI summary format. We've got you covered.
- meeting
- 文字起こし
- AI
- video
令和5年度東京大学学部入学式　祝辞（グローバルファンド保健システム及びパンデミック対策部長馬渕俊介様） | 東京大学
- 23 users
- www.u-tokyo.ac.jp
- 暮らし
- 2023/04/13
HOME 教育・学生生活行事・シンボル式典・式服式辞・告辞・祝辞集令和5年度東京大学学部入学式　祝辞（グローバルファンド保健システム及びパンデミック対策部長馬渕俊介様）新入生の皆さん、そしてご家族、ご親族の皆さま、おめでとうございます。私自身も東大の卒業生ですので、入学時の受験戦争からの解放感、新しい学生生活を始めるわくわく感は、今もよく覚えています。長い受験勉強が終わって、ついに自由。たくさん遊んで、恋人作って、ガンガンやっていいと思います。同時に、大学の4年間は、「自分で創り、自分で切り拓く、自分の人生」のスタート地点です。そしてこれからの皆さんの人生の中で、一番自由に、自分の器を広げ、自分の夢を探して突き進める時期でもあります。私は東大卒業後、発展途上国を日本の立場から支援する国際協力機構JICA、民間の経営コンサルティング会社のマッキンゼーの日本オフィスと
Typeless | AI Voice Dictation That's Actually Intelligent
- 22 users
- www.typeless.com
- テクノロジー
- 2025/09/30
Speak naturally, and Typeless will turn your words into polished messages, emails, and documents that read like you carefully typed them - in real time. 4x faster than typing. Download for free
- AI
- 言語
- ツール
【図解】超高性能AIボイスチェンジャー「RVC」のしくみ・コツ
- 20 users
- zenn.dev/mossan_hoshi
- テクノロジー
- 2023/05/20
はじめに ↑に貼った動画は話題の高性能ボイスチェンジャー「RVC」の変換例です（Creative Commonsで配布・改変が可能なライセンスの音声データを学習させたものです。BOOTHで無料配布中です）。今回の記事では動画の4つ+1の計5モデルを作成する中で見えてきたRVCの仕組みや使用時・モデル生成時のコツを紹介したいと思います。 BOOTHで学習済みモデル無料配布中(ライセンスはそれぞれ異なり、元データに準拠します) 注意事項本編に入る前にいくつか前提を明らかにしておきます。私自身、RVCや音声認識についての専門知識はほぼありません。RVCについて初めて知ったのは約2週間前で、そのレベルは初心者の域を出ないと思っていただければと思います。さらに、RVCのモデルであるHuBERTやトランスフォーマーに関する知識もあまりありません(論文もまともに読んでません)。したがって、この記事の
- ai
- vr
- あとで読む
Introducing speech-to-text, text-to-speech, and more for 1,100+ languages
- 20 users
- ai.meta.com
- テクノロジー
- 2023/05/23
Introducing speech-to-text, text-to-speech, and more for 1,100+ languages Equipping machines with the ability to recognize and produce speech can make information accessible to many more people, including those who rely entirely on voice to access information. However, producing good-quality machine learning models for these tasks requires large amounts of labeled data — in this case, many thousan
- Meta
- 機械学習
- 人工知能
- AI
Japan
- 17 users
- gadebate.un.org
- 政治と経済
- 2025/09/24
“We must ask whether the current United Nations is really fulfilling the role it was originally expected to play,” said the Prime Minister of Japan, Shigeru Ishiba. He pointed out that, while responsibility for the UN’s most important function — to maintain international peace and security — rests with the Security Council, “in many critical cases, the Council was unable to take the necessary dec
- Japan
- 国際
- 日本
GitHub - SYSTRAN/faster-whisper: Faster Whisper transcription with CTranslate2
- 17 users
- github.com/SYSTRAN
- テクノロジー
- 2023/03/12
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
DDSP-SVCでリアルタイム音声合成をするのだ。
- 16 users
- zenn.dev/aivoicelab
- テクノロジー
- 2023/06/12
こんなツイートをしますた。ということでDDSPを推していきます（？） DDSP-SVCとは 👆これです。 Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing). らしいです。 RVC並みの学習速度でかつ品質はRVCより上（多分）っていうやつです。さらにリアルタイム音声変換ではRVCよりもレイテンシが低いらしい。拡散モデルと組み合わせればさらに質がよくなるようです。なんか面白そうですよね。ということで触っていきましょう。インストール
東工大の卒業式で祝辞、述べてみた｜ina111 / 稲川貴大
- 16 users
- note.com/ina111
- テクノロジー
- 2024/03/28
母校の東京工業大学の卒業式（正式には学位授与式、学部および大学院の2回）で来賓として祝辞を読む機会を頂いた。2024年3月26日。東工大は24年10月には東京医科歯科大学と合併して東京科学大学となるので、「東京工業大学」としては最後の春の卒業式だった。そんな大事な機会に、もっと王道的に凄い卒業生がアボガドロ定数ほどいる中で、私を推薦してくれた益学長には感謝です。聞いてる卒業生・親御さんたちに、眠くならない時間を提供出来たので良かった。加えて、なにか新しいことやろうという気持ちの人が一人でも出てきたら嬉しい。祝辞国内屈指の大学の卒業式に同席できて光栄です。最初に、自己紹介します。私は10年ちょっと前に機械系で学部、修士と東工大を出ました。今は宇宙開発、民間でのロケット開発を行うベンチャー、スタートアップ企業の社長をしています。創業時の11年前は数人で始めた会社は、今では170
- 宇宙開発
- university
- life
- 社会
LLM音声対話システムの応答を高速化してみた | CyberAgent Developers Blog
- 15 users
- developers.cyberagent.co.jp
- テクノロジー
- 2023/12/01
はじめまして、CyberAgent AI Lab　Intaractive Agentチームの技術研究員の大平といいます。この記事は CyberAgent Developers Advent Calendar 2023 1日目の記事です。 ChatGPTの登場以降、自然なチャット対話はAPI呼び出しだけで簡単に実装できるようになりました。更に人間のようなインタラクションを実現しようとすれば、音声対話に発展させたいと思う方も多いかと思われます。しかし実際にLLMを使って音声対話システムを構築してみると、そのレスポンスの遅さに不満を感じることになります。この記事ではよくあるシンプルなLLMを用いた音声対話に対していくつかの工夫を施し、その応答速度をできるだけ早めてみようという試みになります。よくある構成として、以下を用います。音声認識　Google STT LLM　ChatGPT 3
- LLM
- あとで読む