Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
speechの人気記事 67件 - はてなブックマーク
[go: Go Back, main page]

並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 67件

新着順 人気順

speechの検索結果1 - 40 件 / 67件

speechに関するエントリは67件あります。 AI音声voice などが関連タグです。 人気エントリには 『令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学』などがあります。
  • 令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学

    HOME 教育・学生生活 行事・シンボル 式典・式服 式辞・告辞・祝辞集 令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) 新入生の皆さん、そしてご家族、ご親族の皆さま、おめでとうございます。 私自身も東大の卒業生ですので、入学時の受験戦争からの解放感、新しい学生生活を始めるわくわく感は、今もよく覚えています。 長い受験勉強が終わって、ついに自由。たくさん遊んで、恋人作って、ガンガンやっていいと思います。 同時に、大学の4年間は、「自分で創り、自分で切り拓く、自分の人生」のスタート地点です。そしてこれからの皆さんの人生の中で、一番自由に、自分の器を広げ、自分の夢を探して突き進める時期でもあります。 私は東大卒業後、発展途上国を日本の立場から支援する国際協力機構JICA、民間の経営コンサルティング会社のマッキンゼーの日本オフィスと

      令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学
    • 商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース

      本日8月1日、音声合成技術の世界に、また画期的な動きがありました。「Seiren Voice」や「Yukarinライブラリ」の開発者としても知られるヒロシバ(@hiho_karuta)さんが、ITAコーパスを利用した商用利用も可能なAI音声合成システム、VOICEVOXなるソフトウェアをオープンソースのとして無料でリリースしたのです。具体的には現時点Windowsで動くシステムで、「ずんだもん」および「四国めたん」の声でテキストを読み上げるシステムとなっています。 これがオープンソースとなったことで、一般ユーザーが自由に利用できるというだけでなく、さまざまなシステムに組み込んで喋らせることが可能になったのが画期的なところ。たとえばロボットなどに組み込んで対話型のシステムを作ることや、観光案内システムに導入して喋らせる……といったこともできるほか、クラウド型のシステムを構築し、ブラウザを経由

        商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース
      • GitHub - openai/openai-fm: Code for openai.fm, a demo for the OpenAI Speech API

        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

          GitHub - openai/openai-fm: Code for openai.fm, a demo for the OpenAI Speech API
        • Windows 10は好きな文章を合成音声で簡単に喋らせることができる (1/2)

          こんな簡単なコマンドで、Windowsは「しゃべって」くれる。画面キャプチャーでは声をお聞かせすることはできないが、お手元のWindows PowerShellで試してほしい スクリプトを作るとき、ちょっとユーザーの気を引きたくなることがある。たとえば、少し時間のかかる処理をするときに、終わったことを通知したい場合などだ。あるいは、実行後にすこし時間が経過してからエラーを通知するような場合にも、気を引きたくなることがある。 こんなとき昔のコンピューターならベル音やビープ音を鳴らすのが一般的だった。端末装置からコンピューターを使っていた頃、Ctrl+Gを出力するとベル音が鳴った。マイクロプロセッサが使われ始め、パソコンの原型ができあがった頃、BEEPと呼ばれる機能ができた。プログラムでビットをオンオフし、これをスピーカーに接続することで音を出していた。今もマザーボード上には、そのための小さな

            Windows 10は好きな文章を合成音声で簡単に喋らせることができる (1/2)
          • 表現規制を求める請願が各委員会に付託、まさに表現の自由の危機です - 参議院議員 山田太郎 公式webサイト

            【表現規制を求める請願が、多数の国会議員の紹介で各委員会に付託されている状況。新サイバー犯罪条約の締結手続でしっかりと対応しないと創作表現の自由が失われてしまう!】 表現の自由が危機に瀕している、私がこのように言うと「噓を言うな」「大げさだ」「不安を煽っているだけだろう」といった声をいただきます。 しかし、今年2025年通常国会(第217回国会)でも、表現規制を求める請願が複数行われており、多数の国会議員が紹介議員となって各委員会に付託されています。 その一つ、『子供への性加害を根絶するための施策強化と児童買春・児童ポルノ禁止法などの改正を求めることに関する請願』では、「子供、又は主に子供のように見えるよう描かれた者が明白な性的行為を行っている画像及び描写、又は、性目的で子供の体の性的部位の描写を製造、流通、頒布、提供、販売、アクセス、閲覧及び所持することを犯罪化すること。」が国に対して要

              表現規制を求める請願が各委員会に付託、まさに表現の自由の危機です - 参議院議員 山田太郎 公式webサイト
            • デ・ニーロ、受賞スピーチを検閲されたとアップル非難。壇上で気付き「消された部分」を読み上げ喝采受ける | テクノエッジ TechnoEdge

              ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 映画俳優のロバート・デ・ニーロ氏が、2023年度のゴッサム・インディペンデント映画賞の授賞式におけるスピーチに登壇した際、読み上げるスピーチ原稿から当初予定していた記述が削除されていたことに関して、アップルと映画賞主催者を非難しました。 問題のスピーチはゴッサム賞のなかの一部門を受賞した作品を紹介するため、デ・ニーロ氏が用意したものでした。 事前の原稿は冒頭部分で「前大統領は在任中の4年間に3万回以上も嘘をつき、現在の報復キャンペーンでもそのペースを維持しています。しかし、その嘘の数々をもってしても、その本心を隠すことはできません。弱者を叩き、自然の恵みを破壊し、例えば『ポカホンタス』を差別的な言葉として使う

                デ・ニーロ、受賞スピーチを検閲されたとアップル非難。壇上で気付き「消された部分」を読み上げ喝采受ける | テクノエッジ TechnoEdge
              • トランプ大統領のスピーチの内容が翻訳かけても理解出来ず、英語力が足りないからと思ってたらネイティブの人も「理解できない」って言ってる

                池澤春菜 @haluna7 トランプのスピーチ、ちっとも理解できなくて、わたしの英語力が足りないのか、と落ち込んでたんだけど、翻訳かけても理解できないし、なんならネイティブも理解できん、って言ってる 多分本人も、理解できていない 2025-04-08 16:30:03 池澤春菜 @haluna7 池澤春菜:読書、海外SFとFTを偏愛。黒パグクーちゃんを溺愛。台湾と中国茶に片思い、きのこまみれ。料理とガンプラ、作るもの全般。趣味だらけの人生を謳歌中。【@のRT不可の場合は一言お書き添え下さい】 across-ent.com/talent/women/h…

                  トランプ大統領のスピーチの内容が翻訳かけても理解出来ず、英語力が足りないからと思ってたらネイティブの人も「理解できない」って言ってる
                • CoeFont (コエフォント): ナレーション ゲーム 動画制作 オーディオブック制作 …

                  あなたの言葉で、世界とつながるAI通訳 CoeFont通訳アプリを起動し、簡単な設定をするだけで、あなたの声を最新のAI技術で翻訳! 外国語を話す人とのコミュニケーションに関するお悩みを解決できます。 CoeFont通訳を試してみる CoeFont通訳はここがスゴい!CoeFont通訳は、自分が話した言語を、それ以外の言語へ、リアルタイムに変換します。 日本語・英語のほか、中国語・スペイン語・フランス語にも対応しています。

                    CoeFont (コエフォント): ナレーション ゲーム 動画制作 オーディオブック制作 …
                  • 求人で良さそうなところあったのに、朝礼前に1分間スピーチあるって書いてて応募するの辞めた→経験者の声や肯定派の意見など色々集まる

                    おいも🍠 @oimoga_daisuki 求人で良さそうなところあったのに、朝礼前に1分間スピーチあるって書いてて応募するの辞めた。そんなん業務の1つにして何になるんやろ?小学生かよ。 2024-04-15 15:29:55

                      求人で良さそうなところあったのに、朝礼前に1分間スピーチあるって書いてて応募するの辞めた→経験者の声や肯定派の意見など色々集まる
                    • Aivis Project | AivisSpeech でかんたんに感情豊かな音声合成、使ってみませんか?

                      声に革命を。Aivisアイビス Projectプロジェクト が切り拓く、感動の音声体験。 Aivis Project は、感情豊かな音声合成技術を誰もがかんたんに活用できる未来を目指す、 壮大な開発プロジェクトです。 機械的な響きに留まらない、まるで魂を宿したかのような音声が、あなたの想いや言葉に豊かな感情をのせて 世界へと響き渡る。Aivis Project が描く未来は、これまでにない感動と驚きに満ちています。 解説動画に聞き取りやすい良質な音声を添え、好きなキャラとボイスチャットで会話を楽しむ。 社内向けの研修動画やプレゼン資料に、説得力のあるナレーションを加えて伝達力を高める。 そうした多様な表現が、私たちのプロダクトを通じて数クリックで実現します。 AivisSpeech でのローカル音声合成から、音声合成モデルの制作・公開、高速なクラウド API まで。 Aivis Proje

                        Aivis Project | AivisSpeech でかんたんに感情豊かな音声合成、使ってみませんか?
                      • writeout.ai

                        Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.

                          writeout.ai
                        • GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog

                          この記事はenechain Advent Calendar 2024の14日目の記事です。 はじめに こんにちは。enechainで統計・機械学習モデルの構築やLLM(大規模言語モデル)の活用推進を担当している@udon_tempuraです。 私達のチームでは、以前紹介した会議動画要約のノウハウを活用し、 社内用の動画・音声文字起こしツールを構築・運用しています。 本記事では、その精度向上の仕組みについて紹介します。 実装も比較的少なく実現できたため、セキュリティなどの関係により内製で文字起こしを構築している方々の参考になれば幸いです。 はじめに 背景と課題 システム要件 システム実装 アーキテクチャ 入力データ形式 ドメイン固有用語の管理 処理フロー Cloud Speech-to-Textによる文字起こし Gemini 1.5 Flashによる認識処理 Gemini 1.5 Proによ

                            GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog
                          • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

                              OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
                            • 最近のAIボイスチェンジャー(RVC、so-vits-svc)

                              私は趣味で機械学習を学ぶ初学者であり、説明に間違いや勘違いがある可能性があります。そういった点がありましたらコメントで指摘していただけると助かります。 また、so-vits-svcやRVCは論文ベースでの技術発表が無いため、以下はコードや周辺情報からの想像を含みます。 修正履歴 2023/04/15 RVCの動作について誤りがあったので修正しました。nadare🌱さんご指摘ありがとうございます。 AIボイスチェンジャーとは ある発話音声の入力を特定の話者が発話したような声質の発話音声に変換するための、深層学習を使用したアプローチがそう呼ばれている印象です。 以前から、深層学習を用いたリアルタイムボイスチェンジャーはMMVCなどが存在していました。 最近(2022年11月頃から2023年4月頃)では、Retrieval-based-Voice-Conversion 通称RVC や、Soft

                                最近のAIボイスチェンジャー(RVC、so-vits-svc)
                              • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる - 井上 研一

                                OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は、ASDFを使ってPythonのバージョンを使い分けており、今回使用するのは、miniforge3-4.10.3-10です。Python 3.9.13が動作しています。 まず、仮想環境を作ります。miniforgeを使っていながらPython標準のvenvを使っていました。(あまり意識して

                                  OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる - 井上 研一
                                • 自動化にこだわるのはエンジニアとして正しいあり方。CTOに聞いた生産性をあげるためにやっていること。【ep.9 #論より動くもの .fm】 - STORES Product Blog

                                  CTO 藤村がホストするPodcast、論より動くもの.fmの第9回を公開しました。今回はCTO藤村が生産性をあげるためにやっていることについて話しました。 論より動くもの.fmはSpotifyとApple Podcastで配信しています。フォローしていただくと、新エピソード公開時には自動で配信されますので、ぜひフォローしてください。 テキストで読みたい方は下記からどうぞ。 パンを作るだけじゃなく、パンを作る機械も作る 藤村:みなさん、こんにちは、論より動くもの.fmです。論より動くもの.fmは、heyのCTO藤村が技術や技術にまつわるさまざまなことについてざっくばらんにお話しするPodcastです。今回はゲストに技術広報のえんじぇるさんを招いております。よろしくお願いします。 えん:よろしくお願いします。 藤村:今日は生産性について話したいというお題を受けたので、それについて話そうと思い

                                    自動化にこだわるのはエンジニアとして正しいあり方。CTOに聞いた生産性をあげるためにやっていること。【ep.9 #論より動くもの .fm】 - STORES Product Blog
                                  • ReazonSpeech - Reazon Human Interaction Lab

                                    ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

                                    • Free AI Voice Generator & Voice Agents Platform | ElevenLabs

                                      AI voice models and products powering millions of developers, creators, and enterprises. From low‑latency conversational agents to the leading AI voice generator for voiceovers and audiobooks.

                                        Free AI Voice Generator & Voice Agents Platform | ElevenLabs
                                      • Whisperによる映像文字起こしの精度をLLMとOCRの力で向上させる - NTT docomo Business Engineers' Blog

                                        イノベーションセンターの加藤です。この記事ではWhisperによる音声認識の前処理と後処理にLLMとOCRを組み込むことで、映像の文字起こし精度の向上を図った際の検証結果を紹介します。 Whisperとは OCRの結果を盛り込み専門用語を認識させる 大規模言語モデルで全体の文章を調整する 各アプローチの融合 結果の考察 まとめ Whisperとは Whisper1はOpenAIによって提供されているオープンソースの音声認識モデルです。 色々なサイズのモデルが提供されており、最も大きいモデルであるlarge-v3は日本語を含む多言語に対応し高い認識精度を誇ります。 しかしもちろん完璧ではなく、Whisper(large-v3)で日本語の音声を書き起こしてみるとそれなりに誤認識が見られます。また、専門用語や人名など、あらかじめ知っていないと正しく書けない単語についてもうまく書き起こせないという

                                          Whisperによる映像文字起こしの精度をLLMとOCRの力で向上させる - NTT docomo Business Engineers' Blog
                                        • 開会式で話題となった"長いスピーチ"、どうしてそう感じたのかをスピーチライターがガチ分析してみた

                                          千葉 佳織 / 初著書『話し方の戦略』 @kaolly13 オリンピック開会式のバッハ会長のスピーチ、「長かった」との感想を多く目にしました。 みなさんの違和感の正体が、スピーチのどのような技術に由来するのか、スピーチライターの視点で分析してみました。 明日から使えるスピーチ・プレゼンのポイントも添えています。 pic.twitter.com/eTV12Q3fRh 2021-07-26 19:40:32 千葉 佳織 / kaeka @kaolly13 株式会社カエカ代表取締役、スピーチライター。話す力を数値化しあなたの課題を解決する話し方トレーニング「kaeka(@kaeka_official)」を個人・企業・政治向けに提供。SFC→DeNA→kaeka。弁論全国大会3回優勝、内閣総理大臣賞、採用情報(https://t.co/O4P5SsjZ4d)著書『話し方の戦略』 kaeka.jp

                                            開会式で話題となった"長いスピーチ"、どうしてそう感じたのかをスピーチライターがガチ分析してみた
                                          • Googleの新しい音声AIが、高性能だし、無料で使えるしで、これは使える!と思いました|カレーちゃん

                                            結論Googleが、新しい音声AIを出しました。テキストを入力して、音声を出力できるAIです。それが、無料で誰でも使うことができるし、APIでも使えます(APIの方は有料)。 しかも高性能すぎるし、簡単に使えるし、カスタマイズも自由自在っぽいです。 今日のYouTube配信ではじめて使ったのですが、一人でめちゃくちゃ驚きました。 ということで、以下、使い方の説明と、作ってみた音声を貼ります。 使ってみた音声と、使い方これが作成された音声です。 新しく出た、Native speech generationの2人語りすごくない!? 漫才でもこんな感じでやらせることができた。PodCast風も楽勝だわ。 pic.twitter.com/KwoK2skNKx — カレーちゃん (@currypurin) May 22, 2025 使い方は、Google Ai Studioに行って、スタイルと話すこ

                                              Googleの新しい音声AIが、高性能だし、無料で使えるしで、これは使える!と思いました|カレーちゃん
                                            • GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
                                              • Crossing the uncanny valley of conversational voice

                                                How do we know when someone truly understands us? It is rarely just our words—it is in the subtleties of voice: the rising excitement, the thoughtful pause, the warm reassurance. Voice is our most intimate medium as humans, carrying layers of meaning through countless variations in tone, pitch, rhythm, and emotion. Today’s digital voice assistants lack essential qualities to make them truly useful

                                                  Crossing the uncanny valley of conversational voice
                                                • Lyra: A New Very Low-Bitrate Codec for Speech Compression

                                                  Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

                                                    Lyra: A New Very Low-Bitrate Codec for Speech Compression
                                                  • GitHub - ggml-org/whisper.cpp: Port of OpenAI's Whisper model in C/C++

                                                    Stable: v1.7.6 / Roadmap High-performance inference of OpenAI's Whisper automatic speech recognition (ASR) model: Plain C/C++ implementation without dependencies Apple Silicon first-class citizen - optimized via ARM NEON, Accelerate framework, Metal and Core ML AVX intrinsics support for x86 architectures VSX intrinsics support for POWER architectures Mixed F16 / F32 precision Integer quantization

                                                      GitHub - ggml-org/whisper.cpp: Port of OpenAI's Whisper model in C/C++
                                                    • 日本語TTS用の学習データの精度を上げる「ふりがなWhisper」を作った話

                                                      この記事の内容はどこかに投稿する予定でしたが、この記事ほぼ同じアイデアを持つ論文が先日arXivに2本も立て続けに発表されたため([1, 2]、ともにINTERSPEECH2025採択)、供養のために公開しています。 この記事の最後でそれらの論文も軽く紹介します。 はじめに Parakeet株式会社リサーチャーの榎本 (X: @henomoto1025)です。純粋数学で博士号を取りポスドクをしていましたが、音声の分野に興味が移り、現在は音声界隈の研究のキャッチアップをしながら研究開発をしています。 今回は、弊社で開発している日本語音声合成エンジンParattsの質を向上させるために行った社内での取り組みについて紹介します。 短くまとめ 日本語TTSの学習データセットの中のあるテキストに「明日」という単語が入っていても、それが音声ファイルでは「アス」「アシタ」「ミョウニチ」のどの読みか分から

                                                        日本語TTS用の学習データの精度を上げる「ふりがなWhisper」を作った話
                                                      • GitHub - isletennos/MMVC_Trainer: AIを使ったリアルタイムボイスチェンジャー(Trainer)

                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                          GitHub - isletennos/MMVC_Trainer: AIを使ったリアルタイムボイスチェンジャー(Trainer)
                                                        • https://www.waseda.jp/top/assets/uploads/2022/04/2204_speech_koreeda.pdf

                                                          • 音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

                                                            本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコード: https://github.com/projectlucas/efficient_whisper 実験結果: https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめに こんにちは株式会社 MIXI Romi 事業部 Engineering Manager の

                                                              音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
                                                            • Seamless Translation | Meta FAIR

                                                              Create translations that follow your speech style. Translate from nearly 100 input languages into 35 output languages. This is a translation research demo powered by AI.

                                                                Seamless Translation | Meta FAIR
                                                              • Whisper Web - a Hugging Face Space by Xenova

                                                                This application lets you turn your voice recordings into written text. Simply upload an audio file, and it will generate a transcription for you.

                                                                  Whisper Web - a Hugging Face Space by Xenova
                                                                • Whisperの音声認識精度および認識速度の検証 - RevComm Tech Blog

                                                                  TL;DR🤩 音声認識器Whisperの認識精度と認識速度について調査 認識精度 英語では論文同様の結果 日本語の認識精度はドメインに依存 baseモデルの推論がドメインにより不安定 ビームサーチの利用により、推論の頑健性が向上 largeモデルのCERはbaseモデルの半分程度 認識速度 baseモデルのRTFはGPUで0.104 largeのRTFは0.408 バッチサイズなどを最適化することで改善 こんにちは。RevCommのリサーチチームでインターンをしている中田亘です。 2022年9月21日にOpenAIからWhisperと呼ばれる音声認識器が一般に公開されました。今回は、Whisperの性能に関して調査を行ったので紹介します。 TL;DR🤩 Whisperとは 実験と結果 実験条件 認識精度 英語でのWER LibriSpeech test-clean test-other

                                                                    Whisperの音声認識精度および認識速度の検証 - RevComm Tech Blog
                                                                  • AI Agents

                                                                    Deploy visual AI agents that respond naturally, carry out tasks, and integrate securely with your systems. D-ID Visual Agents bring together powerful language models and expressive, real-time avatars to create natural, multilingual interactions at enterprise scale. Customize appearance, voice, personality, and knowledge, then deploy agents that deliver consistent, on-brand guidance and support acr

                                                                      AI Agents
                                                                    • 令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学

                                                                      HOME 教育・学生生活 行事・シンボル 式典・式服 式辞・告辞・祝辞集 令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) 新入生の皆さん、そしてご家族、ご親族の皆さま、おめでとうございます。 私自身も東大の卒業生ですので、入学時の受験戦争からの解放感、新しい学生生活を始めるわくわく感は、今もよく覚えています。 長い受験勉強が終わって、ついに自由。たくさん遊んで、恋人作って、ガンガンやっていいと思います。 同時に、大学の4年間は、「自分で創り、自分で切り拓く、自分の人生」のスタート地点です。そしてこれからの皆さんの人生の中で、一番自由に、自分の器を広げ、自分の夢を探して突き進める時期でもあります。 私は東大卒業後、発展途上国を日本の立場から支援する国際協力機構JICA、民間の経営コンサルティング会社のマッキンゼーの日本オフィスと

                                                                        令和5年度東京大学学部入学式 祝辞(グローバルファンド 保健システム及びパンデミック対策部長 馬渕 俊介 様) | 東京大学
                                                                      • tl;dv.io | AI Meeting Note taker for Zoom, Google Meet & MS Teams

                                                                        tl;dv’s AI generates your meeting notes in 30 languages, auto-updates your CRM, drafts your next follow-up email, and sends AI-generated summaries of the last 20 meetings, feature or competitor mentions straight to your inbox – say, every week. You get it – but there’s more.

                                                                          tl;dv.io | AI Meeting Note taker for Zoom, Google Meet & MS Teams
                                                                        • 【図解】超高性能AIボイスチェンジャー「RVC」のしくみ・コツ

                                                                          はじめに ↑に貼った動画は話題の高性能ボイスチェンジャー「RVC」の変換例です(Creative Commonsで配布・改変が可能なライセンスの音声データを学習させたものです。BOOTHで無料配布中です)。今回の記事では動画の4つ+1の計5モデルを作成する中で見えてきたRVCの仕組みや使用時・モデル生成時のコツを紹介したいと思います。 BOOTHで学習済みモデル無料配布中(ライセンスはそれぞれ異なり、元データに準拠します) 注意事項 本編に入る前にいくつか前提を明らかにしておきます。私自身、RVCや音声認識についての専門知識はほぼありません。RVCについて初めて知ったのは約2週間前で、そのレベルは初心者の域を出ないと思っていただければと思います。さらに、RVCのモデルであるHuBERTやトランスフォーマーに関する知識もあまりありません(論文もまともに読んでません)。 したがって、この記事の

                                                                            【図解】超高性能AIボイスチェンジャー「RVC」のしくみ・コツ
                                                                          • Introducing speech-to-text, text-to-speech, and more for 1,100+ languages

                                                                            Introducing speech-to-text, text-to-speech, and more for 1,100+ languages Equipping machines with the ability to recognize and produce speech can make information accessible to many more people, including those who rely entirely on voice to access information. However, producing good-quality machine learning models for these tasks requires large amounts of labeled data — in this case, many thousan

                                                                              Introducing speech-to-text, text-to-speech, and more for 1,100+ languages
                                                                            • Japan

                                                                              “We must ask whether the current United Nations is really fulfilling the role it was originally expected to play,” said the Prime Minister of Japan, Shigeru Ishiba.  He pointed out that, while responsibility for the UN’s most important function — to maintain international peace and security — rests with the Security Council, “in many critical cases, the Council was unable to take the necessary dec

                                                                                Japan
                                                                              • GitHub - SYSTRAN/faster-whisper: Faster Whisper transcription with CTranslate2

                                                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                  GitHub - SYSTRAN/faster-whisper: Faster Whisper transcription with CTranslate2
                                                                                • DDSP-SVCでリアルタイム音声合成をするのだ。

                                                                                  こんなツイートをしますた。 ということでDDSPを推していきます(?) DDSP-SVCとは 👆これです。 Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing). らしいです。 RVC並みの学習速度でかつ品質はRVCより上(多分)っていうやつです。 さらにリアルタイム音声変換ではRVCよりもレイテンシが低いらしい。 拡散モデルと組み合わせればさらに質がよくなるようです。 なんか面白そうですよね。 ということで触っていきましょう。 インストール

                                                                                    DDSP-SVCでリアルタイム音声合成をするのだ。

                                                                                  新着記事