GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI
GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI
🎧 Generates expressive long-form multi-speaker conversational audio like podcasts from text
⏱️ Synthesizes speech up to 90 minutes with up to 4 distinct speakers
🧵 👇
🎧 Generates expressive long-form multi-speaker conversational audio like podcasts from text
⏱️ Synthesizes speech up to 90 minutes with up to 4 distinct speakers
🧵 👇
https://zenn.dev/headwaters/articles/98f63259349ba7
https://zenn.dev/headwaters/articles/98f63259349ba7
After reports of significant misuse, Microsoft pulls their nascent VibeVoice code, deleted the OG repo — https://github.com/microsoft/VibeVoice — and re-created it with just boilerplate garbage.
Are all folks involved in "AI" development this practically stupid & clueless?
After reports of significant misuse, Microsoft pulls their nascent VibeVoice code, deleted the OG repo — https://github.com/microsoft/VibeVoice — and re-created it with just boilerplate garbage.
Are all folks involved in "AI" development this practically stupid & clueless?
Genera audio ultra natural con una latencia casi nula, en 9 idiomas (Castellanos incluido).
Una #InteligenciaArtificial conversacional impresionante.
#IA #AI #Microsoft #VibeVoce
Genera audio ultra natural con una latencia casi nula, en 9 idiomas (Castellanos incluido).
Una #InteligenciaArtificial conversacional impresionante.
#IA #AI #Microsoft #VibeVoce
Hugging Faceを開いたら、Microsoftから登場したVibe Voice 1.5Bモデルがトレンドに上がってました。 気になって調べてみたところめっちゃすごかったので紹介 Vibe Voice 1.5Bの特徴 1. 長尺生成 最大90分、4人の異なる話者による自然な会話が可能とのこと 2. モデルの軽さ 1.5Bとのことで軽そーとは思いましたが、GPU積んだPCで全然動くようです。 VRAMが8GBあれば十分動かせそうです。(RTX3060以上であればOK) ベースモ... Source link
Hugging Faceを開いたら、Microsoftから登場したVibe Voice 1.5Bモデルがトレンドに上がってました。 気になって調べてみたところめっちゃすごかったので紹介 Vibe Voice 1.5Bの特徴 1. 長尺生成 最大90分、4人の異なる話者による自然な会話が可能とのこと 2. モデルの軽さ 1.5Bとのことで軽そーとは思いましたが、GPU積んだPCで全然動くようです。 VRAMが8GBあれば十分動かせそうです。(RTX3060以上であればOK) ベースモ... Source link
A genuinely high quality voice cloning model, gone with no warning. I was looking forward to the planned streaming version.
Speculation is that it was either released without being fully approved or a serious safety issue was found.
A genuinely high quality voice cloning model, gone with no warning. I was looking forward to the planned streaming version.
Speculation is that it was either released without being fully approved or a serious safety issue was found.
microsoft/VibeVoice-1.5B
このリポジトリは、テキストからポッドキャストのような表現豊かな長尺の多人数対話型音声を生成するVibeVoiceモデルを提供するために作成されました。
従来のテキスト読み上げシステムが抱えるスケーラビリティや話者の一貫性といった課題を解決するため、LLMと独自の音声トークナイザー、拡散フレームワークを組み合わせ、最大4人の話者で90分までの音声を自然に合成することを目指します。
microsoft/VibeVoice-1.5B
このリポジトリは、テキストからポッドキャストのような表現豊かな長尺の多人数対話型音声を生成するVibeVoiceモデルを提供するために作成されました。
従来のテキスト読み上げシステムが抱えるスケーラビリティや話者の一貫性といった課題を解決するため、LLMと独自の音声トークナイザー、拡散フレームワークを組み合わせ、最大4人の話者で90分までの音声を自然に合成することを目指します。
microsoft/VibeVoice-Realtime-0.5B
本リポジトリは、軽量で低遅延のリアルタイムテキスト音声合成モデル「VibeVoice-Realtime」を公開する。
ストリーミングテキスト入力と堅牢な長文生成をサポートし、大規模言語モデルの応答など、即時の音声化を必要とするサービス構築に活用される。
microsoft/VibeVoice-Realtime-0.5B
本リポジトリは、軽量で低遅延のリアルタイムテキスト音声合成モデル「VibeVoice-Realtime」を公開する。
ストリーミングテキスト入力と堅牢な長文生成をサポートし、大規模言語モデルの応答など、即時の音声化を必要とするサービス構築に活用される。
💬 Sentiment: Mostly positive with some skepticism. Vibe: Intrigued but critical. 🎤 "Nice tech, but where's the solid British accent?"
https://news.ycombinator.com/item?id=45114245
💬 Sentiment: Mostly positive with some skepticism. Vibe: Intrigued but critical. 🎤 "Nice tech, but where's the solid British accent?"
https://news.ycombinator.com/item?id=45114245
microsoft/VibeVoice-1.5B
このリポジトリは、テキストから表現豊かで長尺な多話者会話音声を生成するオープンソースのテキスト読み上げモデルVibeVoiceを提供するために作成されました。
従来のTTSシステムが抱えるスケーラビリティ、話者の一貫性、自然な対話の課題を解決し、ポッドキャストなどの用途で最大90分の音声と4人の異なる話者に対応することを目的としています。
microsoft/VibeVoice-1.5B
このリポジトリは、テキストから表現豊かで長尺な多話者会話音声を生成するオープンソースのテキスト読み上げモデルVibeVoiceを提供するために作成されました。
従来のTTSシステムが抱えるスケーラビリティ、話者の一貫性、自然な対話の課題を解決し、ポッドキャストなどの用途で最大90分の音声と4人の異なる話者に対応することを目的としています。