#qwen3-tts
Tested this for a few days, and sad to say, another one of those overhyped launches. It would skip some words consistently and would break the flow for long sentences.

I shifted to using Qwen3-TTS instead and the quality of the voices are much better.
I just tried Supertonic 2 on my Mac, and surprised by the quality of the French sounds.

I can see this being very useful for my language learning, especially to generate high quality listening materials.
February 9, 2026 at 8:58 AM
#AI #VoiceClone #TTS

AI Voice Clone with Qwen3-TTS (Free)

youtu.be/RaTIqBWRNb8?...
AI Voice Clone with Colab + Qwen3-TTS (Free)
YouTube video by Unicorn-1
youtu.be
February 9, 2026 at 7:48 AM
Even without video, I feel like many folks are underestimating how disruptive voice cloning is gonna be. I’m someone who can barely use a Linux terminal but I stumbled through trying out Qwen3-tts and it was kinda horrifying how good it was at recreating my voice with 30 seconds of unscripted audio.
February 8, 2026 at 8:01 AM
“You can just build things…”

That’s the motto lately. I’m shipping an Audio LLM Inference engine to make testing open-weight models like Qwen3-TTS & ASR seamless.

Built with my AI squad: • Opus 4.6 • GPT-5.3 Codex • Kimi K2.5

Massive update next week! Star the repo: github.com/agentem-ai/i...
GitHub - agentem-ai/izwi-audio: Local inference playground for Qwen3-TTS and Qwen3-ASR models
Local inference playground for Qwen3-TTS and Qwen3-ASR models - agentem-ai/izwi-audio
github.com
February 7, 2026 at 3:48 PM
Qwen3 TTS launched on Aura++.
Created by Miles Carter, it brings lifelike text-to-speech generation with advanced voice synthesis for creators and developers alike.

How do you see AI-driven voices shaping the way we communicate online?
Qwen3 TTS
Qwen3 TTS launched on Aura++ by Miles Carter
auraplusplus.com
February 5, 2026 at 10:00 AM
Qwen3-TTS-12Hz-0.6B-CustomVoice is a compact multilingual TTS model with 9 voices, instruction control, and low-latency streaming speech. #ai
Qwen’s 0.6B CustomVoice TTS: Multilingual, Fast, and Surprisingly Expressive
hackernoon.com
February 4, 2026 at 4:57 AM
after multiple attempts... I don't think Qwen3-TTS is going to be able to clone gravelly or particularly breathy voices right now. I've tried with randy savage, tom scott, and the joker, and I just can't get a clean clone out of em or they sound generic as shit lol
February 3, 2026 at 5:05 PM
The quality of Qwen3-TTS is very good, but it struggles with the occasional acronym or rare word, just like other tts. Also, the voice director model is very inconsistent (which is a good thing) so you’ll want to use it to create base voices for subsequent cloning only.
February 1, 2026 at 9:51 PM
Text-to-speech for articles is genuinely underrated. I use TTS while cooking - turns idle time into learning time. Two hours for a custom tool beats paying monthly for a service that half works. What's the voice quality like on Qwen3-TTS?
February 1, 2026 at 9:19 PM
Claude code will change the world.

I just used it to make a neat little script that extracts text from internet sources and reads them through Qwen3-TTS. Two hours of work and I can now listen to any ACOUP blog post or project gutenburg book, which is heaven for my dyslexia.
February 1, 2026 at 9:01 PM
Qwen3 TTSも AWSで動かしてみるかな
February 1, 2026 at 2:21 PM
¡Revolución en la IA de voz! Qwen3-TTS de
@AlibabaCloud
ya es open-source. 🎙️
✨ Clonación en 3s 🗣️ Diseño de voces por texto 🌍 10 idiomas (¡incluye español!) ⚡ Latencia ultra baja (97ms)
Supera a modelos SOTA comerciales. 🎧🔥
youtu.be/6ukbGxy7QDA
#AI #Qwen3TTS #IA #LLM
Qwen3-TTS: Clonación de voz IA en 3 segundos y diseño de voces realistas (SOTA Open Source)
YouTube video by En la mente de la máquina, Inteligencia Artificial
youtu.be
February 1, 2026 at 10:43 AM
今日のHuggingFaceトレンド

Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
Qwen3-TTSは、10言語に対応したテキスト読み上げ(TTS)モデルを提供するリポジトリです。
多様な声質プロファイル、文脈理解、ノイズへの耐性を特徴とし、音声設計、スタイル制御、高速ボイスクローンなどの機能を提供します。
モデルのダウンロード情報も含まれています。
Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
February 1, 2026 at 10:23 AM
https://www.techno-edge.net/article/2026/01/30/4843.html
今週の生成AI関連ニュースのまとめ記事。
Qwen3-TTSは3秒の音声でボイスクローンを生成し、商用利用も可能な多言語対応の音声AIです。
NVIDIAのPersonaPlexは役割と声質を同時に指定できる音声対話AIで、GoogleのD4RTは2D映像から4D空間を高速再構築します。
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第129回)は、3秒の音声でボイスクローンを生成する多言語対応の音声合成AIモデル「Qwen3-TTS」や、2D映像から4次元(3D空間+時間)で再構築・追跡するGoogle開発AIモデル「D4RT」を取り上げます。
www.techno-edge.net
February 1, 2026 at 7:20 AM
Finally got the chance to play around w/ Qwen3-TTS today & checking out the architecture
github.com/QwenLM/Qwen3...
arxiv.org/abs/2601.15621

I'm still wowed how much we can now do w/ local models. I have some ideas w/ this that might end up being useful for someone I know
GitHub - QwenLM/Qwen3-TTS: Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice...
Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice...
github.com
February 1, 2026 at 12:49 AM
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
https://www.techno-edge.net/article/2026/01/30/4843.html
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第129回)は、3秒の音声でボイスクローンを生成する多言語対応の音声合成AIモデル「Qwen3-TTS」や、2D映像から4次元(3D空間+時間)で再構築・追跡するGoogle開発AIモデル「D4RT」を取り上げます。
www.techno-edge.net
January 31, 2026 at 10:39 PM
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge www.techno-edge.net/article/2026...
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第129回)は、3秒の音声でボイスクローンを生成する多言語対応の音声合成AIモデル「Qwen3-TTS」や、2D映像から4次元(3D空間+時間)で再構築・追跡するGoogle開発AIモデル「D4RT」を取り上げます。
www.techno-edge.net
January 31, 2026 at 2:30 AM
This week’s project: a full text-to-speech stack in R.

Native R torch implementation (chatterbox), API routing (tts.api), Docker containers, and a Shiny app (cornfab).

Pick your backend, generate speech.

Write-up:
cornball.ai/posts/text-t...
#rstats #chatterbox #qwen3-tts
Text-to-Speech in R
Last week we released our speech-to-text stack. This week, we’re going the other direction. Today we’re releasing a text-to-speech stack for R: native inference, API wrappers, Docker containers, and a...
cornball.ai
January 30, 2026 at 8:32 PM
記事の要約: この記事では、最新の生成AI技術に関する5つの注目ポイントを解説しています。特に、軽量AI「GLM-4.7-Flash」は、gpt-oss-20bを超える性能を持ち、音声AI「Qwen3-TTS」はわずか3秒の音声からボイスクローンを生成でき、商用利用も可能です。また、AI動画生成を最大200倍高速化する「TurboDiffusion」や、映像から音声を分離するMetaの「SAM Audio」、さらに軍事用途のAI「EdgeRunner」や自律AI「DeepAgent」についても触れられています。これらの技術は、生成AIの進化を示す重要な事例となっています。
January 30, 2026 at 4:37 PM
今日のHuggingFaceトレンド

Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
Qwen3-TTSは、10言語に対応したテキスト読み上げ(TTS)モデルを提供するリポジトリです。
多様な声質プロファイル、文脈理解、ノイズへの耐性を特徴とし、音声設計、スタイル制御、高速ボイスクローンなどの機能を提供します。
モデルのダウンロード情報も含まれています。
Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
January 30, 2026 at 10:31 AM
最近、生成AIの技術がどんどん進歩しているんですね。

今週は特に、音声合成AI「Qwen3-TTS」が注目を集めています。わずか3秒の音声からボイスクローンを作れるそうで、商用利用も可能なんだとか。

他にも、2D映像から3D空間で動きを再現するAIなど、面白い研究がたくさん発表されています。
生成AIの未来が楽しみですね。 www.techno-edge.net #news
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
www.techno-edge.net
January 30, 2026 at 10:04 AM
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge / www.techno-edge.net/article/2026...
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第129回)は、3秒の音声でボイスクローンを生成する多言語対応の音声合成AIモデル「Qwen3-TTS」や、2D映像から4次元(3D空間+時間)で再構築・追跡するGoogle開発AIモデル「D4RT」を取り上げます。
www.techno-edge.net
January 30, 2026 at 9:31 AM
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) www.techno-edge.net/article/2026...
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第129回)は、3秒の音声でボイスクローンを生成する多言語対応の音声合成AIモデル「Qwen3-TTS」や、2D映像から4次元(3D空間+時間)で再構築・追跡するGoogle開発AIモデル「D4RT」を取り上げます。
www.techno-edge.net
January 30, 2026 at 7:52 AM
今日のAI関連記事

gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
今週の生成AI技術として、3秒でボイスクローン生成AI「Qwen3-TTS」、映像の時空間理解AI「D4RT」、役割と声質指定AI「PersonaPlex」、軽量AI「GLM-4.7-Flash」が紹介。
特に、AIが数学の未解決問題「エルデシュ問題」を解決する事例が注目され、AIの数学証明の実態が議論されている。
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第129回)は、3秒の音声でボイスクローンを生成する多言語対応の音声合成AIモデル「Qwen3-TTS」や、2D映像から4次元(3D空間+時間)で再構築・追跡するGoogle開発AIモデル「D4RT」を取り上げます。
www.techno-edge.net
January 30, 2026 at 7:38 AM
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
https://www.techno-edge.net/article/2026/01/30/4843.html
gpt-oss-20bを凌駕する軽量AI「GLM-4.7-Flash」、3秒の音声からボイスクローンを生成できて商用利用可の音声AI「Qwen3-TTS」、など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第129回)は、3秒の音声でボイスクローンを生成する多言語対応の音声合成AIモデル「Qwen3-TTS」や、2D映像から4次元(3D空間+時間)で再構築・追跡するGoogle開発AIモデル「D4RT」を取り上げます。
www.techno-edge.net
January 30, 2026 at 5:45 AM