Qwen3-TTSについて
皆はQwen3-TTSというものを知っておるじゃろうか?
俗にいう『音声クローン』ができるAIアプリじゃな。
中国のアリババグループの中のQwenチームが2026年1月に公開した、オープンソースの超高性能テキスト音声合成(TTS)モデルなのじゃよ!
その特徴は・・・たった3秒の音声サンプルから、その人の声がクローン出来るという恐るべきものなのじゃ!!
そして、それがなんと、ローカル環境で動く!!!
AIの画像生成やら動画生成やら、ほとんどはどこかのホームページに行って、会員登録して、使うではないか。
ローカル環境とは、それらがいらん。使い放題、作り放題というやつなのじゃ!!
ただの・・・・・ローカル環境への導入は、ものすごく難しいのじゃ。
自分のパソコンの中でPythonとかいうプログラムを動くようにしたり・・・仮想サーバで動くようにしたり・・・WEBUIというものを作ったり・・・・・
まろも色々と試したのじゃが、いかんせんうまくいかん!!
個人個人の環境によって、必要なものが違うのじゃよ!!!
そこで思ったのじゃ。
簡単にインストールできるようにするプログラムを作ればいいのでは?
そこからの戦いは熾烈を極めた。
動かん。
エラー出まくる。
何度も諦めそうになりながら、ついに本日、動かすことに成功したのじゃよ!!!
感動ものなのじゃ・・・・
というわけで、そのファイルを公開しようかなと。
皆様のパソコンで動く保証はないのじゃが、導入で挫折しておる者にはワンチャンあるかもしれん!
というわけで。
使えるようになるといいのぅ。
まろはこれを使って、何度か入れてみたり起動したりしておるのじゃが・・・今のところ問題なし!
ちなみに、NVIDIAのグラボ入っておらんと動かんからの・・・それは絶対なのじゃよ。
解凍したら、PCの中の任意の場所に保存して、start.batをダブルクリックすると、ダウンロードやインストールが始まるのじゃ。
インストールの途中では、モデルのダウンロードという選択肢が出てくるのじゃが、ほとんどが自動のため、そこしか選択肢がないのじゃよ。
機能は3つあって、『元々ある声で話す』やつと『イメージで声を作る』やつと『声のクローン』なのじゃが、それぞれにモデルが異なるのじゃ。全部の機能を使いたければ、全部のモデルのダウンロードが必要になるのじゃよ~
フォルダ内で全てを動かしているので、邪魔になったらフォルダごと消せばいいだけ。
とっても簡単なのじゃ~~~
WebUIについて
うちのバージョンのWebUIは、ちょっと特殊なのじゃ。
翻訳機能を搭載しておる。
とはいっても、日本語を英語に翻訳するだけの簡単機能なのじゃが・・・・・プロンプト、英語でしか認識せんことが多くてのぅ。
あと、ちょっと可愛くした。
これは大事じゃろw
あとは好きに使えばよいと思うのじゃが、勝手にひとさまの声をクローンせんようにの。
使ってみて
声デザイン機能もなかなか面白いのぅ。
『10歳ぐらいの女の子で、日本語で抑揚をしっかりつけて』という内容を声の説明に入れて、英語にしただけでこの内容に。
・・・・・ただ、現状で声を記憶させておく機能がないのじゃよ。
一期一会なのじゃw
クローンもなかなかにすごい。
たかが数秒でこれだけこちらの声をマネされるとは・・・
そして、長いと精度が上がるのかと30秒ほど録音してみたのじゃが、生成時間が長くなる!!
生成時間と精度を両立させようとすると、10秒程度がちょうどいいかもしれんのぅ。
気になる者は使うてみるとよいのじゃよ♪





この記事へのコメントはありません。