目次
結果
https://booth.pm/ja/items/4701666
上記URLのサンプルからどのように変換されるか確認できます。
VC Clientとは?
「VC Client」は、リアルタイムの音声変換を行うためのクライアントソフトウェアです。
このソフトウェアは、様々な音声変換AI、例えばMMVC、so-vits-svc、RVC(Retrieval-based-Voice-Conversion)、そしてDDSP-SVCをサポートしています。
これらのAIを使用して、ユーザーの音声をリアルタイムで変換し、異なる音声にすることが可能です1。
VC Clientはネットワーク経由での利用も可能で、高負荷なアプリケーション、例えばゲームと同時に使用する場合、音声変換処理の負荷を外部にオフロードすることができます。
これは、音声変換の処理をより効率的に行い、ユーザーのコンピュータのリソースを節約するための機能です2。
さらに、VC Clientは複数のプラットフォームに対応しています。Windows、Mac(M1)、Linux、そしてGoogle Colab(ただし、Google ColabはMMVCのみサポート)で利用可能です3。
VC Clientの使用方法
VC Clientの使用方法は2つあります。
一つ目は、事前にビルドされたバイナリを使用する方法です。こちらはWindows版とMac版が提供されており、ダウンロードしたファイルを解凍してから指定されたバッチファイルやコマンドファイルを実行するだけです。
二つ目は、DockerやAnacondaなどを使用して環境を構築した上で利用する方法です。初回起動時には各種データをダウンロードするため、ダウンロードには時間がかかる可能性がありますが、ダウンロードが完了するとブラウザが立ち上がります。
今回は比較的簡単に起動できる、1つ目の方法で紹介していきたいと思います。
実際に行ったこと
環境
OS | Windows 11 (22HS) |
CPU | Core i7-11700K |
メモリ | 16GB |
GPU | RTX 3070 |
やったこと
今回使うソフトウェアのダウンロード
こちらからダウンロードできます。約3GBほどあるのでダウンロードには少し時間がかかります。
ダウンロードできましたら解凍しておきましょう。
今回使うモデルのダウンロード
現在、さまざまな声の種類のモデルがBoothで公開されています。RVC WebUIを用いて好みの声のモデルを作成することもできますが、今回は第三者が提供している学習済みモデルを利用していきます。
今回はこちらのモデルを使っていきます。
Boothの利用にはPixivIDが必要になってくるのでご注意くださいませ。
上記、赤丸の部分からダウンロードの手続きを行うことできます。
ダウンロードしてきたZIPファイルは解凍しておきましょう。
VC Clientの起動
ソフトウェアのダウンロードの項でダウンロードしたフォルダ内にある、start_http.batで起動します。
起動すると、CMDコンソールが立ち上がり、起動準備にかかります。初回では3分ほど時間がかかるかもしれません。
しばらくすると、上記のようなウィンドウが立ち上がると思います。環境によってはWindows Defenderの警告がでますので、アクセスを許可しておきましょう。
RVCというボタンがあるのでこちらをクリックします。
Model Settingの項目からダウンロードしてきたモデルをアップロードすることできます。
Model Slotは 左から0, fileを選択してきます。
所謂、プリセットのようなもので、モデルを何番にセットしておくか指定できます。
Model(.onnx, .pt, .pth)のSelect(赤丸部分)でダウンロードしたモデルを選択します。
ダウンロードしたモデルパックはいろいろと種類があるのでお好きな声のものを選択してください。
Default Tuneの設定でどのくらいトーンを上げるか下げるか指定できます。今回は女声に変換したいので+12にします。
Device Settingの項目でどのデバイスから音声を取得して、どのデバイスで音声を出力するか設定します。Device Modeは今回はclient deviceで、他については環境によって異なるので、割愛いたします。
以上、設定が完了しましたら、上部にあるServer Controlの項目のStartを押すとボイスチェンジが始まります。マイク等でしゃべるとGPUの性能によりますが当環境では0.5秒ほどで変換された声が聞こえてきました。
コメントを残す