VALL-E-X（音声生成AI）が気になったので使ってみた

音声生成AIの「VALL-E-X」の基本機能の確認とハマりポイントがありましたので備忘ログに残します。

インストール
VALL-E-Xを使う
あとがき

インストール

下記アプリケーションやライブラリをインストールします。

なお、Windows11を前提に作業を進めます。

FFmpeg
CUDA12
VALL-E-X
PyTorch2.0

1. FFmpeg

下記サイトからWindows版のFFmpgeをダウンロードします。

ffmpeg.org
Windowsを選択し、「Windows builds by Btbn」をクリック。

「ffmpeg-master-latest-win64-gpl.zip」をクリックしてダウンロード。

ダウンロードしたファイルを展開（解凍）します。

展開すると、「ffmpeg-master-latest-win64-gpl」フォルダ内に下記ファイル類が生成されていることを確認してください。

ffmpeg-master-latest-win64-gplを適当なフォルダに移動させてパスを通します。パスの通し方は「環境変数」の「Path」に「ffmpeg-master-latest-win64-gpl」を設定します。

まず、「環境変数の編集」を開き、「環境変数」の「編集」ボタンをクリック。

「環境変数名の編集」ダイアログにて、「新規」ボタンをクリックして、ffmpegのフォルダを追加し、「OK」ボタンをクリック。ffmpegフォルダ名は「bin」まで必要なので注意してください。

2. CUDA12.0

nvidia公式のCUDA Toolkit 12をダウンロード。

http://　https://developer.nvidia.com/cuda-12-0-0-download-archive

① 「Windows」をクリック

② 「x86_64」をクリック

③ 「11」をクリック（Windows11なので）

④ 「exe (local)」をクリック　※networkを選択しても問題ありません

⑤ 「Download(3.4GB)」をクリック　※大きいですね (^^;

あとは、ダウンロードしたファイルを実行するだけでOKです。

3. VALL-E-X

以下のGitHUBからファイル一式をクローンします。

github.com

① 「Code」をクリックして、アドレスをコピーする。

② コマンドプロンプトを開き、適当なフォルダで下記コマンドを実行。

　※この例では、"D:\Projects\ai"フォルダを使用しています。

D:\Projects\ai>git clone https://github.com/Plachtaa/VALL-E-X.git

③ クローンしたフォルダに移動。

D:\Projects\ai>cd VALL-E-X.git

④ オリジナル環境を汚したくないので、VENVを使って仮想環境を構築します。

　※この例では、仮想環境の名前は"vall_e_x"としましたが、なんでもOKです。

D:\Projects\ai\VALL-E-X>python -m venv vall_e_x

⑤ 仮想環境をアクティベート（実行）。

D:\Projects\ai\VALL-E-X>vall_e_x\Scripts\activate

仮想環境が立ち上がると、コマンドラインの先頭に(vall_e_x)が付きます。

(vall_e_x) D:\Projects\ai\VALL-E-X>

4. PyTorch2.0

pytorch.org

① 上記サイトにアクセスして、「Get Started」をクリック。

② 「Computer Platform」の「CUDA12.1」をクリックすると、「Run this Command」の表示されているコマンドをコピー。

③ コピーしたコマンドをコマンドプロンプトで実行。

(vall_e_x) D:\Projects\ai\VALL-E-X>pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

5. VALL-E-Xのライブラリ

最後の仕上げに、VALL-E-Xに必要なライブラリ群をインストールします。が、ここに罠が潜んでます。。。

ライブラリ群のインストールは下記コマンドで行います。

(vall_e_x) D:\Projects\ai\VALL-E-X>pip install -r requirements.txt

VALL-E-Xを使う

起動！

下記コマンドでVALL-E-X（UI版）を起動します。

なお、初回起動のみ、各種データをダウンロードするようで結構時間がかかります。

(vall_e_x) D:\Projects\ai\VALL-E-X>python launch-ui.py

ハマりポイント

起動するとコマンドプロンプトに下記ログが表示され、エラーが発生します。

(vall_e_x) D:\Projects\ai\VALL-E-X>python launch-ui.py
default encoding is utf-8,file system encoding is utf-8
You are using Python version 3.10.9
Use 20 cpu cores for computing
100% [....................................................................] 1482302113 / 1482302113D:\Projects\ai\VALL-E-X\vall_e_x\lib\site-packages\torch\nn\utils\weight_norm.py:30: UserWarning: torch.nn.utils.weight_norm is deprecated in favor of torch.nn.utils.parametrizations.weight_norm.
warnings.warn("torch.nn.utils.weight_norm is deprecated in favor of torch.nn.utils.parametrizations.weight_norm.")
100%|█████████████████████████████████████| 1.42G/1.42G [01:05<00:00, 23.2MiB/s]
Traceback (most recent call last):
File "D:\Projects\ai\VALL-E-X\launch-ui.py", line 629, in <module>
main()
File "D:\Projects\ai\VALL-E-X\launch-ui.py", line 528, in main
upload_audio_prompt = gr.Audio(label='uploaded audio prompt', source='upload', interactive=True)
File "D:\Projects\ai\VALL-E-X\vall_e_x\lib\site-packages\gradio\component_meta.py", line 146, in wrapper
return fn(self, **kwargs)
TypeError: Audio.__init__() got an unexpected keyword argument 'source'