Style-Bert-VITS2をGoogle Colabで学習し、高品質な猫ミームの音声合成を作成しました!
- AGEYOU
- 2月12日
- 読了時間: 2分

猫のリアルな音声でテキスト読み上げを行いたいと思ったので取り組んでみました!
この記事では、本リポジトリの中のcolab_SBV2train_sampleフォルダのみを利用します。
このフォルダーを複製して、Google DriveのMyDrive直下においてください。
音声データの用意
SBV2で学習させるため、知っている人は知っているあの有名な猫ミームの音声データを約1分半ほど用意しました。本来は10分以上の音声データが必要なようです。
用意した音声wavデータをinputsフォルダーの中にアップロードする。
※音声データは、学習させたい特定の話者の音声のみを含むデータセットである必要があります。そのため、データセット全体において、対象話者以外の音声が含まれている音声ファイルは使用できません。
学習データを整形
Google Colabからipynbノートブックを利用します。
「SBV2-prepare.ipynb」を開いてください。
3セル目の下記の部分を今回作りたいモデルの名前に変更してください。
model_name = "amitaro"
実行後、Dataフォルダ内にamitaroフォルダが作成されている事を確認してください。
その中にrawフォルダとesd.listが生成され、rawフォルダ内に10秒ごとに分割された音声ファイルが保存されていれば、処理は成功しています。
SBV2を学習する
ランタイムのタイプをT4 GPUに設定したのち、「SBV2-train.ipynb」をそのまま一番上のセルから実行してください。
※3セル目のモデル名を適切に変更してください。
SBV2のモデル重みを評価する
「SBV2-evaluation.ipynb」をそのまま一番上のセルから、4セル目まで、実行してください。

このCAT_e20_s180.safetensorsを使用します。
その後、9セル目まで実行してください。
発話される音声を聞くことができるはずです!
そしてできた音声データがこれです。
字幕:アゲヨウでホームページを立ち上げよう!
最後まで読んでいただきありがとうございます。