お久しぶりです…!エルティアナです!
しばらくブログ記事を投稿できてませんでしたが、久々の投稿です!
以前、以下の記事で私の声を学習させて、リアルタイムに変換できるツールをご紹介しましたが、その流れで、私が自分でしゃべらくても、テキストの読み上げでyoutube動画が作れたりしないかな!?と思って、今回は無料/有料のテキスト読み上げ合成音声作成ソフトで出力した音声をもとに、私の声でおしゃべりしている音声が出せないか、実験してみました!
AHSというメーカーから発売している男女合計7名の声がセットになった読み上げソフト『AHS VOICEPEAK 商用可能 6ナレーターセット』というものをかなり前に買っていて、まったく使えてない…というのもあって、これの実験もしてみたい!ということもあり、こちらも一例としてご紹介します!
こちらは、せっかく有料のソフトを持っていたので、ほかの無料で使えるツールと比較することも有益かな!ということで候補にいれさせていただきました。
読み上げツールの導入や、RVCの音声学習、VC Clientによるリアルタイム音声変換などに興味がある方にのご参考になればとてもうれしいです!
やってみること
①以下のそれぞれのソフトから音声を出力
検証1:VOICE VOX:もち子さん(ノーマル)
今回は各ツールの検証なので詳細のご紹介は割愛しますが、VOICEBOXは無料で使えて、しかもかなり高機能な音声読み上げツールです!
youtubeで『ずんだもん』というキャラクターの読み上げている動画が多数アップされていて、こちらのツールを使っているものと思いますが、とても有名なツールで、ずんだもんだけじゃなく、女性/男性でたくさんのモデルがあります!
今回はその中から『もち子さん(ノーマル)』というモデルを使用してみたいとおもいます!
検証2:COEIROINK:つくよみちゃん(げんき)
こちらも無料で使えるツールで、VOICEVOXに並ぶ有名なツールです!VOICEVOXのユーザーインターフェイスを参考に作られているようで、起動画面はとても似ていますが、音声学習の仕組みは別物のソフトとのこと。
先に結果を言ってしまうようですが、超個人的にはこれが一番お気に入りだったりします…!(今回参考に利用したモデルが気に入っただけという可能性あり…)
こちらも男女ともに多数のモデルがあります!その中で今回は、『つくよみちゃん(げんき)』というモデルを使ってみます!
検証3:voicepeak:女性3
こちら有料で2万円越え!という高級なツールですが、一つのソフトで女性4名(うち1名は女の子という子供の声)と男性3名の計7名のモデルが使えるお得なパック!という合成音声ソフトです!
※まだVOICEVOXやCOEIROINKが登場する前からあった気がするので、たくさんのモデルを無料で使えるツールが出たことでお得感が微妙??になってしまっているかもですが…
有料だけあって、テキストを素のまま打ち込んでもそれなりに人間っぽく読んでくれたり、細かなパラメーター設定も行えるみたいで、そこはさすが!という感じがあるかなと思います。
今回は7種類のモデルから『女性3』というモデルを使ってみたいと思います!
②VC Client/私の声データに①を読み込ませて再生
最終的な目的は、私がしゃべらなくても私のボイチェンかけた声に近い音声でyoutube動画を作ること!なので、①をVC Clientに読み込ませて、最も近いものを今後使っていこうかな!と思います。
検証セリフ
私のVtuberとしてのごあいさつ的な、以下の文章を読み上げてもらいたいと思います!
『はじめまして!エルティアナです!みんなに少しでも楽しんでもらえるように、活動頑張ります!』
■やってみた結果
検証1:VOICE VOX:もち子さん(ノーマル)
■ソフトから出力した元データ
無料でここまで滑らかにしゃべってくれるのはすごい!と思いつつ、ちょっとだけ機械っぽさがあるかなぁという印象ですかね…
■VC Client/私の声学習データに読み込みさせた音声
ピッチ(Tuning)は3に設定しました。なかなか自分の声っぽい気がします!
検証2:COEIROINK:つくよみちゃん(げんき)
■ソフトから出力した元データ
…個人的にめちゃくちゃお気に入り!可愛い…私の声を通すのがむしろ邪魔では…というくらい可愛い…
■VC Client/私の声学習データに読み込みさせた音声
ピッチ(Tuning)は0に設定しました。…うん…可愛い…!
ピッチも0のままでいけるし…これかな!!!
検証3:voicepeak:女性3
■ソフトから出力した元データ
有料ソフトだけあって、全体的にはとても自然な気がするのですが、『エルティアナ』が若干残念なイントネーションに…これは私固有の問題ですかねえ…
■VC Client/私の声学習データに読み込みさせた音声
ピッチ(Tuning)は0に設定しました。…うん…
これはこれでありかもだけど…固有名詞……
まとめ
いかがでしたか?せっかくなので、超個人的な結果ランキングなど…
第1位:COEIROINK:つくよみちゃん(げんき)
これは断トツで1位な感じでした…!もともと可愛いので、私の声を通してもやっぱり可愛い感じですね!
第2位:voicepeak:女性3
さすがは有料ツール!というところで全体的に自然なのはやっぱりいいなと思いました!あと、3つのツールの中ではもっとも調整が細かくできるはずなので、もしこだわりたいとなったら、一番やりがいはあるかもしれないかなということで第2位としました!
※こだわるなら自分でしゃべれば?という本末転倒もありますが…
第3位:VOICE VOX:もち子さん(ノーマル)
恐れ多くも第3位としてしまいましたが、無料でここまでのクオリティが出せるのはすごいし、そもそもずんだもんが最強だということと、たぶんですが、イントネーションなどの調整はKOEIROINKよりも細かくできるはずなので、こちらも全然採用できる感じだと思います!そもそも無料ですし、インストールして絶対損はないと思います!
…といった感じで、いずれのツールを使っても、テキストを読み上げてくれる=ブログ記事を書く流れのまま動画制作ができるというのが強力なポテンシャルだと感じていますし、実際、今後AIやWEB3に関する研究報告を動画にしたい!と思っていたので、この手法でyoutube動画もどんどん作っていきたいと思います!
ChatGPTの活用や一枚絵からLive2D的なことができるツールも最近あるようで、これらをかけ合わせたら動画制作・編集作業も加速すること間違いなし!だと思うので、引き続き邁進していきたいと思います!
皆様もご興味があったら、voicepeak以外は無料で出来ます(VRC/VC Clientにはそれなりのグラボが必要ですが…)ので、ぜひ試してみてください♪