商用l利用も可能な音声合成ツール「VOICEVOX」が公開。現時点では窓の杜からダウンロード可能 73
ストーリー by nagazou
一文を長くすると処理が重い感じ 部門より
一文を長くすると処理が重い感じ 部門より
音声合成ソフトは商用利用に制限があるものが多いが、ヒホ(ヒロシバ)氏が8月1日に公開した「VOICEVOX」は、商用・非商用問わず無料で利用できるのが特徴。入力したテキストから音声を生成し、アクセントの調整や文字単位でのイントネーションの簡単な調整などが行える。現時点での音声は女性の声(お姉さん風、幼女風)2種類となっている。公開されているファイルサイズはおよそ3.26GBと大きめ。公式はGoogleドライブ上に置かれていたが、ダウンロード制限に達していることが多いことから、一時的に窓の杜からダウンロードできるようになっている模様(VOICEVOX公式サイト、窓の杜、ヒホ(ヒロシバ)さんのツイート)。
中品質かぁ… (スコア:2, 興味深い)
ってあんまり期待してなかったのですがデモは予想よりずっと品質が良くてびっくり。
有料ソフトで手持ちのかんたん!AITalk3やWorldvoice2日中英韓、CevioCS6と比べて
遜色ないどころか軽く上回ってるじゃないですか。
これで棒読みちゃん連携できればなぁ…
オープンソース (スコア:2, 興味深い)
ソフトの利用規約もあれだけど、そもそもエンジンがオープンソース(LGPL)なんで、
https://github.com/Hiroshiba/voicevox [github.com]
いろいろ発展性があるね。中間ファイルから3Dモデルの口パクを作ったりできるんじゃないかな。
Re: (スコア:0)
そもそも口の動きをデータベース化したITAコーパスから、音声データだけ抜き出して学習しているので……。
親和性が高いと見るか、主従逆転と見るか。
Re: (スコア:0)
オープンソースの場合、特許関係が怖いんよね。
ディープラーニングの普及で特許が濫造されて、クロスライセンス前提みたいになっている。
Re: (スコア:0)
ほとんどの人にとって、合成した音声を動画とかで使うだけなんだから、特許は関係ないでしょ。これを利用した自作ソフトを売り抜けよう、みたいな、かなり特殊な用途じゃないと。
Re: (スコア:0)
動画で使うのは特許と関係ないなら動画コーデックが特許ゴロの巣窟になってないだろ・・・
Re: (スコア:0)
動画のコーデックは動画を再生するのに「使用する」から特許に抵触するわけで、
動画自体をファイルとして保存しておくのに特許料はかからない。
できあがった音声データを再生するのには、それを作成するのに必要な特許は
「使用しない」からかからないという理屈だろ。
Re: (スコア:0)
例えばH246で変換した動画を売るのに特許料払う必要があるの?
とも思ったが、
その変換したツールが特許侵害してた場合、
変換した動画はその後どうなるんでしたっけ?
侵害してないツールで作り直し?金払えばOK?特許は関係無し?
Re: (スコア:0)
作り直さなくても、そのまま変換すればOKでしょ。
ガリレオは望遠鏡を特許通りに作って月のクレーターを観察してスケッチを出版したけど、特許料は一切払ってない。望遠鏡を売れば特許権の侵害かもしれないが、望遠鏡で見た内容は特許の範囲じゃない。
Re: (スコア:0)
特許料を支払う必要があるか否かの話ではないんでは。
収益スキームだとか開発者のリソース・やる気だとか、コミュニティーが崩壊しかねない。
[2021年8月6日編集部追記] 窓の杜からのファイルダウンロードを終了いたしました。 (スコア:1)
URLが/21/08/05/になってるから、5日に文章だけ作って今日公開するように設定したんだろうけど
状況が変わるものを題名に入れなきゃいいのに
車内アナウンス (スコア:0)
経営の苦しい地方鉄道、バス会社の車内アナウンスが軒並み音声合成になったりして
# 調整に手をかける位なら社員にドスの利いた声で読ませた方が安上がりか
Re:車内アナウンス (スコア:2, 興味深い)
バスは既に結構多いですね。
オフトピRe:車内アナウンス (スコア:1)
5年ほど前に御殿場駅まで高速バスで向かった際に、車内アナウンスが伊吹マヤ(中の人という意味ではなく、伊吹マヤとしてやっていた)でビビりました。
箱根つながりらしいけど、エヴァとはQ以降関係ないじゃん。
東京メトロは大原さやかさんでしたっけ?
Re: (スコア:0)
都会の方がさっさと合成音声になってません?
Re:車内アナウンス (スコア:3, 参考になる)
ローソンのセルフレジでさとうささらとかね
Re: (スコア:0)
あ、あれやっぱりさとうささらだったのか
Re: (スコア:0)
JRの駅名放送とか明らかに合成音声だよな
Re: (スコア:0)
規則合成の話だと勝手に思ってたので、このツリーのリプライは???だったが、
波形接続型音声合成も音声合成でしたね。
wikipedia情報だと統計的パラメトリック音声合成ってのがあるんですか。
VOICEVOXはこれ?
うーん・・・ (スコア:0)
クオリティーが高くて素晴らしいと思うんだけど、
もし、もっと普通に使えそうな音声が入っていて、多くの人が普通に業務に使えるようなものだったら、
業界破壊的なことになって、いろいろ厄介なことになるのかなぁ・・・?
Re:うーん・・・ (スコア:1)
機械学習ものでオープンソースでしょ?
デフォの音声が嫌なら自分でデータセットを用意してトレーニングすればいい
Re:環境が特殊すぎんか (スコア:1)
普通に普及率が最大の組み合わせだと思うけど住んでる世界線が違うのだろうか。
Re: (スコア:0)
環境が特殊とか、どんなPCが最強とかそんなのはどうでもよくて、作者が欲しい/使いたいソフトがあって、
作者にとって、それを作るスキルがあったのがWindowsであって、それを作る環境がWindowsだったってだけでしょ。
MacやらLinuxやらの知識が無い人が、音声合成の為だけにMacやらLinuxの環境を用意して、
一から勉強して、MacやらLinuxのソフトを組むなんて面倒な事はしないと思うぞ。
Re: (スコア:0)
Macはそうかもしれんが、Linuxはあるでしょ。特定のライブラリを使いたい場合とかで。デスクトップのシェアがこれだけ低いのは、Linuxの開発者も普段使ってないってことなんだから、開発のためだけにLinuxを使ってる人は相当数いると思う。
Re: (スコア:0)
LinuxだとどうしてもGUIソフトウェアの作成に難があるように見えてしまう。
基本的にサーバ用途で進化してきたものだからってのもあると思うけど、
有用なソフトって、殆どがコマンドラインインターフェイスじゃん。
で、GUIはWEBブラウザで作るとかなんだけど、作者が用意する事は殆どない。
デスクトップ環境でGUIがしっかり作り込まれてて使いやすいソフトって、
殆ど見たことなんだよねぇ...
あっても、Windows版もあるソフトで、なら別にLinuxを選ぶ理由は?って話になる。
Re:環境が特殊すぎんか (スコア:2, 参考になる)
VOICEVOXに関して言うとGUI部分はElectronなのでLinuxでも普通にビルドできる(やってみた人もいる)。現状でWindows依存なのはむしろ音声合成エンジンの方
Re: (スコア:0)
サーバがLinuxでそれ用だからGUIアプリLINUX用で作ってる
デーファイルがすぐギガになるのでWindows版の需要は少ない
とはいえあることはあるんだよなあ
Qt使ってるからwindows版も作れるけど検証が面倒だし、WSLに期待してる
Re: (スコア:0)
ただ、こういうスキルを持ってる人がWindowsをメインに活動してるなんて、世界的に見てもとても大きな損失だと思う。
MacやLinuxなら音声を合成して遊ぶ人は多いだろうが、Windowsにそんなコミュニティあるの?
Re: (スコア:0)
ならWindowsの商用音声合成ソフトは誰が使ってるの?
Re: (スコア:0)
YouTubeとかTiktokとかに動画投稿する人が使うんだから、世界的に大半がWindowsだよ。世の中は職業的なクリエーターで回ってるわけじゃなくて、むしろ趣味の世界が膨大なコンテンツとして存在感を増してるわけだから。
そういう人はコンテンツ作成のためにわざわざ新しいPCを買ったりしない。素人が作ったものを素人が消費する社会では依然として世界シェアの四分の三近くを占めるWindowsが一番強い。
Re:環境が特殊すぎんか (スコア:1)
細かいアレはアレでアレだがTikTokの投稿元はAndroid/iPhoneじゃないか?
Re:環境が特殊すぎんか (スコア:1)
どっちにしてもMac/Linux(デスクトップ)じゃないじゃん。
Re: (スコア:0)
Windowsでないってことを言いたかったので、こちらから見てMac/Linuxさんと同派閥に属してくるのは想定外でした。
Re:環境が特殊すぎんか (スコア:1)
アプリ開発環境という観点でMac/LinuxとスマホOSを同陣営に持ってくるほうがよっぽど想定外だよ。
Re: (スコア:0)
なるほど。そのあたりまで上のコメントの文脈を継いだ話であるなら、YouTubeやTikTokに投稿する人はアプリ開発者とみなす話である…のかな
オラワクワクしてくっぞ
Re: (スコア:0)
むしろ現在の標準であるところのVOICEROIDはWindowsしかないけど、君はみんなわざわざWineとか仮想環境で使っていると思っているのか?
Re: (スコア:0)
MacやLinuxにそんな市場あるの?
動画配信向けのこの手のソフトはWindowsで生まれて育った需要だけど。
Re: (スコア:0)
考えが特殊すぎんか?
Re: (スコア:0)
何をどうしてどう考えたらApple Silicon環境が最強だと思うのかが逆に謎
素直にGPU使える環境のほうが圧倒的に快適でしょ
Re: (スコア:0)
所詮ARMなので演算能力はx86以下だよね
音声合成という土台だと普通にx86のほうが有利だと思うけど
Re: (スコア:0)
「個人的には」と書いてあるだろ、それしかしらないんだよ
そうでなければ、「最強」とは、言えないだろ。
どんなソフトでも「最強」なんて煽るときにしか言えない
Re:環境が特殊すぎんか (スコア:1)
1080tiじゃないんだし。
CPUで言うならceleronか良くてpentiumあたりかと
Re: (スコア:0)
2020/11の記事で1050 Tiって結構古くない?
まあ、地球の製造能力では1050 Tiが2021/3に「新発売」されたようでもあるが。
https://pc.watch.impress.co.jp/docs/news/1311205.html [impress.co.jp]
Re: (スコア:0)
CUDAも知らずにDLを語っちゃう男の人かわいい💛。
Re: (スコア:0)
自分はこのコメに同意だわ
思考停止して反発するコメもぶら下がってるようだが
日本人は落ち目のWindowsと落ち目のインテルと
落ち目…ではまだないかもしれないがAppleにもライナスにも愛想つかされてる
NVIDIAにこだわるせいでそれが回りまわってGAFAのような革新的な企業が
日本で生まれないんじゃないの
# 暴論だと分かった上で
Re: (スコア:0)
日本の音声合成関係でWindowsにケチつけるのは暴論どころかパラレルワールドかな?のレベルだよ。
生きているコミュニティが違う。
Re: (スコア:0)
WindowsやNVIDIAが落ち目とか言っちゃう時点でまあ世間知らずなんだなと
Re: (スコア:0)
この手の処理(音声処理)をする場合、どこのプロセッサだとかGPUだとかOSだとかは全然問題にならないほど演算の負荷が軽い
一番分かりやすい例を挙げれば、web会議システムの音声圧縮伸張なんて画像処理の余りの時間で実時間処理が出来るしそれ以上の処理速度・処理性能など必要とされない
3GBバイトにも及ぶ音声の規則合成の元データを機械学習により作成するなどという場合は演算能力に余裕のある環境の方が開発は楽になるが、出来上がったアプリケーションの性能に影響を及ぼすわけではないし、出来上がったアプリケーションの実行環境の制約とも無関係
Re: (スコア:0)
開発者への最低なコメントのひとつだな。一切の敬意が感じられない。
Re: (スコア:0)
使いたいけど宗教上の理由で使えなくて悔しいんだな?
やめちまえよ、そんな宗教
世界と可能性が広がるぞ