商用l利用も可能な音声合成ツール「VOICEVOX」が公開。現時点では窓の杜からダウンロード可能

商用l利用も可能な音声合成ツール「VOICEVOX」が公開。現時点では窓の杜からダウンロード可能 73

ストーリー by nagazou 2021年08月07日 6時09分
一文を長くすると処理が重い感じ部門より

音声合成ソフトは商用利用に制限があるものが多いが、ヒホ（ヒロシバ）氏が8月1日に公開した「VOICEVOX」は、商用・非商用問わず無料で利用できるのが特徴。入力したテキストから音声を生成し、アクセントの調整や文字単位でのイントネーションの簡単な調整などが行える。現時点での音声は女性の声（お姉さん風、幼女風）2種類となっている。公開されているファイルサイズはおよそ3.26GBと大きめ。公式はGoogleドライブ上に置かれていたが、ダウンロード制限に達していることが多いことから、一時的に窓の杜からダウンロードできるようになっている模様（VOICEVOX公式サイト、窓の杜、ヒホ（ヒロシバ）さんのツイート）。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索73コメント Log In/Create an Account

中品質かぁ… (スコア:2, 興味深い)

by Anonymous Coward on 2021年08月07日 7時26分 (#4086294)

ってあんまり期待してなかったのですがデモは予想よりずっと品質が良くてびっくり。
有料ソフトで手持ちのかんたん！AITalk3やWorldvoice2日中英韓、CevioCS6と比べて
遜色ないどころか軽く上回ってるじゃないですか。
これで棒読みちゃん連携できればなぁ…
オープンソース (スコア:2, 興味深い)

by Anonymous Coward on 2021年08月07日 7時34分 (#4086298)

ソフトの利用規約もあれだけど、そもそもエンジンがオープンソース（LGPL）なんで、
https://github.com/Hiroshiba/voicevox [github.com]
いろいろ発展性があるね。中間ファイルから3Dモデルの口パクを作ったりできるんじゃないかな。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  そもそも口の動きをデータベース化したITAコーパスから、音声データだけ抜き出して学習しているので……。
  親和性が高いと見るか、主従逆転と見るか。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  オープンソースの場合、特許関係が怖いんよね。
  ディープラーニングの普及で特許が濫造されて、クロスライセンス前提みたいになっている。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ほとんどの人にとって、合成した音声を動画とかで使うだけなんだから、特許は関係ないでしょ。これを利用した自作ソフトを売り抜けよう、みたいな、かなり特殊な用途じゃないと。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      動画で使うのは特許と関係ないなら動画コーデックが特許ゴロの巣窟になってないだろ・・・
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        動画のコーデックは動画を再生するのに「使用する」から特許に抵触するわけで、
        動画自体をファイルとして保存しておくのに特許料はかからない。
        できあがった音声データを再生するのには、それを作成するのに必要な特許は
        「使用しない」からかからないという理屈だろ。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        例えばH246で変換した動画を売るのに特許料払う必要があるの？
        とも思ったが、
        その変換したツールが特許侵害してた場合、
        変換した動画はその後どうなるんでしたっけ？
        侵害してないツールで作り直し？金払えばOK？特許は関係無し？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        作り直さなくても、そのまま変換すればOKでしょ。
        ガリレオは望遠鏡を特許通りに作って月のクレーターを観察してスケッチを出版したけど、特許料は一切払ってない。望遠鏡を売れば特許権の侵害かもしれないが、望遠鏡で見た内容は特許の範囲じゃない。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      特許料を支払う必要があるか否かの話ではないんでは。
      収益スキームだとか開発者のリソース・やる気だとか、コミュニティーが崩壊しかねない。
［2021年8月6日編集部追記］窓の杜からのファイルダウンロードを終了いたしました。 (スコア:1)

by Anonymous Coward on 2021年08月07日 9時25分 (#4086357)

URLが/21/08/05/になってるから、5日に文章だけ作って今日公開するように設定したんだろうけど
状況が変わるものを題名に入れなきゃいいのに
車内アナウンス (スコア:0)

by Anonymous Coward on 2021年08月07日 7時30分 (#4086295)

経営の苦しい地方鉄道、バス会社の車内アナウンスが軒並み音声合成になったりして
# 調整に手をかける位なら社員にドスの利いた声で読ませた方が安上がりか
- Re:車内アナウンス (スコア:2, 興味深い)
  
  by Anonymous Coward on 2021年08月07日 7時35分 (#4086299)
  
  バスは既に結構多いですね。
  
  シェア
  
  親コメント
- オフトピRe:車内アナウンス (スコア:1)
  
  by Anonymous Coward on 2021年08月07日 7時55分 (#4086310)
  
  5年ほど前に御殿場駅まで高速バスで向かった際に、車内アナウンスが伊吹マヤ(中の人という意味ではなく、伊吹マヤとしてやっていた)でビビりました。
  箱根つながりらしいけど、エヴァとはQ以降関係ないじゃん。
  東京メトロは大原さやかさんでしたっけ?
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  都会の方がさっさと合成音声になってません？
  - Re:車内アナウンス (スコア:3, 参考になる)
    
    by Anonymous Coward on 2021年08月07日 9時16分 (#4086354)
    
    ローソンのセルフレジでさとうささらとかね
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      あ、あれやっぱりさとうささらだったのか
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    JRの駅名放送とか明らかに合成音声だよな
- Re: (スコア:0)
  
  by Anonymous Coward
  
  規則合成の話だと勝手に思ってたので、このツリーのリプライは???だったが、
  波形接続型音声合成も音声合成でしたね。
  wikipedia情報だと統計的パラメトリック音声合成ってのがあるんですか。
  VOICEVOXはこれ?
うーん・・・ (スコア:0)

by Anonymous Coward on 2021年08月07日 12時34分 (#4086463)

クオリティーが高くて素晴らしいと思うんだけど、
もし、もっと普通に使えそうな音声が入っていて、多くの人が普通に業務に使えるようなものだったら、
業界破壊的なことになって、いろいろ厄介なことになるのかなぁ・・・?
- Re:うーん・・・ (スコア:1)
  
  by Anonymous Coward on 2021年08月07日 12時40分 (#4086469)
  
  機械学習ものでオープンソースでしょ?
  デフォの音声が嫌なら自分でデータセットを用意してトレーニングすればいい
  
  シェア
  
  親コメント
- Re:環境が特殊すぎんか (スコア:1)
  
  by Anonymous Coward on 2021年08月07日 11時34分 (#4086432)
  
  普通に普及率が最大の組み合わせだと思うけど住んでる世界線が違うのだろうか。
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  環境が特殊とか、どんなPCが最強とかそんなのはどうでもよくて、作者が欲しい/使いたいソフトがあって、
  作者にとって、それを作るスキルがあったのがWindowsであって、それを作る環境がWindowsだったってだけでしょ。
  MacやらLinuxやらの知識が無い人が、音声合成の為だけにMacやらLinuxの環境を用意して、
  一から勉強して、MacやらLinuxのソフトを組むなんて面倒な事はしないと思うぞ。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    Macはそうかもしれんが、Linuxはあるでしょ。特定のライブラリを使いたい場合とかで。デスクトップのシェアがこれだけ低いのは、Linuxの開発者も普段使ってないってことなんだから、開発のためだけにLinuxを使ってる人は相当数いると思う。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      LinuxだとどうしてもGUIソフトウェアの作成に難があるように見えてしまう。
      基本的にサーバ用途で進化してきたものだからってのもあると思うけど、
      有用なソフトって、殆どがコマンドラインインターフェイスじゃん。
      で、GUIはWEBブラウザで作るとかなんだけど、作者が用意する事は殆どない。
      デスクトップ環境でGUIがしっかり作り込まれてて使いやすいソフトって、
      殆ど見たことなんだよねぇ...
      あっても、Windows版もあるソフトで、なら別にLinuxを選ぶ理由は？って話になる。
      - Re:環境が特殊すぎんか (スコア:2, 参考になる)
        
        by Anonymous Coward on 2021年08月07日 13時11分 (#4086491)
        
        VOICEVOXに関して言うとGUI部分はElectronなのでLinuxでも普通にビルドできる(やってみた人もいる)。現状でWindows依存なのはむしろ音声合成エンジンの方
        
        シェア
        
        親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        サーバがLinuxでそれ用だからGUIアプリLINUX用で作ってる
        デーファイルがすぐギガになるのでWindows版の需要は少ない
        とはいえあることはあるんだよなあ
        Qt使ってるからwindows版も作れるけど検証が面倒だし、WSLに期待してる
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ただ、こういうスキルを持ってる人がWindowsをメインに活動してるなんて、世界的に見てもとても大きな損失だと思う。
    MacやLinuxなら音声を合成して遊ぶ人は多いだろうが、Windowsにそんなコミュニティあるの？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      ならWindowsの商用音声合成ソフトは誰が使ってるの?
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      YouTubeとかTiktokとかに動画投稿する人が使うんだから、世界的に大半がWindowsだよ。世の中は職業的なクリエーターで回ってるわけじゃなくて、むしろ趣味の世界が膨大なコンテンツとして存在感を増してるわけだから。
      そういう人はコンテンツ作成のためにわざわざ新しいPCを買ったりしない。素人が作ったものを素人が消費する社会では依然として世界シェアの四分の三近くを占めるWindowsが一番強い。
      - Re:環境が特殊すぎんか (スコア:1)
        
        by Anonymous Coward on 2021年08月07日 10時51分 (#4086400)
        
        細かいアレはアレでアレだがTikTokの投稿元はAndroid/iPhoneじゃないか？
        
        シェア
        
        親コメント
        
        Re:環境が特殊すぎんか (スコア:1)
        
        by Anonymous Coward on 2021年08月07日 11時11分 (#4086413)
        
        どっちにしてもMac/Linux(デスクトップ)じゃないじゃん。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        Windowsでないってことを言いたかったので、こちらから見てMac/Linuxさんと同派閥に属してくるのは想定外でした。
        
        Re:環境が特殊すぎんか (スコア:1)
        
        by Anonymous Coward on 2021年08月07日 11時30分 (#4086429)
        
        アプリ開発環境という観点でMac/LinuxとスマホOSを同陣営に持ってくるほうがよっぽど想定外だよ。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        なるほど。そのあたりまで上のコメントの文脈を継いだ話であるなら、YouTubeやTikTokに投稿する人はアプリ開発者とみなす話である…のかな
        オラワクワクしてくっぞ
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      むしろ現在の標準であるところのVOICEROIDはWindowsしかないけど、君はみんなわざわざWineとか仮想環境で使っていると思っているのか?
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      MacやLinuxにそんな市場あるの？
      動画配信向けのこの手のソフトはWindowsで生まれて育った需要だけど。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  考えが特殊すぎんか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  何をどうしてどう考えたらApple Silicon環境が最強だと思うのかが逆に謎
  素直にGPU使える環境のほうが圧倒的に快適でしょ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    所詮ARMなので演算能力はx86以下だよね
    音声合成という土台だと普通にx86のほうが有利だと思うけど
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    「個人的には」と書いてあるだろ、それしかしらないんだよ
    そうでなければ、「最強」とは、言えないだろ。
    どんなソフトでも「最強」なんて煽るときにしか言えない
  - - Re:環境が特殊すぎんか (スコア:1)
      
      by Anonymous Coward on 2021年08月07日 13時37分 (#4086497)
      
      1050tiってローエンドの方でしょ？
      1080tiじゃないんだし。
      CPUで言うならceleronか良くてpentiumあたりかと
      
      シェア
      
      親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      2020/11の記事で1050 Tiって結構古くない？
      まあ、地球の製造能力では1050 Tiが2021/3に「新発売」されたようでもあるが。
      https://pc.watch.impress.co.jp/docs/news/1311205.html [impress.co.jp]
- Re: (スコア:0)
  
  by Anonymous Coward
  
  CUDAも知らずにDLを語っちゃう男の人かわいい💛。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  自分はこのコメに同意だわ
  思考停止して反発するコメもぶら下がってるようだが
  日本人は落ち目のWindowsと落ち目のインテルと
  落ち目…ではまだないかもしれないがAppleにもライナスにも愛想つかされてる
  NVIDIAにこだわるせいでそれが回りまわってGAFAのような革新的な企業が
  日本で生まれないんじゃないの
  # 暴論だと分かった上で
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    日本の音声合成関係でWindowsにケチつけるのは暴論どころかパラレルワールドかな?のレベルだよ。
    生きているコミュニティが違う。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    WindowsやNVIDIAが落ち目とか言っちゃう時点でまあ世間知らずなんだなと
- Re: (スコア:0)
  
  by Anonymous Coward
  
  この手の処理（音声処理）をする場合、どこのプロセッサだとかGPUだとかOSだとかは全然問題にならないほど演算の負荷が軽い
  一番分かりやすい例を挙げれば、web会議システムの音声圧縮伸張なんて画像処理の余りの時間で実時間処理が出来るしそれ以上の処理速度・処理性能など必要とされない
  3GBバイトにも及ぶ音声の規則合成の元データを機械学習により作成するなどという場合は演算能力に余裕のある環境の方が開発は楽になるが、出来上がったアプリケーションの性能に影響を及ぼすわけではないし、出来上がったアプリケーションの実行環境の制約とも無関係
- Re: (スコア:0)
  
  by Anonymous Coward
  
  開発者への最低なコメントのひとつだな。一切の敬意が感じられない。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  使いたいけど宗教上の理由で使えなくて悔しいんだな？
  やめちまえよ、そんな宗教
  世界と可能性が広がるぞ

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

中品質かぁ… (スコア:2, 興味深い)

オープンソース (スコア:2, 興味深い)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

［2021年8月6日編集部追記］ 窓の杜からのファイルダウンロードを終了いたしました。 (スコア:1)

車内アナウンス (スコア:0)

Re:車内アナウンス (スコア:2, 興味深い)

オフトピRe:車内アナウンス (スコア:1)

Re: (スコア:0)

Re:車内アナウンス (スコア:3, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

うーん・・・ (スコア:0)

Re:うーん・・・ (スコア:1)

Re:環境が特殊すぎんか (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:環境が特殊すぎんか (スコア:2, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:環境が特殊すぎんか (スコア:1)

Re:環境が特殊すぎんか (スコア:1)

Re: (スコア:0)

Re:環境が特殊すぎんか (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:環境が特殊すぎんか (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

［2021年8月6日編集部追記］窓の杜からのファイルダウンロードを終了いたしました。 (スコア:1)