人間そっくりの音声を合成可能なGoogleの音声合成システム「Tacotron 2」

人間そっくりの音声を合成可能なGoogleの音声合成システム「Tacotron 2」 22

ストーリー by hylom 2018年01月01日 0時01分
日本語部門より

あるAnonymous Coward 曰く、

Googleは今月末に音声合成システム「Tacotron 2」を発表した。人工知能にテキストを読ませてリアルな音声を作り出すためのシステムで、TechCrunchによれば、気味が悪いほど本物そっくりの音声を合成できるという（QUARTZ、TechCrunch、Slashdot）。
Tacotron 2はこれまでの音声生成プロジェクトWaveNetと初代Tacotronの良いとこ取りをしており、2つのニューラルネットワークで構成されている。テキストをTacotronでスペクトログラムに変換し、それをWaveNetに入力して最終的な音声に出力する構成であるようだ。
Googleが生成したサンプルと比較用の人間による音声サンプルがネット上にアップされている。英語だが聞いた範疇ではかなり自然な発音だ。TechCrunchによるとユーザーには文法知識がなくても使えるようだ。ただサンプルを聞くと句読点の位置は重要であるらしい

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索22コメント Log In/Create an Account

参照されてるWaveNetが凄いんだが (スコア:4, 参考になる)

by minet (45149) on 2018年01月01日 1時49分 (#3338689) 日記

寡聞にして知らなかったのだが、以前の技術として参照されているWaveNetが驚きだ。
https://techcrunch.com/2016/09/09/googles-wavenet-uses-neural-nets-to-... [techcrunch.com]
https://deepmind.com/blog/wavenet-generative-model-raw-audio/ [deepmind.com]
特に後半の、目標テキストなしで生成させた音声が、息継ぎや舌打ちの音の感じが生々しい。
この音声は意味のない発音らしく、英語ネイティブ話者にとって「馬鹿げた」感じに聞こえるらしいが、
非ネイティブな俺には完全に、どこかの外国人がリラックスして私的な会話をしてるのを録ったのか、マイク下手だなぁ舌打ち音入ってるじゃんよ、と思ってしまった。
極めつけは最後のピアノだ。
え？これAIに作曲させた楽譜を自動ピアノか何かで演奏させたんじゃなくて、音声データそのものを生成してるの！？
打鍵の感じから残響まで再現できてるじゃん！！？
もちろん、多数の生成結果から不自然さの少ないものが掲載されているということは考えられるが、それにしても凄い。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  これもDeepMindか。Googleは良い買い物をしたの。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  やっぱ日本語は難しいのかなあ
  市場規模が小さいから優先順位が低いのかもしれないけど、Macやスマホの合成音声聞いても微妙なもの多い
  人語と区別つかなくなったらなったで専ら犯罪に使われるんじゃないか？とか思っちゃうが…
  - Re:参照されてるWaveNetが凄いんだが (スコア:1)
    
    by Anonymous Coward on 2018年01月01日 10時19分 (#3338720)
    
    不自然でない日本語読み上げなら2000年くらいに沖電気が売ってたSMARTTALKが良かった。
    最近の読み上げソフトのサンプルを聞いてもあれに勝ってないような。
    個人向けパッケージでは小さい会社が作ってて品質がイマイチ、大きい会社が作ってるのはサービス組み込み向けの業務用ソリューションになっちゃってる。
    年数がたつほど良いものが出るという感じではなく、良い物があったらその時買っとかないとすぐ開発中止になって消え去ってしまうという感じですね。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      後が続かないのは技術の蓄積ができないからで、方向性が間違ってるから、と言い換えることもできる。プログラマ的に言うと同じコードを二度書くのを厭わないから、非効率的なことを延々とやってる。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ボカロとかに応用できないかな…
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      ディープラーニングではないですが、CeVIOは読み上げ、歌ともに隠れマルコフ連鎖を元データから学習して作っていて、ボカロなどのサンプリングベースとは違う手法のようですね。
      読み上げの場合アクセントの情報が必要になるので、完全に辞書を廃するのは難しいようですが。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        HMMは20年前の技術だからなぁ。いまそれを選択する理由があるのかという。
        ここ20年、音声再生、音声認識は研究レベルでまったく進歩が無かったと聞いているので、今後の動きに期待。
その名前からして (スコア:1)

by kachou (4553) <kachou.dmNO@SPAMgmail.com> on 2018年01月04日 4時05分 (#3339564) ホームページ日記

たこ八郎の声真似ができるのかと一瞬思った私(マテ
#むしろ、それを実現させるのはかなり難しいかもな

--

/* Kachou Utumi
I'm Not Rich... */
惜しい (スコア:0)

by Anonymous Coward on 2018年01月01日 0時31分 (#3338672)

>Googleは今月末に音声合成システム「Tacotron 2」を発表した。
投稿が１分遅かった。
(あけましておめでとうございます。)
- Re: (スコア:0)
  
  by Anonymous Coward
  
  昔はスラドもあけおめストーリーが載ったもんだけど、最近はないね。
  たぶん他のニュースサイトにも配信されるようになって、そう言うストーリーを乗せにくくなったからだと思うけど。
  最近だとスラドでプロバイダ責任制限法による対応をしたとか、ベータ版のテストやってるとか重要なアナウンスもストーリーに出来なくなってる。
  結構収入になっているからなんだろうが、なんだかな。
日本も負けてない (スコア:0)

by Anonymous Coward on 2018年01月01日 1時56分 (#3338691)

http://www.ah-soft.com/voiceroid/akari/ [ah-soft.com]
Voiceroid2 紲星あかり発売中
みんな買ってね
- Re: (スコア:0)
  
  by Anonymous Coward
  
  VoiceTextもあるでよ。
  http://voicetext.jp/ [voicetext.jp]
  特にSHOWはどっかのテレビ番組でもお馴染み。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  勝負になるの？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    もちろん
    日本語でvoiceroid以上に自然に話せる合成音声は聞いたことありません
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      やっぱ日本語は難しいんですな
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    WaveNet launches in the Google Assistant [deepmind.com]にWaveNetで生成された日本語のサンプルがあります．聞き比べては．
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      路線バスなんかの音声合成放送ぐらいか。
      あれは規則音声合成ではないのかな？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    技術力のなさを逆手にとってアニメキャラのような特殊な分野に特化するのは正しいと思うが
    悪い意味での「中国製」商品だって買う人は多い
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      キャラクターをうまく育てる事が出来れば商業的にも割と安定した収入が見込まれる様になり、(例え少しずつでも)技術の蓄積をしやすくなる側面もあるのでは。
      他のコメントで2000年に発売された(読み上げが優秀な)SMARTTALKの後に続くソフトが出ていない [srad.jp] と言う話題が出ていますが、Voiceroidシリーズに関して言うなら、晴れて第二世代の開発・販売にこぎつけることが出来た訳ですし。
どっちが人？ (スコア:0)

by Anonymous Coward on 2018年01月01日 5時43分 (#3338710)

最後の4つの、全部正解した。
どっちか片方が人という前提でよ～く聞き比べてやっとだけど。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  同じく全問正解。
  # ソース見て _gen の方が合成音声でいいんだよね？答え見当たらないけど
  読み上げスピードの微妙な変化とか、文字情報以上のアクセントとか、
  そのあたりに注意して聞くとなんとか人の方を認識可能。
  合成音声の不自然さ探しじゃなくなってますね。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

参照されてるWaveNetが凄いんだが (スコア:4, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

Re:参照されてるWaveNetが凄いんだが (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

その名前からして (スコア:1)

惜しい (スコア:0)

Re: (スコア:0)

日本も負けてない (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

どっちが人？ (スコア:0)

Re: (スコア:0)