Re:価格が……。 (#1823177) | 自然で滑らかな音声合成ソフト「ボイスソムリエネオ」

「自然で滑らかな音声合成ソフト「ボイスソムリエネオ」」記事へのコメント

記事ページを表示すべてのコメント取得

検索37コメント Log In/Create an Account

価格が……。 (スコア:0)

by Anonymous Coward

>価格は、読み上げ専用の「パーソナルモデル」が3万1290円（10月8日発売）、
>編集や音声保存が可能な「ベーシックモデル」が11万4450円など。

やっぱり結構な値段がするものですね。
初音ミクは編集・アウトプット可能で1万5千円くらいなので、8倍近いことになります。

「歌う」と比べて「喋る」を再現するのは、
それだけ難しいということでしょうか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  文章を仮名に分解する為の辞書と文脈解析ルーチン、あとはイントネーションの辞書を用意するのが大変だと思います。
  しかし大変ながらも実用になっている音声合成に対して、歌は抑揚などの制御が人間頼みで、音程と歌詞だけ入れれば綺麗に歌い上げてくれるという段階まではまだ到達していません。
  - Re: (スコア:2, 興味深い)
    
    by Anonymous Coward
    
    音声合成は音声認識と両輪なんです。
    たとえばNHKニュースの音声を10年分くらい買ってきて、音声認識によって「フリガナ」を振れば、比較的ローコストで大量に「お手本」となるサンプルが得られます。
    サンプルが大量にあれば、統計的な処理によって、イントネーション等の確率分布が得られますので、確率が高いものを正解として辞書に持てばいいわけです。
    NHKのアナウンサーは訓練によって話し方が統一されているので、お手本としてはピッタリです。
    では、歌声はどうか。
    歌声から歌詞を抽出する技術へのニーズは弱すぎて実用化されていないし、ボーカルのみの音声データを大量に手に入れるにはレコード会社による協力が必要になります。
    - Re:価格が……。 (スコア:0)
      
      by Anonymous Coward on 2010年09月10日 14時12分 (#1823177)
      
      私は専門外なので知らないのですが、本当にそうやっているんですか？
      確かに「カタカナ」に対するイントネーションのデーターベースは作れそうですが、
      「単語」に対するデーターベースにはならない気がします。
      それに音声認識の精度はまだ良くないです。
      
      音声合成としては「辛い」という文字をカタカナに分解する必要があって、
      前後の文脈から「ツライ」だったり「カライ」だったりするわけです。
      「辛い」は例として難し過ぎるかもしれませんが、読み方や単語の切れ目は音声だけ買ってきても分かりません。
      
      次にボーカロイドの話は、あまりにも人間頼みだという事が言いたかったのです。
      テキスト音声合成だってイントネーションの調整や抑揚の調整が出来るようになっていますが、殆どデフォルトで使えるようになっています。
      ボーカロイドは平均的な歌い方がデフォルトにあって自分の好みに調整する、という段階にはまだなく、
      よほど詳しい人しか使いこなせない現状があります。
      世の動画サイトをごらん下さい。
      割と有名な曲でさえゆっくり(SoftTalk)に毛の映えた程度でしか無く、たまに人間っぽく歌えていると神格化されてしまうくらいです。
      
      シェア
      
      親コメント
      - Re:価格が……。 (スコア:1, 参考になる)
        
        by Anonymous Coward on 2010年09月11日 5時59分 (#1823545)
        
        音声合成分野の仕事をしていたのは5，6年前までなので現在とはちょっと違うかもしれませんがコメントを・・。
        文章から音声を合成する場合には、基本的に以下の2つの処理をします。
        (1) 文章から単語やカナなどの構文情報を抽出（構文解析）
        (2) 構文情報を元に声を合成 (音声合成)
        (2)のデータベースに音声認識結果を使用することはよくある話です。
        (1)のデータベースは音声認識結果を使うこともありますが、より大量にデータを集めるため他の文章も用いることが多いです。
        　例1：アナウンサーの声の認識のために、過去のニュースの原稿を学習する
        　例2：日常会話の認識・合成のために、比較的話し言葉に近い文章の多いWeb上の文章データを学習する
        (1), (2)共に初期のデータベースとして手動で解析した少量データベース or 購入した信頼できるデータベースを作成します。
        その後は、自動的な構文解析や音声認識によりデータベースを増やしていく形になります。
        なお、精度が悪いって問題については、大体以下の3つの対策をとっていました。
        (1) 読み上げる文章をあらかじめ与えるorジャンルの近い文章で学習する
        (2) 音声認識をして信頼度の高いデータのみ使用
        (3) 人間が認識結果を修正する(ニュースの字幕などはリアルタイムでこれをやってる場合もある）
        最後に、ボーカロイドの調整が人間頼みということについてですが、これは仕方ないと思います。
        読み上げ音声と違い、変化が激しいですし、曲との僅かのずれ（速度, イントネーション, etc)が聞き手にとっては猛烈な違和感となります。
        テキスト音声合成で行われる調整程度では歌声の合成には力不足です。
        まぁ、開発にかけたコストも大きく違うかもしれませんが・・（一部の会社だと専門の研究所＋多数の人員って所すらありますし・・）
        
        シェア
        
        親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        もともとシンセ（音源）の使い方は職人芸なんですよ。
        ギター演奏の再現なんかも大規模サンプルによってようやく多少の楽ができるようになり始めたところです。
        それでも１音１音どういう奏法で演奏するのかを人間が指示する必要はあります。
        別にVocaloidだけが人間だよりなのではなくシンセ（音源）っていうのは総じてそういうものなんです。
        
        この点通常の楽器であればわかりやすいですよね。
        打ち込みには打ち込みなりの演奏技術が必要なわけです。
        ほしい音を得るために楽はできないんです。
        もちろんデフォルトでそれなりに聞かせる機能があってもいいでしょう。
        でもその機能がない楽器を不完全とは呼ぶことはできません。
        
        あと人間の歌の代替である必要もないんですよ。
        ARP、MOOGといったシンセが既存楽器の代替ではなくそれ独自の音を求め使用されたように
        音声合成演奏も独自の音を目指したっていいんです。
        softalkの開発者はそういうスタンスのようです。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        歌に関しては、産総研がボカリスで研究してるって所ですね。
        歌声合成パラメーター推定技術 VocaListener（ボーカリスナー）を実現 [aist.go.jp]
        将来的には、上手く歌うことも研究されていくのではないでしょうか。
        【初音ミク研究】通常・ぼかりす・原曲比較音源「Survivor」 [nicovideo.jp]
        Youtubeへ転載された、ぼかりすのみ。
        【初音ミク】「Survivor」【ぼかりす×匿名希望の東京都在住】 [youtube.com]

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

自然で滑らかな音声合成ソフト「ボイスソムリエネオ」 More ログイン

「自然で滑らかな音声合成ソフト「ボイスソムリエネオ」」記事へのコメント

価格が……。 (スコア:0)

Re: (スコア:0)

Re: (スコア:2, 興味深い)

Re:価格が……。 (スコア:0)

Re:価格が……。 (スコア:1, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

スラド

自然で滑らかな音声合成ソフト「ボイスソムリエ ネオ」 More ログイン

「自然で滑らかな音声合成ソフト「ボイスソムリエ ネオ」」記事へのコメント

価格が……。 (スコア:0)

Re: (スコア:0)

Re: (スコア:2, 興味深い)

Re:価格が……。 (スコア:0)

Re:価格が……。 (スコア:1, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

自然で滑らかな音声合成ソフト「ボイスソムリエネオ」 More ログイン

「自然で滑らかな音声合成ソフト「ボイスソムリエネオ」」記事へのコメント