アカウント名:
パスワード:
音声合成は音声認識と両輪なんです。
たとえばNHKニュースの音声を10年分くらい買ってきて、音声認識によって「フリガナ」を振れば、比較的ローコストで大量に「お手本」となるサンプルが得られます。サンプルが大量にあれば、統計的な処理によって、イントネーション等の確率分布が得られますので、確率が高いものを正解として辞書に持てばいいわけです。NHKのアナウンサーは訓練によって話し方が統一されているので、お手本としてはピッタリです。
では、歌声はどうか。
歌声から歌詞を抽出する技術へのニーズは弱すぎて実用化されていないし、ボーカルのみの音声データを大量に手に入れるにはレコード会社による協力が必要になります。
音声合成分野の仕事をしていたのは5,6年前までなので現在とはちょっと違うかもしれませんがコメントを・・。
文章から音声を合成する場合には、基本的に以下の2つの処理をします。
(1) 文章から単語やカナなどの構文情報を抽出(構文解析) (2) 構文情報を元に声を合成 (音声合成)
(2)のデータベースに音声認識結果を使用することはよくある話です。(1)のデータベースは音声認識結果を使うこともありますが、より大量にデータを集めるため他の文章も用いることが多いです。
例1:アナウンサーの声の認識のために、過去のニュースの原稿を学習する 例2:日常会話の認識・合成のために、比較的話し言葉に近い文章の多いWeb上の文章データを学習する
(1), (2)共に初期のデータベースとして手動で解析した少量データベース or 購入した信頼できるデータベースを作成します。その後は、自動的な構文解析や音声認識によりデータベースを増やしていく形になります。
なお、精度が悪いって問題については、大体以下の3つの対策をとっていました。(1) 読み上げる文章をあらかじめ与えるorジャンルの近い文章で学習する(2) 音声認識をして信頼度の高いデータのみ使用(3) 人間が認識結果を修正する(ニュースの字幕などはリアルタイムでこれをやってる場合もある)
最後に、ボーカロイドの調整が人間頼みということについてですが、これは仕方ないと思います。読み上げ音声と違い、変化が激しいですし、曲との僅かのずれ(速度, イントネーション, etc)が聞き手にとっては猛烈な違和感となります。テキスト音声合成で行われる調整程度では歌声の合成には力不足です。まぁ、開発にかけたコストも大きく違うかもしれませんが・・(一部の会社だと専門の研究所+多数の人員って所すらありますし・・)
歌に関しては、産総研がボカリスで研究してるって所ですね。歌声合成パラメーター推定技術 VocaListener(ボーカリスナー)を実現 [aist.go.jp]将来的には、上手く歌うことも研究されていくのではないでしょうか。【初音ミク研究】通常・ぼかりす・原曲比較音源「Survivor」 [nicovideo.jp]Youtubeへ転載された、ぼかりすのみ。【初音ミク】「Survivor」【ぼかりす×匿名希望の東京都在住】 [youtube.com]
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
日本発のオープンソースソフトウェアは42件 -- ある官僚
価格が……。 (スコア:0)
>編集や音声保存が可能な「ベーシックモデル」が11万4450円など。
やっぱり結構な値段がするものですね。
初音ミクは編集・アウトプット可能で1万5千円くらいなので、8倍近いことになります。
「歌う」と比べて「喋る」を再現するのは、
それだけ難しいということでしょうか?
Re: (スコア:0)
しかし大変ながらも実用になっている音声合成に対して、歌は抑揚などの制御が人間頼みで、音程と歌詞だけ入れれば綺麗に歌い上げてくれるという段階まではまだ到達していません。
Re: (スコア:2, 興味深い)
音声合成は音声認識と両輪なんです。
たとえばNHKニュースの音声を10年分くらい買ってきて、音声認識によって「フリガナ」を振れば、比較的ローコストで大量に「お手本」となるサンプルが得られます。
サンプルが大量にあれば、統計的な処理によって、イントネーション等の確率分布が得られますので、確率が高いものを正解として辞書に持てばいいわけです。
NHKのアナウンサーは訓練によって話し方が統一されているので、お手本としてはピッタリです。
では、歌声はどうか。
歌声から歌詞を抽出する技術へのニーズは弱すぎて実用化されていないし、ボーカルのみの音声データを大量に手に入れるにはレコード会社による協力が必要になります。
Re:価格が……。 (スコア:0)
確かに「カタカナ」に対するイントネーションのデーターベースは作れそうですが、
「単語」に対するデーターベースにはならない気がします。
それに音声認識の精度はまだ良くないです。
音声合成としては「辛い」という文字をカタカナに分解する必要があって、
前後の文脈から「ツライ」だったり「カライ」だったりするわけです。
「辛い」は例として難し過ぎるかもしれませんが、読み方や単語の切れ目は音声だけ買ってきても分かりません。
次にボーカロイドの話は、あまりにも人間頼みだという事が言いたかったのです。
テキスト音声合成だってイントネーションの調整や抑揚の調整が出来るようになっていますが、殆どデフォルトで使えるようになっています。
ボーカロイドは平均的な歌い方がデフォルトにあって自分の好みに調整する、という段階にはまだなく、
よほど詳しい人しか使いこなせない現状があります。
世の動画サイトをごらん下さい。
割と有名な曲でさえゆっくり(SoftTalk)に毛の映えた程度でしか無く、たまに人間っぽく歌えていると神格化されてしまうくらいです。
Re:価格が……。 (スコア:1, 参考になる)
音声合成分野の仕事をしていたのは5,6年前までなので現在とはちょっと違うかもしれませんがコメントを・・。
文章から音声を合成する場合には、基本的に以下の2つの処理をします。
(1) 文章から単語やカナなどの構文情報を抽出(構文解析)
(2) 構文情報を元に声を合成 (音声合成)
(2)のデータベースに音声認識結果を使用することはよくある話です。
(1)のデータベースは音声認識結果を使うこともありますが、より大量にデータを集めるため他の文章も用いることが多いです。
例1:アナウンサーの声の認識のために、過去のニュースの原稿を学習する
例2:日常会話の認識・合成のために、比較的話し言葉に近い文章の多いWeb上の文章データを学習する
(1), (2)共に初期のデータベースとして手動で解析した少量データベース or 購入した信頼できるデータベースを作成します。
その後は、自動的な構文解析や音声認識によりデータベースを増やしていく形になります。
なお、精度が悪いって問題については、大体以下の3つの対策をとっていました。
(1) 読み上げる文章をあらかじめ与えるorジャンルの近い文章で学習する
(2) 音声認識をして信頼度の高いデータのみ使用
(3) 人間が認識結果を修正する(ニュースの字幕などはリアルタイムでこれをやってる場合もある)
最後に、ボーカロイドの調整が人間頼みということについてですが、これは仕方ないと思います。
読み上げ音声と違い、変化が激しいですし、曲との僅かのずれ(速度, イントネーション, etc)が聞き手にとっては猛烈な違和感となります。
テキスト音声合成で行われる調整程度では歌声の合成には力不足です。
まぁ、開発にかけたコストも大きく違うかもしれませんが・・(一部の会社だと専門の研究所+多数の人員って所すらありますし・・)
Re: (スコア:0)
ギター演奏の再現なんかも大規模サンプルによってようやく多少の楽ができるようになり始めたところです。
それでも1音1音どういう奏法で演奏するのかを人間が指示する必要はあります。
別にVocaloidだけが人間だよりなのではなくシンセ(音源)っていうのは総じてそういうものなんです。
この点通常の楽器であればわかりやすいですよね。
打ち込みには打ち込みなりの演奏技術が必要なわけです。
ほしい音を得るために楽はできないんです。
もちろんデフォルトでそれなりに聞かせる機能があってもいいでしょう。
でもその機能がない楽器を不完全とは呼ぶことはできません。
あと人間の歌の代替である必要もないんですよ。
ARP、MOOGといったシンセが既存楽器の代替ではなくそれ独自の音を求め使用されたように
音声合成演奏も独自の音を目指したっていいんです。
softalkの開発者はそういうスタンスのようです。
Re: (スコア:0)
歌に関しては、産総研がボカリスで研究してるって所ですね。
歌声合成パラメーター推定技術 VocaListener(ボーカリスナー)を実現 [aist.go.jp]
将来的には、上手く歌うことも研究されていくのではないでしょうか。
【初音ミク研究】通常・ぼかりす・原曲比較音源「Survivor」 [nicovideo.jp]
Youtubeへ転載された、ぼかりすのみ。
【初音ミク】「Survivor」【ぼかりす×匿名希望の東京都在住】 [youtube.com]