自然で滑らかな音声合成ソフト「ボイスソムリエ ネオ」 37
ストーリー by reo
ゆっくりしてられませんな 部門より
ゆっくりしてられませんな 部門より
papa-pahoo 曰く、
日立ビジネスは、漢字仮名交じり文の入力だけで自然で滑らかな音声を合成する「ボイスソムリエ ネオ」を発売した。日立製作所中央研究所が開発した技術をベースにしているという (公式サイト、ITmedia News の記事より) 。
Twitter では発音の自然さに驚くユーザーのつぶやきが散見される。
聞き比べてみよう (スコア:4, 参考になる)
・日立ビジネスソリューション「ボイスソムリエ ネオ」
http://hitachi-business.com/products/package/sound/voice/ [hitachi-business.com]
・AI「AItalk 声の職人」
http://www.ai-j.jp/product/voice.html [ai-j.jp]
・NTT IT 「FutureVoice EX」
http://www.ntt-it.co.jp/goods/vcj/v-series/futurevoice-ex/index.html#demo [ntt-it.co.jp]
・東芝 「ToSpeak」
http://tospeak.toshiba.co.jp/ [toshiba.co.jp]
・富士通研究所 大規模コーパスベース方式 (サンプルを聞くだけ)
http://jp.fujitsu.com/group/labs/techinfo/techguide/list/voice-process... [fujitsu.com]
・NEC CSVIEW/VoiceOperator (サンプルを聞くだけ)
http://www.nec.co.jp/middle/VoiceOperator/voicesample.html [nec.co.jp]
追加 (スコア:1, 参考になる)
・HOYA 「VoiceText」
http://voicetext.jp/ [voicetext.jp]
Re: (スコア:0)
>・HOYA 「VoiceText」
「真打は最後に登場、なん、すよね」
#モヤさまなていで。
Re: (スコア:0)
http://translate.google.com/translate_tts?q=google+dato+eigo+wow+muryo... [google.com]
さらに追加 (スコア:0)
・日立超LSIシステムズ「Ruby Talk」(サンプルを聞くだけ)
http://www.hitachi-ul.co.jp/middleware/rubytalk/o_index.html [hitachi-ul.co.jp]
あ、これもサンプルw
葛城ミサト報道計画 [bngi-channel.jp]
そら目 (スコア:3, おもしろおかしい)
また鈴木宗男のボイスで遊んでるのかと思った。
Re:そら目 (スコア:2)
悔しいが、同じ事を思った。
また宗男さんがフィーバーしているしね。
これは素晴らしい (スコア:2)
感じだったけど、日立追いついて来たな。
Re: (スコア:0)
「ゆっくり」に比べて個性がないなと思ったってことは、自然に近づいているということなんだろうなぁ。
所々外国人が話す日本語っぽく聞こえるけど、あんまり違和感はなかった。
#デモページの推奨環境はWindowsしか書かれてないけど、MacOSX10.5.8+Fx3.6.10preでも動いた。
#プラグイン入れろって表示は出てるけど無視でOK。
Re: (スコア:0)
NTTとKDDの研究所、そして電電ファミリー(NEC、富士通、沖、日立)は、昔からテキスト音声合成を研究・実用化してきた歴史があったような・・・
沖のSMARTTALKには歌唱機能が付いていたが、いったい何処が何に使うのかワカランなぁと思ってたら、いつのまにか販売終了してた。
しかしググってたらボーカロイドとして使った例が見つかったよ
http://www.nicovideo.jp/watch/sm7424394 [nicovideo.jp]
Re: (スコア:0)
そして話題にも上らない小さな会社 [ai-j.jp]…
Re: (スコア:0)
ってことは、ATRの研究成果を商品化するための会社ってことで、そこで使われている技術はATRのものってことだよ。
音声合成・認識とかの研究をしている人でATRを名を知らない人はいないってくらい、すんごいメジャーな研究所。
アプリに組み込みたいが… (スコア:2)
これは自然な音声でいいですね。
ところで以前アプリに音声合成を組み込みたいと、ライブラリとして提供されてる音声合成ソフトを調べてみたのですが、数十万~数百万コース…
ボイスソムリエの場合は「ボイスソムリエ ネオ マリアージュ [hitachi-business.com]」ですね。(価格表 [hitachi-business.com])
ノウハウの塊とはいえもっと手軽につかえる製品だして欲しいなぁ
Re: (スコア:0)
>ところで以前アプリに音声合成を組み込みたいと、ライブラリとして提供されてる音声合成ソフトを調べてみたのですが、数十万~数百万コース…
Windows限定でよければ、はるかに安価に実現可能かと思いますが。
(Windows本体とPC-Talker体験版(無料)があれば良いとか、
Windows本体とMS-OFFICEがあれば良いとか、
Windows本体だけあれば良いとか)
以前調べたのを貼っときますね。
http://nogue.cocolog-nifty.com/diary/2008/02/pctalker23_52e9.html [cocolog-nifty.com]
ラノベ (スコア:1)
このソフトでゼロの使い魔とか読ませたら果たして萌えられるのでしょうか・・・・
いやいやそれよりハーレクイーンとかパラダイムとかだったら(以下略
#個人的には富士見美少女文庫をgesaku
Re: (スコア:0)
AITalkのあんずはいかがですか?
http://121.119.246.26/AITalkWebClient/WebClient.php [121.119.246.26]
Re: (スコア:0)
月読アイちゃん?!
VOICEROID 月読アイ - 入力文字読み上げソフト [ah-soft.com]
アイドル系の声でMC (スコア:1)
ボカロとセガで100年たっても16歳、アイドル歌手初音ミク
のできあがりっと。AKB48イラネ。
鵺の啼く夜は恐ろしい
Re: (スコア:0)
ボーカロイド技術にもVocaloid-Flexという、文章音読機能を強化したものがありますね。
「メタルギアソリッド ピースウォーカー」で採用されている他、製品としては「がちゃっぽいど」と「月読アイ」がこれだったはず。
#真面目な話、flexと(現在は実用化されていませんが)完全な裸眼3D投影やらAIやらを組み合わせて初音ミクをシャロン・アップル化しても
#生身の人間と違ってスキャンダルを始めとする様々な話題を提供してくれないのではワイドショー的に面白く無いので、長続きはしないと思うのですが。
#ファンの暴走なんて他のアイドル歌手でもある話だしねぇ。
Re:アイドル系の声でMC (スコア:1)
スキャンダルをはじめとする様々な話題がほしいのは
アイドルのファン以外の人でしょ。
商売の観点から見るアイドルとしては成立しないかも
しれないけれど、「俺の嫁」的な意味でのアイドルと
しては不滅なわけで。
例えばリアル?では舞台のコンサートをしたあとで、
家ではDSの中から、「今日のコンサートはどうだった?
てへ!」みたいな生活も考えられるわけで。
いよいよ恋愛・結婚と無関係な少子化対策が急がれるというオチ。
鵺の啼く夜は恐ろしい
スロー再生すると (スコア:1, おもしろおかしい)
すげーバカにされているような物言いで発音されて、むかつく。
特に男性音声。
個人的には、 misaki さんのほうが・・・ (スコア:1)
「ごめんなさい」とか「もうしわけございません」とか喋らせると。misakiさんの方が満足度が上。
速度調節したいなら。こっちの方が・・・・・・。 (値段相応か度外視)
==========================================
投稿処理前プレビュー確認後書込処理検証処理前反映可否確認処理後……
価格が……。 (スコア:0)
>編集や音声保存が可能な「ベーシックモデル」が11万4450円など。
やっぱり結構な値段がするものですね。
初音ミクは編集・アウトプット可能で1万5千円くらいなので、8倍近いことになります。
「歌う」と比べて「喋る」を再現するのは、
それだけ難しいということでしょうか?
Re:価格が……。 (スコア:2)
技術的には「歌う」の再現がはるかに難しいことだと思います。
「喋る」のは意思伝達の手段であって、言語的に不自然でなければ目的は達成します。
しかし、「歌う」のは歌詞の内容だけでなく、その表情・心境を発声方法を変えながら表現しているわけで、その人間ワザを機械で再現するのは大変なことです。
この価格差は、現在時点のソフトの完成度(買った時点でのユーザビリティ)の問題だと思います。
「与えられた文章を喋る」音声合成ソフトウェアはプリンタと同じ「出力装置」で、「打ち込んだ歌を歌う」歌唱ソフトはシンセサイザという「楽器」なんです。
音声合成ソフトウェアはたいてい、漢字かな混じり文を渡せば、解析して音素合成の上、それなりの抑揚で喋ります。抑揚が不自然な場合は調整が必要ですが、シンセサイザのパラメータ設定に比べればはるかに簡単な内容です。
音質とデフォルト時の抑揚の自然さ(と読み間違いの少なさ)が、結局開発費用に跳ね返ってくることや、技術が進んでアナウンサー吹き込みと差がなくなってきた昨今では実際にアナウンサーを雇って吹き込んだ場合とのコスト対比、そのソフトで生成した音声の二次使用権などから、音声合成ソフトの価格設定がされていると思います。
機械に喋らせることによって得られる利益を考えれば、出力音声ロイヤリティフリーで10万円以上というのは高くないと思います。
VOCALOIDはソフトとしては「歌詞(読み)と音程を入れれば歌っているような音声が出力される」楽器データを含んだシンセサイザ(シーケンサ)というレベルで、自然に聞こえるようにするには職人技に頼っているのが実態です。
実際に開発にかかったであろうコストと販売戦略に基づく想定販売数、ユーザが手にした時点でのユーザビリティ、そして出力波形の解像度を考えれば、各社VOCALOIDシリーズの基本部分が1〜2万円台に収まっているのは、楽器としても高くないと思います。
単純に額面で比較できるものではないのですが、現状を考えるとこの価格差は妥当であると思います。
Re:価格が……。 (スコア:1, すばらしい洞察)
歌唱用はあくまでも楽器、シンセサイザーの一形態であり、
必然シンセサイザーとしての機能・自由度を求められます
でも読み上げ用はどう考えたって楽器ではありません
そもそも比べるものじゃないのではないかと
Re:価格が……。 (スコア:1)
この手のソフトの価格は、比較対象が肉声のアナウンス収録になると思います。
アナウンサーやスタジオを押さえて収録を行うと、ちょっとした音声でも数万~数十万円の費用がかかりますし、ましてや専属アナウンサーを雇うとなるともっとかかるわけで、それにくらべると非常に安価という事になるんだと思います。
まぁ、どこまでクォリティを求めるかという所ですかね。
Re: (スコア:0)
Re: (スコア:0)
しかし大変ながらも実用になっている音声合成に対して、歌は抑揚などの制御が人間頼みで、音程と歌詞だけ入れれば綺麗に歌い上げてくれるという段階まではまだ到達していません。
Re:価格が……。 (スコア:2, 興味深い)
音声合成は音声認識と両輪なんです。
たとえばNHKニュースの音声を10年分くらい買ってきて、音声認識によって「フリガナ」を振れば、比較的ローコストで大量に「お手本」となるサンプルが得られます。
サンプルが大量にあれば、統計的な処理によって、イントネーション等の確率分布が得られますので、確率が高いものを正解として辞書に持てばいいわけです。
NHKのアナウンサーは訓練によって話し方が統一されているので、お手本としてはピッタリです。
では、歌声はどうか。
歌声から歌詞を抽出する技術へのニーズは弱すぎて実用化されていないし、ボーカルのみの音声データを大量に手に入れるにはレコード会社による協力が必要になります。
また、文字列をリアルタイムに音声に変換しなければ実用にならないのと違って、ボーカロイドの類いは何度でもやり直して調整が可能ですし、ただ1つだけの正しい歌い方などというものは無いわけですから、歌い方を人間が指示するのは必然だと思いますよ。
ちなみに↓のサンプルを聞くと、2004年の時点でボーカロイドは2000年の音声合成のオマケ機能にも負けているような感じですが、これは辞書の有無によるものだと思いますよ。
http://k-tai.impress.co.jp/cda/article/stapa/21999.html [impress.co.jp]
Re: (スコア:0)
確かに「カタカナ」に対するイントネーションのデーターベースは作れそうですが、
「単語」に対するデーターベースにはならない気がします。
それに音声認識の精度はまだ良くないです。
音声合成としては「辛い」という文字をカタカナに分解する必要があって、
前後の文脈から「ツライ」だったり「カライ」だったりするわけです。
「辛い」は例として難し過ぎるかもしれませんが、読み方や単語の切れ目は音声だけ買ってきても分かりません。
次にボーカロイドの話は、あまりにも人間
Re:価格が……。 (スコア:1, 参考になる)
音声合成分野の仕事をしていたのは5,6年前までなので現在とはちょっと違うかもしれませんがコメントを・・。
文章から音声を合成する場合には、基本的に以下の2つの処理をします。
(1) 文章から単語やカナなどの構文情報を抽出(構文解析)
(2) 構文情報を元に声を合成 (音声合成)
(2)のデータベースに音声認識結果を使用することはよくある話です。
(1)のデータベースは音声認識結果を使うこともありますが、より大量にデータを集めるため他の文章も用いることが多いです。
例1:アナウンサーの声の認識のために、過去のニュースの原稿を学習する
例2:日常会話の認識・合成のために、比較的話し言葉に近い文章の多いWeb上の文章データを学習する
(1), (2)共に初期のデータベースとして手動で解析した少量データベース or 購入した信頼できるデータベースを作成します。
その後は、自動的な構文解析や音声認識によりデータベースを増やしていく形になります。
なお、精度が悪いって問題については、大体以下の3つの対策をとっていました。
(1) 読み上げる文章をあらかじめ与えるorジャンルの近い文章で学習する
(2) 音声認識をして信頼度の高いデータのみ使用
(3) 人間が認識結果を修正する(ニュースの字幕などはリアルタイムでこれをやってる場合もある)
最後に、ボーカロイドの調整が人間頼みということについてですが、これは仕方ないと思います。
読み上げ音声と違い、変化が激しいですし、曲との僅かのずれ(速度, イントネーション, etc)が聞き手にとっては猛烈な違和感となります。
テキスト音声合成で行われる調整程度では歌声の合成には力不足です。
まぁ、開発にかけたコストも大きく違うかもしれませんが・・(一部の会社だと専門の研究所+多数の人員って所すらありますし・・)
Re: (スコア:0)
ギター演奏の再現なんかも大規模サンプルによってようやく多少の楽ができるようになり始めたところです。
それでも1音1音どういう奏法で演奏するのかを人間が指示する必要はあります。
別にVocaloidだけが人間だよりなのではなくシンセ(音源)っていうのは総じてそういうものなんです。
この点通常の楽器であればわかりやすいですよね。
打ち込みには打ち込みなりの演奏技術が必要なわけです。
ほしい音を得るために楽はできないんです。
もちろんデフォルトでそれなりに聞かせる機能があってもいいでしょう。
でもその機能がない楽器を不完全とは呼ぶことはできません。
あと人間の歌の代替である必要もないんですよ。
ARP、MOOGといったシンセが既存楽器の代替ではなくそれ独自の音を求め使用されたように
音声合成演奏も独自の音を目指したっていいんです。
softalkの開発者はそういうスタンスのようです。
Re: (スコア:0)
歌に関しては、産総研がボカリスで研究してるって所ですね。
歌声合成パラメーター推定技術 VocaListener(ボーカリスナー)を実現 [aist.go.jp]
将来的には、上手く歌うことも研究されていくのではないでしょうか。
【初音ミク研究】通常・ぼかりす・原曲比較音源「Survivor」 [nicovideo.jp]
Youtubeへ転載された、ぼかりすのみ。
【初音ミク】「Survivor」【ぼかりす×匿名希望の東京都在住】 [youtube.com]
それほど (スコア:0)
確かにあれよりかはなめらかだけれど、どっちにしても機械音声の域を出ていないし、聞き取り易さにも違いは無い。
15年経ってコンピュータは凄まじい進歩を遂げているのに、音声合成は進歩が無いという事なのか。
Re:それほど (スコア:2)
もう少し時代が遡りますが、アキバのBit-INNで遊んだTALK文よりはだいぶ進化していますね。
若林さん (スコア:0)
早くこの手のお仕事に来ないかな(走召糸色木亥火暴)
"castigat ridendo mores" "Saxum volutum non obducitur musco"
「若本さん」かと思った (スコア:0)
#開発は大変そうだが