自然で滑らかな音声合成ソフト「ボイスソムリエネオ」

自然で滑らかな音声合成ソフト「ボイスソムリエネオ」 37

ストーリー by reo 2010年09月10日 11時00分
ゆっくりしてられませんな部門より

日立ビジネスは、漢字仮名交じり文の入力だけで自然で滑らかな音声を合成する「ボイスソムリエネオ」を発売した。日立製作所中央研究所が開発した技術をベースにしているという (公式サイト、ITmedia News の記事より) 。
Twitter では発音の自然さに驚くユーザーのつぶやきが散見される。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索37コメント Log In/Create an Account

聞き比べてみよう (スコア:4, 参考になる)

by Anonymous Coward on 2010年09月10日 11時52分 (#1823056)

・日立ビジネスソリューション「ボイスソムリエネオ」
http://hitachi-business.com/products/package/sound/voice/ [hitachi-business.com]
・AI「AItalk 声の職人」
http://www.ai-j.jp/product/voice.html [ai-j.jp]
・NTT IT 「FutureVoice EX」
http://www.ntt-it.co.jp/goods/vcj/v-series/futurevoice-ex/index.html#demo [ntt-it.co.jp]
・東芝「ToSpeak」
http://tospeak.toshiba.co.jp/ [toshiba.co.jp]
・富士通研究所大規模コーパスベース方式 (サンプルを聞くだけ)
http://jp.fujitsu.com/group/labs/techinfo/techguide/list/voice-process... [fujitsu.com]
・NEC CSVIEW／VoiceOperator (サンプルを聞くだけ)
http://www.nec.co.jp/middle/VoiceOperator/voicesample.html [nec.co.jp]
- 追加 (スコア:1, 参考になる)
  
  by Anonymous Coward on 2010年09月10日 11時59分 (#1823065)
  
  ・HOYA 「VoiceText」
  http://voicetext.jp/ [voicetext.jp]
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ＞・HOYA 「VoiceText」
    「真打は最後に登場、なん、すよね」
    ＃モヤさまなていで。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  http://translate.google.com/translate_tts?q=google+dato+eigo+wow+muryo... [google.com]
- さらに追加 (スコア:0)
  
  by Anonymous Coward
  
  ・日立超LSIシステムズ「Ruby Talk」(サンプルを聞くだけ)
  http://www.hitachi-ul.co.jp/middleware/rubytalk/o_index.html [hitachi-ul.co.jp]
  　あ、これもサンプルｗ
  　葛城ミサト報道計画 [bngi-channel.jp]
そら目 (スコア:3, おもしろおかしい)

by Anonymous Coward on 2010年09月10日 11時43分 (#1823052)

「ボイスソムネオ」に見誤り、
また鈴木宗男のボイスで遊んでるのかと思った。
- Re:そら目 (スコア:2)
  
  by gonzo (38147) on 2010年09月10日 11時57分 (#1823061)
  
  悔しいが、同じ事を思った。
  また宗男さんがフィーバーしているしね。
  
  シェア
  
  親コメント
これは素晴らしい (スコア:2)

by NOBAX (21937) on 2010年09月10日 11時35分 (#1823043)

音声合成エンジンは、NTT、富士通、HOYAサービスなんかが先行している
感じだったけど、日立追いついて来たな。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  「ゆっくり」に比べて個性がないなと思ったってことは、自然に近づいているということなんだろうなぁ。
  所々外国人が話す日本語っぽく聞こえるけど、あんまり違和感はなかった。
  ＃デモページの推奨環境はWindowsしか書かれてないけど、MacOSX10.5.8+Fx3.6.10preでも動いた。
  ＃プラグイン入れろって表示は出てるけど無視でOK。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  NTTとKDDの研究所、そして電電ファミリー(NEC、富士通、沖、日立)は、昔からテキスト音声合成を研究・実用化してきた歴史があったような・・・
  沖のSMARTTALKには歌唱機能が付いていたが、いったい何処が何に使うのかワカランなぁと思ってたら、いつのまにか販売終了してた。
  しかしググってたらボーカロイドとして使った例が見つかったよ
  http://www.nicovideo.jp/watch/sm7424394 [nicovideo.jp]
- Re: (スコア:0)
  
  by Anonymous Coward
  
  そして話題にも上らない小さな会社 [ai-j.jp]…
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    その会社の主要株主にATRが名を連ねてるゾ。
    ってことは、ATRの研究成果を商品化するための会社ってことで、そこで使われている技術はATRのものってことだよ。
    
    音声合成・認識とかの研究をしている人でATRを名を知らない人はいないってくらい、すんごいメジャーな研究所。
アプリに組み込みたいが… (スコア:2)

by fslasht (3370) on 2010年09月10日 12時26分 (#1823085) ホームページ日記

これは自然な音声でいいですね。
ところで以前アプリに音声合成を組み込みたいと、ライブラリとして提供されてる音声合成ソフトを調べてみたのですが、数十万～数百万コース…
ボイスソムリエの場合は「ボイスソムリエネオマリアージュ [hitachi-business.com]」ですね。(価格表 [hitachi-business.com]）
ノウハウの塊とはいえもっと手軽につかえる製品だして欲しいなぁ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  >ところで以前アプリに音声合成を組み込みたいと、ライブラリとして提供されてる音声合成ソフトを調べてみたのですが、数十万～数百万コース…
  Windows限定でよければ、はるかに安価に実現可能かと思いますが。
  (Windows本体とPC-Talker体験版(無料)があれば良いとか、
  Windows本体とMS-OFFICEがあれば良いとか、
  Windows本体だけあれば良いとか)
  以前調べたのを貼っときますね。
  http://nogue.cocolog-nifty.com/diary/2008/02/pctalker23_52e9.html [cocolog-nifty.com]
ラノベ (スコア:1)

by gesaku (7381) on 2010年09月10日 12時07分 (#1823073)

このソフトでゼロの使い魔とか読ませたら果たして萌えられるのでしょうか・・・・
いやいやそれよりハーレクイーンとかパラダイムとかだったら（以下略
＃個人的には富士見美少女文庫をgesaku
- Re: (スコア:0)
  
  by Anonymous Coward
  
  AITalkのあんずはいかがですか？
  http://121.119.246.26/AITalkWebClient/WebClient.php [121.119.246.26]
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    月読アイちゃん？！
    VOICEROID 月読アイ - 入力文字読み上げソフト [ah-soft.com]
アイドル系の声でMC (スコア:1)

by nue_nue (30719) on 2010年09月10日 14時14分 (#1823178)

この技術で声優の藤田某の声でMCができるようにすれば
ボカロとセガで100年たっても16歳、アイドル歌手初音ミク
のできあがりっと。AKB48ｲﾗﾈ。

--
鵺の啼く夜は恐ろしい
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ボーカロイド技術にもVocaloid-Flexという、文章音読機能を強化したものがありますね。
  「メタルギアソリッドピースウォーカー」で採用されている他、製品としては「がちゃっぽいど」と「月読アイ」がこれだったはず。
  ＃真面目な話、flexと(現在は実用化されていませんが)完全な裸眼3D投影やらAIやらを組み合わせて初音ミクをシャロン・アップル化しても
  ＃生身の人間と違ってスキャンダルを始めとする様々な話題を提供してくれないのではワイドショー的に面白く無いので、長続きはしないと思うのですが。
  ＃ファンの暴走なんて他のアイドル歌手でもある話だしねぇ。
  - Re:アイドル系の声でMC (スコア:1)
    
    by nue_nue (30719) on 2010年09月16日 14時39分 (#1826112)
    
    もう誰も読んでないだろうし、オフトピだけれども、
    スキャンダルをはじめとする様々な話題がほしいのは
    アイドルのファン以外の人でしょ。
    商売の観点から見るアイドルとしては成立しないかも
    しれないけれど、「俺の嫁」的な意味でのアイドルと
    しては不滅なわけで。
    例えばリアル？では舞台のコンサートをしたあとで、
    家ではDSの中から、「今日のコンサートはどうだった？
    てへ！」みたいな生活も考えられるわけで。
    いよいよ恋愛・結婚と無関係な少子化対策が急がれるというオチ。
    
    --
    鵺の啼く夜は恐ろしい
    
    シェア
    
    親コメント
スロー再生すると (スコア:1, おもしろおかしい)

by Anonymous Coward on 2010年09月10日 14時16分 (#1823179)

すげーバカにされているような物言いで発音されて、むかつく。
特に男性音声。
個人的には、 misaki さんのほうが・・・ (スコア:1)

by Chiether (20555) <spamhere@chiether.net> on 2010年09月10日 16時54分 (#1823274) 日記

「ごめんなさい」とか「もうしわけございません」とか喋らせると。misakiさんの方が満足度が上。
速度調節したいなら。こっちの方が･･････。 (値段相応か度外視)

--
==========================================
投稿処理前プレビュー確認後書込処理検証処理前反映可否確認処理後……
価格が……。 (スコア:0)

by Anonymous Coward on 2010年09月10日 11時44分 (#1823053)

>価格は、読み上げ専用の「パーソナルモデル」が3万1290円（10月8日発売）、
>編集や音声保存が可能な「ベーシックモデル」が11万4450円など。

やっぱり結構な値段がするものですね。
初音ミクは編集・アウトプット可能で1万5千円くらいなので、8倍近いことになります。

「歌う」と比べて「喋る」を再現するのは、
それだけ難しいということでしょうか？
- Re:価格が……。 (スコア:2)
  
  by kim339 (16339) on 2010年09月11日 9時26分 (#1823582) 日記
  
  「歌う」と比べて「喋る」を再現するのは、
  それだけ難しいということでしょうか？
  　技術的には「歌う」の再現がはるかに難しいことだと思います。
  　「喋る」のは意思伝達の手段であって、言語的に不自然でなければ目的は達成します。
  　しかし、「歌う」のは歌詞の内容だけでなく、その表情・心境を発声方法を変えながら表現しているわけで、その人間ワザを機械で再現するのは大変なことです。
  　この価格差は、現在時点のソフトの完成度(買った時点でのユーザビリティ)の問題だと思います。
  　「与えられた文章を喋る」音声合成ソフトウェアはプリンタと同じ「出力装置」で、「打ち込んだ歌を歌う」歌唱ソフトはシンセサイザという「楽器」なんです。
  　音声合成ソフトウェアはたいてい、漢字かな混じり文を渡せば、解析して音素合成の上、それなりの抑揚で喋ります。抑揚が不自然な場合は調整が必要ですが、シンセサイザのパラメータ設定に比べればはるかに簡単な内容です。
  　音質とデフォルト時の抑揚の自然さ(と読み間違いの少なさ)が、結局開発費用に跳ね返ってくることや、技術が進んでアナウンサー吹き込みと差がなくなってきた昨今では実際にアナウンサーを雇って吹き込んだ場合とのコスト対比、そのソフトで生成した音声の二次使用権などから、音声合成ソフトの価格設定がされていると思います。
  　機械に喋らせることによって得られる利益を考えれば、出力音声ロイヤリティフリーで10万円以上というのは高くないと思います。
  　VOCALOIDはソフトとしては「歌詞(読み)と音程を入れれば歌っているような音声が出力される」楽器データを含んだシンセサイザ(シーケンサ)というレベルで、自然に聞こえるようにするには職人技に頼っているのが実態です。
  　実際に開発にかかったであろうコストと販売戦略に基づく想定販売数、ユーザが手にした時点でのユーザビリティ、そして出力波形の解像度を考えれば、各社VOCALOIDシリーズの基本部分が１〜２万円台に収まっているのは、楽器としても高くないと思います。
  　単純に額面で比較できるものではないのですが、現状を考えるとこの価格差は妥当であると思います。
  
  シェア
  
  親コメント
- Re:価格が……。 (スコア:1, すばらしい洞察)
  
  by Anonymous Coward on 2010年09月10日 14時11分 (#1823176)
  
  歌唱用音声合成と読み上げ用音声合成は全く別分野だと思うんですよ
  歌唱用はあくまでも楽器、シンセサイザーの一形態であり、
  必然シンセサイザーとしての機能・自由度を求められます
  でも読み上げ用はどう考えたって楽器ではありません
  そもそも比べるものじゃないのではないかと
  
  シェア
  
  親コメント
- Re:価格が……。 (スコア:1)
  
  by Zephyr (17346) on 2010年09月10日 14時40分 (#1823193)
  
  この手のソフトの価格は、比較対象が肉声のアナウンス収録になると思います。
  アナウンサーやスタジオを押さえて収録を行うと、ちょっとした音声でも数万～数十万円の費用がかかりますし、ましてや専属アナウンサーを雇うとなるともっとかかるわけで、それにくらべると非常に安価という事になるんだと思います。
  まぁ、どこまでクォリティを求めるかという所ですかね。
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  オモチャではなく実用品だからでしょう。それだけの価値があるってことです。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  文章を仮名に分解する為の辞書と文脈解析ルーチン、あとはイントネーションの辞書を用意するのが大変だと思います。
  しかし大変ながらも実用になっている音声合成に対して、歌は抑揚などの制御が人間頼みで、音程と歌詞だけ入れれば綺麗に歌い上げてくれるという段階まではまだ到達していません。
  - Re:価格が……。 (スコア:2, 興味深い)
    
    by Anonymous Coward on 2010年09月10日 13時48分 (#1823162)
    
    音声合成は音声認識と両輪なんです。
    たとえばNHKニュースの音声を10年分くらい買ってきて、音声認識によって「フリガナ」を振れば、比較的ローコストで大量に「お手本」となるサンプルが得られます。
    サンプルが大量にあれば、統計的な処理によって、イントネーション等の確率分布が得られますので、確率が高いものを正解として辞書に持てばいいわけです。
    NHKのアナウンサーは訓練によって話し方が統一されているので、お手本としてはピッタリです。
    では、歌声はどうか。
    歌声から歌詞を抽出する技術へのニーズは弱すぎて実用化されていないし、ボーカルのみの音声データを大量に手に入れるにはレコード会社による協力が必要になります。
    また、文字列をリアルタイムに音声に変換しなければ実用にならないのと違って、ボーカロイドの類いは何度でもやり直して調整が可能ですし、ただ1つだけの正しい歌い方などというものは無いわけですから、歌い方を人間が指示するのは必然だと思いますよ。
    ちなみに↓のサンプルを聞くと、2004年の時点でボーカロイドは2000年の音声合成のオマケ機能にも負けているような感じですが、これは辞書の有無によるものだと思いますよ。
    http://k-tai.impress.co.jp/cda/article/stapa/21999.html [impress.co.jp]
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      私は専門外なので知らないのですが、本当にそうやっているんですか？
      確かに「カタカナ」に対するイントネーションのデーターベースは作れそうですが、
      「単語」に対するデーターベースにはならない気がします。
      それに音声認識の精度はまだ良くないです。
      
      音声合成としては「辛い」という文字をカタカナに分解する必要があって、
      前後の文脈から「ツライ」だったり「カライ」だったりするわけです。
      「辛い」は例として難し過ぎるかもしれませんが、読み方や単語の切れ目は音声だけ買ってきても分かりません。
      
      次にボーカロイドの話は、あまりにも人間
      - Re:価格が……。 (スコア:1, 参考になる)
        
        by Anonymous Coward on 2010年09月11日 5時59分 (#1823545)
        
        音声合成分野の仕事をしていたのは5，6年前までなので現在とはちょっと違うかもしれませんがコメントを・・。
        文章から音声を合成する場合には、基本的に以下の2つの処理をします。
        (1) 文章から単語やカナなどの構文情報を抽出（構文解析）
        (2) 構文情報を元に声を合成 (音声合成)
        (2)のデータベースに音声認識結果を使用することはよくある話です。
        (1)のデータベースは音声認識結果を使うこともありますが、より大量にデータを集めるため他の文章も用いることが多いです。
        　例1：アナウンサーの声の認識のために、過去のニュースの原稿を学習する
        　例2：日常会話の認識・合成のために、比較的話し言葉に近い文章の多いWeb上の文章データを学習する
        (1), (2)共に初期のデータベースとして手動で解析した少量データベース or 購入した信頼できるデータベースを作成します。
        その後は、自動的な構文解析や音声認識によりデータベースを増やしていく形になります。
        なお、精度が悪いって問題については、大体以下の3つの対策をとっていました。
        (1) 読み上げる文章をあらかじめ与えるorジャンルの近い文章で学習する
        (2) 音声認識をして信頼度の高いデータのみ使用
        (3) 人間が認識結果を修正する(ニュースの字幕などはリアルタイムでこれをやってる場合もある）
        最後に、ボーカロイドの調整が人間頼みということについてですが、これは仕方ないと思います。
        読み上げ音声と違い、変化が激しいですし、曲との僅かのずれ（速度, イントネーション, etc)が聞き手にとっては猛烈な違和感となります。
        テキスト音声合成で行われる調整程度では歌声の合成には力不足です。
        まぁ、開発にかけたコストも大きく違うかもしれませんが・・（一部の会社だと専門の研究所＋多数の人員って所すらありますし・・）
        
        シェア
        
        親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        もともとシンセ（音源）の使い方は職人芸なんですよ。
        ギター演奏の再現なんかも大規模サンプルによってようやく多少の楽ができるようになり始めたところです。
        それでも１音１音どういう奏法で演奏するのかを人間が指示する必要はあります。
        別にVocaloidだけが人間だよりなのではなくシンセ（音源）っていうのは総じてそういうものなんです。
        
        この点通常の楽器であればわかりやすいですよね。
        打ち込みには打ち込みなりの演奏技術が必要なわけです。
        ほしい音を得るために楽はできないんです。
        もちろんデフォルトでそれなりに聞かせる機能があってもいいでしょう。
        でもその機能がない楽器を不完全とは呼ぶことはできません。
        
        あと人間の歌の代替である必要もないんですよ。
        ARP、MOOGといったシンセが既存楽器の代替ではなくそれ独自の音を求め使用されたように
        音声合成演奏も独自の音を目指したっていいんです。
        softalkの開発者はそういうスタンスのようです。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        歌に関しては、産総研がボカリスで研究してるって所ですね。
        歌声合成パラメーター推定技術 VocaListener（ボーカリスナー）を実現 [aist.go.jp]
        将来的には、上手く歌うことも研究されていくのではないでしょうか。
        【初音ミク研究】通常・ぼかりす・原曲比較音源「Survivor」 [nicovideo.jp]
        Youtubeへ転載された、ぼかりすのみ。
        【初音ミク】「Survivor」【ぼかりす×匿名希望の東京都在住】 [youtube.com]
それほど (スコア:0)

by Anonymous Coward on 2010年09月10日 11時53分 (#1823057)

15年以上前(Win3.1)のPC-98シリーズに搭載されていたものとそんなに変わらないなあ。
確かにあれよりかはなめらかだけれど、どっちにしても機械音声の域を出ていないし、聞き取り易さにも違いは無い。

15年経ってコンピュータは凄まじい進歩を遂げているのに、音声合成は進歩が無いという事なのか。
- Re:それほど (スコア:2)
  
  by TarZ (28055) on 2010年09月10日 13時46分 (#1823160) 日記
  
  もう少し時代が遡りますが、アキバのBit-INNで遊んだTALK文よりはだいぶ進化していますね。
  
  シェア
  
  親コメント
若林さん (スコア:0)

by Seth (1176) on 2010年09月10日 14時56分 (#1823202) 日記

　早くこの手のお仕事に来ないかな（走召糸色木亥火暴）

--
"castigat ridendo mores" "Saxum volutum non obducitur musco"
- 「若本さん」かと思った (スコア:0)
  
  by Anonymous Coward
  
  若本ボイス作成ソフト……売れそうな気がする
  #開発は大変そうだが

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

自然で滑らかな音声合成ソフト「ボイスソムリエネオ」 37

自然で滑らかな音声合成ソフト「ボイスソムリエネオ」 More ログイン

聞き比べてみよう (スコア:4, 参考になる)

追加 (スコア:1, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

さらに追加 (スコア:0)

そら目 (スコア:3, おもしろおかしい)

Re:そら目 (スコア:2)

これは素晴らしい (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

アプリに組み込みたいが… (スコア:2)

Re: (スコア:0)

ラノベ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

アイドル系の声でMC (スコア:1)

Re: (スコア:0)

Re:アイドル系の声でMC (スコア:1)

スロー再生すると (スコア:1, おもしろおかしい)

個人的には、 misaki さんのほうが・・・ (スコア:1)

価格が……。 (スコア:0)

Re:価格が……。 (スコア:2)

Re:価格が……。 (スコア:1, すばらしい洞察)

Re:価格が……。 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:価格が……。 (スコア:2, 興味深い)

Re: (スコア:0)

Re:価格が……。 (スコア:1, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

それほど (スコア:0)

Re:それほど (スコア:2)

若林さん (スコア:0)

「若本さん」かと思った (スコア:0)

スラド