「ぼかりす」は初音ミクの神調教を自動化する? 65
ストーリー by nabeshin
アウトプットがわかりやすいと意欲がわく 部門より
アウトプットがわかりやすいと意欲がわく 部門より
ITmedia Newsの記事によると、「初音ミク」を人間のように自然に歌わせる「ぼかりす」なる技術が話題になっている。ボーカロイドにおける細かいパラメータ調整、いわゆる「神調教」を自動化する技術のようで、ニコ動に投稿されたデモを聞くと、音程の揺らぎ感などがあって、かなり「人間的」な歌い方になっている。もっとも一部には「不気味の谷」なんてコメントもあった。
他のコメントによると「人間が歌った声からパラメータを抽出する」技術を使っているらしく、気になったのは、この技術を開発したのがあの産業総合技術研究所(産総研)らしいという点。5月末には、音楽情報科学研究会が開催する第75回研究発表会において、「VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案」なる研究発表が行われる。産総研といえば恐竜ロボットを造ってみたり、人型ロボットを踊らせてみたりする一方でアスベストを無害化してみたりと、色々やってるので不思議では無いと言えば無いのだが。また、この発表会の予定にある「ニコニコ動画における映像要約とサビ検出の試み」ってのは一体?(^_^;
2ch有志による解析について (スコア:5, 参考になる)
2chにおいて「400氏」が人力での「ぼかりす調整」の再現に挑戦し
mp3とvsqをアップロードしています。
詳細は以下のブログをどうぞ。
人生は是勉学の事: 400氏のVSQファイル解析
http://akira-izumi.cocolog-nifty.com/patent/2008/05/400vsq_6746.html
肝は人間の歌唱での発語、アクセントなどをより具体的に
ボーカロイドのパラメータに反映させてやることのようです。
なお、「400氏」の手法は他のボーカロイドにも適用できます。
「400氏」のVSQファイルを「リン」で再生したmp3を聞きましたが、
独特な癖が消えて自然で明瞭な歌唱になっていたことが印象的でした。
神調教って (スコア:4, おもしろおかしい)
Re: (スコア:0)
俺は知らなかったけど。
音楽に関する話題だから、「調」を「しらべ」と読むのだろうかと
思ってみたり、かなり苦労しました。
Re: (スコア:0)
Re: (スコア:0)
Re:神調教って (スコア:1)
#ミク関係ネタなら、スラドのイメージカラーも浅葱色にすればいいと思うんだ。
関連 (スコア:4, 参考になる)
後藤さん関係のスラド過去の記事
http://srad.jp/science/article.pl?sid=04/06/12/2311218 [srad.jp]
研究発表の資料、そのうち読んでみたいなぁ。
Re:関連 (スコア:1)
公式に発表が出ましたね。
この件で一番すごいと思ったこと (スコア:4, 興味深い)
4/30の昼くらいに存在を知ったんですがその時点ですでにVocaListenerというキーワードがいろんなブログで広まりつつある状態でした。
問題の動画の投稿日が4/28の夕方で、投稿者コメントは「この調教結果を聞いてみて頂けますか?まだちょっと不自然なところがあるのですが、楽しんで頂ければ幸いです。これからもロングバージョンとか別の曲とか、どんどん投稿していきたいと思いますので、よろしくお願いします!」と、出自を示す情報はいっさいなし。
たった一日でよくここまでの情報にたどり着いたもんだ……。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:この件で一番すごいと思ったこと (スコア:1)
【登録タグ】
音楽 初音ミク VOCALOID 技術の日本人 ぼかりす 産総研 第75回音楽情報科学研究会 科学技術
等のキーワードがあるのは、これはムービーの投稿者が登録しているものではないのですか?
Re:この件で一番すごいと思ったこと (スコア:3, 参考になる)
投稿者だけができる作業は、タグを変更・削除されないようにロックすることだけです。ちなみに、タグ自体は10個まで登録できて、4つまでロックできます。
#普通は、アップロード直後に自分でタグをいくつか登録して、それをロックします。
#中には、後から閲覧者によって登録されたタグもロックしてるケースもあるようですが
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:この件で一番すごいと思ったこと (スコア:1)
これらは閲覧者が自由に追記したものです。
私が見たのはまだ正体が判明する前だったので、「謎の技術」タグや「うちの娘に何をした!」「VOCALOIDが台無し」タグなどがついていました。
権利関係 (スコア:2, おもしろおかしい)
Re: (スコア:0)
この技術を悪用すると… (スコア:2, 興味深い)
結局 (スコア:1)
Re:結局 (スコア:1, 興味深い)
を入力にして、
* 別の曲(ただし音楽としてのジャンルは同じ)の無味乾燥なMIDIにプロ演奏者の色をつける
という研究ならみたことがあるんで、それとにたようなものじゃないかな。
筆者はたしか音声認識・音声合成系の人達だった。
おっきな声では言えないが、 (スコア:1, おもしろおかしい)
市販CD > アカペラ化 > ぽかりすフィルタ > +トカチボイス > アイマスMAD素材
Re: (スコア:0)
Re: (スコア:0)
たぶん、そうでしょうね。オリジナル曲を歌わせるには。
微妙… (スコア:1)
Re:微妙… (スコア:4, 参考になる)
万再生が1件程度の下手くそですがミク打ち込みやっとります。ぼかりすのサンプルを聴いてみましたが、音程・音量・ビブラートは良いと思います。私にはこんな打ち込み無理です(T_T) ただ、人力調整に比べてサンプルの滑舌はあまり良くなく(調整対象外なんでしょうか?)、そのあたりが不気味の谷と言われる原因の一つじゃないかと推測しています。
しかし、ぼかりすのサンプルで決定的にダメなのは、萌えな(ry
ぼかりすは自然すぎて、VOCALOIDとしてのキャラクター性をスポイルしている気がするんですよね。無
論、リアルさを求めるなら正しい方向ではあると思いますが、それなら人間が歌えば良いわけですし。
オリジナルでもカバーでも、"VOCALOIDの曲"を作るなら、求められるのは、曲のコンセプトとVOCALOIDのキャラクター性を基礎においた、機械っぽさと人間っぽさのバランスの取り方なんだと思います。
>ニコニコ動画における映像要約とサビ検出の試み
野球中継からハイライトを抽出する研究の対象差し替え版と予想。
Re:微妙… (スコア:1)
KAITOはキャラクター性(人間味)が強いので、ぼかりすによってスポイルされても、あまり影響が
ないという気がするのはなぜだろう。
Re: (スコア:0)
まずTaspoか免許証のどちらで認証されるのかを判断するところからやってたら間に合わなくなりました(うそ
Re: (スコア:0)
確かにこの調教は異常に自然ですね(職場注意)
>ぼかりすのサンプルで決定的にダメなのは、萌えな(ry
つまり、理想の萌えは画面の向こう側にしかないと(ry
Re: (スコア:0)
>つまり、理想の萌えは画面の向こう側にしかないと(ry
おまえは俺か
ただの3次元人には興味ありま(ry
人力調教は不気味の谷に左側から漸近するアプローチ、ぼかりすは谷を一気に飛び越えようとするアプローチなんですよね。リアルな歌唱という側面ではぼかりすの方が強いと思いますが、ぼかりすのアプローチは、いわゆる「萌えの山」を無視する格好になりますから、VOCALOIDにキャラクター性を見いだしているリスナー(個人的な印象としては現状の好意的リスナーの大半)への受けは逆に悪いと思います。研究と
Re:微妙… (スコア:2, 興味深い)
人気を博している作品はどれもとんでもない手間ひまをかけて調整しているようです。
逆にアクセスの少ないものを聴いてみると分かりますが、ミクはただ音程を打ち込んだだけではいかにも音声合成な歌声(しかも場合によっては音痴)しかでません。
その手間のかかる作業の大部分を自動化できるというところがポイントでしょう。
Re: (スコア:0, すばらしい洞察)
それができてないから元コメは「人のほうが上」と言ってるのでは?
Re:微妙… (スコア:1)
少しは手間が省けるとかないですかねぇ~
最終的には人調整にかなうものは無いだろうけど
Re:微妙… (スコア:2, 興味深い)
元から人工的に作られた音声の方が聞き易くても不思議ではありません。
Re:微妙… (スコア:1)
ちょっとオフトピですが、ボーカロイド関連の技術としては、個人的に今注目してるのは、人力ボーカロイド支援ツールの UTAU [fc2.com] ですね。「ハト」、時々超音波 【UTAU with くぎゅボイス】‐ニコニコ動画(SP1) [nicovideo.jp] とか、【UTAU】「サイハテ」をミクとでゅえっと【with くぎゅボイス】‐ニコニコ動画(SP1) [nicovideo.jp]なんかだと、VOCALOID シリーズで下手な調教するよりはよっぽどいい感じの出来に仕上がってます。釘宮ボイスで好きな曲を歌わせられるのはすごいです。
#タレコミしようかと情報をアップデートしてるところなのだけど、「音楽」カテゴリでいいのかな?
VOCALOID/UTAU/ぼかりすが、それぞれうまく作用しあってボーカロイド技術や調教テクニック全般を新しいステージに押し上げられれば面白いなと思うのですが。
対照実験 (スコア:0)
・調教なしバージョン
・自動調教バージョン
・職人に頼んだバージョン
をアップして比較できるようにしたらよかったのにね。
改善点すべき点も浮かび上がってくるだろうし。
Re:対照実験 (スコア:1)
・自分で歌ってみたバージョン
も同列で比較してみると完璧。
Re:対照実験 (スコア:2)
そこは (スコア:0, オフトピック)
RYZEN始めました
Re: (スコア:0, オフトピック)
「人間が歌った声から抽出されたパラメータ」の著作権は? (スコア:0)
人のなま歌声→音程、声の震え等のパラメータ--→ 完成品*
↑
初音ミクの声質
というフロー、で良いのでしょうか?
その場合、元になるデータの「生歌声」に含まれていた実演隣接権はどこまで及ぶのでしょうか?
今回のデモは研究用のフリーの素材のようですが、CDなどを利用したものが出てきた場合の解釈は如何に?
#「音程」は作曲家の著作物に過ぎないから実演隣接権は*の完成品に及ばない?
Re:「人間が歌った声から抽出されたパラメータ」の著作権は? (スコア:1)
専用ソフトとして作った方が効率的でよさげだと思います。
(声質を別人のものに変えるソフトとして)
話題性という意味では、初音ミクにする必要があったのかもしれませんが。
Re:「人間が歌った声から抽出されたパラメータ」の著作権は? (スコア:1, すばらしい洞察)
研究タイトルから、中心はパラメータ推定問題でしょうから、実際に出力される音声の品質は研究のコア部分からは若干外れていると思います。ならば、波形そのものを生成したり変換したりするプログラムをつくるより、遙かに少ない情報でそれなりのものを出力できるVOCALOIDエンジンは、実装する側にとっては労力の削減という意味で魅力的です。で、実装コストの削減は研究のTime-to-deliveryの削減、つまり競争力に繋がります。
また、VOCALOIDエンジンなら予めパラメータの種類が決まっているため、そもそも音声合成に必要なパラメータは何か、といった議論を手軽に回避できるため論文も書きやすくなると思います。
ボコーダにミクを使ったって事でおk? (スコア:0)
でも、冷静に考えてみると、ボコーダに突っ込む前のデータ(人の声)からパラメタを抽出するから、ボコーダあんま関係ないかも。
調教 (スコア:0)
ボーカロイド側が学習しているわけでもないし、「調教」だと違和感ありませんか
Re:調教 (スコア:1, おもしろおかしい)
Re: (スコア:0)
Re:調教 (スコア:2, おもしろおかしい)
たとえば「馬の調教」と聞いて眉をひそめる人はいませんよね?
きっとあなたはこの「発声ソフト」を女の子だと認識しているのでしょう
(少しうらやましい気もします)。
Re:調教 (スコア:1)
眉をひそめる奴は居ないが、
妙な妄想して萌える奴は多分・・・いや、必ず居る。
それが今の日本。orz
# 涙が止まりませんよ。
Re: (スコア:0)
風俗という言葉の一分野に過ぎなかった性風俗がその第一義となってしまったように、
調教という言葉が性的な意味でしか使われなくなるのもそう遠くないぞ。
Re: (スコア:0)
Re: (スコア:0)
# セクションも無くなっちゃったし、スラドには帰ってこないだろうな
絶望しなくていいです。ここで聞けます。 (スコア:1)
clausemitz
難しければ難しいほど萌えてくる (スコア:1)
歌わせ方を工夫して生声にどれだけ近づけられるか、あるいは逆に癖を生かした作曲を行うか、
そのあたりは使用者の腕の見せ所でしょうし、
だからこそ見事な「調教」をやってのけた人に惜しみなき賛辞が贈られるのでしょう。
そういう意味では、PSGやFM音源による作曲、ドット絵などに近いかも。
#OPLLとOPNAが今でも好きなID