パスワードを忘れた? アカウント作成
24537 story
ソフトウェア

「ぼかりす」は初音ミクの神調教を自動化する? 65

ストーリー by nabeshin
アウトプットがわかりやすいと意欲がわく 部門より

KAMUI 曰く

ITmedia Newsの記事によると、「初音ミク」を人間のように自然に歌わせる「ぼかりす」なる技術が話題になっている。ボーカロイドにおける細かいパラメータ調整、いわゆる「神調教」を自動化する技術のようで、ニコ動に投稿されたデモを聞くと、音程の揺らぎ感などがあって、かなり「人間的」な歌い方になっている。もっとも一部には「不気味の谷」なんてコメントもあった。

他のコメントによると「人間が歌った声からパラメータを抽出する」技術を使っているらしく、気になったのは、この技術を開発したのがあの産業総合技術研究所(産総研)らしいという点。5月末には、音楽情報科学研究会が開催する第75回研究発表会において、「VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案」なる研究発表が行われる。産総研といえば恐竜ロボットを造ってみたり人型ロボットを踊らせてみたりする一方でアスベストを無害化してみたりと、色々やってるので不思議では無いと言えば無いのだが。また、この発表会の予定にある「ニコニコ動画における映像要約とサビ検出の試み」ってのは一体?(^_^;

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by isi (4853) on 2008年05月02日 15時26分 (#1339009) 日記
    「ぼかりす」とVocaListenerの関連は公式には未だ不明ですが、
    2chにおいて「400氏」が人力での「ぼかりす調整」の再現に挑戦し
    mp3とvsqをアップロードしています。
    詳細は以下のブログをどうぞ。

    人生は是勉学の事: 400氏のVSQファイル解析
    http://akira-izumi.cocolog-nifty.com/patent/2008/05/400vsq_6746.html

    肝は人間の歌唱での発語、アクセントなどをより具体的に
    ボーカロイドのパラメータに反映させてやることのようです。

    なお、「400氏」の手法は他のボーカロイドにも適用できます。
    「400氏」のVSQファイルを「リン」で再生したmp3を聞きましたが、
    独特な癖が消えて自然で明瞭な歌唱になっていたことが印象的でした。
  • 神調教って (スコア:4, おもしろおかしい)

    by Anonymous Coward on 2008年05月02日 14時17分 (#1338977)
    新しい宗教かと思ったよ
    • by Anonymous Coward
      「いわゆる」とか書いてあるから、一般的に知られた言葉らしい。
      俺は知らなかったけど。

      音楽に関する話題だから、「調」を「しらべ」と読むのだろうかと
      思ってみたり、かなり苦労しました。
    • by Anonymous Coward
      そんなあなたは森之宮神療所☆ [nicovideo.jp]へどうぞ
  • 関連 (スコア:4, 参考になる)

    by marimo (8013) on 2008年05月02日 14時28分 (#1338982)
     vocaListener は産総研の後藤真孝さんのチームが関係しているようですね。

     後藤さん関係のスラド過去の記事
     http://srad.jp/science/article.pl?sid=04/06/12/2311218 [srad.jp]

     研究発表の資料、そのうち読んでみたいなぁ。
  • by akiraani (24305) on 2008年05月02日 20時04分 (#1339155) 日記
     あの限られた情報の中から、たった1日でVocaListenerというキーワードににたどり着いた人力検索力に一番びっくりしたw

     4/30の昼くらいに存在を知ったんですがその時点ですでにVocaListenerというキーワードがいろんなブログで広まりつつある状態でした。

     問題の動画の投稿日が4/28の夕方で、投稿者コメントは「この調教結果を聞いてみて頂けますか?まだちょっと不自然なところがあるのですが、楽しんで頂ければ幸いです。これからもロングバージョンとか別の曲とか、どんどん投稿していきたいと思いますので、よろしくお願いします!」と、出自を示す情報はいっさいなし。
     たった一日でよくここまでの情報にたどり着いたもんだ……。
    --
    しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
    • ニコ動の登録タグに
      【登録タグ】
      音楽 初音ミク VOCALOID 技術の日本人 ぼかりす 産総研 第75回音楽情報科学研究会 科学技術

      等のキーワードがあるのは、これはムービーの投稿者が登録しているものではないのですか?
      親コメント
      • by akiraani (24305) on 2008年05月03日 1時55分 (#1339257) 日記
         ニコニコ動画のタグは、誰でも登録できますし、変更・削除もできます。なので、登録タグにある情報はほとんどが後付けです。
         投稿者だけができる作業は、タグを変更・削除されないようにロックすることだけです。ちなみに、タグ自体は10個まで登録できて、4つまでロックできます。

        #普通は、アップロード直後に自分でタグをいくつか登録して、それをロックします。
        #中には、後から閲覧者によって登録されたタグもロックしてるケースもあるようですが
        --
        しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
        親コメント
      • >これはムービーの投稿者が登録しているものではないのですか?

        これらは閲覧者が自由に追記したものです。

        私が見たのはまだ正体が判明する前だったので、「謎の技術」タグや「うちの娘に何をした!」「VOCALOIDが台無し」タグなどがついていました。
        親コメント
  • 権利関係 (スコア:2, おもしろおかしい)

    by Anonymous Coward on 2008年05月02日 14時05分 (#1338973)
    ただでさえややこしい初音ミク使用曲の権利関係に新たなる参入者が!
    • by Anonymous Coward
      さらに「人間が歌った声から抽出したパラメータ」に何らかの利権が?
  • by nkitani (8256) on 2008年05月02日 14時57分 (#1338996)
    疑われにくいアリバイ工作とか、ばれにくい振り込め詐欺とかができてしまうということでしょうか?
  • by mtgood (31646) on 2008年05月02日 14時45分 (#1338991)
    歌をうまく歌える人が必要と言うことでしょうか?
    • Re:結局 (スコア:1, 興味深い)

      by Anonymous Coward on 2008年05月02日 21時23分 (#1339184)
      * 無味乾燥なMIDI(普通の楽譜スキャン程度)+同じ曲のプロ演奏者のMIDI出力をとったもの
      を入力にして、
      * 別の曲(ただし音楽としてのジャンルは同じ)の無味乾燥なMIDIにプロ演奏者の色をつける
      という研究ならみたことがあるんで、それとにたようなものじゃないかな。
      筆者はたしか音声認識・音声合成系の人達だった。
      親コメント
    • by Anonymous Coward on 2008年05月02日 23時53分 (#1339230)
      こうなってしまうのか。

      市販CD > アカペラ化 > ぽかりすフィルタ > +トカチボイス > アイマスMAD素材
      親コメント
    • by Anonymous Coward
      いいえ、必要なのは信者(愚民)と信仰心を集めるカリスマです。
    • by Anonymous Coward
      3DCGでいうとこのモーションキャプチャのようなものと理解してるので
      たぶん、そうでしょうね。オリジナル曲を歌わせるには。
  • by opanpo (36109) on 2008年05月02日 15時04分 (#1339000)
    ニコニコでこれみたけど、正直他の神と呼ばれてる人の調教のほうが人間らしく感じたんだけど俺だけ?
    • Re:微妙… (スコア:4, 参考になる)

      by Anonymous Coward on 2008年05月02日 17時48分 (#1339090)
      とりあえずここにぶら下げ。

      万再生が1件程度の下手くそですがミク打ち込みやっとります。ぼかりすのサンプルを聴いてみましたが、音程・音量・ビブラートは良いと思います。私にはこんな打ち込み無理です(T_T) ただ、人力調整に比べてサンプルの滑舌はあまり良くなく(調整対象外なんでしょうか?)、そのあたりが不気味の谷と言われる原因の一つじゃないかと推測しています。

      しかし、ぼかりすのサンプルで決定的にダメなのは、萌えな(ry

      ぼかりすは自然すぎて、VOCALOIDとしてのキャラクター性をスポイルしている気がするんですよね。無
      論、リアルさを求めるなら正しい方向ではあると思いますが、それなら人間が歌えば良いわけですし。
      オリジナルでもカバーでも、"VOCALOIDの曲"を作るなら、求められるのは、曲のコンセプトとVOCALOIDのキャラクター性を基礎においた、機械っぽさと人間っぽさのバランスの取り方なんだと思います。

      >ニコニコ動画における映像要約とサビ検出の試み

      野球中継からハイライトを抽出する研究の対象差し替え版と予想。
      親コメント
      • by chuukai (18189) on 2008年05月06日 9時45分 (#1340059) 日記
        >ぼかりすは自然すぎて、VOCALOIDとしてのキャラクター性をスポイルしている気がするんですよね。

        KAITOはキャラクター性(人間味)が強いので、ぼかりすによってスポイルされても、あまり影響が
        ないという気がするのはなぜだろう。
        親コメント
      • by Anonymous Coward
        自動販売機からハイライトを抽出する研究の対象差し替え版と予想。

        まずTaspoか免許証のどちらで認証されるのかを判断するところからやってたら間に合わなくなりました(うそ
      • by Anonymous Coward
        http://www.nicovideo.jp/watch/sm1417211 [nicovideo.jp]
        確かにこの調教は異常に自然ですね(職場注意)

        >ぼかりすのサンプルで決定的にダメなのは、萌えな(ry
        つまり、理想の萌えは画面の向こう側にしかないと(ry
        • by Anonymous Coward
          >>ぼかりすのサンプルで決定的にダメなのは、萌えな(ry
          >つまり、理想の萌えは画面の向こう側にしかないと(ry

          おまえは俺か
          ただの3次元人には興味ありま(ry

          人力調教は不気味の谷に左側から漸近するアプローチ、ぼかりすは谷を一気に飛び越えようとするアプローチなんですよね。リアルな歌唱という側面ではぼかりすの方が強いと思いますが、ぼかりすのアプローチは、いわゆる「萌えの山」を無視する格好になりますから、VOCALOIDにキャラクター性を見いだしているリスナー(個人的な印象としては現状の好意的リスナーの大半)への受けは逆に悪いと思います。研究と
    • Re:微妙… (スコア:2, 興味深い)

      by Anonymous Coward on 2008年05月02日 15時13分 (#1339001)
      そりゃもちろんそうでしょう。
      人気を博している作品はどれもとんでもない手間ひまをかけて調整しているようです。
      逆にアクセスの少ないものを聴いてみると分かりますが、ミクはただ音程を打ち込んだだけではいかにも音声合成な歌声(しかも場合によっては音痴)しかでません。
      その手間のかかる作業の大部分を自動化できるというところがポイントでしょう。
      親コメント
      • Re: (スコア:0, すばらしい洞察)

        by Anonymous Coward
        >その手間のかかる作業の大部分を自動化できるというところがポイントでしょう。

        それができてないから元コメは「人のほうが上」と言ってるのでは?
        • by mocchino (13752) on 2008年05月02日 17時47分 (#1339088)
          まぁ自動翻訳を下訳に使ってるみたいな感じで、これをベースに再調整すれば
          少しは手間が省けるとかないですかねぇ~

          最終的には人調整にかなうものは無いだろうけど
          親コメント
    • Re:微妙… (スコア:2, 興味深い)

      by Anonymous Coward on 2008年05月02日 16時27分 (#1339045)
      流行のボーカル曲はほとんど何らかの加工を施していますから。
      元から人工的に作られた音声の方が聞き易くても不思議ではありません。
      親コメント
    • by eruchan (2221) on 2008年05月03日 16時05分 (#1339420)
      まだ曲を聴いてない&この技術の詳細見てないので当て推量ですが、この方法を使って人間の歌い方の癖をパラメータとして見られると、それを元に神調教に応用できたりするかもしれないですね。でも、人間の癖を応用した調教も多いだろうけど、ボーカロイド特有の癖っていうのも多大にあるようです。ニコニコ動画に研究動画はいくつか上がってますね。

      ちょっとオフトピですが、ボーカロイド関連の技術としては、個人的に今注目してるのは、人力ボーカロイド支援ツールの UTAU [fc2.com] ですね。「ハト」、時々超音波 【UTAU with くぎゅボイス】‐ニコニコ動画(SP1) [nicovideo.jp] とか、【UTAU】「サイハテ」をミクとでゅえっと【with くぎゅボイス】‐ニコニコ動画(SP1) [nicovideo.jp]なんかだと、VOCALOID シリーズで下手な調教するよりはよっぽどいい感じの出来に仕上がってます。釘宮ボイスで好きな曲を歌わせられるのはすごいです。
      #タレコミしようかと情報をアップデートしてるところなのだけど、「音楽」カテゴリでいいのかな?

      VOCALOID/UTAU/ぼかりすが、それぞれうまく作用しあってボーカロイド技術や調教テクニック全般を新しいステージに押し上げられれば面白いなと思うのですが。
      親コメント
    • by Anonymous Coward
      わかりやすくするために

      ・調教なしバージョン
      ・自動調教バージョン
      ・職人に頼んだバージョン

      をアップして比較できるようにしたらよかったのにね。
      改善点すべき点も浮かび上がってくるだろうし。
  • そこは (スコア:0, オフトピック)

    by Emc2 (14960) on 2008年05月01日 21時08分 (#1338681) 日記
    「採用」ってのがエープリルフールネタなんでは?
    --
    RYZEN始めました
    • Re: (スコア:0, オフトピック)

      4/1ネタの件はちょっと調べてみます。 掲載作業を途中まで進めていたのですが、普通のストーリを掲載し出した後だったので、却下とさせていただきました。その関係でステータスがおかしくなってしまったようです(おそらくDBを直接たたかないと直らないのかなと)。しばしお待ちを。
  • 某所でもコメントしましたが、

    人のなま歌声→音程、声の震え等のパラメータ--→ 完成品*
                                  ↑
                               初音ミクの声質

    というフロー、で良いのでしょうか?
    その場合、元になるデータの「生歌声」に含まれていた実演隣接権はどこまで及ぶのでしょうか?
    今回のデモは研究用のフリーの素材のようですが、CDなどを利用したものが出てきた場合の解釈は如何に?

    #「音程」は作曲家の著作物に過ぎないから実演隣接権は*の完成品に及ばない?
    • 人の生の歌声が必要なのなら、ボーカロイドという製品に乗っかった形でやらなくても
      専用ソフトとして作った方が効率的でよさげだと思います。
      (声質を別人のものに変えるソフトとして)
      話題性という意味では、初音ミクにする必要があったのかもしれませんが。
      親コメント
      • by Anonymous Coward on 2008年05月02日 20時53分 (#1339174)
        理由は実装コストでしょう。

        研究タイトルから、中心はパラメータ推定問題でしょうから、実際に出力される音声の品質は研究のコア部分からは若干外れていると思います。ならば、波形そのものを生成したり変換したりするプログラムをつくるより、遙かに少ない情報でそれなりのものを出力できるVOCALOIDエンジンは、実装する側にとっては労力の削減という意味で魅力的です。で、実装コストの削減は研究のTime-to-deliveryの削減、つまり競争力に繋がります。

        また、VOCALOIDエンジンなら予めパラメータの種類が決まっているため、そもそも音声合成に必要なパラメータは何か、といった議論を手軽に回避できるため論文も書きやすくなると思います。
        親コメント
  • by Anonymous Coward on 2008年05月02日 14時14分 (#1338976)
    一瞬、学生時代に作ったボコーダ思い出した。
    でも、冷静に考えてみると、ボコーダに突っ込む前のデータ(人の声)からパラメタを抽出するから、ボコーダあんま関係ないかも。
  • by Anonymous Coward on 2008年05月02日 15時29分 (#1339011)
    この場合、「調教」ではなく「調律」では?
    ボーカロイド側が学習しているわけでもないし、「調教」だと違和感ありませんか
    • Re:調教 (スコア:1, おもしろおかしい)

      by Anonymous Coward on 2008年05月02日 16時12分 (#1339034)
      あんたは萌えのなんたるかがわかっちゃいない
      親コメント
    • by Anonymous Coward
      どっちにしてもエロいイメージしかありません
      • Re:調教 (スコア:2, おもしろおかしい)

        by neko.kotatsu.mikan (28931) on 2008年05月02日 17時31分 (#1339075)
        ぜんぜんエロく感じません。
        たとえば「馬の調教」と聞いて眉をひそめる人はいませんよね?
        きっとあなたはこの「発声ソフト」を女の子だと認識しているのでしょう
        (少しうらやましい気もします)。
        親コメント
        • by Tatenon (20311) on 2008年05月02日 18時45分 (#1339126) 日記
          『馬の調教』・・・
          眉をひそめる奴は居ないが、
          妙な妄想して萌える奴は多分・・・いや、必ず居る。

          それが今の日本。orz

          # 涙が止まりませんよ。
          親コメント
        • by Anonymous Coward
          そういうあんたも「風俗」と聞いたらエロく感じないかい?

          風俗という言葉の一分野に過ぎなかった性風俗がその第一義となってしまったように、
          調教という言葉が性的な意味でしか使われなくなるのもそう遠くないぞ。
    • by Anonymous Coward
      「調教」とは、「調律」「教育」の合成語で、「楽器としてのミクを調律」「バーチャルシンガーとしてのミクを教育」という両面をあらわしたものだそうです。
      • by Anonymous Coward
        そんな酷いこじつけは imou.to 以来だぜ

        # セクションも無くなっちゃったし、スラドには帰ってこないだろうな
typodupeerror

身近な人の偉大さは半減する -- あるアレゲ人

読み込み中...