パスワードを忘れた? アカウント作成
12948750 story
テクノロジー

遺伝的アルゴリズムとGPGPUを使ってFM音源の音色設定パラメータを自動化する手法 52

ストーリー by hylom
限界に挑戦 部門より
あるAnonymous Coward 曰く、

かつてゲーム機や携帯電話の音源として多く使われていたことでも知られるFM音源は派手な音色を得意とするいっぽう、音色の作成にはノウハウが必要で、直感的な音色作成ができない点が弱点とされている。特に、既存の楽器と似た音色を作ることは難しいとされていた。このFM音源の音色作成を遺伝的アルゴリズムを使って自動化するという手法が開発されている模様(発表資料公開されているソースコード)。

この手法では音色の比較にはFFTが必要となるため、処理に時間がかかるというのが弱点であるが、これはGPGPUを使って並列化を行うことで解決したようだ。これにより、約2時間26分程度で41秒のサンプリングデータに近い音色パラメータを決定することに成功したという。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2016年10月12日 17時58分 (#3095637)

    条件設定には原音がないと無理?
    今までにない音を製作するには
    条件設定をもっと感覚的にしないと無理かもね

    元楽器があるならそれで演奏すればいいんじゃない?
    新たなFMの歴史を作るなら創造できないとあかんのとちゃう?
    ソフトでのFM演奏なら4オペにこだわることないし
    チャンネル数も含めて大量のデータを簡易に扱えるようにならないとあかんと思う
    別に1ch=1楽器でなくても10ch=1楽器でもいいし(内部的に)
    オペの数やデータ、アルゴリズム(スクリプト的な)等ユーザにもっと自由にさせてもいいと思う
    矩形の代わりにPCMを流し込んだり

    ハードウェア的制限は前時代に比べ取り払われたも同然
    もっと色々できるような気がするんだけど

    それとも特定のハードに向けた音色検索プログラム止まり?

    • by Anonymous Coward

      本質はモデルに落とし込むパラメタライズ

      >それとも特定のハードに向けた音色検索プログラム止まり?
      それが本質ではあるが、有限資源で高度な発音ができるかはそれ自体興味深い問題だと思う
      他でも書かれているがデータ圧縮とか
      従来からあるハードの新活用とか

      パラメタライズの手法は、他のターゲット/アプリケーションにも応用できるかもしれない

    • by Anonymous Coward

      「改造コード検索」といい、「アルゴリズム(スクリプト的な)」といい、
      なんつうか知ったかぶり感ばかりで何いいたいのかよく分からんです。

      用途については、とりま安価な電子楽器向けの音源ICとかには十分応用が効くと思うよ。
      安価な電子回路でよりそれらしい音を生成するパラメータの「設計」をするための物。

      > 今までにない音を製作する
      > 新たなFMの歴史を作るなら創造できないとあかんのとちゃう?
      そんな話は今してない。

      > 元楽器があるならそれで演奏すれば
      例えば5000円の電子ピアノでよりそれらしい音を出したいってのに、
      グランドピアノを5000円で売れば良いと

    • by Anonymous Coward

      >矩形の代わりにPCMを流し込んだり
      もともとのFM音源ではオシレータの出す波形は矩形波ではなく正弦波ですが。
      と言う話は置いておいて、すでに1986年のTX81Z(と言うよりその音源チップのOPZ)あたりから矩形波や鋸波など8波形を使えるチップが出てます。
      さらに突き詰めたSY77/99の音源ではアルゴリズムも増えて複雑なものも増えましたし、PCM波形をモジュレータとして使用できるようになっていますよ。

      # おかげで音作りは通常のFM音源の何十倍も面倒になりましたけど

  • by Anonymous Coward on 2016年10月12日 14時30分 (#3095490)

    説明だけだと、どの程度の物なのか分からないよ

    • by Anonymous Coward on 2016年10月12日 15時18分 (#3095527)

      その資料の発表者です。
      音が出ない資料だとよく分からない件についてはこちらでも問題があると考えおり、YouTubeあたりに音の入った資料を上げられないか試している段階ですが、これにはもう少しかかりそうです。
      会場で流した4オペレータFM音源のピアノのデモはひそかに以下のURLにも置いてあります。
      http://www41050u.sakura.ne.jp/temp/tinyfm3f_sample7.m4a [sakura.ne.jp]

      親コメント
      • by Anonymous Coward on 2016年10月12日 16時20分 (#3095577)

        4オペにしてはいい感じですね
        アタックがちょっと丸くてエレピっぽく感じがします
        エンベローブの評価をもう少し工夫すればもっといい感じになるかも
        特にアタックは、倍音の質で雰囲気がらりと変わりますし

        親コメント
        • by Anonymous Coward

          あと、生楽器よりもDX7とかで作られた奇跡の音色を4オペで真似てみるのもいいかもしれない
          DXエレピとか [youtube.com]
          FM音源は変わった音が出るのが特徴なのだから、無理させるより独自性のある音がきっと良い

      • by Anonymous Coward

        会場で流した4オペレータFM音源のピアノのデモはひそかに以下のURLにも置いてあります。
        http://www41050u.sakura.ne.jp/temp/tinyfm3f_sample7.m4a [sakura.ne.jp]

        音色以前にプチノイズ酷杉。

        • by Anonymous Coward

          おま環

          • by Anonymous Coward
            Mac+Chromeで再生したけどかけらもプチノイズなんて聞こえなかった。使ってるプレイヤーがクソなんじゃね?
        • by Anonymous Coward

          プチノイズなんて全くありませんでした。

        • by Anonymous Coward

          コメントの表現は乱暴だと思いますが、確かにiPhoneだとプチプチ言いますね。

      • by Anonymous Coward

        GPGPUはAnalysis by Synthesisの救世主ですね

      • by Anonymous Coward

        とりあえず音だけでも SoundCloud にでも上げれば

      • by Anonymous Coward

        さくらが高火力ホスティング [sakura.ad.jp]とかいう計算資源提供のサービスを開始してて、
        無償のお試しキャンペーンでTeslaを一週間回せるみたいなので、是非長期間回してみてはいかがでしょうか?

        自宅でGPUを回しすぎると電気代が恐ろしい事になるという問題もありますし・・・(笑

      • by Anonymous Coward

        乙でした
        贅沢を言うなら30年前くらいにベーマガ上で発表してくれてたらもっとよかった

        • by Anonymous Coward

          それは計算終わるのに何百年かかるでありますか??

          • by Anonymous Coward

            計算機の高速化を考慮に入れた場合、いつ計算を始めるのがもっとも早く計算を終えられるか、みたいな話をどこかで読んだ

            • by Anonymous Coward

              なるほど。あとのほうがもっと速いから、今頑張る必要はないと。
              魅力的なはなしですね。

              • by Anonymous Coward

                ゼノンのパラドックスが発生して両方終わらなくなるから競争させないでください。

      • 今は乗算の演算コストが下がってしまったのでWalsh変換が使われる場面はほとんど無くなってしまったが、GPUだったらメリットはあるかも
        要は生音と似てれば良いのだから、FFTスペクトルで類似度比較やってもWalshスペクトルで類似度比較やっても同じこと
        #昔の音声認識LSIで、ハードウェア規模削減のためにWalsh変換使ってるものがあった

      • by Anonymous Coward

        素晴らしい!

        さらなる発展を期待します。

    • by Anonymous Coward

      良い結果が出たのならそれを確認できる形で発表資料作るでしょ。サンプルがない時点でご察しですよ。

      • by Anonymous Coward

        サンプルがないならどうやって波形の画像を出すんだよ!!!!!!!!

      • by Anonymous Coward

        キミは自分の世界がネットで完結してる人なんだねw

        • by Anonymous Coward

          > 自分の世界がネットで完結
           
          えっ? 普通そうじゃないの?(真顔

          • by Anonymous Coward

            あなたにリアルワールドはないのか・・・

  • by Anonymous Coward on 2016年10月12日 14時31分 (#3095491)

    エンコードに恐ろしく時間かかりそうではあるけど

    • by Anonymous Coward

      シルフィードの何言ってるのか分からない音声合成とかあったね

      • そういえば、あれはどうやっていたんだろ…と思って検索してみたら、FM音源に音声合成モードなんてのがあって(Wikipedia:YM2203 [wikipedia.org])、それを使っていたのか(Wikipedia:シルフィード [wikipedia.org])。

        かなり聞き苦しかった記憶があるけど、「なんか喋っている」くらいには聞こえていたので、4オペレータのFM音源でもそこそこ出来るものですね。

        親コメント
        • by Anonymous Coward

          あれは音声合成モードじゃなくて効果音モード

          • by Anonymous Coward on 2016年10月12日 16時11分 (#3095570)

            CSM音声合成モードで間違いないよ。

            「シルフィード100の秘密」より。

            38 名前: その23 投稿日: 1999/12/08(水) 11:11
                    シルフィードの音声合成は、CSMトーキングシステムとい、M橋M邦さんの作品。
                    自分でルーチン作って、自分でしゃべってたのねん。

            39 名前: その24 投稿日: 1999/12/08(水) 11:12
                    CSMトーキングシステムは、音声データをホルマント周波数解析して、
                    4個の波形に分割し、FM音源で再生するというもの。

            40 名前: その25 投稿日: 1999/12/08(水) 11:12
                    CSMトーキングシステムは、再生にかかるマシンパワーやメモリ消費が少なく、
                    割り込みで処理できるため、後のゲームアーツ作品では重宝された。

            41 名前: その26 投稿日: 1999/12/08(水) 11:12
                    弱点は、音質があまりよくないことと、データ作成に当時のPC-9801(10MHz)で
                    一秒解析するのに数時間かかったこと。

            親コメント
            • by Anonymous Coward

              この100の秘密には一番知りたいどうやって88でポリゴン描画したのかって話がないな

      • by Anonymous Coward

        あれは「サンダーフォース」と言ってるんですよ。
        # こちらはPSGでしたっけ?

        「BLAST OFF!」
        # もっと古い

    • by Anonymous Coward

      発音方式の基本単位としてはFM(ただし構成はヤマハのとはかなり違う)なシンクラヴィアのシンセ部分で
      同じような機能がついていたと聞いたことが。

  • by Anonymous Coward on 2016年10月12日 14時58分 (#3095510)

    シンセの音ってのはアタック,ディケイ,サスティン,リリースの4つの部分からなるものが多いわけで。
    この方法ならサスティンの部分は再現できるかもしれないけど、アタックはどうなのよ?って聞きたくなりますわな。

    • by Anonymous Coward

      シンセの音ってのはアタック,ディケイ,サスティン,リリースの4つの部分からなるものが多いわけで。
      この方法ならサスティンの部分は再現できるかもしれないけど、アタックはどうなのよ?って聞きたくなりますわな。

      他と比べてアタック成分が多い音を選んでいくだけだと思う

      • by Anonymous Coward

        一般的にはアタック部が一番音色変化大きいですし、
        聴く方も音色の特徴として捉えるのはそこですからね。

        WaveStation辺りのサスティン部分でも音色がぐるぐる変わるのもありますが。

    • by Anonymous Coward

      × サスティン
      ○ サステイン

  • by Anonymous Coward on 2016年10月12日 15時25分 (#3095531)

    高速フーリエ変換だから時間がかかるだと意味がわからないが、単純に1ループの処理×サンプルの時間×ループ回数で膨大になってるだけですね。
    そりゃまあ精度出すために試行回数増やしたら時間はかかりますよ、それでも28時間が2時間半になったのはやっぱり職人芸じゃないんですかね。

    • by Anonymous Coward

      緻密な手作業の職人芸から、緻密な設計のメタ職人芸へ切り替えようっていうことじゃないか? 職人芸は進化してこそ、先代と同じレベルは職人にあらずと。

      • by Anonymous Coward

        パワーポイント見ればわかるけど、単に謙遜してるだけですよこれ。

        • by Anonymous Coward

          Metastasis 職人?ああ他業種から仕事を奪ってくる職人のことか。
          FM音源職人を抱え続けるよりはプログラムを必要に応じて雇うほうが安上がりでプログラは職人という程でもないので調達も楽。
          時間の短縮がプログラマの職人芸によるものではあるのだが減った25時間半がまるっとプログラマのの功績かというと微妙な気がしますな。GPUの貢献度とプログラマの貢献度がどの程度なのやら。
          後パワポって言うなファミコンか。

    • by Anonymous Coward

      職人芸でちまちまやっていた時代は28時間以上かかっていたのでは?それをCPU使って自動化したら28時間で終わるようになりGPU使ったら昼休憩前には終わるようになったと。

  • by Anonymous Coward on 2016年10月12日 17時05分 (#3095600)

    200世代ぐらいでいったん何が何だか判らなくなって、
    400世代ぐらいで一気にサックスの図と似始めてきて、
    後はすこしづつ似ていくという感じ。

    200世代と400世代の間に何が起きたんだろね

  • by Anonymous Coward on 2016年10月12日 18時37分 (#3095655)

    遺伝的アルゴリズムなんだか…

    • by Anonymous Coward

      遺伝に嫌な思い入れでもあるの?

      • by Anonymous Coward

                   |
                      |  彡⌒ミ
                     \ (´・ω・`) また髪の話してる・・・
                       (|   |)::::
                        (γ /:::::::
                         し \:::
                            \

    • by Anonymous Coward

      非線形で多次元なフィッティングを遺伝的アルゴリズムで行ったという事でしょうか。
      従来のカーブフィッティングで用いられているような他のアルゴリズムとの比較も気になるところです。

      スライドはとても面白かったので音付きで見たいですね。
      欲を言えば「FM音源では不可能と思われていたこんな音が!」的なデモンストレーションも。

typodupeerror

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

読み込み中...