遺伝的アルゴリズムとGPGPUを使ってFM音源の音色設定パラメータを自動化する手法

遺伝的アルゴリズムとGPGPUを使ってFM音源の音色設定パラメータを自動化する手法 52

ストーリー by hylom 2016年10月12日 14時17分
限界に挑戦部門より

あるAnonymous Coward 曰く、

かつてゲーム機や携帯電話の音源として多く使われていたことでも知られるFM音源は派手な音色を得意とするいっぽう、音色の作成にはノウハウが必要で、直感的な音色作成ができない点が弱点とされている。特に、既存の楽器と似た音色を作ることは難しいとされていた。このFM音源の音色作成を遺伝的アルゴリズムを使って自動化するという手法が開発されている模様（発表資料、公開されているソースコード）。
この手法では音色の比較にはFFTが必要となるため、処理に時間がかかるというのが弱点であるが、これはGPGPUを使って並列化を行うことで解決したようだ。これにより、約2時間26分程度で41秒のサンプリングデータに近い音色パラメータを決定することに成功したという。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索52コメント Log In/Create an Account

改造コードを検索しているような遺伝的手法 (スコア:1)

by Anonymous Coward on 2016年10月12日 17時58分 (#3095637)

条件設定には原音がないと無理？
今までにない音を製作するには
条件設定をもっと感覚的にしないと無理かもね
元楽器があるならそれで演奏すればいいんじゃない？
新たなＦＭの歴史を作るなら創造できないとあかんのとちゃう？
ソフトでのＦＭ演奏なら４オペにこだわることないし
チャンネル数も含めて大量のデータを簡易に扱えるようにならないとあかんと思う
別に１ｃｈ＝１楽器でなくても１０ｃｈ＝１楽器でもいいし（内部的に）
オペの数やデータ、アルゴリズム（スクリプト的な）等ユーザにもっと自由にさせてもいいと思う
矩形の代わりにPCMを流し込んだり
ハードウェア的制限は前時代に比べ取り払われたも同然
もっと色々できるような気がするんだけど
それとも特定のハードに向けた音色検索プログラム止まり？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  本質はモデルに落とし込むパラメタライズ
  >それとも特定のハードに向けた音色検索プログラム止まり？
  それが本質ではあるが、有限資源で高度な発音ができるかはそれ自体興味深い問題だと思う
  他でも書かれているがデータ圧縮とか
  従来からあるハードの新活用とか
  パラメタライズの手法は、他のターゲット/アプリケーションにも応用できるかもしれない
- Re: (スコア:0)
  
  by Anonymous Coward
  
  「改造コード検索」といい、「アルゴリズム（スクリプト的な）」といい、
  なんつうか知ったかぶり感ばかりで何いいたいのかよく分からんです。
  用途については、とりま安価な電子楽器向けの音源ICとかには十分応用が効くと思うよ。
  安価な電子回路でよりそれらしい音を生成するパラメータの「設計」をするための物。
  > 今までにない音を製作する
  > 新たなＦＭの歴史を作るなら創造できないとあかんのとちゃう？
  そんな話は今してない。
  > 元楽器があるならそれで演奏すれば
  例えば5000円の電子ピアノでよりそれらしい音を出したいってのに、
  グランドピアノを5000円で売れば良いと
- Re: (スコア:0)
  
  by Anonymous Coward
  
  >矩形の代わりにPCMを流し込んだり
  もともとのFM音源ではオシレータの出す波形は矩形波ではなく正弦波ですが。
  と言う話は置いておいて、すでに1986年のTX81Z(と言うよりその音源チップのOPZ)あたりから矩形波や鋸波など8波形を使えるチップが出てます。
  さらに突き詰めたSY77/99の音源ではアルゴリズムも増えて複雑なものも増えましたし、PCM波形をモジュレータとして使用できるようになっていますよ。
  # おかげで音作りは通常のFM音源の何十倍も面倒になりましたけど
どういう音になったのかサンプルを聞いてみたい (スコア:0)

by Anonymous Coward on 2016年10月12日 14時30分 (#3095490)

説明だけだと、どの程度の物なのか分からないよ
- Re:どういう音になったのかサンプルを聞いてみたい (スコア:5, 興味深い)
  
  by Anonymous Coward on 2016年10月12日 15時18分 (#3095527)
  
  その資料の発表者です。
  音が出ない資料だとよく分からない件についてはこちらでも問題があると考えおり、YouTubeあたりに音の入った資料を上げられないか試している段階ですが、これにはもう少しかかりそうです。
  会場で流した4オペレータFM音源のピアノのデモはひそかに以下のURLにも置いてあります。
  http://www41050u.sakura.ne.jp/temp/tinyfm3f_sample7.m4a [sakura.ne.jp]
  
  シェア
  
  親コメント
  - Re:どういう音になったのかサンプルを聞いてみたい (スコア:1)
    
    by Anonymous Coward on 2016年10月12日 16時20分 (#3095577)
    
    4オペにしてはいい感じですね
    アタックがちょっと丸くてエレピっぽく感じがします
    エンベローブの評価をもう少し工夫すればもっといい感じになるかも
    特にアタックは、倍音の質で雰囲気がらりと変わりますし
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      あと、生楽器よりもDX7とかで作られた奇跡の音色を4オペで真似てみるのもいいかもしれない
      DXエレピとか [youtube.com]
      FM音源は変わった音が出るのが特徴なのだから、無理させるより独自性のある音がきっと良い
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    会場で流した4オペレータFM音源のピアノのデモはひそかに以下のURLにも置いてあります。
    http://www41050u.sakura.ne.jp/temp/tinyfm3f_sample7.m4a [sakura.ne.jp]
    音色以前にプチノイズ酷杉。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      おま環
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        Mac+Chromeで再生したけどかけらもプチノイズなんて聞こえなかった。使ってるプレイヤーがクソなんじゃね？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      プチノイズなんて全くありませんでした。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      コメントの表現は乱暴だと思いますが、確かにiPhoneだとプチプチ言いますね。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    GPGPUはAnalysis by Synthesisの救世主ですね
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    とりあえず音だけでも SoundCloud にでも上げれば
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    さくらが高火力ホスティング [sakura.ad.jp]とかいう計算資源提供のサービスを開始してて、
    無償のお試しキャンペーンでTeslaを一週間回せるみたいなので、是非長期間回してみてはいかがでしょうか？
    自宅でGPUを回しすぎると電気代が恐ろしい事になるという問題もありますし・・・(笑
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    乙でした
    贅沢を言うなら30年前くらいにベーマガ上で発表してくれてたらもっとよかった
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      それは計算終わるのに何百年かかるでありますか？？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        計算機の高速化を考慮に入れた場合、いつ計算を始めるのがもっとも早く計算を終えられるか、みたいな話をどこかで読んだ
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        なるほど。あとのほうがもっと速いから、今頑張る必要はないと。
        魅力的なはなしですね。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        ゼノンのパラドックスが発生して両方終わらなくなるから競争させないでください。
  - Walsh変換でもっと高速化出来ないのか (スコア:0)
    
    by Anonymous Coward
    
    今は乗算の演算コストが下がってしまったのでWalsh変換が使われる場面はほとんど無くなってしまったが、GPUだったらメリットはあるかも
    要は生音と似てれば良いのだから、FFTスペクトルで類似度比較やってもWalshスペクトルで類似度比較やっても同じこと
    ＃昔の音声認識LSIで、ハードウェア規模削減のためにWalsh変換使ってるものがあった
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    素晴らしい！
    さらなる発展を期待します。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  良い結果が出たのならそれを確認できる形で発表資料作るでしょ。サンプルがない時点でご察しですよ。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    サンプルがないならどうやって波形の画像を出すんだよ！！！！！！！！
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    キミは自分の世界がネットで完結してる人なんだねｗ
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      > 自分の世界がネットで完結
      　
      えっ？普通そうじゃないの？（真顔
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        あなたにリアルワールドはないのか・・・
新しい非可逆圧縮になるかな？ (スコア:0)

by Anonymous Coward on 2016年10月12日 14時31分 (#3095491)

エンコードに恐ろしく時間かかりそうではあるけど
- Re: (スコア:0)
  
  by Anonymous Coward
  
  シルフィードの何言ってるのか分からない音声合成とかあったね
  - ザッザッザッ…（←これは文字だけで喋らない） (スコア:2)
    
    by TarZ (28055) on 2016年10月12日 15時13分 (#3095523) 日記
    
    そういえば、あれはどうやっていたんだろ…と思って検索してみたら、FM音源に音声合成モードなんてのがあって(Wikipedia:YM2203 [wikipedia.org])、それを使っていたのか(Wikipedia:シルフィード [wikipedia.org])。
    かなり聞き苦しかった記憶があるけど、「なんか喋っている」くらいには聞こえていたので、4オペレータのFM音源でもそこそこ出来るものですね。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      あれは音声合成モードじゃなくて効果音モード
      - Re:ザッザッザッ…（←これは文字だけで喋らない） (スコア:3, 興味深い)
        
        by Anonymous Coward on 2016年10月12日 16時11分 (#3095570)
        
        CSM音声合成モードで間違いないよ。
        「シルフィード100の秘密」より。
        38 名前：その２３投稿日： 1999/12/08(水) 11:11
        シルフィードの音声合成は、ＣＳＭトーキングシステムとい、Ｍ橋Ｍ邦さんの作品。
        自分でルーチン作って、自分でしゃべってたのねん。
        39 名前：その２４投稿日： 1999/12/08(水) 11:12
        ＣＳＭトーキングシステムは、音声データをホルマント周波数解析して、
        ４個の波形に分割し、ＦＭ音源で再生するというもの。
        40 名前：その２５投稿日： 1999/12/08(水) 11:12
        ＣＳＭトーキングシステムは、再生にかかるマシンパワーやメモリ消費が少なく、
        割り込みで処理できるため、後のゲームアーツ作品では重宝された。
        41 名前：その２６投稿日： 1999/12/08(水) 11:12
        弱点は、音質があまりよくないことと、データ作成に当時のＰＣ－９８０１（１０MHz）で
        一秒解析するのに数時間かかったこと。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        この100の秘密には一番知りたいどうやって88でポリゴン描画したのかって話がないな
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    あれは「サンダーフォース」と言ってるんですよ。
    # こちらはPSGでしたっけ?
    「BLAST OFF!」
    # もっと古い
- Re: (スコア:0)
  
  by Anonymous Coward
  
  発音方式の基本単位としてはFM（ただし構成はヤマハのとはかなり違う）なシンクラヴィアのシンセ部分で
  同じような機能がついていたと聞いたことが。
パネルクイズ (スコア:0)

by Anonymous Coward on 2016年10月12日 14時58分 (#3095510)

シンセの音ってのはアタック，ディケイ，サスティン，リリースの４つの部分からなるものが多いわけで。
この方法ならサスティンの部分は再現できるかもしれないけど、アタックはどうなのよ？って聞きたくなりますわな。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  シンセの音ってのはアタック，ディケイ，サスティン，リリースの４つの部分からなるものが多いわけで。
  この方法ならサスティンの部分は再現できるかもしれないけど、アタックはどうなのよ？って聞きたくなりますわな。
  他と比べてアタック成分が多い音を選んでいくだけだと思う
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    一般的にはアタック部が一番音色変化大きいですし、
    聴く方も音色の特徴として捉えるのはそこですからね。
    WaveStation辺りのサスティン部分でも音色がぐるぐる変わるのもありますが。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  × サスティン
  ○ サステイン
FFTなのに時間がかかる？ (スコア:0)

by Anonymous Coward on 2016年10月12日 15時25分 (#3095531)

高速フーリエ変換だから時間がかかるだと意味がわからないが、単純に1ループの処理×サンプルの時間×ループ回数で膨大になってるだけですね。
そりゃまあ精度出すために試行回数増やしたら時間はかかりますよ、それでも28時間が2時間半になったのはやっぱり職人芸じゃないんですかね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  緻密な手作業の職人芸から、緻密な設計のメタ職人芸へ切り替えようっていうことじゃないか? 職人芸は進化してこそ、先代と同じレベルは職人にあらずと。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    パワーポイント見ればわかるけど、単に謙遜してるだけですよこれ。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      Metastasis　職人？ああ他業種から仕事を奪ってくる職人のことか。
      FM音源職人を抱え続けるよりはプログラムを必要に応じて雇うほうが安上がりでプログラは職人という程でもないので調達も楽。
      時間の短縮がプログラマの職人芸によるものではあるのだが減った２５時間半がまるっとプログラマのの功績かというと微妙な気がしますな。GPUの貢献度とプログラマの貢献度がどの程度なのやら。
      後パワポって言うなファミコンか。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  職人芸でちまちまやっていた時代は28時間以上かかっていたのでは？それをCPU使って自動化したら28時間で終わるようになりGPU使ったら昼休憩前には終わるようになったと。
サックスに対して世代で変化する様子が面白かった (スコア:0)

by Anonymous Coward on 2016年10月12日 17時05分 (#3095600)

200世代ぐらいでいったん何が何だか判らなくなって、
400世代ぐらいで一気にサックスの図と似始めてきて、
後はすこしづつ似ていくという感じ。
200世代と400世代の間に何が起きたんだろね
なんでまた (スコア:0)

by Anonymous Coward on 2016年10月12日 18時37分 (#3095655)

遺伝的アルゴリズムなんだか…
- Re: (スコア:0)
  
  by Anonymous Coward
  
  遺伝に嫌な思い入れでもあるの？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    　　　　　　　　　　　|
    　　　　　　　　　　 |　　彡⌒ミ
    　　　　　　　　　　　＼ (´･ω･`)　また髪の話してる・・・
    　　　　　　　　　　　　　(|　　　|)::::
    　　　　　　　　　　　　　(γ　/:::::::
    　　　　　　　　　　　　　　し＼:::
    　　　　　　　　　　　　　　　　　＼
- Re: (スコア:0)
  
  by Anonymous Coward
  
  非線形で多次元なフィッティングを遺伝的アルゴリズムで行ったという事でしょうか。
  従来のカーブフィッティングで用いられているような他のアルゴリズムとの比較も気になるところです。
  スライドはとても面白かったので音付きで見たいですね。
  欲を言えば「FM音源では不可能と思われていたこんな音が！」的なデモンストレーションも。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

改造コードを検索しているような遺伝的手法 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

どういう音になったのかサンプルを聞いてみたい (スコア:0)

Re:どういう音になったのかサンプルを聞いてみたい (スコア:5, 興味深い)

Re:どういう音になったのかサンプルを聞いてみたい (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Walsh変換でもっと高速化出来ないのか (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

新しい非可逆圧縮になるかな？ (スコア:0)

Re: (スコア:0)

ザッザッザッ…（←これは文字だけで喋らない） (スコア:2)

Re: (スコア:0)

Re:ザッザッザッ…（←これは文字だけで喋らない） (スコア:3, 興味深い)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

パネルクイズ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

FFTなのに時間がかかる？ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

サックスに対して世代で変化する様子が面白かった (スコア:0)

なんでまた (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)