遺伝的アルゴリズムとGPGPUを使ってFM音源の音色設定パラメータを自動化する手法 52
ストーリー by hylom
限界に挑戦 部門より
限界に挑戦 部門より
あるAnonymous Coward 曰く、
かつてゲーム機や携帯電話の音源として多く使われていたことでも知られるFM音源は派手な音色を得意とするいっぽう、音色の作成にはノウハウが必要で、直感的な音色作成ができない点が弱点とされている。特に、既存の楽器と似た音色を作ることは難しいとされていた。このFM音源の音色作成を遺伝的アルゴリズムを使って自動化するという手法が開発されている模様(発表資料、公開されているソースコード)。
この手法では音色の比較にはFFTが必要となるため、処理に時間がかかるというのが弱点であるが、これはGPGPUを使って並列化を行うことで解決したようだ。これにより、約2時間26分程度で41秒のサンプリングデータに近い音色パラメータを決定することに成功したという。
改造コードを検索しているような遺伝的手法 (スコア:1)
条件設定には原音がないと無理?
今までにない音を製作するには
条件設定をもっと感覚的にしないと無理かもね
元楽器があるならそれで演奏すればいいんじゃない?
新たなFMの歴史を作るなら創造できないとあかんのとちゃう?
ソフトでのFM演奏なら4オペにこだわることないし
チャンネル数も含めて大量のデータを簡易に扱えるようにならないとあかんと思う
別に1ch=1楽器でなくても10ch=1楽器でもいいし(内部的に)
オペの数やデータ、アルゴリズム(スクリプト的な)等ユーザにもっと自由にさせてもいいと思う
矩形の代わりにPCMを流し込んだり
ハードウェア的制限は前時代に比べ取り払われたも同然
もっと色々できるような気がするんだけど
それとも特定のハードに向けた音色検索プログラム止まり?
Re: (スコア:0)
本質はモデルに落とし込むパラメタライズ
>それとも特定のハードに向けた音色検索プログラム止まり?
それが本質ではあるが、有限資源で高度な発音ができるかはそれ自体興味深い問題だと思う
他でも書かれているがデータ圧縮とか
従来からあるハードの新活用とか
パラメタライズの手法は、他のターゲット/アプリケーションにも応用できるかもしれない
Re: (スコア:0)
「改造コード検索」といい、「アルゴリズム(スクリプト的な)」といい、
なんつうか知ったかぶり感ばかりで何いいたいのかよく分からんです。
用途については、とりま安価な電子楽器向けの音源ICとかには十分応用が効くと思うよ。
安価な電子回路でよりそれらしい音を生成するパラメータの「設計」をするための物。
> 今までにない音を製作する
> 新たなFMの歴史を作るなら創造できないとあかんのとちゃう?
そんな話は今してない。
> 元楽器があるならそれで演奏すれば
例えば5000円の電子ピアノでよりそれらしい音を出したいってのに、
グランドピアノを5000円で売れば良いと
Re: (スコア:0)
>矩形の代わりにPCMを流し込んだり
もともとのFM音源ではオシレータの出す波形は矩形波ではなく正弦波ですが。
と言う話は置いておいて、すでに1986年のTX81Z(と言うよりその音源チップのOPZ)あたりから矩形波や鋸波など8波形を使えるチップが出てます。
さらに突き詰めたSY77/99の音源ではアルゴリズムも増えて複雑なものも増えましたし、PCM波形をモジュレータとして使用できるようになっていますよ。
# おかげで音作りは通常のFM音源の何十倍も面倒になりましたけど
どういう音になったのかサンプルを聞いてみたい (スコア:0)
説明だけだと、どの程度の物なのか分からないよ
Re:どういう音になったのかサンプルを聞いてみたい (スコア:5, 興味深い)
その資料の発表者です。
音が出ない資料だとよく分からない件についてはこちらでも問題があると考えおり、YouTubeあたりに音の入った資料を上げられないか試している段階ですが、これにはもう少しかかりそうです。
会場で流した4オペレータFM音源のピアノのデモはひそかに以下のURLにも置いてあります。
http://www41050u.sakura.ne.jp/temp/tinyfm3f_sample7.m4a [sakura.ne.jp]
Re:どういう音になったのかサンプルを聞いてみたい (スコア:1)
4オペにしてはいい感じですね
アタックがちょっと丸くてエレピっぽく感じがします
エンベローブの評価をもう少し工夫すればもっといい感じになるかも
特にアタックは、倍音の質で雰囲気がらりと変わりますし
Re: (スコア:0)
あと、生楽器よりもDX7とかで作られた奇跡の音色を4オペで真似てみるのもいいかもしれない
DXエレピとか [youtube.com]
FM音源は変わった音が出るのが特徴なのだから、無理させるより独自性のある音がきっと良い
Re: (スコア:0)
会場で流した4オペレータFM音源のピアノのデモはひそかに以下のURLにも置いてあります。
http://www41050u.sakura.ne.jp/temp/tinyfm3f_sample7.m4a [sakura.ne.jp]
音色以前にプチノイズ酷杉。
Re: (スコア:0)
おま環
Re: (スコア:0)
Re: (スコア:0)
プチノイズなんて全くありませんでした。
Re: (スコア:0)
コメントの表現は乱暴だと思いますが、確かにiPhoneだとプチプチ言いますね。
Re: (スコア:0)
GPGPUはAnalysis by Synthesisの救世主ですね
Re: (スコア:0)
とりあえず音だけでも SoundCloud にでも上げれば
Re: (スコア:0)
さくらが高火力ホスティング [sakura.ad.jp]とかいう計算資源提供のサービスを開始してて、
無償のお試しキャンペーンでTeslaを一週間回せるみたいなので、是非長期間回してみてはいかがでしょうか?
自宅でGPUを回しすぎると電気代が恐ろしい事になるという問題もありますし・・・(笑
Re: (スコア:0)
乙でした
贅沢を言うなら30年前くらいにベーマガ上で発表してくれてたらもっとよかった
Re: (スコア:0)
それは計算終わるのに何百年かかるでありますか??
Re: (スコア:0)
計算機の高速化を考慮に入れた場合、いつ計算を始めるのがもっとも早く計算を終えられるか、みたいな話をどこかで読んだ
Re: (スコア:0)
なるほど。あとのほうがもっと速いから、今頑張る必要はないと。
魅力的なはなしですね。
Re: (スコア:0)
ゼノンのパラドックスが発生して両方終わらなくなるから競争させないでください。
Walsh変換でもっと高速化出来ないのか (スコア:0)
今は乗算の演算コストが下がってしまったのでWalsh変換が使われる場面はほとんど無くなってしまったが、GPUだったらメリットはあるかも
要は生音と似てれば良いのだから、FFTスペクトルで類似度比較やってもWalshスペクトルで類似度比較やっても同じこと
#昔の音声認識LSIで、ハードウェア規模削減のためにWalsh変換使ってるものがあった
Re: (スコア:0)
素晴らしい!
さらなる発展を期待します。
Re: (スコア:0)
良い結果が出たのならそれを確認できる形で発表資料作るでしょ。サンプルがない時点でご察しですよ。
Re: (スコア:0)
サンプルがないならどうやって波形の画像を出すんだよ!!!!!!!!
Re: (スコア:0)
キミは自分の世界がネットで完結してる人なんだねw
Re: (スコア:0)
> 自分の世界がネットで完結
えっ? 普通そうじゃないの?(真顔
Re: (スコア:0)
あなたにリアルワールドはないのか・・・
新しい非可逆圧縮になるかな? (スコア:0)
エンコードに恐ろしく時間かかりそうではあるけど
Re: (スコア:0)
シルフィードの何言ってるのか分からない音声合成とかあったね
ザッザッザッ…(←これは文字だけで喋らない) (スコア:2)
そういえば、あれはどうやっていたんだろ…と思って検索してみたら、FM音源に音声合成モードなんてのがあって(Wikipedia:YM2203 [wikipedia.org])、それを使っていたのか(Wikipedia:シルフィード [wikipedia.org])。
かなり聞き苦しかった記憶があるけど、「なんか喋っている」くらいには聞こえていたので、4オペレータのFM音源でもそこそこ出来るものですね。
Re: (スコア:0)
あれは音声合成モードじゃなくて効果音モード
Re:ザッザッザッ…(←これは文字だけで喋らない) (スコア:3, 興味深い)
CSM音声合成モードで間違いないよ。
「シルフィード100の秘密」より。
38 名前: その23 投稿日: 1999/12/08(水) 11:11
シルフィードの音声合成は、CSMトーキングシステムとい、M橋M邦さんの作品。
自分でルーチン作って、自分でしゃべってたのねん。
39 名前: その24 投稿日: 1999/12/08(水) 11:12
CSMトーキングシステムは、音声データをホルマント周波数解析して、
4個の波形に分割し、FM音源で再生するというもの。
40 名前: その25 投稿日: 1999/12/08(水) 11:12
CSMトーキングシステムは、再生にかかるマシンパワーやメモリ消費が少なく、
割り込みで処理できるため、後のゲームアーツ作品では重宝された。
41 名前: その26 投稿日: 1999/12/08(水) 11:12
弱点は、音質があまりよくないことと、データ作成に当時のPC-9801(10MHz)で
一秒解析するのに数時間かかったこと。
Re: (スコア:0)
この100の秘密には一番知りたいどうやって88でポリゴン描画したのかって話がないな
Re: (スコア:0)
あれは「サンダーフォース」と言ってるんですよ。
# こちらはPSGでしたっけ?
「BLAST OFF!」
# もっと古い
Re: (スコア:0)
発音方式の基本単位としてはFM(ただし構成はヤマハのとはかなり違う)なシンクラヴィアのシンセ部分で
同じような機能がついていたと聞いたことが。
パネルクイズ (スコア:0)
シンセの音ってのはアタック,ディケイ,サスティン,リリースの4つの部分からなるものが多いわけで。
この方法ならサスティンの部分は再現できるかもしれないけど、アタックはどうなのよ?って聞きたくなりますわな。
Re: (スコア:0)
シンセの音ってのはアタック,ディケイ,サスティン,リリースの4つの部分からなるものが多いわけで。
この方法ならサスティンの部分は再現できるかもしれないけど、アタックはどうなのよ?って聞きたくなりますわな。
他と比べてアタック成分が多い音を選んでいくだけだと思う
Re: (スコア:0)
一般的にはアタック部が一番音色変化大きいですし、
聴く方も音色の特徴として捉えるのはそこですからね。
WaveStation辺りのサスティン部分でも音色がぐるぐる変わるのもありますが。
Re: (スコア:0)
× サスティン
○ サステイン
FFTなのに時間がかかる? (スコア:0)
高速フーリエ変換だから時間がかかるだと意味がわからないが、単純に1ループの処理×サンプルの時間×ループ回数で膨大になってるだけですね。
そりゃまあ精度出すために試行回数増やしたら時間はかかりますよ、それでも28時間が2時間半になったのはやっぱり職人芸じゃないんですかね。
Re: (スコア:0)
緻密な手作業の職人芸から、緻密な設計のメタ職人芸へ切り替えようっていうことじゃないか? 職人芸は進化してこそ、先代と同じレベルは職人にあらずと。
Re: (スコア:0)
パワーポイント見ればわかるけど、単に謙遜してるだけですよこれ。
Re: (スコア:0)
Metastasis 職人?ああ他業種から仕事を奪ってくる職人のことか。
FM音源職人を抱え続けるよりはプログラムを必要に応じて雇うほうが安上がりでプログラは職人という程でもないので調達も楽。
時間の短縮がプログラマの職人芸によるものではあるのだが減った25時間半がまるっとプログラマのの功績かというと微妙な気がしますな。GPUの貢献度とプログラマの貢献度がどの程度なのやら。
後パワポって言うなファミコンか。
Re: (スコア:0)
職人芸でちまちまやっていた時代は28時間以上かかっていたのでは?それをCPU使って自動化したら28時間で終わるようになりGPU使ったら昼休憩前には終わるようになったと。
サックスに対して世代で変化する様子が面白かった (スコア:0)
200世代ぐらいでいったん何が何だか判らなくなって、
400世代ぐらいで一気にサックスの図と似始めてきて、
後はすこしづつ似ていくという感じ。
200世代と400世代の間に何が起きたんだろね
なんでまた (スコア:0)
遺伝的アルゴリズムなんだか…
Re: (スコア:0)
遺伝に嫌な思い入れでもあるの?
Re: (スコア:0)
|
| 彡⌒ミ
\ (´・ω・`) また髪の話してる・・・
(| |)::::
(γ /:::::::
し \:::
\
Re: (スコア:0)
非線形で多次元なフィッティングを遺伝的アルゴリズムで行ったという事でしょうか。
従来のカーブフィッティングで用いられているような他のアルゴリズムとの比較も気になるところです。
スライドはとても面白かったので音付きで見たいですね。
欲を言えば「FM音源では不可能と思われていたこんな音が!」的なデモンストレーションも。