アカウント名:
パスワード:
このへん [slashdot.org]でも議論されてるけど、GeForce Fermiの強みは倍精度浮動小数演算の速度とアドレス長の64bit化、そして一貫性がハードウェアで保証された「本当の」キャッシュメモリの搭載。どれも一般的なグラフィックパイプラインで描画している限りあんまり役に立たないんだよな。
nvidiaはGPUコンピューティングは科学計算だけのものではなく、連続体シミュレーションやリアルタイムレイトレーシングといった怒涛の数値計算をゲームグラフィックに織り交ぜていく未来像を描いているけど、実際そんなことをしてるゲームは無いとは言わないけど稀なわけで。
ただnvidiaがへんてこ機能をビデオカードにしこたま搭載するのは今に始まったことではないし(古くは変態的な柔軟性を備えたテクスチャコンビナとか)、らしいといえばらしいのかもしれない。
>倍精度が1/12
それは新コアGF104搭載のGTX460 [impress.co.jp]ね。GF104はTesla用じゃなくて純粋にグラフィック用に設計されたもの。
Teslaと同コアのGTX480/470/465は、Teslaと同速度です。(但しECC無効)
>Teslaと同コアのGTX480/470/465は、Teslaと同速度です。(但しECC無効)
GTX480系のFermiは、倍精度性能がTesla20系の1/4 (つまり単精度の1/8) に削られています。
計算するならバカ高いTeslaを買え、ということなんでしょう。
> > 一貫性がハードウェアで保証された「本当の」キャッシュメモリ> とはどういうものでしょうか?一貫性が保証されているとは、キャッシュされている値が別のプロセッサによって書き換えられたために古くなってしまった瞬間に、そのキャッシュラインが既に古いから再フェッチしなければならないということを知ることが出来る(誤って既に古くなってしまったキャッシュを使って計算を行うことが無い)ということです。
GPUでは大量のプロセッサに対してメモリに続くバスの帯域が慢性的に不足しているため、各プロセッサのオンチップメモリで処理が片付くかどうかはパフォーマンスに大きな影響を与えるわけで、普通のアーキテクチャならここで「キャッシュメモリ」とかいう話になるのですが、従来のG80/GT200アーキテクチャでは各プロセッサにオンチップメモリは載っているものの、ハードウェアでキャッシュの状態を管理するような仕組みは備わっておらず、プログラマが自力で各プロセッサのオンチップメモリにキャッシュされた値の整合性を管理しなければならない「シェアードメモリ」という扱いになっていました。Fermiでは各プロセッサに一貫性プロトコルが備わっており、シェアードメモリの一部をハードウェアレベルで一貫性が保たれるキャッシュメモリとして使用することが出来るようになりました。これによってグローバルメモリの広範囲にランダムアクセスするようなアルゴリズムにおいて、めまいのするようなスパゲティコードを書かなくても「そこそこ」効率の良いメモリアクセスが出来るようになるかと思います。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike
一方nvidiaは (スコア:1, 興味深い)
このへん [slashdot.org]でも議論されてるけど、GeForce Fermiの強みは倍精度浮動小数演算の速度とアドレス長の64bit化、そして一貫性がハードウェアで保証された「本当の」キャッシュメモリの搭載。どれも一般的なグラフィックパイプラインで描画している限りあんまり役に立たないんだよな。
nvidiaはGPUコンピューティングは科学計算だけのものではなく、連続体シミュレーションやリアルタイムレイトレーシングといった怒涛の数値計算をゲームグラフィックに織り交ぜていく未来像を描いているけど、実際そんなことをしてるゲームは無いとは言わないけど稀なわけで。
ただnvidiaがへんてこ機能をビデオカードにしこたま搭載するのは今に始まったことではないし(古くは変態的な柔軟性を備えたテクスチャコンビナとか)、らしいといえばらしいのかもしれない。
Re: (スコア:0)
Re:一方nvidiaは (スコア:1)
>倍精度が1/12
それは新コアGF104搭載のGTX460 [impress.co.jp]ね。
GF104はTesla用じゃなくて純粋にグラフィック用に設計されたもの。
Teslaと同コアのGTX480/470/465は、Teslaと同速度です。(但しECC無効)
Re: (スコア:0)
>Teslaと同コアのGTX480/470/465は、Teslaと同速度です。(但しECC無効)
GTX480系のFermiは、倍精度性能がTesla20系の1/4 (つまり単精度の1/8) に削られています。
計算するならバカ高いTeslaを買え、ということなんでしょう。
Re: (スコア:0)
とはどういうものでしょうか?
> ゲームグラフィックに織り交ぜていく未来像を描いている
ECCなんてゲームには不要なんで金融などゲーム以外の方面で使われることを想定しているのかなーとも思ったりしてます。
Re:一方nvidiaは (スコア:1, 参考になる)
> > 一貫性がハードウェアで保証された「本当の」キャッシュメモリ
> とはどういうものでしょうか?
一貫性が保証されているとは、キャッシュされている値が別のプロセッサによって書き換えられたために古くなってしまった瞬間に、そのキャッシュラインが既に古いから再フェッチしなければならないということを知ることが出来る(誤って既に古くなってしまったキャッシュを使って計算を行うことが無い)ということです。
GPUでは大量のプロセッサに対してメモリに続くバスの帯域が慢性的に不足しているため、各プロセッサのオンチップメモリで処理が片付くかどうかはパフォーマンスに大きな影響を与えるわけで、普通のアーキテクチャならここで「キャッシュメモリ」とかいう話になるのですが、従来のG80/GT200アーキテクチャでは各プロセッサにオンチップメモリは載っているものの、ハードウェアでキャッシュの状態を管理するような仕組みは備わっておらず、プログラマが自力で各プロセッサのオンチップメモリにキャッシュされた値の整合性を管理しなければならない「シェアードメモリ」という扱いになっていました。Fermiでは各プロセッサに一貫性プロトコルが備わっており、シェアードメモリの一部をハードウェアレベルで一貫性が保たれるキャッシュメモリとして使用することが出来るようになりました。これによってグローバルメモリの広範囲にランダムアクセスするようなアルゴリズムにおいて、めまいのするようなスパゲティコードを書かなくても「そこそこ」効率の良いメモリアクセスが出来るようになるかと思います。