アカウント名:
パスワード:
こっち方面は知らないけど、ヒトゲノム解析に取り組んでいる本気の企業では取得データ量が半端ないので、記憶媒体を運送しているそうです。どのみち現在の解析方法では、遺伝子検査とかオーダーメード医療とかを日本の健康保険で普及させるのは解析にコンピュータをぶん回す電力的に不可能、というのを読んだことがあります。
ヒトゲノムのサイズってそんなもんか…と思ったけどなぁ。
ヒトゲノムの容量(32億塩基対で、1塩基対の情報を2ビットと計算) = 6.4 Gbit = 0.8 Gbyte
解析用のデータは半端なくデカかったりするんだろうか。
NGS の生データはその100〜1000倍くらいだろうと思います。なのでゲノム配列を決定できたら、生データは捨ててしまうところもあるでしょうね。ssh で転送しようとして帯域食いつぶして苦情が出た、なんて話も何度か聞きました。
本職ではないので伝聞ですが、ホールゲノムで50~100GB/ヒトくらいらしいですで、この手の本当に大きいデータを処理しようとするとHadoopとかOGEを使うんですが、そうなると50GBのデータを3倍に冗長化するの?とか50GBのデータを何台もの計算クラスタに向けて転送するの?とかになってやっぱりインフラが死にます1週間の検査依頼が50人とすると毎週10TBくらい増えるけど、毎週ストレージを買える程の利益は出ないので捨てるしかないデータ処理側はGPU使った奴も出てきて速くなったみたいですが、ストレージのブレークスルーはなさげです
# 階層化ストレージとか重複排除とかは未トライ
雑に例えると書店の雑誌を裁断して読み込み、重複する文字列のとこで繋ぎ合わせるという手法です。同じ雑誌が何冊もあったり、同じ広告とかがたくさんあるよね。
PM「今日はこの棚の雑誌を読みこむぞ、手あたり次第に取った本をランダムに開いてそのページをコピーしろ」PM「では、そのコピーを一行ごとに裁断しろ。行ぴったりじゃなくてもいい、スピードがすべて」PM「次は裁断した文字を順次読んでデータ化しろ」
続きは人力じゃないけど、データは2ビット。文字列の重複はいくらでもあるし、言語の言い回しと同じような規則的配列もあるんで、繋ぎ合わせるのにはマシンパワーが要るんだと思う。
この本 [amazon.co.jp]によると遺伝子として不要と思える98%の領域は解析対象外にしているらしい。(しかし実際はいろいろ入っていそう、とのこと)
SETIの頃からデータテープでいっぱいなバンの帯域をなめてはいけないと言われている。日本の運送会社は優秀だから、転送に2、3日かけるぐらいなら輸送しちゃった方が早いしね。データ転送するのもタダじゃないし、AWSでも物理媒体でデータやりとりするサービスあるよね。
# 健康保険云々は電力より費用面の話じゃないかなぁ。保険って金銭のシステムだし。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike
破壊される以前の実用にならない時点で別の方法探すわな (スコア:1)
こっち方面は知らないけど、ヒトゲノム解析に取り組んでいる本気の企業では取得データ量が半端ないので、記憶媒体を運送しているそうです。どのみち現在の解析方法では、遺伝子検査とかオーダーメード医療とかを日本の健康保険で普及させるのは解析にコンピュータをぶん回す電力的に不可能、というのを読んだことがあります。
Re: (スコア:0)
ヒトゲノムのサイズってそんなもんか…と思ったけどなぁ。
ヒトゲノムの容量(32億塩基対で、1塩基対の情報を2ビットと計算) = 6.4 Gbit = 0.8 Gbyte
解析用のデータは半端なくデカかったりするんだろうか。
Re:破壊される以前の実用にならない時点で別の方法探すわな (スコア:2)
NGS の生データはその100〜1000倍くらいだろうと思います。なのでゲノム配列を決定できたら、生データは捨ててしまうところもあるでしょうね。ssh で転送しようとして帯域食いつぶして苦情が出た、なんて話も何度か聞きました。
Re: (スコア:0)
本職ではないので伝聞ですが、ホールゲノムで50~100GB/ヒトくらいらしいです
で、この手の本当に大きいデータを処理しようとするとHadoopとかOGEを使うんですが、そうなると50GBのデータを3倍に冗長化するの?とか50GBのデータを何台もの計算クラスタに向けて転送するの?とかになってやっぱりインフラが死にます
1週間の検査依頼が50人とすると毎週10TBくらい増えるけど、毎週ストレージを買える程の利益は出ないので捨てるしかない
データ処理側はGPU使った奴も出てきて速くなったみたいですが、ストレージのブレークスルーはなさげです
# 階層化ストレージとか重複排除とかは未トライ
Re: (スコア:0)
雑に例えると書店の雑誌を裁断して読み込み、重複する文字列のとこで繋ぎ合わせるという手法です。同じ雑誌が何冊もあったり、同じ広告とかがたくさんあるよね。
PM「今日はこの棚の雑誌を読みこむぞ、手あたり次第に取った本をランダムに開いてそのページをコピーしろ」
PM「では、そのコピーを一行ごとに裁断しろ。行ぴったりじゃなくてもいい、スピードがすべて」
PM「次は裁断した文字を順次読んでデータ化しろ」
続きは人力じゃないけど、データは2ビット。文字列の重複はいくらでもあるし、言語の言い回しと同じような規則的配列もあるんで、繋ぎ合わせるのにはマシンパワーが要るんだと思う。
Re: (スコア:0)
この本 [amazon.co.jp]によると遺伝子として不要と思える98%の領域は解析対象外にしているらしい。
(しかし実際はいろいろ入っていそう、とのこと)
Re: (スコア:0)
SETIの頃からデータテープでいっぱいなバンの帯域をなめてはいけないと言われている。
日本の運送会社は優秀だから、転送に2、3日かけるぐらいなら輸送しちゃった方が早いしね。
データ転送するのもタダじゃないし、AWSでも物理媒体でデータやりとりするサービスあるよね。
# 健康保険云々は電力より費用面の話じゃないかなぁ。保険って金銭のシステムだし。