「東日本大震災ビッグデータワークショップ」に寄せられたデータの桁数 44
人が生み出すデータのほうがビッグ 部門より
9月12日から10月28日にかけて行われた「東日本大震災ビッグデータワークショップ - Project 311 -」では、参加者向けに「東日本大震災発生から1週間の間に実際に発生したデータ」が提供されたそうだ。提供されたデータは、3月11日から1週間の朝日新聞記事データやテレビ放送テキスト、3月11日から1週間のtweetなど。pongchang 曰く、
ビッグデータといっても日本のマスコミの送出量が、メガ単位でギガに遠く及ばないのが、面白く感じた。NHKの記事によると、寄せられたデータは次のとおり。
■朝日新聞:震災後1週間分の本紙掲載記事(10メガバイト)
■グーグル:震災後1週間分の検索トレンド(データ量は計測せず)
■JCC:在京テレビ6局の、震災後1週間分の放送内容の要約書き起こし(10.8メガバイト)
■ゼンリンデータコム:GPS付き携帯電話などで集計した、地域ごとの人口や混雑統計データ。3月8日から17日まで(1.8ギガバイト)
■ツイッタージャパン:震災後1週間分の全ての日本語ツイート(32ギガバイト)
■本田技研工業:カーナビを通じた震災後1週間分の車の通行情報(50メガバイト)
■レスキューナウ:震災後1週間分の鉄道の運行情報やライフライン、被害情報など(8メガバイト)
■NHK:震災後24時間に総合テレビで放送された内容の書き起こしデータ(2メガバイト)
■ウェザーニューズ:3月11日から4月29日までに一般から送られた被害やライフライン情報など(10メガバイト)
■日本気象協会:地震と津波予報、アメダス情報(1.6メガバイト)
■ビットリー社:短縮URLのデータ(3.19ギガバイト)逆に言えば、ゼンリンが辛うじてギガの桁のデータを扱っているが、他はメガ単位で終わっているということか。ビッグデータといっても、日本の商業利用や応用技術の進展は、まさしく桁違いに終わるのだろうか。
災害時はデータ容量は軽いほうがいい (スコア:2)
タレこみは日本のマスコミが…なんて言っているけど、
災害が起きたとき、被災者が情報を取得するときには出来るだけ小さいデータの方がいいと思うんだ。
通信インフラも電気も限られているし。
ぱっと見、本当に最低限の情報として、新聞10MB、日本気象協会1.6MBだとすると、1日2MBくらいか。
最悪、電話回線にモデムでもいけそう。
Re:災害時はデータ容量は軽いほうがいい (スコア:3, すばらしい洞察)
被災者が被災時に見る情報とその後の解析で使う情報は別物でしょう.常識的に考えて.
Re: (スコア:0)
君は何と戦っているんだ?
Re: (スコア:0)
お前は何を言ってるんだ
Re: (スコア:0)
ここはどこなんだ
Re: (スコア:0)
君こそ何と戦ってるんだ?
#2266040 は #2266023 に対する「オフトピじゃね?」と言う指摘だろ。たぶん、
Re:災害時はデータ容量は軽いほうがいい (スコア:1)
被災地の地元マスコミである河北新報なんて、自前の組版システムが(停電しても自前の
電源持っていたけど)被災で動かないんで、協定結んでいた新潟日報にデータ転送して
組版してもらって、翌朝号外を各避難所(津波被災地は無理だけど)に届けていました。
「河北新報のいちばん長い日」でぐぐって一番まとまってそうな上位エントリ:
http://finalvent.cocolog-nifty.com/fareastblog/2011/12/post-ba39.html [cocolog-nifty.com]
転送データは当日のマスコミの中では最小のほうでしょうけど、
被災地現地ではS/N比が一番大きかったですヨ
震災の翌朝、被災地民が河北号外ではじめて知った事実:
#私が、被災地民ですた。の、感想です。
「仙台沿岸が壊滅」
当然ながら、NHK仙台等のヘリライブなんて見ていた人はいない。
ので、ラジオのデマまがいの情報に判断が込み入っていた。
## 荒浜で200から300人の死体、ってのがラジオで流れて恐怖⇒それはでま。
河北掲載の写真を見るまで、沿岸を数10cm程度波が浸った程度の被害を想定していた。
TV見ていたら壊滅は自明な名取市閖上に、それとわからず歩いて帰ろうとかしていた人がいた
「原発が爆発」
河北号外では一面に出ていたけど、ほんの数カラム程度で、「え?原発が爆発した?」程度の受け止め。
東京で菅内閣がそれにかかりっきりでその他地域を考慮してなかったって後で知った。
マスコミがすべきなのは、「ビッグデータから有用なデータを抽出すること」なんだと思いますですヨ。
河北の震災当日+翌日に関しては、評価できる項目ともちょっとがんばりましょうの項目があると思いますですヨ。
それを「有用なデータを抽出するべし」セクターに、「出力データの多さ」を求めるタレコミ文の趣旨は、おかしいですね。
それとも、当時の河北新報に、情報垂れ流しの紙面を震災翌日に作れと?
Re: (スコア:0)
いや,ですから#2266040で言われているように災害時に被災者に渡すべき情報と,今回のようなその後のデータ解析で使うデータというのは全く別物でしょう.
今回寄せられたデータで言えば,Googleの検索トレンドの情報なんかは3.11当日の被災者にとっては全く意味がありません.ですが,後日のビッグデータ解析においては非常に興味深い情報です.
で,日本企業はその解析で使えそうな情報を渡してくれなかったことをこの記事では嘆いているのだと思いますが.
例えば朝日新聞でいえば同社ウェブサイトの記事ごとのアクセス傾向はかなり使える情報でしょう.自社のみが持つ情報は戦略的に扱いたいという気持ちもわかりますが(Twitterの日本語ツイートすべてはさすがに大盤振る舞いって感じですが),どんなデータからどんな解析結果が出せるかというのはそれこそ研究者によって違うわけで使えそうなデータは1種類でも多くあった方が有用な情報につながる可能性も高まるわけです.
Re: (スコア:0)
いや,ですから#2266040で言われているように災害時に被災者に渡すべき情報と,今回のようなその後のデータ解析で使うデータというのは全く別物でしょう.
#2266185) は別に (#2266040) への反対意見ではなく、
「災害時に被災者に渡すべき情報と,今回のようなその後のデータ解析で使うデータというのは全く別物」
という事例を示したもののようですが、なんで「いや、ですから・・・・でしょう」?
議論において出てくる意見ってのは、別にすべてが「直前に出た反対意見」というわけではないですよ?
Re: (スコア:0)
目方で語って良いのはバトルテックのみ
ビッグデータの定義は? (スコア:1)
Re: (スコア:0)
トシちゃんの個人情報はビッグデータに含まれますか?
Re: (スコア:0)
ビックカメラから流出するデータはビックデータであってビッグデータではありません。
Re: (スコア:0)
GartnerとかIBMの定義を参照すれば、Variety, Velocity, Volumeの3種が特徴的なデータをビッグデータを呼ぶようなので、
そもそも論として、一般的なユーザの行動データを大量に集めて意味を見出そうというのがいわゆるビッグデータ論なわけで、マスコミが出すデータが量が少ないというのは当たり前すぎ。
というのはさすがに言い過ぎでしょう。マスコミ含め、官公庁や企業のデータでも、例えば気象系のセンサデータや企業内に蓄積された大量の電子データ等、ビッグデータと呼べるものは色々あります。当然その中にはプレスリリース等も含まれますので、今回は「発生した、かつ公開されたデータ」、と捉えるべきでしょう。
ユーザの行動データを扱ったものが多いことや、マスコミの資料が重要である点は賛成です。
日本国内だと個人情報保護法に代表される法規制と、データを保持する企業がリスクを重視するためこういったデータが集まりにくいのが現状です。こういった試みが今後も継続的に行われればいいんですが。
厳選しても大サイズ (スコア:1)
ちょっと前に東工大で「都心部の気流を1mの解像度でシミュレーション [titech.ac.jp]」という発表をしていますが、このときの演算結果は結構絞って40TB程度と聞きました(そもそも演算に使うためのリスタートデータですら4.6TB)。
※TSUBAME2.0をほぼ丸一日占有する「TSUBAMEグランドチャレンジ大規模計算制度」で実現できたことだそうです。
「データ」の量自体を比較しても意味はない。 (スコア:1)
雑談や罵り合いやコピペ拡散などに埋め尽くされたツイッターと、真偽のほどはさておき報道として情報を発信しているマスコミでは、
発生しているデータ量が段違いなのは当たり前でしょう。
データ量だけを根拠に
>日本の商業利用や応用技術の進展は、まさしく桁違いに終わるのだろうか。
などと言ってるのはFUDでしかありませんね。
ψアレゲな事を真面目にやることこそアレゲだと思う。
は? (スコア:0)
俺もマスコミは嫌いだけど、恣意的に貶める記事書いて楽しいですか?
いい性格してますね。三流記者に向いてますよ。
文章で10MBはビックデータでしょうよ。
Re:は? (スコア:3, すばらしい洞察)
ログと記事を比較してサイズの違いを語るのは論外として。
ビッグデータの定義が不安になるんですが、
そもそも、ニュースだとかの記事もビッグデータに含まれるんでしょうか?
どのニュース記事が読まれたとか、どの情報が参照されたとか、そういうアクセスログと合わせてビッグデータかと思っていたのですが……
Re:は? (スコア:2)
特定の1社とか、特定分野の複数社くらいの1週間のデータではこんなもんじゃないかと…
Re:は? (スコア:2)
ビッグデータというのは、ほとんどすべての情報を選別せずに機械的に溜め込んだもの。その中から必要な情報、重要な情報を抽出して記事にまとめたものが例えば、出版物や放送番組になる。
だから、新聞記事をビッグデータと呼ぶためには、例えば100年分の新聞記事を全部、などという扱い方が必要であって、○×△に関する記事などという風に抽出したものをビッグデータとは呼べないだろう。
Re:は? (スコア:1)
> ○×△に関する記事などという風に抽出した
条件付けが「震災後1週間分の本紙掲載記事」などといった期間指定だけであって、
その中身に選別がないなら、一種のビッグデータといっていいかと思います。
できれば、1週間ではなく1ヶ月ぐらいにしておいたほうがいいんじゃないかとは思いますけど、
ていうか、NHKの「震災後24時間」というのは短すぎかなぁ…
Re: (スコア:0)
単純な検索でデータを選別するだけの場合、ビッグデータと呼べるのかなぁ?
数理解析や統計的処理を行うことで、生データにはない役立つ情報を生成可能なデータのことを
ビッグデータと呼んでるようにも思いますが…。
Re:は? (スコア:1)
昔、小説書きをしていた頃、だいたいテキストデータの1KBが文庫本の厚み1mmに相当するようなイメージでした。
10KBくらい書けば、だいたい1cmくらいの文庫本になるな・・・みたいな。
10MBというと、1cmの文庫本が1000冊程度、約10mくらいでしょうか。
1日3冊として、まるまる1年の暇が全て吸収されてしまいますね。
そう考えると、我々の住む地球なんて、ほんとうにちっぽけなものです。
Re: (スコア:0)
間違った。10KBで1mm、100KBで1cmでした・・。
100冊程度ですね。
Re: (スコア:0)
いや、きっと、震災関連TV番組のハイビジョン映像を提供しろという主張なのでしょう
(それ以外に桁の大きなデータを思いつかない)
Re: (スコア:0)
目の付け所がシャープなんですよ、きっと。
Re: (スコア:0)
「マスコミのデータは小さい」と言いたいのかどうかさえ微妙なタレコミだと思う。
> ビッグデータといっても日本のマスコミの送出量が、メガ単位でギガに遠く及ばないのが、面白く感じた。
(中略)
> ■ツイッタージャパン:震災後1週間分の全ての日本語ツイート(32ギガバイト)
(中略)
> 逆に言えば、ゼンリンが辛うじてギガの桁のデータを扱っているが、他はメガ単位で終わっている
マスコミではないゼンリンを敢えてピックアップしているのに、
ゼンリンの提供データ量を上回った(これまたマスコミではない)Twitterをスルーした意図が不明。
と言ったモニョモニョを鑑みて、「記者に向いている」と言う感想に同意w
そもそも、「提供されたデータ」がメガ単位である事がどう面白いのかサッパリ分からない。
もし、「ギガ単位のデータを何種類も集めたかったのに大多数はメガ単位であった」と言う話であれば、
そりゃワークショップ事務局の能力不足でしょうよ。
Re:は? (スコア:2)
>マスコミではないゼンリンを敢えてピックアップしているのに、
ゼンリンの出版する、観光案内の類は事実上、雑誌扱いされていると思うが。コンビニでは雑誌と共に並んでいるし、その賞味期間も雑誌同様に短い。
ちなみに、ゼンリンは、創業時に出版した雑誌に綴じ込みで地図を入れたところ、そちらが好評だったために地図専業に移行した。
Re: (スコア:0)
> ゼンリンの出版する、観光案内の類は事実上、雑誌扱いされていると思うが。
だから何よ?
ここで言うてるのは電子地図サービスの「株式会社ゼンリンデータコム」。
観光案内出してるのはゼンリン本体でしょ。
> ■ゼンリンデータコム:GPS付き携帯電話などで集計した、地域ごとの人口や混雑統計データ。3月8日から17日まで(1.8ギガバイト)
「マスコミとしてのデータ」ではないよね。
まぁ、そもそものタレコミ文が言いたい事のハッキリしない
「マスコミならなんやねん」「マスコミじゃなかったらどうやねん」なアレなので、
そこがハッキリしない事には何を言っても「…で?」と言う感じなんだけど、
Re: (スコア:0)
別に容量で見なくても、1週間分の新聞記事ってそんなにビッグか?とは思う。
でも集めたデータ全体がビッグであれば、個別の容量なんて大した問題じゃないはずだが。
おそらく裏があるに違いない (スコア:0)
スラドの震災タレコミの記事がKB単位なのを隠すために、意図的にマスコミを揶揄しているとか。
昭和の亡霊 (スコア:0)
ビックデータは正義だなんて思っているのは、
♪大きいことはいいことだ~って山本直純でも歌っていればいいんだよ
Re: (スコア:0)
ボールペンメーカーの方ですか?
Re: (スコア:0)
ニューヨークタイムズ1週間分の情報は、シェークスピアの時代(17世紀) の一生分の情報量に等しいと言われているからね
ギガの桁 (スコア:0)
■ツイッタージャパン:震災後1週間分の全ての日本語ツイート(32ギガバイト)
■ビットリー社:短縮URLのデータ(3.19ギガバイト)
これは?
ごめんなさい。Re:ギガの桁 (スコア:0)
>日本のマスコミの送出量
ってことか。すまん。
大災害では通信経路含めたインフラが死ぬ (スコア:0)
データなど転送も活用も不能になるのだから
大きさを誇っても実際の役に立たない=意味がない
通信経路の維持や再敷設の早さだけが意味がある
Re: (スコア:0)
このワークショップ自体の目的は、数限られた通信経路を有効活用するために、まずはビッグデータを解析して情報の内容の傾向を調べましょう・・・ということなんでしょうけど
トピ主は昭和の方ですか? (スコア:0)
「大きいことはいいことだ」なんて流行語があったな
データと成果物がごっちゃ (スコア:0)
もう書くまでもないけど、観測データとかそう言う(生)データと、放送内容の文字起こしとかそういう成果物がごっちゃになってるのがおかしい。
何でもかんでもアホみたいに詰め込んだ整理できてないデータの集合が「ビッグデータ」でしょ?
テレビ局は震災関係で数千本の取材テープを保管していたりする。(しかも、使い回しちゃったテープもあるので、実際にはもっと発生していた。)
でも、彼らは映像素材をデータとは思っていないと思うし、「ビッグデータ」の人たちには扱えないデータだからなかったことにされてるんでしょう。
それに送出量だけで考えても、最初の24時間で1局あたり200GB弱のMPEG-TSデータを電波に乗っけてるわけで…
# ネタにマジレスだね。
# かっこうわるくてすみません。
Re: (スコア:0)
地図情報がサイズが大きいのは当然だけど、ゼンリン大活躍かと言われればちょっと違うと思う。
運行情報や通行情報、気象データなどを組み合わせることでより有用な情報になる訳で、データ量だけで云々言うのはおかしい。
ホンダの通行情報が上がってるけど、ライバル社のトヨタや日産にも声をかけて本来虎の子の通行情報を共有合成した自動車メーカーの英断は讃えるべき。あれのおかげで道路の被災情報が詳細把握できたんだよなぁ。
行政がその成果を上手く使いこなせたかどうかは知らないけど。。
逆にデータ量が突出してるtwitterだけど、その中で有用な情報ってどのくらいあったんだ?
玉石混交の情報が行き交って、混乱に輪をかけた部分も大きいんじゃないの?
Re: (スコア:0)
>twitterのデータ
どのような情報がどのように伝わり、あるいは誤解・曲解されて伝わって行くのかを解析するのに有用だと思う。
今知りたいのは、自分が東日本大震災で一番戦慄を覚えた瞬間の多分3月14日、自衛隊や消防のヘリが津波を発見というデマ情報の出処と情報の伝播経路。
デマ情報の報道とほほ同時に福島第一原発建屋の爆発があり、自分自身が一番緊張した瞬間だった。
そのときラジオ福島を聞いていたのだが、津波情報がデマらしいということになるまでラジオのスタジオは情報が錯綜してパニック状態、一段落した後、アナウンサー泣いてました。私も泣きそうだったし。
そういったことも含めて、それこそ「ビッグデータ」を解析してゆく必要があると思う。
ビッグデータは役に立つ (スコア:0)
×単にたくさん集めたデータは役に立つ
◯密かに集めた大量の情報を、個人は特定しませんといいつつ、地域や世代や男女などで勝手に分析するとすげえ役に立つ