アカウント名:
パスワード:
いったい10 ペタバイトのアーカイブの何%が実際に有用なデータなことか
テレビ番組の受け売りですが、東京国立近代美術館フィルムセンターの方が「重みづけをせず収集することに意義がある。後世で重要となるフィルムを収集しそこなうことがあってはならない。」といったことを仰っていました。
http://extreme-social-media.com/ [extreme-social-media.com]
フィルムセンターの収集している映画って、全然評価されていない映画もあったりするんだよ。
原則として現代の商業映画以前が対象なので、芸術品と評価されているものだけなら、フィルムセンターなどという組織・設備は不要だし。
モノの価値なんてものは、評価するその時代のその人達に依存しているものなので、10年前は駄作と呼ばれていたのに値段が倍になったり、50年経ったら傑作、100年経ったら美術館、博物館に並んだりする。
同じテレビ番組で明治大学米沢嘉博記念図書館の紹介をしていた時も同じような趣旨の説明がなされていたので、こういった学術分野ではよくある手法なのかな、と思って見ていました。インターネット上のコンテンツは自動収集がかなりのところ可能でしょうから、自動で収集してアーカイブしてしまうという欲望を抑えきれない人がいてもいいんじゃないかなとは思いますけどね。
インターネットのほうが集めて取っておくの楽なんですから、もっとどんどんやればいいんじゃないですか。
# 誰が等価に考えているんだろうか? ただの一例だと思うけど。# 等価でなければ話もできないなんてバカな話はないだろうし。
細かい利用法は後世の人に任すとして、とりあえず「系まるごと」として保存しましょってことなんじゃないの? よく知らないけど。そこで個々のデータの価値がーーとか気にし出しちゃうと、それこそとてつもなく重要な何かが失われてしまう気がする。よくわかんないけど。
まともな研究者ならそれがいかに馬鹿げていることかってのがわかるはずですけど。たとえば現代人の文化の研究のためとかいって渋谷や新宿の駅前に24時間カメラとマイクを立てて毎日サンプリングした何十年分にも及ぶ映像をそのままアーカイブして後世の役に立つ、なんて真顔で言う研究者なんていませんよ。それがいかに馬鹿げたことかを知っているからです。
うーーんそんなん言われたら話が終わってしまう…。まあ続けるおつもりもないのかもしれないけど、せめてどう馬鹿げているのかとか、インターネットアーカイブはどう変わるべきなのかとか、ヒントでもお聞かせ願えれば。
渋谷と新宿を24時間365日録画したデータ1000年分が積み上がっていたとして、それを誰が見るんですか?
それ、気象学や文化人類学、歴史家あたりからすれば涎が出そうなデータだと思うなあ他にも犯罪学とか色々活用できそうな
白亜紀の地層の土すべてが必要なわけではなくて研究者はそこから化石や遺物を掘り出しすわけですよね。で、掘り出した土に価値は無いでしょ。恐竜の化石と並べてほった土を全量展示してます?していないですよね。必要な物を取り出したあとに不要な土(つまりゴミ)が出てるじゃないですか。それと同じ事だと思いますけど、違いますか?
その研究者にとっちゃ土以外が必要だろう。でも地質学者にとっちゃ土が必要だ。何が必要かなんて、それを見る人が決めること。
その人にとって不要なだけであって、その土を必要とする人が他にいるかもしれない。何が必要で何が不要かを決めるのは今の我々ではなく後の人々。我々はただ残しておけばいいのだよ。
渋谷の話に戻すが、「毎年8月1日正午に交差点を渡っている妙齢の美人の服装」という感じでサンプリングして変化を追うことに使えるよ。
図書館が新聞(の縮小版)を保管するのと似たようなものでしょ。あれに対して、全ページを見返す人はいないからこんなものは要らないという人はいないと思う。
# データ量が多いから圧縮を考えろというのは別の話
結局「馬鹿げてる」以上のお説は出てこなかったので、ちょっと残念。気まぐれで否定してみたかっただけなのかな。みなさんも指摘してるとおり、土に価値がないと思ったら大間違いだよ。それと、インターネットアーカイブはその名のとおり、第一義的にはアーカイブ(保存する場所)であって、ただの展示場だと考えてるんならそれもちょっと違うと思うよ。
お前が馬鹿ということは十分にわかった。
そうじゃなくて、「バ、馬鹿、あなたのために録画したんじゃないんだからねっ!」とやらないとギスギスするじゃないですか。
千年前、平安時代か。平安時代の街角ウォッチングなんて、研究者じゃない一般人ですら相当な需要があると思うぞ。しかも平安から平成まで数十年ごとに並べて観察できるとか最高じゃないか。
同意。千年間の定点観測データなんて、それでその地方の資料館が作られるレベルだわ。その観測映像データの早送り装置があるだけでも面白そうだ。
いないのか?いるけれど、プライバシー面で難しいからやってないだけかと思っていた。
例えば「江戸の城下町の賑わう一角にて、そこで聞こえてきた言葉を何十年もの間ひたすら記してきた紙束」なんてものが今見つかったら、当時の風土の研究には大いに役立つとは思うけれどね。
後世の歴史研究家にはものすごく役に立つんじゃね?まともな研究者なら、馬鹿げてるどころか望むところだと思うがね。権利の問題とかプライバシーとかの意味で馬鹿げている、という研究者ならいるかもしれないが。
そもそもにして、何をもって役に立つのか定義しないことには話にならない。個人レベルで見れば、全体の50%以上は役に立つ情報だと思うしな。大抵の情報は、世界の誰かしらには役に立つだろうから。自分主観や狭い視点でしか見れなければ、殆どが無駄と考えてしまうんだろうけど。
自分自身にとって役に立つ、という意味でなら1%どころか0.0001%もあるかどうか怪しいだろう。しかし世界全体、更には現在だけではなく何百年何万年先の未来も含め、ついには外宇宙生命体が干渉してくる可能性すら考慮すればそれこそ逆に無駄な情報の方が少ないのではないだろうか。何百年先にデータが残ってないなんて言わないように。消える前にバックアップを繰り返して残していくかもしれないしな。
そうそう優れたデータだけを残した例が焚書だとかになるけれどどれも評判がわるいですよね。
まったく現在は当たり前で価値がないと思うものに限ってあとから有効になる例も多くありますね。日本語の古代の発音でハ行がパ行で発音していたのだろうというのも室町時代のなぞなぞなんかが手がかりになっているし。
いや、別に役に立つんじゃね?平安とか鎌倉とかの映像があればおもしろいと思うんだけど?
> それがいかに馬鹿げたことかを知っているからです。
この意見には同意。自分自身のキャリアには何の役にもたちませんからね。
自分自身のキャリアには役に立たないけど、後世の人のために働いた人は偉人と呼ばれます。
とりあえずあなたの知ってるそういうことを言う研究者の研究分野を明らかにしてください。
大学で数学者の先生がいってましたが、「数学者は好きなことして遊んでいればいい。そのうち物理屋と工学屋さんが実用的なものにしてくれるから」とか言ってました。研究って役に立つかどうかだけ考えてするものじゃないと思うんですよね。そういうのを考えるものももちろんあって、上の人はそういう狭い世界だけを見てきたのかもしれないですが。
いや、Webは映像じゃなくて大半が検索性の高いテキストデータですから。あなたの馬鹿な発言にも、検索さえすれば容易に辿りつけるでしょ。
コストが現実的な範囲で収まるなら、案外役に立つんじゃないか?後世、人間が見なくても、大量のデータを機械的に処理することでかなり有意義なデータを抽出できると思う。
※50年とか80年とかならね。多分、まともにやったら10年も出来ない気がする。
ゴミクズを分別するとかいう発想自体が馬鹿の極み
今その時点・時代でのゴミデータはいらないと言うならそもそもこのアーカイブ行為が無駄だから。
五重塔の落書きとか当時からしたらゴミ、それどころか建設主からしたら犯罪的な行為でしょうけど、今その歴史的価値に関して、ゴミデータだっていう人居ないですよね?
遺跡の中からたった1つ掘り出されるから価値があるのであって、どこの庭でも1m掘り下げれば出てくるようなものなら誰も見向きもしないんじゃないですか。
どこの庭からでも出てくるものでも、時間の経過で失われるのであれば、それは未来において有用。人間の居住区域の何%分*時間経過の情報があるとしたらとても有用。
>誰も見向きもしないんじゃないですか。君の想像力、見識が足りないから意味を見いだせないだけ。
> どこの庭でも1m掘り下げれば出てくるようなものそうじゃないから、InternetArchiveが保存しようとしてるわけで。どのサーバーでも(サービス提供を終了したものも含む)将来にわたって過去のデータを閲覧できるような仕組みになっていればわざわざ保存しようとしないでしょう。
元コメでは「いずれ」とありますから、 現在がどうこうってことじゃないんじゃないすかね?(・_・ )
浮世絵は船便の梱包材として使われて、西洋に伝わったという例もありますね。
千年前の落書きに「ゴミクズを分別するとかいう発想自体が馬鹿の極み」なんて書かれていたらとても興味深いと思わないか。
データに対してわざわざ「文化的に無価値かどうか」判定をする位なら全部保存した方が良いでしょう。あと、スパムだろうがマルウェアだろうがそこに文化的価値が全く無いとは思えないし、データの蓄積にあたって重複排除位は当然しているだろう。
つまりウンコも瓶詰めして保存したほうがいいということだな。
保存コストとのご相談だけれどね。
将来、そういったスパムの量の分析などに価値を見出すかもしれないじゃないですか。
#Internet Archiveにはスパムメールは収集されていないと思いますが
洞窟の壁に落書きした人も数千年後に貴重がられるとは思わなかったでしょうね。
江戸時代の町人の日記とか。当時はどこにでもあるただの日常を記しただけの雑記だけど、数百年後の今となっては貴重な歴史的/文化的な資料だしね。武士が記した家計簿とか宴会の献立とかもあるんだっけか。
残せるうちはなんでも残せばいいんだよ。重複しててもいいじゃない。ないよりはある方がいいに決まってる。後の世に、重複してることに資料的意味を見出す人が出てくるかもしれないし。
文化は高尚なモノではないのですよ。
ゴミが多いことに関しては同意なのですが、他者の意図の入ってない生のデーターですよ。分類や分別が大変でも、それは後の時代の研究者の研究目的に沿ったものでなければならない訳です。
1000年前のインタネットに流れているトラフィックの90パーセントはスパムやマルウェアでしたという史実が分かるんだからそれでいいのでは?
ポンペイの落書きみたいなのを意図的に残そうという試みなんじゃないの?
歴史を持たない国らしい発想。
wayback machine で拾わせてもらったデータもけっこうあるが、質の優劣で取捨選択する方法論では、人類の 8.3e-9%つまりわしの価値観に合ったコンテンツは、残ってねェな^^っとは思う。
今は所持しているだけで有罪になるが一昔前はゴロゴロしていたデータなんかどういう扱いなんだろう?
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー
いずれゴミクズデータを破棄する専門業者が必要そう (スコア:0)
いったい10 ペタバイトのアーカイブの何%が実際に有用なデータなことか
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:3, 興味深い)
テレビ番組の受け売りですが、東京国立近代美術館フィルムセンターの方が「重みづけをせず収集することに意義がある。
後世で重要となるフィルムを収集しそこなうことがあってはならない。」といったことを仰っていました。
Re: (スコア:0)
http://extreme-social-media.com/ [extreme-social-media.com]
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:5, すばらしい洞察)
フィルムセンターの収集している映画って、全然評価されていない映画もあったりするんだよ。
原則として現代の商業映画以前が対象なので、芸術品と評価されているものだけなら、フィルムセンターなどという組織・設備は不要だし。
モノの価値なんてものは、評価するその時代のその人達に依存しているものなので、10年前は駄作と呼ばれていたのに値段が倍になったり、50年経ったら傑作、100年経ったら美術館、博物館に並んだりする。
Re: (スコア:0)
同じテレビ番組で明治大学米沢嘉博記念図書館の紹介をしていた時も同じような趣旨の説明がなされていたので、
こういった学術分野ではよくある手法なのかな、と思って見ていました。
インターネット上のコンテンツは自動収集がかなりのところ可能でしょうから、自動で収集してアーカイブしてしまうという
欲望を抑えきれない人がいてもいいんじゃないかなとは思いますけどね。
Re: (スコア:0)
インターネットのほうが集めて取っておくの楽なんですから、
もっとどんどんやればいいんじゃないですか。
# 誰が等価に考えているんだろうか? ただの一例だと思うけど。
# 等価でなければ話もできないなんてバカな話はないだろうし。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:2)
細かい利用法は後世の人に任すとして、とりあえず「系まるごと」として保存しましょってことなんじゃないの? よく知らないけど。
そこで個々のデータの価値がーーとか気にし出しちゃうと、それこそとてつもなく重要な何かが失われてしまう気がする。よくわかんないけど。
Re: (スコア:0)
まともな研究者ならそれがいかに馬鹿げていることかってのがわかるはずですけど。
たとえば現代人の文化の研究のためとかいって渋谷や新宿の駅前に24時間カメラとマイクを立てて毎日サンプリングした何十年分にも及ぶ映像をそのままアーカイブして後世の役に立つ、なんて真顔で言う研究者なんていませんよ。それがいかに馬鹿げたことかを知っているからです。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:3)
うーーんそんなん言われたら話が終わってしまう…。
まあ続けるおつもりもないのかもしれないけど、せめてどう馬鹿げているのかとか、インターネットアーカイブはどう変わるべきなのかとか、ヒントでもお聞かせ願えれば。
Re: (スコア:0)
渋谷と新宿を24時間365日録画したデータ1000年分が積み上がっていたとして、それを誰が見るんですか?
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
それ、気象学や文化人類学、歴史家あたりからすれば涎が出そうなデータだと思うなあ
他にも犯罪学とか色々活用できそうな
Re: (スコア:0)
白亜紀の地層の土すべてが必要なわけではなくて研究者はそこから化石や遺物を掘り出しすわけですよね。
で、掘り出した土に価値は無いでしょ。恐竜の化石と並べてほった土を全量展示してます?していないですよね。
必要な物を取り出したあとに不要な土(つまりゴミ)が出てるじゃないですか。
それと同じ事だと思いますけど、違いますか?
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
その研究者にとっちゃ土以外が必要だろう。
でも地質学者にとっちゃ土が必要だ。
何が必要かなんて、それを見る人が決めること。
Re: (スコア:0)
その人にとって不要なだけであって、その土を必要とする人が他にいるかもしれない。
何が必要で何が不要かを決めるのは今の我々ではなく後の人々。我々はただ残しておけばいいのだよ。
Re: (スコア:0)
渋谷の話に戻すが、「毎年8月1日正午に交差点を渡っている妙齢の美人の服装」という感じで
サンプリングして変化を追うことに使えるよ。
図書館が新聞(の縮小版)を保管するのと似たようなものでしょ。
あれに対して、全ページを見返す人はいないからこんなものは要らないという人はいないと思う。
# データ量が多いから圧縮を考えろというのは別の話
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:2)
結局「馬鹿げてる」以上のお説は出てこなかったので、ちょっと残念。気まぐれで否定してみたかっただけなのかな。
みなさんも指摘してるとおり、土に価値がないと思ったら大間違いだよ。
それと、インターネットアーカイブはその名のとおり、第一義的にはアーカイブ(保存する場所)であって、ただの展示場だと考えてるんならそれもちょっと違うと思うよ。
Re: (スコア:0, すばらしい洞察)
お前が馬鹿ということは十分にわかった。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
そうじゃなくて、「バ、馬鹿、あなたのために録画したんじゃないんだからねっ!」とやらないとギスギスするじゃないですか。
Re: (スコア:0)
千年前、平安時代か。
平安時代の街角ウォッチングなんて、研究者じゃない一般人ですら相当な需要があると思うぞ。
しかも平安から平成まで数十年ごとに並べて観察できるとか最高じゃないか。
Re: (スコア:0)
同意。
千年間の定点観測データなんて、それでその地方の資料館が作られるレベルだわ。
その観測映像データの早送り装置があるだけでも面白そうだ。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
いないのか?いるけれど、プライバシー面で難しいからやってないだけかと思っていた。
例えば「江戸の城下町の賑わう一角にて、そこで聞こえてきた言葉を何十年もの間ひたすら記してきた紙束」
なんてものが今見つかったら、当時の風土の研究には大いに役立つとは思うけれどね。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
後世の歴史研究家にはものすごく役に立つんじゃね?
まともな研究者なら、馬鹿げてるどころか望むところだと思うがね。
権利の問題とかプライバシーとかの意味で馬鹿げている、という研究者ならいるかもしれないが。
そもそもにして、何をもって役に立つのか定義しないことには話にならない。
個人レベルで見れば、全体の50%以上は役に立つ情報だと思うしな。
大抵の情報は、世界の誰かしらには役に立つだろうから。
自分主観や狭い視点でしか見れなければ、殆どが無駄と考えてしまうんだろうけど。
自分自身にとって役に立つ、という意味でなら
1%どころか0.0001%もあるかどうか怪しいだろう。
しかし世界全体、更には現在だけではなく何百年何万年先の未来も含め、ついには外宇宙生命体が干渉してくる可能性すら考慮すれば
それこそ逆に無駄な情報の方が少ないのではないだろうか。
何百年先にデータが残ってないなんて言わないように。
消える前にバックアップを繰り返して残していくかもしれないしな。
Re: (スコア:0)
そうそう優れたデータだけを残した例が焚書だとかになるけれどどれも評判がわるいですよね。
まったく現在は当たり前で価値がないと思うものに限ってあとから有効になる例も多くありますね。
日本語の古代の発音でハ行がパ行で発音していたのだろうというのも室町時代のなぞなぞなんかが
手がかりになっているし。
Re: (スコア:0)
いや、別に役に立つんじゃね?
平安とか鎌倉とかの映像があればおもしろいと思うんだけど?
> それがいかに馬鹿げたことかを知っているからです。
この意見には同意。
自分自身のキャリアには何の役にもたちませんからね。
Re: (スコア:0)
自分自身のキャリアには役に立たないけど、後世の人のために働いた人は偉人と呼ばれます。
Re: (スコア:0)
とりあえずあなたの知ってるそういうことを言う研究者の研究分野を明らかにしてください。
Re: (スコア:0)
大学で数学者の先生がいってましたが、
「数学者は好きなことして遊んでいればいい。そのうち物理屋と工学屋さんが実用的なものにしてくれるから」
とか言ってました。
研究って役に立つかどうかだけ考えてするものじゃないと思うんですよね。
そういうのを考えるものももちろんあって、上の人はそういう狭い世界だけを見てきたのかもしれないですが。
Re: (スコア:0)
いや、Webは映像じゃなくて大半が検索性の高いテキストデータですから。
あなたの馬鹿な発言にも、検索さえすれば容易に辿りつけるでしょ。
Re: (スコア:0)
コストが現実的な範囲で収まるなら、案外役に立つんじゃないか?
後世、人間が見なくても、大量のデータを機械的に処理することで
かなり有意義なデータを抽出できると思う。
※50年とか80年とかならね。
多分、まともにやったら10年も出来ない気がする。
1000年経てば落書きも文化財 (スコア:1, すばらしい洞察)
ゴミクズを分別するとかいう発想自体が馬鹿の極み
Re: (スコア:0)
Re:1000年経てば落書きも文化財 (スコア:1)
今その時点・時代でのゴミデータはいらないと言うならそもそもこのアーカイブ行為が無駄だから。
五重塔の落書きとか当時からしたらゴミ、それどころか建設主からしたら犯罪的な行為でしょうけど、
今その歴史的価値に関して、ゴミデータだっていう人居ないですよね?
Re: (スコア:0)
遺跡の中からたった1つ掘り出されるから価値があるのであって、どこの庭でも1m掘り下げれば出てくるようなものなら
誰も見向きもしないんじゃないですか。
Re:1000年経てば落書きも文化財 (スコア:1)
どこの庭からでも出てくるものでも、
時間の経過で失われるのであれば、それは未来において有用。
人間の居住区域の何%分*時間経過の情報があるとしたらとても有用。
>誰も見向きもしないんじゃないですか。
君の想像力、見識が足りないから意味を見いだせないだけ。
Re: (スコア:0)
> どこの庭でも1m掘り下げれば出てくるようなもの
そうじゃないから、InternetArchiveが保存しようとしてるわけで。
どのサーバーでも(サービス提供を終了したものも含む)将来にわたって過去のデータを閲覧できるような仕組みになっていればわざわざ保存しようとしないでしょう。
Re: (スコア:0)
元コメでは「いずれ」とありますから、 現在がどうこうってことじゃないんじゃないすかね?(・_・ )
Re: (スコア:0)
浮世絵は船便の梱包材として使われて、西洋に伝わったという例もありますね。
Re:1000年経てば落書きも文化財 (スコア:2, すばらしい洞察)
千年前の落書きに「ゴミクズを分別するとかいう発想自体が馬鹿の極み」なんて書かれていたらとても興味深いと思わないか。
データに対してわざわざ「文化的に無価値かどうか」判定をする位なら全部保存した方が良いでしょう。
あと、スパムだろうがマルウェアだろうがそこに文化的価値が全く無いとは思えないし、
データの蓄積にあたって重複排除位は当然しているだろう。
Re: (スコア:0)
つまりウンコも瓶詰めして保存したほうがいいということだな。
Re: (スコア:0)
保存コストとのご相談だけれどね。
Re: (スコア:0)
5300年前のアイスマン、腸の残留物から生活の様子が判明 [wired.jp]
Re:1000年経てば落書きも文化財 (スコア:2)
解析技術もどんどん向上していきますし。順調に進めば、それこそ、ふとした暇つぶしに「ご先祖様の発言と思われる奴を全部リストアップして時代毎にサマリーを作成」などと高機能なデータマイニングAIに命じてみる、ぐらいできるようになるでしょうし。
Re:1000年経てば落書きも文化財 (スコア:1)
将来、そういったスパムの量の分析などに価値を見出すかもしれないじゃないですか。
#Internet Archiveにはスパムメールは収集されていないと思いますが
Re: (スコア:0)
洞窟の壁に落書きした人も数千年後に貴重がられるとは思わなかったでしょうね。
Re:1000年経てば落書きも文化財 (スコア:1)
江戸時代の町人の日記とか。当時はどこにでもあるただの日常を記しただけの雑記だけど、
数百年後の今となっては貴重な歴史的/文化的な資料だしね。
武士が記した家計簿とか宴会の献立とかもあるんだっけか。
残せるうちはなんでも残せばいいんだよ。
重複しててもいいじゃない。ないよりはある方がいいに決まってる。
後の世に、重複してることに資料的意味を見出す人が出てくるかもしれないし。
Re: (スコア:0)
文化は高尚なモノではないのですよ。
ゴミが多いことに関しては同意なのですが、他者の意図の入ってない生のデーターですよ。
分類や分別が大変でも、それは後の時代の研究者の研究目的に沿ったものでなければならない訳です。
Re: (スコア:0)
1000年前のインタネットに流れているトラフィックの90パーセントはスパムやマルウェアでしたという史実が分かるんだからそれでいいのでは?
Re: (スコア:0)
ポンペイの落書きみたいなのを意図的に残そうという試みなんじゃないの?
歴史を持たない国らしい発想。
Re: (スコア:0)
wayback machine で拾わせてもらったデータもけっこうあるが、
質の優劣で取捨選択する方法論では、人類の 8.3e-9%
つまりわしの価値観に合ったコンテンツは、残ってねェな^^
っとは思う。
Re: (スコア:0)
今は所持しているだけで有罪になるが一昔前はゴロゴロしていたデータなんかどういう扱いなんだろう?