アカウント名:
パスワード:
一社でweb記事を焚書するモチベーションを生み出せるってのが恐ろしい
WebArchiveにつっこんでいるのであれば、単に店頭在庫切れ、図書館によろしくでいいのではないかと。
# 検索性? マイクロフィルムだと思えばどっこいどっこい
CNETが積極的にWebArchiveに登録してるならともかく、クローラーによる自動収集でしょ。そしてご存知の通りWebArchiveは完全じゃない。
喩えるなら図書館というより個人所有の本を探してくださいね、に近いと思いますよ。
CNETが削除前に自らInternet Archive / Wayback Machineに登録するんですよ? 原文に書いてあるじゃないですか
Articles set to be deprecated will be sent to the Internet Archive / Wayback Machine. We will do a bulk send to the Internet Archive using the Wayback Machine API.
非推奨に設定された記事は、Internet Archive / Wayback Machineに送信されます。Wayback Machine APIを使ってInternet Archiveに一括送信します。(DeepL翻訳)
https://www.documentcloud.org/documents/23903730-faq-on-cnet-content-p... [documentcloud.org]
削除の決まった記事は事前に Internet Archive の Wayback Machine API を使用して保存されるそうだ。
ってストーリーに書いてあるんですけど
APIを使うってことは積極的に登録するってこと
積極的と言ってもアカウント作ってAPIからやっても同時保存が非ログイン時の4倍ぐらいにしかならないんですよ
CNETはアーカイブしてくれてるけど、皆がアーカイブしてくれる訳じゃ無いからなぁ……誰かがアーカイブ作業してくれないと残らない。
しっかし、新しいだけのページに価値が伴う訳でもないのになんでそんなアルゴリズムなんだろうな。今だと生成AIの吐いたゴミが無限増殖してくだけだろうし……
変化の早い業界だから、古いバージョンのデータとか要らねぇって思ってたんじゃない?新しいページなら、新しい知見やその時の最新バージョンの事を書いてるに違いないという思い込み。
その結果が更新もしてないのにページ題名に今の日付で何年何月最新版の文字列を載せておくスパムサイトだらけになったわけだな
保存と検索のコストの削減じゃね?
人の噂も75日って言うし、まさしくキャッシュのアルゴリズムだな直近の情報へのアクセスだけでほとんどの人は用が済んでいると見なされているんだろう
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
にわかな奴ほど語りたがる -- あるハッカー
web焚書のモチベーション (スコア:0)
一社でweb記事を焚書するモチベーションを生み出せるってのが恐ろしい
Re: (スコア:0)
WebArchiveにつっこんでいるのであれば、単に店頭在庫切れ、図書館によろしくでいいのではないかと。
# 検索性? マイクロフィルムだと思えばどっこいどっこい
Re: (スコア:0)
CNETが積極的にWebArchiveに登録してるならともかく、クローラーによる自動収集でしょ。そしてご存知の通りWebArchiveは完全じゃない。
喩えるなら図書館というより個人所有の本を探してくださいね、に近いと思いますよ。
Re:web焚書のモチベーション (スコア:1)
CNETが削除前に自らInternet Archive / Wayback Machineに登録するんですよ? 原文に書いてあるじゃないですか
https://www.documentcloud.org/documents/23903730-faq-on-cnet-content-p... [documentcloud.org]
Re: (スコア:0)
ってストーリーに書いてあるんですけど
APIを使うってことは積極的に登録するってこと
Re: (スコア:0)
積極的と言ってもアカウント作ってAPIからやっても同時保存が非ログイン時の4倍ぐらいにしかならないんですよ
Re: (スコア:0)
CNETはアーカイブしてくれてるけど、皆がアーカイブしてくれる訳じゃ無いからなぁ……
誰かがアーカイブ作業してくれないと残らない。
しっかし、新しいだけのページに価値が伴う訳でもないのになんでそんなアルゴリズムなんだろうな。
今だと生成AIの吐いたゴミが無限増殖してくだけだろうし……
Re: (スコア:0)
変化の早い業界だから、古いバージョンのデータとか要らねぇって思ってたんじゃない?
新しいページなら、新しい知見やその時の最新バージョンの事を書いてるに違いないという思い込み。
Re: (スコア:0)
その結果が更新もしてないのにページ題名に今の日付で何年何月最新版の文字列を載せておくスパムサイトだらけになったわけだな
Re: (スコア:0)
保存と検索のコストの削減じゃね?
Re: (スコア:0)
人の噂も75日って言うし、まさしくキャッシュのアルゴリズムだな
直近の情報へのアクセスだけでほとんどの人は用が済んでいると見なされているんだろう