Wikipedia内のリンク切れリンクをInternet Archiveへのリンクに置き換えるボット、稼働中 7
ストーリー by hylom
自動で行われていたのか 部門より
自動で行われていたのか 部門より
Webサイトのアーカイブを行っているInternet Archiveプロジェクトが、Wikipedia記事内にあるリンク先が閲覧不能になっているリンクについて、リンク先をInternet Archive内のアーカイブページに置き換える作業を進めている。同プロジェクトの10月1日付けアナウンスによると、すでに900万以上のリンクがInternet Archive内へのリンクに置き換えられているという。
5年以上前から同プロジェクトではWikipedia記事内にあるリンクのリンク先をアーカイブしているそうで、3年前からリンク切れになったリンクを置き換えるボット「IABot」を稼働させているという。これにより、リンク先のページが消滅している場合でもその内容を確認できるようになる。Wikipedia内のInternet Archiveへのリンク900万件のうちおよそ600万件はIABotによって書き換えられたものだそうだ。
同プロジェクトによると、今後はWebページだけでなく、電子書籍や学術論文といった他メディアのアーカイブにもターゲットを広げていきたいという。
accessdate 見てんのか? (スコア:2, 興味深い)
出来るだけ新しいアクセス可能な(HTTP 200が返ってくる)URLに置換してるようだけど、その時点のリンク先にはそこで引用されてる記述は無いんだよ!って状況に何度も遭遇してる
IAのページが404エラーの場合の確認をやらないポンコツBot (スコア:1)
Cyberpower678はいつもよくチェックせずにbotを動かして問題を起こししている、Botの編集依頼する側も依頼する側だ、問題点を言わずにやらせてしまう。
今回ウィキメディア財団のブログで取り上げちゃったけど、どれだけ恥ずかしいことをやってるか運営側はわかってないんだね
しかもブログで彼の本名みたいなのが出てるし
おねがい (スコア:0)
geocities.jpのアーカイブも何卒・・・何卒・・・・!!
Re: (スコア:0)
自分で/save/の後にURLつけて踏むだけのbot動かせばいいじゃん、手動でもいいわけだし
Re:おねがい (スコア:3, おもしろおかしい)
手動での作業に没頭するわけですね
つい。。。。。
Re: (スコア:0)
つhttps://archiveteam.org/index.php?title=GeoCities_Japan
最初からアーカイブにして欲しいぐらい (スコア:0)
ソースにしていたサイトが内容を書き換えることもありえるんだし
スナップショットとして記録がしっかりと残っているものが欲しい