パスワードを忘れた? アカウント作成
14029275 story
インターネット

Internet Archive、保存されたWebページの異なるバージョンを比較する機能などを追加 17

ストーリー by headless
活用 部門より
Internet Archiveは18日、Wayback Machineに保存された同じWebページの異なるバージョンを比較できる「Changes」機能など、複数の新機能追加を発表した(Internet Archive Blogsの記事BetaNewsの記事gHacksの記事)。

ベータ版として提供されているChanges機能では、表から2つのバージョンを選択して「Compare」をクリックすると変更部分にハイライトが入った2つのバージョンが並べて表示される。年ごとに分けられた表は行が月、列が日を示し、変更の度合いによってセルの色も変化する。同じくベータ版として提供されている「Collections」機能では、指定したページのスナップショットが保存理由別に一覧表示される。これらの機能はInternet Archiveに保存されたWebページの検索結果画面でカレンダーと切り替えて表示可能だ。

Webページによっては1日に非常に多数のスナップショットが保存されることもあるが、これまで検索結果のカレンダーでは一部しか選択できなかった。今回の更新により、保存時間の差が秒単位のものも含め、すべてのスナップショットが表示されるようになっている。また、ユーザーが指定したWebページのスナップショットを保存する「Save Page Now」機能では、最近の更新でリンク先ページの同時保存も可能になっている。

Internet Archiveによると、平均的なWebページは3か月以内に内容が変更されたり、削除されたりするという。Webページに掲載されていた情報にアクセスできなくなる「デジタル情報の絶滅」と戦うため、新たな手段をWayback Machineが提供するとのことだ。
  • by Anonymous Coward on 2019年10月22日 12時34分 (#3704656)

    機能強化よりもデータが残ってる事のほうが重要なんですが
    ※最初から記録されてなかったのかな…

    ここに返信
    • by Anonymous Coward

      別に残らなくてもいいんじゃないんですかね。
      残ってほしくない人もいるでしょうし。
      全てのものは永遠じゃない。消えたら消えたで、仕方がないと諦めがつけられるという能力も人にとっては必要かと。
      デジタルデータだって、電気がなきゃ意味のない程度のものですし。

    • by Anonymous Coward

      自分で保存しなさいよ

    • by Anonymous Coward

      Internet Archive のデータって,権利的に問題ないの?
      お気にのサイトが消えちゃったから
      同じように,自分で運営していいならしたい

      • by Anonymous Coward

        問題あるかどうかは別として、利用者からの保存依頼や収集済みサイトからのリンク先に対してロボットではじいてなければ取得する方針
        一応「問題あったら消すから連絡してね」メールが収集対象ページ内にメールアドレスが書いてあれば来るようになっている

        • by Anonymous Coward

          オプトアウトとはいえ,一応,連絡はしているんですね

          本当は,元サイトに確認できたら一番なんですけどね
          ありがとうございます

    • by Anonymous Coward

      基本的には最初のスナップショットはユーザーからの保存依頼(URLいれてボタンを押す)という行為をしなければ保存されません。
      (既に保存されているサイトからのリンクでも自動保存されるようになりますが、最近のWebサイト構造上、そっちで引っかかるのは稀です)
      それ以降はクロールされるようになりますが、ロボット除けされているとそもそもボタン押しても保存されませんし、
      クロールタイミングもサイトによってまちまちです。必要なら自分で保存しましょう。

      • by Anonymous Coward

        >それ以降はクロール
        そういう機能はないです

    • by Anonymous Coward

      昔のWebページは、意外と残ってるけど、最近のWebページは意外と残ってないと感じる。
      昔はWebページ自体すくなかったからかな、すごいマイナーなWebページなのに残ってたよ

      • by hjmhjm (39921) on 2019年10月24日 3時53分 (#3705497)

        素直な静的ページばかりだったからでは。
        つくって一度サーバーにアップロードすれば、あとはほったらかしでよかったし、いっそ忘れてしまってもほとんど問題なかった。

        最近(でもないけど)は、動的コンテンツがあたりまえで、レイアウトも凝ってる。
        維持するなら保守みたいな作業が必要になりがちで、だったらいっそあきらめて削除のほうがラクだったり。

  • by Anonymous Coward on 2019年10月22日 12時49分 (#3704664)

    1分に15回以上リクエスト出すなってエラーが出るようになってるけど、1つのページの画像やスクリプトファイル含めたら15回なんかあっという間だぞ
    誰だよこの制限かけたIAのやつは

    ここに返信
    • by Anonymous Coward

      300baudのカップラーで通信していればあまりエラーは出ないかも。

  • by Anonymous Coward on 2019年10月22日 17時54分 (#3704749)

    レトロゲーの攻略サイトなんて、その多くが消えてしまったので、
    Internet Archiveがなければふと懐かしくなったときに見ることもできない。

    ただURLを記録していない場合みつけられなくなるんだよなぁ…。
    でもキーワード検索が最近だいぶ良くなってるみたい。

    ここに返信
  • by Anonymous Coward on 2019年10月25日 22時40分 (#3706633)

    削除が予想されるURLの事前登録は理解できるのか。事前登録でKeep。削除されたみたいならば使う

    ここに返信
typodupeerror

※ただしPHPを除く -- あるAdmin

読み込み中...