パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

「京都大学オープンコースウェアが終了に。バックアップ推奨するも規約違反が判明」記事へのコメント

    • by Anonymous Coward

      さっきから個人的にbot動かして6329個の動画URLをwaybackに保存し始めたので、多分今日中に保存が終わるはず。
      閉鎖される9月末まで新しい動画は投稿され続けるだろうけど、とりあえず今日までの分だけ。
      抜けてるのあったら個別でSave Page NowにURL入れて各自保存してくれ。

      • by Anonymous Coward

        後学のためにもどうやって保存しているか教えていただきたいです。
        私の勘違いでなければwgetやHeritrixを使って.warcを生成しInternet ArchiveにアップロードしてもWayback Machineには反映されない気がするのですが…

        ArchiveTeamのArchiveBotとかでしょうか?

        • by Anonymous Coward

          YouTubeの動画URLがSave Page Nowで保存されると、Internet Archive内部で動いてるbotが自動で動画ファイルを保存し始める仕組みに数年前からなってるので、この流れを利用してWaybackから見れるようにすることができる。
          動画が保存されてWaybackのページ上から見れるようになるまで少し時間かかるし、抜けが多くなるので完璧にはできないけど、全部失うよりはマシ。
          warcファイル作ってアップロードしたりArchiveTeamに頼らなくとも、個人でも簡単にできますよ。
          Save Page NowにURLを入れて保存しとけ!ただそれだけです。

          • by Anonymous Coward

            つまり何かしらの手法で6329件のURLを抽出した後、web.archive.org/save/example.comに6329回POSTを投げるか、SeleniumなどでSave Page Nowの操作を自動化しているということでしょうか?

            URLが数件ならSave Page Nowが手っ取り早いのには同意しますが、数千件にまでスケールできるとは…

            • そんな感じ。

              手動になるけど、チャンネルの動画一覧のページをブラウザで開いて、スクロールバーが止まるまで下げていけば(スペースキー押しっぱなし)、公開されてる全ての動画を一覧表示できる。
              https://www.youtube.com/user/KyoDaiOcw/videos [youtube.com]
              今回はこのページね。あとはブラウザのコンソールや開発ツールから完全なHTMLコードを取り出して、「watch?v=動画ID」が含まれるURL文字列を抽出すればいい。短い動画は「short」が含まれるURL。

              #YouTubeのAPIはログイン必要だし、Googleに睨まれると嫌だから使ってない。
              #Twitterで特定アカウントのツイートURLを抽出するなら、snscrapeで抽出できるんだけど、これのYoutube版URL抽出ツールを誰か作ってくれないかなって思ってる。

              親コメント
              • by Anonymous Coward

                なるほど、参考になりました。

                ちなみにYouTubeのURL抽出はyt-dlpを使用して

                yt-dlp --simulate --dump-single-json --flat-playlist https://www.youtube.com/user/* [youtube.com] > list.json

                で出てきたjsonをgrepするのが手っ取り早いと思います。

              • by Anonymous Coward

                返信遅れましたが、そのコマンドでjsonからURL抽出するコードを作ってコマンドラインから一瞬で取り出せるようにできました。
                さらに高速化出来るようになりました。ありがとうございます!

計算機科学者とは、壊れていないものを修理する人々のことである

処理中...