アカウント名:
パスワード:
たいとるおんりー
さっきから個人的にbot動かして6329個の動画URLをwaybackに保存し始めたので、多分今日中に保存が終わるはず。閉鎖される9月末まで新しい動画は投稿され続けるだろうけど、とりあえず今日までの分だけ。抜けてるのあったら個別でSave Page NowにURL入れて各自保存してくれ。
後学のためにもどうやって保存しているか教えていただきたいです。私の勘違いでなければwgetやHeritrixを使って.warcを生成しInternet ArchiveにアップロードしてもWayback Machineには反映されない気がするのですが…
ArchiveTeamのArchiveBotとかでしょうか?
YouTubeの動画URLがSave Page Nowで保存されると、Internet Archive内部で動いてるbotが自動で動画ファイルを保存し始める仕組みに数年前からなってるので、この流れを利用してWaybackから見れるようにすることができる。動画が保存されてWaybackのページ上から見れるようになるまで少し時間かかるし、抜けが多くなるので完璧にはできないけど、全部失うよりはマシ。warcファイル作ってアップロードしたりArchiveTeamに頼らなくとも、個人でも簡単にできますよ。Save Page NowにURLを入れて保存しとけ!ただそれだけです。
つまり何かしらの手法で6329件のURLを抽出した後、web.archive.org/save/example.comに6329回POSTを投げるか、SeleniumなどでSave Page Nowの操作を自動化しているということでしょうか?
URLが数件ならSave Page Nowが手っ取り早いのには同意しますが、数千件にまでスケールできるとは…
別ACだけど最近は制限厳しいからアカウント登録しないと数件投げたところでIP BAN食らうと思うこういう話は5chのInternet Archive総合 [5ch.net]スレが詳しい
そんな感じ。
手動になるけど、チャンネルの動画一覧のページをブラウザで開いて、スクロールバーが止まるまで下げていけば(スペースキー押しっぱなし)、公開されてる全ての動画を一覧表示できる。https://www.youtube.com/user/KyoDaiOcw/videos [youtube.com]今回はこのページね。あとはブラウザのコンソールや開発ツールから完全なHTMLコードを取り出して、「watch?v=動画ID」が含まれるURL文字列を抽出すればいい。短い動画は「short」が含まれるURL。
#YouTubeのAPIはログイン必要だし、Googleに睨まれると嫌だから使ってない。#Twitterで特定アカウントのツイートURLを抽出するなら、snscrapeで抽出できるんだけど、これのYoutube版URL抽出ツールを誰か作ってくれないかなって思ってる。
なるほど、参考になりました。
ちなみにYouTubeのURL抽出はyt-dlpを使用して
yt-dlp --simulate --dump-single-json --flat-playlist https://www.youtube.com/user/* [youtube.com] > list.json
で出てきたjsonをgrepするのが手っ取り早いと思います。
返信遅れましたが、そのコマンドでjsonからURL抽出するコードを作ってコマンドラインから一瞬で取り出せるようにできました。さらに高速化出来るようになりました。ありがとうございます!
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
192.168.0.1は、私が使っている IPアドレスですので勝手に使わないでください --- ある通りすがり
インターネットアーカイブにでも委託保存すれば? (スコア:1)
たいとるおんりー
Re: (スコア:1)
さっきから個人的にbot動かして6329個の動画URLをwaybackに保存し始めたので、多分今日中に保存が終わるはず。
閉鎖される9月末まで新しい動画は投稿され続けるだろうけど、とりあえず今日までの分だけ。
抜けてるのあったら個別でSave Page NowにURL入れて各自保存してくれ。
Re:インターネットアーカイブにでも委託保存すれば? (スコア:0)
後学のためにもどうやって保存しているか教えていただきたいです。
私の勘違いでなければwgetやHeritrixを使って.warcを生成しInternet ArchiveにアップロードしてもWayback Machineには反映されない気がするのですが…
ArchiveTeamのArchiveBotとかでしょうか?
Re:インターネットアーカイブにでも委託保存すれば? (スコア:1)
YouTubeの動画URLがSave Page Nowで保存されると、Internet Archive内部で動いてるbotが自動で動画ファイルを保存し始める仕組みに数年前からなってるので、この流れを利用してWaybackから見れるようにすることができる。
動画が保存されてWaybackのページ上から見れるようになるまで少し時間かかるし、抜けが多くなるので完璧にはできないけど、全部失うよりはマシ。
warcファイル作ってアップロードしたりArchiveTeamに頼らなくとも、個人でも簡単にできますよ。
Save Page NowにURLを入れて保存しとけ!ただそれだけです。
Re: (スコア:0)
つまり何かしらの手法で6329件のURLを抽出した後、web.archive.org/save/example.comに6329回POSTを投げるか、SeleniumなどでSave Page Nowの操作を自動化しているということでしょうか?
URLが数件ならSave Page Nowが手っ取り早いのには同意しますが、数千件にまでスケールできるとは…
Re: (スコア:0)
別ACだけど最近は制限厳しいからアカウント登録しないと数件投げたところでIP BAN食らうと思う
こういう話は5chのInternet Archive総合 [5ch.net]スレが詳しい
Re: (スコア:0)
そんな感じ。
手動になるけど、チャンネルの動画一覧のページをブラウザで開いて、スクロールバーが止まるまで下げていけば(スペースキー押しっぱなし)、公開されてる全ての動画を一覧表示できる。
https://www.youtube.com/user/KyoDaiOcw/videos [youtube.com]
今回はこのページね。あとはブラウザのコンソールや開発ツールから完全なHTMLコードを取り出して、「watch?v=動画ID」が含まれるURL文字列を抽出すればいい。短い動画は「short」が含まれるURL。
#YouTubeのAPIはログイン必要だし、Googleに睨まれると嫌だから使ってない。
#Twitterで特定アカウントのツイートURLを抽出するなら、snscrapeで抽出できるんだけど、これのYoutube版URL抽出ツールを誰か作ってくれないかなって思ってる。
Re: (スコア:0)
なるほど、参考になりました。
ちなみにYouTubeのURL抽出はyt-dlpを使用して
yt-dlp --simulate --dump-single-json --flat-playlist https://www.youtube.com/user/* [youtube.com] > list.json
で出てきたjsonをgrepするのが手っ取り早いと思います。
Re: (スコア:0)
返信遅れましたが、そのコマンドでjsonからURL抽出するコードを作ってコマンドラインから一瞬で取り出せるようにできました。
さらに高速化出来るようになりました。ありがとうございます!