アカウント名:
パスワード:
HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、以前ではスパムが送られてきていなかったアドレスがスパムリストに載ってしまったという。
そのJavaScriptを認証によるアクセス制限のかかっていないところに置いている時点で全然隠匿できてないわけだが.公開されているスクリプトを実行して,その結果からテキスト抽出することに何の問題もない.
BotはJavaScriptを実行できないという、メールアドレスの隠匿とは本来全然関係ない勝手な仮定が破綻しただけの話ですよね。Googleがやらなくたってspam業者が自前で走らせているbotはそのうちやるようになるに違いありませんし。
robots.txt等無視してるならクローラーが悪いんだろうけど,そういうことではなく「スクリプトまでは解釈しないだろ」っていう一方的な思い込みが裏切られたってことですからねぇ.
HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、
これだって,ブラウザはJavascriptを実行した結果として得られたHTMLを表示しているわけであって,同じHTMLからクローラーが抽出してるだけですし.
そのスクリプトが操作しているのはDOMであってHTMLじゃないとか,クローラーはブラウザに搭載されているエンジンほどは忠実にスクリプトを実行しておらず,特定のコードのパターンから文字列連結などで推定しているだけかもしれないとか,いろいろと反論することは可能ですが,やっぱりrobots.txtで明示的に意思表示しておく必要があると思います.
まぁそれでも非紳士的なクローラはたくさんありますし,本文も抽出するようなソーシャルブックマークに登録されてしまえばそっち経由で漏れますが.
逆に考えるんだ。「Googleを監視すれば悪質業者の手口が解析できる」と考えるんだ。
ブラウザ(おそらくFirefox)に独自開発アドオン組込んでbotにしていて、フルオートでクロール。JSやらFlashやらで秘匿されていようと問題なく収集する。スパム業者はそんなシステムを作って運用していると、もうかれこれ3年来信じています。だって当時そうとしか思えないところからアドレス漏れたもん。
今はJS対応botシステムくらい闇マーケットで販売してるんじゃないですか?そんでCAPCHA破りから流れてきた技術で画像から盗るOCRも載ってて不思議じゃないです。
そして旬な技術として「sample [at] example.com」 みたいな@置き換えを解読するアルゴリズムの開発を競ってやっているんじゃないかなと予想してますよ。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
計算機科学者とは、壊れていないものを修理する人々のことである
隠匿してない (スコア:5, すばらしい洞察)
そのJavaScriptを認証によるアクセス制限のかかっていないところに置いている時点で全然隠匿できてないわけだが.
公開されているスクリプトを実行して,その結果からテキスト抽出することに何の問題もない.
屍体メモ [windy.cx]
Re:隠匿してない (スコア:3, すばらしい洞察)
BotはJavaScriptを実行できないという、メールアドレスの隠匿とは本来全然関係ない勝手な仮定が破綻しただけの話ですよね。
Googleがやらなくたってspam業者が自前で走らせているbotはそのうちやるようになるに違いありませんし。
robots.txt等無視してるならクローラーが悪いんだろうけど (スコア:1)
robots.txt等無視してるならクローラーが悪いんだろうけど,
そういうことではなく「スクリプトまでは解釈しないだろ」
っていう一方的な思い込みが裏切られたってことですからねぇ.
これだって,ブラウザはJavascriptを実行した結果として得られたHTMLを表示しているわけであって,
同じHTMLからクローラーが抽出してるだけですし.
そのスクリプトが操作しているのはDOMであってHTMLじゃないとか,
クローラーはブラウザに搭載されているエンジンほどは
忠実にスクリプトを実行しておらず,特定のコードのパターンから
文字列連結などで推定しているだけかもしれないとか,
いろいろと反論することは可能ですが,やっぱりrobots.txtで
明示的に意思表示しておく必要があると思います.
まぁそれでも非紳士的なクローラはたくさんありますし,
本文も抽出するようなソーシャルブックマークに
登録されてしまえばそっち経由で漏れますが.
屍体メモ [windy.cx]
参考までに (スコア:2, 参考になる)
> っていう一方的な思い込みが裏切られたってことですからねぇ.
Web屋が新人教育やSEOの文脈で話す際は、
「現時点では全てのクローラーがJavaScriptを解するワケでは無い」
と、説明しています。
即ち、完全に意図通りに動くかどうかは兎も角として、
(また、その結果をDB等へ反映させるか否かは兎も角として、)
JavaScriptを解するクローラーが存在している事は知られていました。
Re:参考までに (スコア:1)
あらゆるクローラなんて把握できないし.
Re: (スコア:0)
逆に考えるんだ。「Googleを監視すれば悪質業者の手口が解析できる」と考えるんだ。
Re: (スコア:0)
Re: (スコア:0)
そのうちじゃなくてもう3年も前から (スコア:0)
ブラウザ(おそらくFirefox)に独自開発アドオン組込んでbotにしていて、フルオートでクロール。JSやらFlashやらで秘匿されていようと問題なく収集する。スパム業者はそんなシステムを作って運用していると、もうかれこれ3年来信じています。
だって当時そうとしか思えないところからアドレス漏れたもん。
今はJS対応botシステムくらい闇マーケットで販売してるんじゃないですか?
そんでCAPCHA破りから流れてきた技術で画像から盗るOCRも載ってて不思議じゃないです。
そして旬な技術として「sample [at] example.com」 みたいな@置き換えを解読するアルゴリズムの開発を競ってやっているんじゃないかなと予想してますよ。