パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

大手キャリア解約ページの検索回避タグ、総務省の指導で削除へ」記事へのコメント

  • by Anonymous Coward on 2021年02月27日 5時48分 (#3985058)

    都合の悪い情報が検索にかからないように、なるべく見られたくない情報は検索エンジンによるインデックスされないようにするのは、大半の営利企業ならやっていることです。

    しかし、安易に見える形でmeta要素でnoindexとするのはレベルが低すぎます。

    超低レベル:
    (html内)

    低レベル:
    (http header内) X-Robots-Tag: noindex

    業界標準レベル:
    (WebサーバレベルでUserAgentで弾く、以下はApacheの例)

    BrowserMatch "Googlebot" deny_bots
    Deny from deny_bots

    Googleのクロール用のBotはUserAgentにGooglebotが含まれます
    これをDenyすればクロールされないし、一般ユーザには「ばれにくい」です。
    これまでやるのが「業界標準」です。

    しかし、これだけでは完璧ではありません。
    UserAgentを詐称するとGooglebotだけを弾いていることがばれる恐れがあります。
    弊社ではIPアドレス(追加されることがある)やクローキングの振る舞いを認識して、本物のGoogleのBotのみ、
    特定のページのみを403 Errorにしてばれないようにクロールを妨害する高度な対策を行っています。

    • 面白い話
      そこまでするほど隠す価値あることが何なのかも気になる
      403っていうとForbiddenかぁ

      親コメント
    • そのページへのリンクしているページが無いとして。
      毎時ファイル名末尾数文字ランダムで変更させたら面白そう。
      上位ディレクトリ名も定期不定期に変更したり。
      存在はしているけどほぼアクセス不能なページができそう。

      そもそも誰もアクセスできないと意味ないですね。

      cronとかに仕込んで操作結果のlogは自分だけが知っててwwwからアクセスできない所に保管。

      #業界知らないド素人目線
      #未だにhtmlはviで書いてます。

      親コメント
    • by Anonymous Coward

      ちなみに、特定のページのみ403 Errorにしてクロールを妨害しても、他のページのクロールには支障がないしサイトがスパム判定されることもないのでSEO上は無問題です
      安心してクロールされたくないページはrobotに対して403にしましょう

    • by Anonymous Coward

      今時、検索エンジンはDuck DuckGoかBingじゃね

      • by Anonymous Coward

        「弊社では」とか書かれているからどこかからのコピペのような気もするけど検索しても出てこない。書き下ろしなのか検索避けが効いているのかはわからんけど。宣伝にしてはURLを貼るでもなし

    • by Anonymous Coward

      論点がズレてる。

      見れないようにする行動自体が問題視されてるので、
      もっと高度な方法で、より見えにくくしろと言ってるわけではない。

      • by Anonymous Coward

        元コメは見えにくくしろと言っているのではなく、
        皮肉と、もっとヒドい手法を使っている企業もありますよっていう問題提起では?

ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家

処理中...