パスワードを忘れた? アカウント作成
13951356 story
Google

Google、robots.txtの仕様のWeb標準化を目指す 30

ストーリー by hylom
標準化されてなかったのか 部門より

Googleが、検索エンジンなどのクロールボット(クローラ)に対しクロール禁止などの指示を出すためのファイル「robots.txt」の仕様の標準化を目指すことを発表した(ドラフト案ITmedia)。

robots.txtの仕様は「REP(Robots Exclusion Protocol)」や「Robots Exclusion Standard」などと呼ばれている。多くのクローラはこのファイルを確認してクロール頻度やインデックスの制御を行っているが、標準化されていないためにクローラによって解釈が異なったり、一部のクローラのみが認識するディレクティブが存在するといった状況になっていた。

あわせてGoogleはrobots.txtを解釈するためのライブラリ「robotstxt」も公開している。

  • by Anonymous Coward on 2019年07月05日 19時43分 (#3646877)

    クールなURIは変わらない
    https://www.kanzaki.com/docs/Style/URI [kanzaki.com]

    URIに「robots.txt」のように拡張子を入れるべきではありません。
    将来、テキストファイルが使われなくなるかもしれないからです。

    「robots」にすべきです。

    ここに返信
    • 根本的に勘違いしてるで。
      取得できるリソースのフォーマットがテキストファイルであることを示すために、「txt」拡張子がついてるんやで?
      もしテキストファイルでなくなったとしたら、あわせて別の拡張子に変えたらええんや。よって、拡張子をなくすべきだという根拠にならへんな。

      URIに内部仕様を含めてしまうのは愚かやが、外部仕様は別や。

    • by Anonymous Coward on 2019年07月06日 6時14分 (#3647085)

      そのURL、昔は http://www.kanzaki.com/docs/Style/URI [kanzaki.com] じゃなかったっけ? (なおリダイレクトはする模様)
      マジレスしとくと、これからつけるなら当然拡張子は省略すべきだが、すでに robots.txt という名前で広く知られているものを変えるのはむしろ「クールなURIは変わらない」の趣旨に反している

    • by Anonymous Coward

      ASCIIコード体系が滅ぶとでも?

      • by Anonymous Coward

        ローマ人がローマが滅ばないと思っていたとでも?

    • by Anonymous Coward

      URIが使われなくなるかもしれないのに?

      • by Anonymous Coward

        実際GoogleはURIを滅ぼしたがってるしスマホアプリになってURIは消えつつあるな

  • なんで検索エンジンからの収集されないようにしたい人がRobots.txtを作らないとダメなんだろう。
    むしろ収集させてくださいってお願いに来るべきだろう。
    SEO対策だの検索エンジンから上位に上げたい人は好きにやってくれって感じ
    正直標準化しようが 収集を勝手にするなといいたい

    ここに返信
    • 一応ここ「ワールドワイド」ウェブなので…

    • by Anonymous Coward

      なんでデータを収集されたくない人間がWebにリソースを公開しているんだろう?

      • by Anonymous Coward

        別に、普通にクローズドな仲間内の情報交換の為のHPだってあるだろ。
        そういう場合は収集されたくはないわな。

        • by Anonymous Coward

          そういう場合はHPを鍵垢にしておけばいいのでは?

          • by Anonymous Coward

            え?

            • by Anonymous Coward

              Webって駅の掲示板ですよ。誰でも見えるし、大勢に見せるための物。
              たとえ隅っこの誰も見ないようなとこでも公開情報に変わりない。
              見せたくないものはWebに載せない、載せるなら鍵をかけるのが当たり前。

              • by Anonymous Coward

                一般のウェブサイトでどうやったら鍵垢になるの?

              • by Anonymous Coward

                認証について勉強しろ

      • by Anonymous Coward

        むしろ収集させてくださいってお願いに来るべきだろう。

        なんでデータを収集されたくない人間がWebにリソースを公開しているんだろう?

        Aさん 「ストリートビューにのせるなら各戸から了承を得ろ」

        Bさん 「ストリートビューにのせたくないなら住むな」

        みたいな?

        • by Anonymous Coward

          それよりも電話帳の方が近いのでは

        • by Anonymous Coward

          でも実際ストビュー避けできてる地区もありますよね

      • by Anonymous Coward

        撤回に終わったスラドの新システム
        なして「スクリプト経由の表示に」したのかを知りたいところ

      • by Anonymous Coward

        ダークウェブ「え?」

    • by Anonymous Coward

      > なんで検索エンジンからの収集されないようにしたい人がRobots.txtを作らないとダメなんだろう。

      そっちの方が社会的なコストが安くて済むから
      現状は(収集許可 ≫ 収集不許可)なので、不許可の少数がコストを支払う方が全体として安くすむ
      不等号が逆になったらデフォルト不許可で robots.txt を書いた人だけ収集ということもありえる。
       

    • by Anonymous Coward

      世界中の人に読まれてもいいものだけウェブに置いとけよ。

    • by Anonymous Coward

      無断リンク禁止☆ミ

  • by Anonymous Coward on 2019年07月05日 17時07分 (#3646778)

    そこにはJSONとなったrobots.jsonがいた...

    #JSON氏ね!!

    ここに返信
    • by Anonymous Coward

      #JSON氏ね!!

      なんで?
      親でも頃されたの?

      • by Anonymous Coward

        湖のそばでキャンプしてたんだろ

    • by Anonymous Coward

      25年間変わらなかったデファクトスタンダードが5年ぽっちで変わるかね?

      • by Anonymous Coward

        流石に四半世紀は経ってないだろ、と思ったら Wikipedia の記事に...

        > "robots.txt" は、1994年ごろWebCrawlerという検索エンジンで働いていた Martijn Koster が考案したとされている。1994年6月に robots-request@nexor.co.uk というメーリングリストのメンバーが合意して生まれた[1]。"robots.txt" はその翌年AltaVistaなどの検索エンジンが登場すると共に一般化していった。

        あの時代からもうそんなに経つのか…

    • by Anonymous Coward

      JSONという聞いたこともない気味の悪い拡張子…

typodupeerror

Stableって古いって意味だっけ? -- Debian初級

読み込み中...