アカウント名:
パスワード:
昔の人は知らないかもしれませんが、今はWebサイトを作ったら必ず「サチコ」(Google Search Console)に登録するのが今の常識です。そこに登録すれば、robots.txt の文法やレスポンスコードに問題がある場合なども、メールとサチコサイト上で教えてくれます。誰にも見てもらえなくても構わないサイトを除ければ、使わないという選択肢は最早ありません。
その他にも、・Google セーフブラウジングがマルウェア配信サイトと認識した場合の通知・DMCA申請があった場合の通知・逆SEOによるスパムリンクを張られた場合の通知と、リンクの否認手続きにもサチコ登録が必須です。
まーた本質に無関係な知識ひけらかしマンか
このストーリーの「クローラの従うべき動作を定義したrobot.txtへのアクセスも500エラーとなり、Googlebotがサイトをクロールして検索結果に表示して構わないかどうかの判断が不可能になってしまった」の場合、サーチコンソールで通知を受けられるので、思いっきり関係あるのですが。ちなみに「robot.txt」は誤りで「robots.txt」ですね。
サチコ登録していたら原因がすぐ分かって修正できたわけですからね。
そうですね異を唱えている方は正しくサイト管理をしたことがない方なんじゃないでしょうかねGoogle Search Console [google.com]を踏まえずに管理してるとか有り得ない怠慢ですからGoogle Analytics [google.com]使っていればそのサジェストも入りますので恐らくそれすら使ったことないんじゃないでしょうか
# ついでにBing Webmaster Tools [bing.com]も抑えておかないとかな
伊万里市のホームページにGoogle Analyticsのコードは入ってる伊万里市のホームページがGoogle Search Consoleに登録されてるかどうかは定かではない仮に登録されていたとして、そこから担当者が原因を推察できなければ無意味ただ「500エラー出てますよ」ってだけならIISのログ見ても確認できる話そもそもホームページが改築された2020年3月からずっとこの状態だった [twitter.com]ので今になってそれが原因で検索結果から除外されたことに思い至らなかったのだと思うサチコ以前の問題
> 仮に登録されていたとして、そこから担当者が原因を推察できなければ無意味実際に robots.txt 関係のエラーを発生させれば分かりますが、「原因を推察」する必要もないほどはっきりとしたエラー送ってきますよ。
> ただ「500エラー出てますよ」ってだけならIISのログ見ても確認できる話それはそうでしょうけど、今時普通にサーバー運営していたら訳の分からんBOTの攻撃だらけでエラーログなんて1日数万行超えが当たり前です。cgiに不正なパラメーターが与えられたら500エラーになるのはよくあるわけで、それこそ気が付かないことも有り得る。
> 今になってそれが原因で検索結果から除外されたことに思い至らなかったのだと思う
今のドキュメントhttps://developers.google.com/search/docs/advanced/robots/robots_txt?hl=ja [google.com]
5xx(サーバーエラー)> robots.txt リクエストに対してサーバーから明確な応答がないため、Google は一時的なサーバーエラーと解釈し、サイトが完全に許可されていない場合と同様に処理します。
ここだけ読むと、完全に許可されていない、つまりインデックスしないということになりますが、
> Google は、サーバーエラー以外の HTTP ステータス コードを取得するまで robots.txt ファイルのクロールを試行します。> 503 (service unavailable) エラーの場合、再試行が頻繁に行われます。> robots.txt に 30 日以上アクセスできない場合、Google は robots.txt の最後のキャッシュ コピーを使用します。> 利用できない場合、Google はクロールの制限がないものとみなします。> クロールを一時的に停止する必要がある場合は、サイト上のすべての URL で 503 HTTP ステータス コードを返すことをおすすめします。ここらへんの文章は複数通りの解釈ができますが、「クロールの制限がないものとみなします」のは「5xx」ではなく「503」限定のように読めます。
> Google は、サイトが誤って構成されているためにページ不明の 404 ではなく 5xx が返されていると判断できる場合、そのサイトからの 5xx エラーを 404 エラーとして扱います。> たとえば、5xx ステータス コードを返すページのエラー メッセージが「ページが見つかりません」の場合、Google はそのステータス コードを 404 (not found) と解釈します。
ここ重要です。エラーメッセージの本文を読んでいるんです。仮に、エラー メッセージが「ページが見つかりません」ならば404扱いになって、全ページクロール対象になるわけですが、エラーメッセージをどう解釈するのかが不安定なので、あとから問題が起きることは十分に考えられるでしょう。
> サチコ以前の問題
最近の Google は余計なおせっかいで勝手なことをやってくれるので、気が付きにくいのです。だからこそ、Google八分にならないため、サチコに登録する必要があるのですが。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy
「サチコ」に登録するのが今の常識 (スコア:5, 参考になる)
昔の人は知らないかもしれませんが、今はWebサイトを作ったら必ず「サチコ」(Google Search Console)に登録するのが今の常識です。
そこに登録すれば、robots.txt の文法やレスポンスコードに問題がある場合なども、メールとサチコサイト上で教えてくれます。
誰にも見てもらえなくても構わないサイトを除ければ、使わないという選択肢は最早ありません。
その他にも、
・Google セーフブラウジングがマルウェア配信サイトと認識した場合の通知
・DMCA申請があった場合の通知
・逆SEOによるスパムリンクを張られた場合の通知と、リンクの否認手続き
にもサチコ登録が必須です。
Re: (スコア:-1)
まーた本質に無関係な知識ひけらかしマンか
おもいっきり本質なのですが (スコア:0)
このストーリーの
「クローラの従うべき動作を定義したrobot.txtへのアクセスも500エラーとなり、Googlebotがサイトをクロールして検索結果に表示して構わないかどうかの判断が不可能になってしまった」
の場合、サーチコンソールで通知を受けられるので、思いっきり関係あるのですが。
ちなみに「robot.txt」は誤りで「robots.txt」ですね。
サチコ登録していたら原因がすぐ分かって修正できたわけですからね。
Re: (スコア:1)
そうですね
異を唱えている方は
正しくサイト管理をしたことがない方なんじゃないでしょうかね
Google Search Console [google.com]を踏まえずに管理してるとか有り得ない怠慢ですから
Google Analytics [google.com]使っていればそのサジェストも入りますので
恐らくそれすら使ったことないんじゃないでしょうか
# ついでにBing Webmaster Tools [bing.com]も抑えておかないとかな
Re: (スコア:0)
伊万里市のホームページにGoogle Analyticsのコードは入ってる
伊万里市のホームページがGoogle Search Consoleに登録されてるかどうかは定かではない
仮に登録されていたとして、そこから担当者が原因を推察できなければ無意味
ただ「500エラー出てますよ」ってだけならIISのログ見ても確認できる話
そもそもホームページが改築された2020年3月からずっとこの状態だった [twitter.com]ので
今になってそれが原因で検索結果から除外されたことに思い至らなかったのだと思う
サチコ以前の問題
Re:おもいっきり本質なのですが (スコア:0)
> 仮に登録されていたとして、そこから担当者が原因を推察できなければ無意味
実際に robots.txt 関係のエラーを発生させれば分かりますが、「原因を推察」する必要もないほどはっきりとしたエラー送ってきますよ。
> ただ「500エラー出てますよ」ってだけならIISのログ見ても確認できる話
それはそうでしょうけど、今時普通にサーバー運営していたら訳の分からんBOTの攻撃だらけでエラーログなんて1日数万行超えが当たり前です。
cgiに不正なパラメーターが与えられたら500エラーになるのはよくあるわけで、それこそ気が付かないことも有り得る。
> 今になってそれが原因で検索結果から除外されたことに思い至らなかったのだと思う
今のドキュメント
https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=ja [google.com]
5xx(サーバーエラー)
> robots.txt リクエストに対してサーバーから明確な応答がないため、Google は一時的なサーバーエラーと解釈し、サイトが完全に許可されていない場合と同様に処理します。
ここだけ読むと、完全に許可されていない、つまりインデックスしないということになりますが、
> Google は、サーバーエラー以外の HTTP ステータス コードを取得するまで robots.txt ファイルのクロールを試行します。
> 503 (service unavailable) エラーの場合、再試行が頻繁に行われます。
> robots.txt に 30 日以上アクセスできない場合、Google は robots.txt の最後のキャッシュ コピーを使用します。
> 利用できない場合、Google はクロールの制限がないものとみなします。
> クロールを一時的に停止する必要がある場合は、サイト上のすべての URL で 503 HTTP ステータス コードを返すことをおすすめします。
ここらへんの文章は複数通りの解釈ができますが、「クロールの制限がないものとみなします」のは「5xx」ではなく「503」限定のように読めます。
> Google は、サイトが誤って構成されているためにページ不明の 404 ではなく 5xx が返されていると判断できる場合、そのサイトからの 5xx エラーを 404 エラーとして扱います。
> たとえば、5xx ステータス コードを返すページのエラー メッセージが「ページが見つかりません」の場合、Google はそのステータス コードを 404 (not found) と解釈します。
ここ重要です。
エラーメッセージの本文を読んでいるんです。
仮に、エラー メッセージが「ページが見つかりません」ならば404扱いになって、全ページクロール対象になるわけですが、エラーメッセージをどう解釈するのかが不安定なので、あとから問題が起きることは十分に考えられるでしょう。
> サチコ以前の問題
最近の Google は余計なおせっかいで勝手なことをやってくれるので、気が付きにくいのです。
だからこそ、Google八分にならないため、サチコに登録する必要があるのですが。