
Googleの検索結果で数十億件との表示、実際の件数は? 34
ストーリー by headless
到達 部門より
到達 部門より
先日、特定のウェブサイトから特定のキーワードを含む記事を抽出しようと Google で検索したところ約 1,580 件と表示されたのだが、実際は 305 件にしか到達できなかった。
「cat」を日本語表示の Google で検索すると数十億件と表示されるが、22ページ目で「最も的確な検索結果を表示するために、上の 220 件と似たページは除外されています。」と表示された(ページ数と件数は変動する)。検索結果をすべて表示するため再検索しても、400 件程度しかないようだ。数十億件の cat はどこに行ったのだろう。スラドの皆さんは、Google での検索結果が予想よりも少ない現象を目にすることがあるだろうか。
「cat」を日本語表示の Google で検索すると数十億件と表示されるが、22ページ目で「最も的確な検索結果を表示するために、上の 220 件と似たページは除外されています。」と表示された(ページ数と件数は変動する)。検索結果をすべて表示するため再検索しても、400 件程度しかないようだ。数十億件の cat はどこに行ったのだろう。スラドの皆さんは、Google での検索結果が予想よりも少ない現象を目にすることがあるだろうか。
検索ヒット件数は推測値 (スコア:5, 興味深い)
10年前の時点で [impress.co.jp]、検索ヒット件数は推測値で、
ページ数を増やす等より詳細に検索すると件数が変わる事があるとのこと。
実際の件数と推測値があってないのは、検索処理は更新され続けているけど、
推測値算出処理はメンテナンスされていないのかなぁ
# どのような計算で見積値を出しているかは不明(調べる気力が無い)だけど
# 田中 217,000,000件
# 田中田中 239,000,000件
# 田中田中田中田中田中 471,000,000件
# と件数が増えていくのは面白い
Re:検索ヒット件数は推測値 (スコア:1)
二年前にsradで検索した例 [srad.jp]
Re: (スコア:0)
昔は「キャッシュしてるとはいえ毎回何百万件もリストアップしてすごいなぁ」とか思ってたな。
あまり検索されたことなさそうな言葉でも数百とか数万とかで、全件探す処理は重そうだし。
でも少数ヒットの場合は分かりやすいけどホント目安程度の適当なのよね。
ユーザーだって雰囲気程度にしか使ってないけど、たまに記事で認知度の目安的に使われてることあるね。良くないかも。
Re: (スコア:0)
推定とはいえワードを増やすと候補が絞り込まれるんじゃなくて広がっていくのか……
検索ワードの効用が期待するAND動作じゃなくて逆のOR動作寄りな方向性なんだな。
どおりで検索ワードが除外されてなくてもワードを含まないノイズがヒットする訳だ。
15年くらい前だとズレてもロードバランサの後ろのサーバが切り替わったとかのケースだけで、
直接指定するとズレないしサーバ毎の癖(プレフィックスが〜なサーバは検索結果が多め)もあって面白かった記憶。
しかしこれ、最終的には検索ワード群と関連するカテゴリのオススメサイトを
酷いときには、次のページがないこともあったな (スコア:2)
マイナーなキーワードだと、PCから検索すると、検索結果の一番下に
って出てきてるのに、リンクをクリックしたら、「検索結果はありません」とか表示されて、件数が激減しているケースに何度か遭遇したことがあるな。
あれはどういうロジックで起きる挙動なんだろうな。最初のヒット数の算出ロジックと、検索結果2ページ目以降のそれが違うとしか思えないんだけど、なんでそんな仕様になってるのやら……。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re:酷いときには、次のページがないこともあったな (スコア:2, 興味深い)
検索サービスでは、最初の検索結果をできる限り速く返すことがユーザ体験の向上につながり、利用者獲得が有利になります。
AltaVistaがGoogleに負けたのもこれが一因でしょう。
なので、検索結果は10〜50件づつしか表示しないという戦略が有効になります。
- たとえば1ページ10件表示なら、とりあえず10件の検索結果を集めることができれば、最初のページを表示できる。
- 表示数も少ないので、ページのロードも速い。
- 次のページ以降は真面目に検索したり、総数を数えたりして多少遅くなってもユーザは逃げない。
- 総件数はまじめにやれば最初から表示可能だが、少しでも速く答えるために、概数を計算する。(一様に分布してると仮定してヒット率で計算するとか)。次のページで多少増減しても、ユーザは逃げない。
- サーバ負荷も減るので、より高速な応答が可能になる。
かなり前からそんな感じですが (スコア:0)
件数それ自体はほとんどあてにならず、相対的に多いか少ないか、なんとなく把握するためのものだと思っています。
他のサーチエンジンとの競争もあるでしょうし、多めの数値を出しておかないと格好が付かないなどの理由でそうなっているのかも。
Re: (スコア:0)
うむ何を問題にしたいのか分からんね
「似たページは除外されています」とあるとおりでしょう
可能性としては
隠蔽された情報があるんだよ的な陰謀論とか
自身のいかがですかブログが出てこなくて困っているとか
そのあたりでしょうかねぇ
Re:かなり前からそんな感じですが (スコア:1)
その後に「検索結果をすべて表示するには、ここから再検索してください。」とありますが,
そこから先に進んですべてを表示しても全然数が少ないということを問題にしているのですよ。
Re:かなり前からそんな感じですが (スコア:1)
件数の数値自体も急に小さくなりますしね。いきなり数万分の1になってしまうとか。
〇色案件とみた! (スコア:0)
誰も言わないけれど、きっと画像検索結果に数万件と表示されたのでwktkして期待していたのに、数が少ないので あてが外れて文句をいっているのかな。
#もちろんAC。アカウント持ってないけど。
参考リンク:
https://togetter.com/li/1914947 [togetter.com]
#画像でありませんが自己責任で
Re: (スコア:0)
不当表示
Re: (スコア:0)
> 「似たページは除外されています」とあるとおりでしょう
理解が出来ておらず全然そのとおりじゃなかったことには触れず、今度は『数万件全てを見ないよね』と除外の有無とは無関係の論点に話をそらしてら
ヒロユキの論破動画(笑)とかありがたがって見てそう
それとも『すべて』の意味を知らんの?
Re: (スコア:0)
数万件程度なら普通に確認するよ?リンク先までは飛ばないけど。
SEOのせいで上位は似たようなページばかりになってしまうので。
マイナーな情報を調べるときなんかは検索語句を増やすと
似たような(しかも目的とは違う)語句に統合されて余計にゴミ情報が増えたりする。
Re: (スコア:0)
> サイト本来の利用目的からすれば数万件全てを見ないよね
> 大人しくワードくくったり絞ったりで目的範囲内に収めればいいだけかと
数万件は単なる一例だってのも分かってないのか?
例えばお望み通り「"manjaro" --site:srad.jp」で検索すると72件
数十件ならすべて見るコストなんぞたかが知れてる
で、実際見ると27件に減る
数が小さくてもすべて公開されない事が起こったな
数万件に注目して語るのは話の本質を分かってない証拠かな?
> 数万件全てを公開しろという理由がないよね
パフォーマンス的にも無駄だし
お前の大好きなGoogleには72件の検索結果を公開するだけのパフォーマンスすらないのかな?
> 数万件全てを公開しろという理由がないよね
> パフォーマンス的にも無駄だし
すべて表示すると言ってるのはGoogleだぞ?
言わなきゃいいだろ
無理筋な擁護してまで逆張りすると間抜けに見えるけど、そこまでして庇い立てしたい理由は如何に(笑)
Re: (スコア:0)
おかしいことをおかしいと思えなくなったら人間終わり
Re: (スコア:0)
> おかしいことをおかしいと思えなくなったら人間終わり
その考え自体がおかしいですよ
Aさんが「おかしい」と思うことをBさんが「おかしい」と思わないことは多々あります
Aさんが「おかしい」と思っていたことを,ある日を境にAさんが「おかしい」と思わなくなることもあるでしょう.誰にでも考えが変わる時はあります
Re:かなり前からそんな感じですが (スコア:1)
#4391494 [srad.jp]のACとは別人ですし、全面的にその意見に賛成でもありません。
おかしいことをおかしいと思えなくなったら人間終わり
その考え自体がおかしいですよ
Aさんが「おかしい」と思うことをBさんが「おかしい」と思わないことは多々あります
Aさんが「おかしい」と思っていたことを,ある日を境にAさんが「おかしい」と思わなくなることもあるでしょう.誰にでも考えが変わる時はあります
だから、「おかしい事をおかしいと思」うな、とは言えないんじゃないでしょうか?
そもそも、あなた自身、「その考え自体がおかしい」と表明しちゃってるわけで、そこに矛盾を感じませんか?
Re: (スコア:0)
優良誤認でしょ
正直 (スコア:0)
「cat」であれば400ページでは収まらないだろうし、hit数自体はあってそう?
推測 (スコア:0)
catという単語が数十億個ヒットしましたというだけであってページ数ではないのでは?
同じページで同じ単語が複数回使われてても省略してるとかじゃないのかな
Re: (スコア:0)
じゃあ「cat」ですべてを表示させると出てくるおよそ400って何よ?
まさか世の中には同じページでcatが複数回使われてるのも省略するとおよそ400ページ分しかないと?
Re: (スコア:0)
そして1ページあたり(数十億/400)平均1000万個のcatという単語が使われているのだな
ゴッゴル (スコア:0)
そーいや、なんかあったなと
ゴッゴル→ https://ja.wikipedia.org/wiki/%E3%82%B4%E3%83%83%E3%82%B4%E3%83%AB#:~:... [wikipedia.org]
現時点 2023/1/10 09:32 では「約 7,310 件 (0.31 秒) 」
Googleのクロール少な過ぎ (スコア:0)
昔はよくアクセスがあったのに、更新頻度やら注目度に応じて偏重しまくっているからアクセスが来なくなった。
むしろBaiduとかの方が「監視しているの?」というくらいにアクセスしてくる。
Re: (スコア:0)
1年以上前に作ったとある技術解説のページは、ずっとgoogle検索結果の底に沈んでいたが最近になってwikipediaに次ぐトップランクに浮上した
アクセス・ログを調べても、自分でいろいろgoogle検索してみても、なぜこんなにランキングが上がるのかさっぱり分からず不思議に思ってる
複数の検索エンジンを調べていて面白く思うのは、検索エンジンは相互にライバルの検索結果を利用しているらしいこと
被リンク数による重要度の評価とか言うのは大昔話
>>むしろBaiduとかの方が「監視しているの?」というくらいにアクセスしてくる。
中国からのアクセス避けには反中的・反共産的文言をコメントに埋め込んでおくと良い
たぶんBiaduのクロール頻度も下がるはず
#金盾は有効に活用しましょう
Re: (スコア:0)
中国からのアクセス避けには反中的・反共産的文言をコメントに埋め込んでおくと良い
やっぱり日本人としては「尖閣諸島は日本固有の領土です」で決まりかな。
にゃぁ〜 (スコア:0)
それじゃない。
途中で (スコア:0)
猫にとられちゃったんじゃないかな?
googleは既にevil (スコア:0)
googleの実態は「検索エンジン」じゃなくて「おすすめ表示」だと気が付けば、少なくともここの多くの人は使うのを辞めるだろう。
Re: (スコア:0)
あなたはGoogleの隠した不都合な真実()に気が付いちゃったんですね(爆笑)
Re: (スコア:0)
いいえ