![Google Google](https://srad.jp/static/topics/google_64.png)
Googleの検索アルゴリズムの不思議 64
ストーリー by hylom
ブラックボックス 部門より
ブラックボックス 部門より
あるAnonymous Coward 曰く、
「甲子園」というキーワードでGoogle検索を行うと、ページ中には「甲子園」という単語が含まれていないNHKのサイトがトップに表示されるそうです(現在では阪神甲子園球場がトップ、続いてNHKのサイト)。
いっぽう、Yahoo! JapanではNHKのサイトはトップ10には含まれず、阪神甲子園球場がトップでした。また、LiveSearchではトップに「甲子園のニュース検索結果」が表示され、続いて「阪神甲子園球場」、NHKのサイトが表示されます。また、「koushien」で検索するとGoogleとYahoo! JapanはNHKのサイトがトップ、Live Searchでは「www.koushien.jp」がトップでした。
自分の推測としては、純粋にアルゴリズムの結果だとするなら、URLから内容の理解をしようとしている事、ローマ字・日本語変換を行っている事、元からNHKのランクが高い事、2006年辺りは甲子園という文字が存在した等が複合的に作用した事がNHKのセンバツページが高くなった理由だと思います。
ただし、「kousien」で検索した場合は検索結果が大きく異なる点から、NHKのサイトはURLの「koushien」というキーワードが大きく影響している可能性が高いと思われる。ともあれ、検索結果の表示順序の不思議さが感じられる例と言えるだろう。
リンクのラベル (スコア:4, 参考になる)
このページへのリンクにだけ含まれているキーワード: 甲子園 [72.14.235.132] ってことじゃないの?
Re:リンクのラベル (スコア:1, すばらしい洞察)
Re:リンクのラベル (スコア:1)
いわゆるGoogle bombs [suzukikenichi.com]ですよね。
あまりに短期間に集中して増加すると不正SEOとみなされたりすることもあるようですが、このあたりのチューニングはさすがに企業秘密でしょうね。
被リンクキーワードでも重み付けしているのはGoogleに限った話ではないので、YahooやMSNなんかでも似たようなことがあるようです。
#有名どころだと、固定砲台でぐぐると某魔法少女が検索トップに、なんて話が昔ありましたね。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
Re: (スコア:0)
だよね
今さら何を言ってるのかと思った
Re:リンクのラベル (スコア:1, すばらしい洞察)
Re:リンクのラベル (スコア:1, すばらしい洞察)
このストーリーはあわてんぼうのタレコミ子に、知識不足の編集者、間抜けなID、大人げないACで出来てます。
Re: (スコア:0)
だよな。
前から不思議だしいまさら何を。
Re: (スコア:0)
フレームのもとを提供するつもりは決してありませんが、googleで
「売国新聞」と検索すると、とある新聞社のオフィシャルサイトが比較的
上の方に登場する、ということも以前指摘されていた気がします。
今回の件も同じハナシですよね。
最近のGoogle先生は (スコア:2)
ユーザーの検索履歴からの反映に重きを置いている気もします
あとGoogleアカウントを持っている人の場合,その検索履歴から最もらしいサイトをランク付けしてるとか
特に集合知を重視してるGoogle先生のことだから,こういう風になるのもある種自然かも
#あれっ?もしかしてそういう話じゃない!?
マイクソロフト (スコア:2)
前例 [google.co.jp]もありましたしね。もっとも最近はトップではないようだけど。
metaに含まれているような (スコア:2, すばらしい洞察)
に含まれているので
> ページ中には「甲子園」という単語が含まれていない
が間違い、というだけじゃないの?
metaとも限らないから困る (スコア:0)
URLのみならず、meta keyword,descriptionに入っていなくても拾っていることもありますよ。
中にはブログやニュースサイトのトップページとかを拾っていて、キーワードを含む記事が古くなって流れてしまっているのもあります。でもキャッシュ見ても全く入ってないとかもあったりしてやっぱり謎です。最後にgooglebotが見た時点のものを置いているはずのキャッシュが、検索と同期してないとは思わないので。
よそからのリンクのaタグのテキストに含まれるとかあるのかな?と思ってますが、まさかspamblogのむちゃくちゃ記事に混乱させられているのか、はてさて?
Re: (スコア:0)
それは元記事でも、タレコミでも言及されていることです (スコア:0)
甲子園で検索するとgoogleの賢さが解る? [srad.jp]
Googleの検索については他のコメントで解説されてるので割愛 (スコア:2, 興味深い)
以前スラドにもコメントした内容ですが、
ローマ字略語で画像検索結果の比較実験を行ったとき、
LiveサーチやYahoo!検索は、貼られたリンクやページ内容よりも、画像ファイル名自体を優先していましたね。
そして、Liveサーチは日本語で検索しても海外サイトのほうを優先する傾向にありました。
Yahoo!では、日本のサイトのほうが優先される傾向にありました。
その三つの中では結局、Googleがいちばんクセが無く使いやすいアルゴリズムだとおもいましたね。
ψアレゲな事を真面目にやることこそアレゲだと思う。
単純なキーワード照合だけやってるわけじゃないでしょ (スコア:1, 興味深い)
リンク単位でメタデータ持たせてるんじゃないの。
少なくともマルチメディア検索では必須だし。
以前読んだドキュメントでは (スコア:1, すばらしい洞察)
相互リンクを主成分解析してモード順に並べた、っていうのを見た記憶がありますが。
それだと、リンク先に検索ワードがある・ないに関わらず上位モードに出たら検索上位に出るはずです。
#酔ってて上手く説明できなくてごめんなさい。
#「スラッシュならここ!」みたいなリンクの張り方されてて
#リンク先に「スラッシュ」についての言及が特にされてなくても
#そういうリンクが大量にあれば「スラッシュ」でぐぐると上位にでるようなシステムです
検索上位と検索ワードとの乖離って別に今に始まったことではないのでは?
#酔ってて別の問題と勘違いしてる??
Re:以前読んだドキュメントでは (スコア:1, 興味深い)
補足します。
むかーし。googleのアルゴリズムを解説していたものを私が理解できる範囲で理解すると
1)「アレゲ」について独自解釈するサイトがあった
2)「何これ面白くね?」ってリンクが大量発生した
3)そのリンクを参照するまとめサイトが大量発生した
このとき、1)の最初のサイトがGoogle検索で上位に来るようになります。
問題を整理すると、1)において、1)のサイト内で「アレゲ」について言及していることは
必要条件でも十分条件でもありません。2)において「アレゲならこのサイト!」と
関連付けられていることが条件です。これはサイト解説者の責任ではありません。
『「○○○」でググッたら、そのトップにそのキーワード載ってない!のはよくあること』って当たり前がと思っていたのですが、共通認識ではないのですね。
Re:以前読んだドキュメントでは (スコア:2, おもしろおかしい)
> 関連付けられていることが条件です。これはサイト解説者の責任ではありません。
これはあれですか、悪用すると 「悲惨な失敗」とあのヒトを結び付けることができちゃったりする例のアレ [bbc.co.uk]ですか。
閾値は 0 で
Re:以前読んだドキュメントでは (スコア:1)
例えば、IBMがしばしば"ビッグブルー"と呼ばれるのは(その記事以外でそう呼んでる事例を私は見たことが無いですが)、正式名称ではないので、IBMのサイトに"ビッグブルー"とは書いてはいないけど、みんながそう呼ぶなら、検索して引っかかった方が便利だよね、と。
Re: (スコア:0)
こういう検索浮上システムは助かりますね。
昔は… (スコア:1)
「著作権ゴロ」JASRACがトップに来てたりしたのに。
今のGoogleさんは来ないんだね。
---------------------------- うちの猫は、ながぬこ
Re:昔は… (スコア:5, おもしろおかしい)
Re: (スコア:0)
それはアダルトサイトが入場のところで「18才未満はこちら」ってYahoo! JAPANにリンク貼ったからでしょ?
すばらしいSEOだな
同様にキーワードのかけらもない検索用語として「胸囲 [google.co.jp]」がありますが、どうして如月千早さんにリンくっ………されるのかわかりません。
Re:昔は… (スコア:4, おもしろおかしい)
エロデータ、でアイ・オー・データ機器(IODATA) がトップになるのはGoogle先生だけ!!
Re: (スコア:0)
リンクによるものだと思いますが (スコア:1)
元記事中では
「アンカーテキスト”甲子園”でリンクを受けているようですが、ページランクが4なのでそれほど被リンクが強いという訳ではありません」
と言及していますが、この推測が不正確なのではないでしょうか。
つまり、被リンク数自体が特段多いわけではないからページランクは4けど、「甲子園」というワードでリンクされている数が圧倒的に多いとか、そういう理屈なのかなと。
Re: (スコア:0)
あと、ページランクはそもそも被リンクだけのメーターじゃないわけでしょ。
複合的なランクなんであってさ。ちょっとタレこみ人の知識を疑うな。
sぁshどt (スコア:1, 参考になる)
「すらど」でも「surado」でも「sぁshどt」でもOKなグーグルさんですから。
そんな事なら (スコア:1)
Re:「胸囲」でも胸囲が含まれていないページが最上位な件 (スコア:1)
Googleはそんなに賢いのかなぁ (スコア:0, オフトピック)
os/2 [google.co.jp]で検索すると10位以内に、公式ページでない、更新ができない、
ほとんど何も書かれていない、僕のページ [geocities.co.jp]がランクインするのだけど(汗)
モデレータは基本役立たずなの気にしてないよ
Re:Googleはそんなに賢いのかなぁ (スコア:3, 興味深い)
>公式ページでない、更新ができない、
>ほとんど何も書かれていない
あなたのサイトの問題は、そのような点にはありません。
リンクを踏んだら、閲覧者が予想していない広告を表示する
という点こそが、問題なのだと主張します。
// いきなり、こんなページ [itrack.it]を見せ付けられた、
// 私の身にもなってください。(無害だが一応閲覧注意
// 端末にお茶吹いたじゃないですか。
Re:Googleはそんなに賢いのかなぁ (スコア:2, おもしろおかしい)
「OS/2 masakun [google.co.jp]」で検索すると、凄まじい電波を発した自己紹介 [72.14.235.132]がトップに来るので、Googleって大変優秀なのだなあと思いますー。
Re:Googleはそんなに賢いのかなぁ (スコア:1, 興味深い)
ここ1、2年、Googleは何かの公式サイトを探す検索エンジンではなくなっている気がする。
特に海外物は日本語ページを除外しようが英語モードに切り替えようが、なかなか出てこなくてどこかの孫引きでないと全然近づかないことが…
Re:Googleはそんなに賢いのかなぁ (スコア:1)
求めるサイトをブロックする要因が、
日本語検索結果の上位表示であるならば、
ログアウトした上で、本家アドレスにアサインすれば、
日本語の呪縛を逃れられるかもしれません。
ただし、本家にアサインしていても、いろいろ操作するうちに、
いつの間にか.jpに拘束されているという不思議。
手早く検索できるキーワードを、事前に考えておくのが吉。
// あと、マイナー言語のgoogleから検索かけると、
// 公式サイトやメジャーサイトの類は、ヒットしやすいかも?
//// 単なる思い込みで、実は大差無いのかも。
eclipseも (スコア:0)
なんで公式ページがヒットしないんだろう。
トップ10とかいうレベルじゃなく全然いけない。
Re: (スコア:0)
学習の結果なだけ (スコア:0)
つまりユーザの検索やクリックなども含めたその累積が結果に反映されているだけのこと。
と、言うは簡単だが、やってることは複雑だとは思う。
バースト的にクリック数が多くなったものをどう扱うか?とか、面倒そうだ。
Re: (スコア:0)
学習という事は、日々ロジックが変わっていってしまうわけですよね。非常に初歩的な学習のルーチンを持たせただけでも、うまいこと制御しようにも「ある程度こちらの目標に近い」制御しか出来なくなってしまいますし。そういうのは、工業製品としては非常にリスクの高いものではないかと。
日本語版Googleは使い物にならない状態 (スコア:0)
Re:日本語版Googleは使い物にならない状態 (スコア:2, すばらしい洞察)
検索サイトもどきの検索結果がぞろぞろ出まくるのが激しく鬱陶しい。
検索結果を見るだけで同じ本文内容がぞろぞろと
Re:日本語版Googleは使い物にならない状態 (スコア:1, 参考になる)
Re: (スコア:0)
ほんとに日本語だけなの?
英語圏や非日本語圏は大丈夫なの?
Re: (スコア:0)
うざい歌丸 (スコア:0)
Re:うざい歌丸 (スコア:1)
まぁ、一番有名なのは「いいえ [google.co.jp]」ですよね。
未だに鉄板
Re:うざい歌丸 (スコア:4, おもしろおかしい)
Re:うざい歌丸 (スコア:2)
もしや [google.co.jp]とおもったら、なるほど!
人の手によるものですよ (スコア:0)
甲子園、みたいなメジャーなキーワードな場合。喫茶「甲子園」とかが常時トップじゃまずいじゃないですか。
そりゃ最終的にはグーグルの中の人の手が入りますよ。
あ、でもアルゴリズムってことにしておかないとSEOの人から命狙われるんで、
これ以上は突っ込まない事にしておきますよ。