パスワードを忘れた? アカウント作成
77960 story
Google

Googleの検索アルゴリズムの不思議 64

ストーリー by hylom
ブラックボックス 部門より

あるAnonymous Coward 曰く、

「甲子園」というキーワードでGoogle検索を行うと、ページ中には「甲子園」という単語が含まれていないNHKのサイトがトップに表示されるそうです(現在では阪神甲子園球場がトップ、続いてNHKのサイト)。

いっぽう、Yahoo! JapanではNHKのサイトはトップ10には含まれず、阪神甲子園球場がトップでした。また、LiveSearchではトップに「甲子園のニュース検索結果」が表示され、続いて「阪神甲子園球場」、NHKのサイトが表示されます。また、「koushien」で検索するとGoogleとYahoo! JapanはNHKのサイトがトップ、Live Searchでは「www.koushien.jp」がトップでした。

自分の推測としては、純粋にアルゴリズムの結果だとするなら、URLから内容の理解をしようとしている事、ローマ字・日本語変換を行っている事、元からNHKのランクが高い事、2006年辺りは甲子園という文字が存在した等が複合的に作用した事がNHKのセンバツページが高くなった理由だと思います。

ただし、「kousien」で検索した場合は検索結果が大きく異なる点から、NHKのサイトはURLの「koushien」というキーワードが大きく影響している可能性が高いと思われる。ともあれ、検索結果の表示順序の不思議さが感じられる例と言えるだろう。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • リンクのラベル (スコア:4, 参考になる)

    by Anonymous Coward on 2009年03月30日 19時27分 (#1540405)
    • Re:リンクのラベル (スコア:1, すばらしい洞察)

      by Anonymous Coward on 2009年03月31日 13時36分 (#1540921)
      そうそう。映画デビルマンの公式サイトに「糞映画」なんてキーワードが入ってた、とでも思ってるのか?
      親コメント
    • by akiraani (24305) on 2009年03月31日 14時53分 (#1540983) 日記

      いわゆるGoogle bombs [suzukikenichi.com]ですよね。
      あまりに短期間に集中して増加すると不正SEOとみなされたりすることもあるようですが、このあたりのチューニングはさすがに企業秘密でしょうね。
      被リンクキーワードでも重み付けしているのはGoogleに限った話ではないので、YahooやMSNなんかでも似たようなことがあるようです。

      #有名どころだと、固定砲台でぐぐると某魔法少女が検索トップに、なんて話が昔ありましたね。

      --
      しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
      親コメント
    • by Anonymous Coward

      だよね
      今さら何を言ってるのかと思った

    • by Anonymous Coward
      そうですよね。
      フレームのもとを提供するつもりは決してありませんが、googleで
      「売国新聞」と検索すると、とある新聞社のオフィシャルサイトが比較的
      上の方に登場する、ということも以前指摘されていた気がします。
      今回の件も同じハナシですよね。
  • by 0093 (29457) on 2009年03月30日 19時12分 (#1540393)

    ユーザーの検索履歴からの反映に重きを置いている気もします
    あとGoogleアカウントを持っている人の場合,その検索履歴から最もらしいサイトをランク付けしてるとか
    特に集合知を重視してるGoogle先生のことだから,こういう風になるのもある種自然かも

    #あれっ?もしかしてそういう話じゃない!?

  • by Kazsa (25846) on 2009年03月30日 19時26分 (#1540403) 日記

    前例 [google.co.jp]もありましたしね。もっとも最近はトップではないようだけど。

  • by Anonymous Coward on 2009年03月30日 21時06分 (#1540482)
    <meta name="keywords" content="高校野球,甲子園,選抜,センバツ,第81回,NHK,日本放送協会" />
    に含まれているので
    > ページ中には「甲子園」という単語が含まれていない
    が間違い、というだけじゃないの?
    • URLのみならず、meta keyword,descriptionに入っていなくても拾っていることもありますよ。
      中にはブログやニュースサイトのトップページとかを拾っていて、キーワードを含む記事が古くなって流れてしまっているのもあります。でもキャッシュ見ても全く入ってないとかもあったりしてやっぱり謎です。最後にgooglebotが見た時点のものを置いているはずのキャッシュが、検索と同期してないとは思わないので。
      よそからのリンクのaタグのテキストに含まれるとかあるのかな?と思ってますが、まさかspamblogのむちゃくちゃ記事に混乱させられているのか、はてさて?

    • by Anonymous Coward
      Googleはずいぶん前からkeywordsを華麗に無視する仕様になっている(スパム対策)、とどこかで聞いたような…。
    • 甲子園で検索するとgoogleの賢さが解る? [srad.jp]

      "“甲子園”で検索してわかるGoogleの賢さというエントリを読みました。「このページの中に”甲子園”というワードが使われていない点(正確にはメタタグで使われています)」で凄いのだそうです。 URLのkoushienも甲子園といえば甲子園で、実際koushienで検索すると「もしかして:甲子園」と推測された上にNHKがトップに来ています。(以下略)"

  • 以前スラドにもコメントした内容ですが、
    ローマ字略語で画像検索結果の比較実験を行ったとき、
    LiveサーチやYahoo!検索は、貼られたリンクやページ内容よりも、画像ファイル名自体を優先していましたね。

    そして、Liveサーチは日本語で検索しても海外サイトのほうを優先する傾向にありました。
    Yahoo!では、日本のサイトのほうが優先される傾向にありました。

    その三つの中では結局、Googleがいちばんクセが無く使いやすいアルゴリズムだとおもいましたね。

    --

    ψアレゲな事を真面目にやることこそアレゲだと思う。
  • by Anonymous Coward on 2009年03月30日 19時25分 (#1540401)

    リンク単位でメタデータ持たせてるんじゃないの。
    少なくともマルチメディア検索では必須だし。

  • by Anonymous Coward on 2009年03月30日 19時26分 (#1540404)

    相互リンクを主成分解析してモード順に並べた、っていうのを見た記憶がありますが。
    それだと、リンク先に検索ワードがある・ないに関わらず上位モードに出たら検索上位に出るはずです。
    #酔ってて上手く説明できなくてごめんなさい。
    #「スラッシュならここ!」みたいなリンクの張り方されてて
    #リンク先に「スラッシュ」についての言及が特にされてなくても
    #そういうリンクが大量にあれば「スラッシュ」でぐぐると上位にでるようなシステムです

    検索上位と検索ワードとの乖離って別に今に始まったことではないのでは?
    #酔ってて別の問題と勘違いしてる??

    • by Anonymous Coward on 2009年03月30日 20時01分 (#1540440)

      補足します。

      むかーし。googleのアルゴリズムを解説していたものを私が理解できる範囲で理解すると

      1)「アレゲ」について独自解釈するサイトがあった
      2)「何これ面白くね?」ってリンクが大量発生した
      3)そのリンクを参照するまとめサイトが大量発生した

      このとき、1)の最初のサイトがGoogle検索で上位に来るようになります。
      問題を整理すると、1)において、1)のサイト内で「アレゲ」について言及していることは
      必要条件でも十分条件でもありません。2)において「アレゲならこのサイト!」と
      関連付けられていることが条件です。これはサイト解説者の責任ではありません。

      『「○○○」でググッたら、そのトップにそのキーワード載ってない!のはよくあること』って当たり前がと思っていたのですが、共通認識ではないのですね。

      親コメント
    • 愛称やらの正式ではない呼び名で検索しても引っかかるのが利点だ、という説明を数年前に読みました。ちょっとソースを見つけられませんが。

      例えば、IBMがしばしば"ビッグブルー"と呼ばれるのは(その記事以外でそう呼んでる事例を私は見たことが無いですが)、正式名称ではないので、IBMのサイトに"ビッグブルー"とは書いてはいないけど、みんながそう呼ぶなら、検索して引っかかった方が便利だよね、と。
      親コメント
    • by Anonymous Coward
      前にスラドでどなたかが言ってた「jで検索する [google.co.jp]と/.jが出る」って言うのを知ってからは入力文字が減って大助かりですね、時々Jリーグにトップの座を奪われますが。

      こういう検索浮上システムは助かりますね。
  • by inouek (31502) on 2009年03月30日 19時30分 (#1540407)
    「EXIT」と検索したらYahoo!がトップにきたり、
    「著作権ゴロ」JASRACがトップに来てたりしたのに。
    今のGoogleさんは来ないんだね。
    --
    ---------------------------- うちの猫は、ながぬこ
    • Re:昔は… (スコア:5, おもしろおかしい)

      by Anonymous Coward on 2009年03月30日 19時39分 (#1540416)
      「18歳未満」のトップはあいかわらずYahooだけど。
      親コメント
      • by Anonymous Coward

        それはアダルトサイトが入場のところで「18才未満はこちら」ってYahoo! JAPANにリンク貼ったからでしょ?

        すばらしいSEOだな

        同様にキーワードのかけらもない検索用語として「胸囲 [google.co.jp]」がありますが、どうして如月千早さんにリンくっ………されるのかわかりません。

    • Re:昔は… (スコア:4, おもしろおかしい)

      by Anonymous Coward on 2009年03月30日 19時54分 (#1540434)

      エロデータ、でアイ・オー・データ機器(IODATA) がトップになるのはGoogle先生だけ!!

      親コメント
    • by Anonymous Coward
      「退出」でおk
  • 元記事中では

    「アンカーテキスト”甲子園”でリンクを受けているようですが、ページランクが4なのでそれほど被リンクが強いという訳ではありません」

    と言及していますが、この推測が不正確なのではないでしょうか。

    つまり、被リンク数自体が特段多いわけではないからページランクは4けど、「甲子園」というワードでリンクされている数が圧倒的に多いとか、そういう理屈なのかなと。

    • by Anonymous Coward

      あと、ページランクはそもそも被リンクだけのメーターじゃないわけでしょ。
      複合的なランクなんであってさ。ちょっとタレこみ人の知識を疑うな。

  • sぁshどt (スコア:1, 参考になる)

    by Anonymous Coward on 2009年03月30日 20時24分 (#1540450)

    「すらど」でも「surado」でも「sぁshどt」でもOKなグーグルさんですから。

  • by dam (37947) on 2009年03月31日 0時05分 (#1540572)
    「乳バレー」で検索したらテクモのTeam NINJA-DOAXがトップに来るのに比べればたいしたことない。
  • by masakun (31656) on 2009年03月28日 12時18分 (#1539582) 日記

    os/2 [google.co.jp]で検索すると10位以内に、公式ページでない、更新ができない、
    ほとんど何も書かれていない、僕のページ [geocities.co.jp]がランクインするのだけど(汗)

    --
    モデレータは基本役立たずなの気にしてないよ
    • by soltiox (25610) on 2009年03月28日 14時32分 (#1539617) 日記

      >公式ページでない、更新ができない、
      >ほとんど何も書かれていない

      あなたのサイトの問題は、そのような点にはありません。
      リンクを踏んだら、閲覧者が予想していない広告を表示する
      という点こそが、問題なのだと主張します。

      // いきなり、こんなページ [itrack.it]を見せ付けられた、
      // 私の身にもなってください。(無害だが一応閲覧注意
      // 端末にお茶吹いたじゃないですか。

      親コメント
    • by Anonymous Coward on 2009年03月30日 23時59分 (#1540568)

      OS/2 masakun [google.co.jp]」で検索すると、凄まじい電波を発した自己紹介 [72.14.235.132]がトップに来るので、Googleって大変優秀なのだなあと思いますー。

      eComStation 2.0RC6 日本語プレビュー版を使っている OS/2ユーザー。インテリジェントデザイン(ID)論者です。利己的な遺伝子本でドーキンズにかぶれる前に、細胞や脳、植物の光合成や遺伝暗号の仕組み、さらには宇宙の大規模泡構造などについて、大学のサイトで見識を広げられることをお薦めします。しかしNewtonは進化論者の洗脳雑誌なのでお薦めしません。

      親コメント
    • by Anonymous Coward on 2009年03月31日 0時37分 (#1540596)

      ここ1、2年、Googleは何かの公式サイトを探す検索エンジンではなくなっている気がする。
      特に海外物は日本語ページを除外しようが英語モードに切り替えようが、なかなか出てこなくてどこかの孫引きでないと全然近づかないことが…

      親コメント
      • 求めるサイトをブロックする要因が、
        日本語検索結果の上位表示であるならば、
        ログアウトした上で、本家アドレスにアサインすれば、
        日本語の呪縛を逃れられるかもしれません。

        ただし、本家にアサインしていても、いろいろ操作するうちに、
        いつの間にか.jpに拘束されているという不思議。
        手早く検索できるキーワードを、事前に考えておくのが吉。

        // あと、マイナー言語のgoogleから検索かけると、
        // 公式サイトやメジャーサイトの類は、ヒットしやすいかも?

        //// 単なる思い込みで、実は大差無いのかも。

        親コメント
    • by Anonymous Coward

      なんで公式ページがヒットしないんだろう。
      トップ10とかいうレベルじゃなく全然いけない。

    • by Anonymous Coward
      googleがNGワードを大量に設定した結果
  • by Anonymous Coward on 2009年03月30日 19時07分 (#1540391)
    検索アルゴリズムで日々学習してるだけの話でしょ?
    つまりユーザの検索やクリックなども含めたその累積が結果に反映されているだけのこと。

    と、言うは簡単だが、やってることは複雑だとは思う。
    バースト的にクリック数が多くなったものをどう扱うか?とか、面倒そうだ。
    • by Anonymous Coward
      それは無いのでは?
      学習という事は、日々ロジックが変わっていってしまうわけですよね。非常に初歩的な学習のルーチンを持たせただけでも、うまいこと制御しようにも「ある程度こちらの目標に近い」制御しか出来なくなってしまいますし。そういうのは、工業製品としては非常にリスクの高いものではないかと。
  • by Anonymous Coward on 2009年03月30日 19時34分 (#1540411)
    日本語の糞ブログばかりがヒットして目的のサイトにまったく辿り着けない
  • by Anonymous Coward on 2009年03月30日 20時28分 (#1540453)
    『うざい』の検索で桂歌丸が引っかかるというのもいまだにありますね。 もっとも一時期みたいにトップではなくなりましたけど。
  • by Anonymous Coward on 2009年03月30日 23時22分 (#1540542)
    アルゴリズムって・・・アンタ、そんなもんに任せてたら表示したくないモンがトップになったりで色々困るでしょ。
    甲子園、みたいなメジャーなキーワードな場合。喫茶「甲子園」とかが常時トップじゃまずいじゃないですか。
    そりゃ最終的にはグーグルの中の人の手が入りますよ。
    あ、でもアルゴリズムってことにしておかないとSEOの人から命狙われるんで、
    これ以上は突っ込まない事にしておきますよ。
typodupeerror

身近な人の偉大さは半減する -- あるアレゲ人

読み込み中...