パスワードを忘れた? アカウント作成
24365 story
Google

Google研究者ら、新しい画像検索アルゴリズムについて発表 44

ストーリー by mhatta
応用自在 部門より

oddmake 曰く

TechCrunchの記事より。北京で開かれていたWWW2008の席上、Googleの研究者らがなかなか興味深い画像検索アルゴリズムの研究成果を披露したようだ(論文PDF)。 ユーザは画像を探す時、似たような画像を探していくものだという仮定を行い、確率的なvisual-hyperlinkというリンクが様々な画像の間にあると想定する。似通った画像間にはより訪問者が多いと想定され、より大きな重み付けがなされる。これに対してPageRankアルゴリズムを適用することにより、画像のRankを計算するのだという。現在のアルゴリズムでは、単語に対して妙な画像がひっかかってしまう場合が時々あるのだが、このアルゴリズムを利用することでユーザの満足度を向上できる結果が得られたとしている。これが実際にGoogleに採用されるか、採用されるにしてもにしてもそれが何時かはまだわからないが、実にアレゲでなかなか感心させられてしまう。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 自分がもっている出所不明な画像ファイルのダウンロード元を調べる機能がほしい。
    同じような画像(イラストなら同じ作者のイラスト)が見つかる可能性が高い(というか、その作者のサイトが見つかる)。

    画像ファイルのMD5で検索したら、同じMD5をもつ画像が見つかると便利なんだけど。
    • by Anonymous Coward
      それは、常々思う。
      画像や音楽の出所(1次掲載場所)を知りたいときや、
      自分がウェブで掲載している画像や音楽がどこに転載されているかなど。
      再エンコードでの劣化を考えると類似度で検索できることが望ましい。

      言いだしっぺが作れとか言われそうなのでID
    • by Anonymous Coward
      こういうの? http://kemuri-net.dip.jp/~details/ [kemuri-net.dip.jp]
    • by Anonymous Coward
      以前話題にもなりましたが、こんなのも
      イラスト検索システム Comition
      http://comition.net/ [comition.net]
      新しい検索エンジンの形? イラスト検索Comition登場!
      http://srad.jp/it/article.pl?sid=07/12/25/0257235 [srad.jp]
  • by brax3 (15953) on 2008年04月30日 11時17分 (#1337710)
    イノベーションキッチン [deqwas.com]
    中の人に聞いたことあるのですが、ユーザが踏んだURLを元にユーザをグルーピングし、似たような嗜好を持つユーザ同士でのレコメンドを行うとか。
    音楽等データにしにくいサイトで、似たような楽曲を提案することもできるシステムとのこと。
    こちらは画像や音楽に特化してるわけではないらしいですけど、特許出願中らしいので日本でGoogleがリリースしても大丈夫でしょうか。
    Googleの規模でやってPageRankのアルゴリズムと組み合わせたら事情が違うかもしれませんけど。
    • タレコミの論文を少し読みましたが、
      ユーザーの行動を基準にして、ランキングするという話ではありません。

      現状での Google Image Search を使った検索で出力された
      Top-N の結果に関してだけ、画像の類似度に相当する重みを持った
      リンクを張り、そのネットワークを使って PageRank のような量を
      計算するという話です。

      タレコミ文が「ユーザの行動を基準として、画像をランキングする」と
      読めなくもないので(よく読むと違うのですが)誤解の元かもしれません。

      画像の類似度を使うだけではなく、
      同じクエリで検索される仲間同士を結合することで、
      画像が潜在的に持つ意味的なものもカバーできるという点が、
      シンプルで新しい点なのだと思います。

      ていうか、えー、そんなシンプルな考え方で
      ほんとに大丈夫かなー、という気も。
      親コメント
      • 論文ナナメに読んでみましたが、

        あるユーザーが検索結果中の画像u を見た次に画像v を見たらそれは画像が類似してるからだと見なして

        >画像の類似度に相当する重みを持ったリンクを張り、

        ってことかと思いました。

        >画像の類似度を使うだけではなく、
        >同じクエリで検索される仲間同士を結合することで、
        >画像が潜在的に持つ意味的なものもカバーできるという点が、

        ではなく、

        同じクエリで検索された中でユーザーがクリックしたもの同士を仲間として仮想的な hyperlink で結合して
        Page Rank を計算することで、画像が潜在的に持つ意味的な類似度や重要度をカバーしたランキングを行う

        つまりユーザーの行動を利用して画像をランキングしてるように思います。
        親コメント
    • by Anonymous Coward
      私ゃ「日の丸検索エンジン」を連想したが

      あっちはケチョンケチョンに叩いて、Googleがやると興味を持つんだね
      不思議なことだ
      • by Anonymous Coward
        > あっちはケチョンケチョンに叩いて、Googleがやると興味を持つんだね

        当然でしょ。
        Googleは実績で名を上げた。そして色々な成果物をリリースしてGeekをくすぐってる。
        それにひきかえ、あっちは何の成果物もない癖に名前ばっかり。
    • by Anonymous Coward
      http://internet.watch.impress.co.jp/cda/special/2008/02/01/18312.html
      日本であげるならこれでしょ。

      似たような画像を周辺に表示するという意味で、似たような画像に重み付けをする部分は同様のアプローチだと思いますね。
  • 関連検索 (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2008年04月30日 0時42分 (#1337526)
    肌色に特化した画像検索とかできるんでしょうか。

    # この画像を検索した人はこんな画像も検索しています。
  • by Anonymous Coward on 2008年04月30日 1時52分 (#1337550)
    新しいアルゴリズム なのね。
    「新しい画像」を検索してくれるアルゴリズムではなく

    掲載日時だけだと、単なる再掲載の区別が付かないから
    「新しい画像」を見極めてくれるとうれしいんだけどなー
    • by Anonymous Coward
      新しい(Fresh)画像だと、肌色系(Fresh)な画像が増えるんですね。いいですね。
    • by Anonymous Coward
      全く同じファイルの再掲なら、ダイジェストをとればいいのでしょうね。

      >「新しい画像」を見極めて

      再掲画像へのリンクに世間のみんなが「これは再掲だ」、
      つまりスラド風にいえば「余計なもの」というモデレーションを
      付けれたら話は簡単なんですけどねえ…
      • ホントは画像そのもののメタデータ記述領域に
        正しいメタデータが書いてあればいいんですけどねぇ.

        Office 系文書のプロパティにでたらめな情報が書いてある
        ことが多いように,直接&頻繁に目に触れるデータじゃないと
        まともな情報は記述されないんだろうなぁ.

        #日付くらいならデジカメが自動で埋め込むかな
        --
        屍体メモ [windy.cx]
        親コメント
        • by Anonymous Coward
          むしろデジカメの中に画像解析アルゴリズムの入ったエンジンを乗っけて、自動的にメタデータを付けてくれる製品を発売……

          #またそれがいきすぎたことが原因で、エロい写真の撮影場所とかがバレたりして問題になるんだろうな
          • by Anonymous Coward

            そのエンジンの開発者のところにはサンプルとしてエロい写真とかがいっぱいあるんですね。

        • by Anonymous Coward
          >> 正しいメタデータが書いてあれば

          画像検索の専門家じゃないので正確には知りませんが,画像検索において,(単なる2次元のデジタルデータとして扱うのではなく)コンテキストを解釈するという意味では「正しい」メタデータというものは存在し得ない(厳密には「無限に存在する」の方が正確だけど)のが問題の難しいところなんだとオレは理解しています.

          例えばF1の写真をとってみても,「F1」の写真なのか,ある特定のレースの写真なのか,ある特定の「チームXXXの車」の写真なのか,ある特定の「ドライバー」の写真なのか,あるいは「XXXが***を抜い
    • by Anonymous Coward
      たしか更新日で絞れるオプションがあったはず
  • by Anonymous Coward on 2008年04月30日 8時16分 (#1337589)
    画像検索なんていうから、てっきり、

    「Google研究者ら、新しいCAPCHA破りアルゴリズムについて発表」

    かと思っちゃったよ。
  • by Anonymous Coward on 2008年04月30日 9時33分 (#1337628)
    最近、テキスト検索の精度がガタ落ちでがっかりすることが多くなったんですが、何か対策のようなことをやるんでしょうかね。

    • by Anonymous Coward
      精度が落ちたというより、処理すべきデータ(要するにWebページ)が多くなりすぎて、絞りきれなくなってきたように思います。
      従来の検索アルゴリズムでページランク1と判断できそうなサイトが、気がついたら100もできてる、といった具合に。

      人間はせいぜい4-5ページしか見ないでしょうしね。

      # うちに来るGoogleBot、百度のクローラの倍以上だ。なんか力技でしのいでる気がする。
      • by Anonymous Coward
        本当に4-5ページしか読まないのかな。
        俺は漏れがあるんじゃないかと80ぐらいまでは読むことが多い。
      • by Anonymous Coward
        ブログを除外できれば精度上がりそう。
        • by Anonymous Coward
          そうですか?ブログに屑が多いのも事実だけど
          特に技術情報に関しては有用な情報も多いですよ。
          単純にブログを対象から外すだけで問題解決になるのなら
          とっくにGoogleはそうしていると思いますが。
          • by Anonymous Coward
            ブログの内容が屑だとは私は思わないんだけど、
            (典型的な)ブログの「フォーマット」が検索に優しくないなあと思うことは多いです。

            ●無関係な話題からなる(日付でいえば連番の)記事が合体している。
            ●しばしば脇に広告とかが載る。

            これらのせいで、凄くノイズ率が上がってる気がする。
            あれが無くなってくれれば結構マシになるのにな。

            逆にいえば、ノイズ率が上がらないような"できの良い"ブログエンジンを使えばいい、ということじゃないかなと。
        • by Anonymous Coward
          とりあえずソーシャルブックマークを除外して欲しい。
          • by Anonymous Coward
            同意。
            実体と、それへのソーシャルブックマークとかが近い序列にあるとイラッとする。
            あと鬱陶しいのはアソシエイト付の amazon へのリンクとか、 amazon を使ったサイトみたいなやつ。

            個人設定で常に黙示する条件を指定できればいいのに。
  • by Anonymous Coward on 2008年04月30日 10時42分 (#1337678)
    論文読まずに脊髄反射だけど。
    • by Anonymous Coward
      おまえニューラルネット知らんだろ
  • by Anonymous Coward on 2008年05月01日 1時51分 (#1338182)
    情報大航海プロジェクト [igvpj.jp]では。
    この音頭取りが言ってる発言 [impress.co.jp]が気になって

    現在、日本は米国の後追いをするのか、それとも(情報大航海プロジェクトで)さまざまな情報を連鎖させることで新たな付加価値を生み出すのか、という岐路に立っている。

    なに?このオレ(お上が作って下さるインフラ=情報大航海プロジェクト=八尋俊英様)を取るかアイツ(米国・・の誰だよ)を取るかみたいな2択の強要。
    おまいら、実は俺らそんな2択の岐路に立ってるんだそうですが、いかが。
typodupeerror

身近な人の偉大さは半減する -- あるアレゲ人

読み込み中...