Google研究者ら、新しい画像検索アルゴリズムについて発表

Google研究者ら、新しい画像検索アルゴリズムについて発表 44

ストーリー by mhatta 2008年04月30日 8時00分
応用自在部門より

TechCrunchの記事より。北京で開かれていたWWW2008の席上、Googleの研究者らがなかなか興味深い画像検索アルゴリズムの研究成果を披露したようだ(論文PDF)。ユーザは画像を探す時、似たような画像を探していくものだという仮定を行い、確率的なvisual-hyperlinkというリンクが様々な画像の間にあると想定する。似通った画像間にはより訪問者が多いと想定され、より大きな重み付けがなされる。これに対してPageRankアルゴリズムを適用することにより、画像のRankを計算するのだという。現在のアルゴリズムでは、単語に対して妙な画像がひっかかってしまう場合が時々あるのだが、このアルゴリズムを利用することでユーザの満足度を向上できる結果が得られたとしている。これが実際にGoogleに採用されるか、採用されるにしてもにしてもそれが何時かはまだわからないが、実にアレゲでなかなか感心させられてしまう。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索44コメント Log In/Create an Account

手持ちの画像を検索したい (スコア:2, 興味深い)

by fslasht (3370) on 2008年04月30日 10時46分 (#1337681) ホームページ日記

自分がもっている出所不明な画像ファイルのダウンロード元を調べる機能がほしい。
同じような画像（イラストなら同じ作者のイラスト）が見つかる可能性が高い（というか、その作者のサイトが見つかる）。

画像ファイルのMD5で検索したら、同じMD5をもつ画像が見つかると便利なんだけど。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  それは、常々思う。
  画像や音楽の出所（１次掲載場所）を知りたいときや、
  自分がウェブで掲載している画像や音楽がどこに転載されているかなど。
  再エンコードでの劣化を考えると類似度で検索できることが望ましい。
  
  言いだしっぺが作れとか言われそうなのでID
- Re: (スコア:0)
  
  by Anonymous Coward
  
  こういうの? http://kemuri-net.dip.jp/~details/ [kemuri-net.dip.jp]
- Re: (スコア:0)
  
  by Anonymous Coward
  
  以前話題にもなりましたが、こんなのも
  イラスト検索システム Comition
  http://comition.net/ [comition.net]
  新しい検索エンジンの形？　イラスト検索Comition登場！
  http://srad.jp/it/article.pl?sid=07/12/25/0257235 [srad.jp]
日本でも同じようなことしてますけど。 (スコア:2, 参考になる)

by brax3 (15953) on 2008年04月30日 11時17分 (#1337710)

イノベーションキッチン [deqwas.com]
中の人に聞いたことあるのですが、ユーザが踏んだURLを元にユーザをグルーピングし、似たような嗜好を持つユーザ同士でのレコメンドを行うとか。
音楽等データにしにくいサイトで、似たような楽曲を提案することもできるシステムとのこと。
こちらは画像や音楽に特化してるわけではないらしいですけど、特許出願中らしいので日本でGoogleがリリースしても大丈夫でしょうか。
Googleの規模でやってPageRankのアルゴリズムと組み合わせたら事情が違うかもしれませんけど。
- Re:日本でも同じようなことしてますけど。 (スコア:3, 参考になる)
  
  by switch720 (30495) on 2008年04月30日 13時33分 (#1337835) 日記
  
  タレコミの論文を少し読みましたが、
  ユーザーの行動を基準にして、ランキングするという話ではありません。
  
  現状での Google Image Search を使った検索で出力された
  Top-N の結果に関してだけ、画像の類似度に相当する重みを持った
  リンクを張り、そのネットワークを使って PageRank のような量を
  計算するという話です。
  
  タレコミ文が「ユーザの行動を基準として、画像をランキングする」と
  読めなくもないので（よく読むと違うのですが）誤解の元かもしれません。
  
  画像の類似度を使うだけではなく、
  同じクエリで検索される仲間同士を結合することで、
  画像が潜在的に持つ意味的なものもカバーできるという点が、
  シンプルで新しい点なのだと思います。
  
  ていうか、えー、そんなシンプルな考え方で
  ほんとに大丈夫かなー、という気も。
  
  シェア
  
  親コメント
  - Re:日本でも同じようなことしてますけど。 (スコア:1)
    
    by gurutakezawa (33011) on 2008年05月01日 0時44分 (#1338158)
    
    論文ナナメに読んでみましたが、
    
    あるユーザーが検索結果中の画像u を見た次に画像v を見たらそれは画像が類似してるからだと見なして
    
    ＞画像の類似度に相当する重みを持ったリンクを張り、
    
    ってことかと思いました。
    
    ＞画像の類似度を使うだけではなく、
    ＞同じクエリで検索される仲間同士を結合することで、
    ＞画像が潜在的に持つ意味的なものもカバーできるという点が、
    
    ではなく、
    
    同じクエリで検索された中でユーザーがクリックしたもの同士を仲間として仮想的な hyperlink で結合して
    Page Rank を計算することで、画像が潜在的に持つ意味的な類似度や重要度をカバーしたランキングを行う
    
    つまりユーザーの行動を利用して画像をランキングしてるように思います。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  私ゃ「日の丸検索エンジン」を連想したが
  
  あっちはケチョンケチョンに叩いて、Googleがやると興味を持つんだね
  不思議なことだ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    > あっちはケチョンケチョンに叩いて、Googleがやると興味を持つんだね
    
    当然でしょ。
    Googleは実績で名を上げた。そして色々な成果物をリリースしてGeekをくすぐってる。
    それにひきかえ、あっちは何の成果物もない癖に名前ばっかり。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  http://internet.watch.impress.co.jp/cda/special/2008/02/01/18312.html
  日本であげるならこれでしょ。
  
  似たような画像を周辺に表示するという意味で、似たような画像に重み付けをする部分は同様のアプローチだと思いますね。
関連検索 (スコア:1, おもしろおかしい)

by Anonymous Coward on 2008年04月30日 0時42分 (#1337526)

肌色に特化した画像検索とかできるんでしょうか。

# この画像を検索した人はこんな画像も検索しています。
- Re:関連検索 (スコア:1)
  
  by 127.0.0.1 (33105) on 2008年04月30日 9時16分 (#1337615) 日記
  
  そっちはフィルタリングの分野である程度研究されていたような気が。
  でもってスモウレスラーもひっかかってしまうみたいな話だったような。
  
  シェア
  
  親コメント
  - Re:関連検索 (スコア:2, おもしろおかしい)
    
    by Anonymous Coward on 2008年04月30日 9時41分 (#1337630)
    
    主任、誤解です！　相撲の画像を検索していただけなんです！
    
    シェア
    
    親コメント
    - Re:関連検索 (スコア:1)
      
      by ots556556 (34248) on 2008年04月30日 22時47分 (#1338106)
      
      「どうして相撲の画像を検索していたんだ？」
      「まったまた～、主任だって力士好きでしょ？」
      
      シェア
      
      親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      ホモ・ゲイと区別がつかないのでだめです
      
      ＃身長や体型が小さくて少女と区別がつかないのでダメ理論が通るならこれも通るかもしれない
      - やだなぁ…(Re:関連検索) (スコア:5, すばらしい洞察)
        
        by Artane. (1042) on 2008年04月30日 13時44分 (#1337843) ホームページ日記
        
        お相撲さんに(;´Д｀)ﾊｧﾊｧする人(エロサイトへの間接リンク注意) [blogspot.com]はたくさんいますよぉ…マイナージャンルらしいけどお相撲さん萌えの腐の人は国内ですらいるんだしー [bbspink.com](リンク先は一例)、プロレスラー萌えはやおい文化でも古典だし-、そもそも海外ではお相撲さんと言うとモロに男女問わずにマニアいるんだしー。
        
        とゆーか、ホモ・ゲイ相手のエロが規制されないというのは、ある意味相当大きな差別なんですが…規制対象自体がオールオアナッシングなのですよ、我々人類の性嗜好は貪欲ですから。食欲と同じかそれ以上に。
        
        つまりは、
        人類、老いも若きも太いも細いも肌の色も問わず、嗜好も問わず、全てが欲情される対象なんだから、全ての人間はポルノとして取り締まる必要がある！ by ポルノ有害論者
        とゆー事ですよ(^-^)b
        
        シェア
        
        親コメント
        
        Re:やだなぁ…(Re:関連検索) (スコア:1)
        
        by USH (8040) on 2008年04月30日 16時35分 (#1337941) 日記
        
        つまりは、
        人類、老いも若きも太いも細いも肌の色も問わず、嗜好も問わず、全てが欲情される対象なんだから、全ての人間はポルノとして取り締まる必要がある！ by ポルノ有害論者
        とゆー事ですよ(^-^)b
        
        そうか! モハメットが偶像崇拝を禁止したのは、これを先見して(あるいは神から預言されて)のことだったのか!!
        
        でもって、イスラム芸術の幾何学文様に萌える文化が秋葉原を席捲。
        
        シェア
        
        親コメント
        
        Re:やだなぁ…(Re:関連検索) (スコア:2, 興味深い)
        
        by elderwand (34630) on 2008年04月30日 17時16分 (#1337967) 日記
        
        > モハメットが偶像崇拝を禁止
        
        もっと前のモーゼから禁止ですね。キリスト教だって禁止なんだけど、ギリシャ・ラテン文化に溶け込んでいくうちに、聖像ＯＫになってしまったとか。
        
        ＃仏教だって、仏像を崇めよなんて教えは本来無いと思う。
        
        シェア
        
        親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      そうなんです。四十八手の画像を(ry
新しい～ (スコア:0)

by Anonymous Coward on 2008年04月30日 1時52分 (#1337550)

新しいアルゴリズムなのね。
「新しい画像」を検索してくれるアルゴリズムではなく

掲載日時だけだと、単なる再掲載の区別が付かないから
「新しい画像」を見極めてくれるとうれしいんだけどなー
- Re: (スコア:0)
  
  by Anonymous Coward
  
  新しい(Fresh)画像だと、肌色系(Fresh)な画像が増えるんですね。いいですね。
  - フレッシュ (スコア:1)
    
    by Livingdead (18685) on 2008年04月30日 9時31分 (#1337626) ホームページ日記
    
    そういや中学生くらいのころRPGやってて
    「フレッシュ」ゴーレムを，新しいゴーレムなんだ，
    と勘違いしていた俺．
    
    ＃肉は flesh
    
    --
    屍体メモ [windy.cx]
    
    シェア
    
    親コメント
    - Re:フレッシュ (スコア:1, おもしろおかしい)
      
      by Anonymous Coward on 2008年04月30日 12時13分 (#1337766)
      
      まだ駆け出しの頃、ファイルの内容をディスクに書き出すために、
      
      flush(fp);
      
      とするところを、
      
      flash(fp);
      
      と書いてしまい、
      実行時にはファイルが凄まじい勢いで輝いてしまった。
      
      シェア
      
      親コメント
      - 水洗トイレで (スコア:0)
        
        by Anonymous Coward
        
        水洗トイレでも flush するところを flash してしまい，
        アレが凄まじい勢いで輝いてしまった。
    - RとL (スコア:0)
      
      by Anonymous Coward
      
      枠型なDBを論文にしてFrame型って書くところをFlame型って書いて炎上したことがあったな。
  - Re:新しい～ (スコア:1)
    
    by adeu (2937) on 2008年04月30日 10時25分 (#1337665)
    
    狙って書いているんでしょうけど、いちおう、肌色系はfleshね。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  全く同じファイルの再掲なら、ダイジェストをとればいいのでしょうね。
  
  >「新しい画像」を見極めて
  
  再掲画像へのリンクに世間のみんなが「これは再掲だ」、
  つまりスラド風にいえば「余計なもの」というモデレーションを
  付けれたら話は簡単なんですけどねえ…
  - メタデータで (スコア:1)
    
    by Livingdead (18685) on 2008年04月30日 9時34分 (#1337629) ホームページ日記
    
    ホントは画像そのもののメタデータ記述領域に
    正しいメタデータが書いてあればいいんですけどねぇ．
    
    Office 系文書のプロパティにでたらめな情報が書いてある
    ことが多いように，直接＆頻繁に目に触れるデータじゃないと
    まともな情報は記述されないんだろうなぁ．
    
    ＃日付くらいならデジカメが自動で埋め込むかな
    
    --
    屍体メモ [windy.cx]
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      むしろデジカメの中に画像解析アルゴリズムの入ったエンジンを乗っけて、自動的にメタデータを付けてくれる製品を発売……
      
      #またそれがいきすぎたことが原因で、エロい写真の撮影場所とかがバレたりして問題になるんだろうな
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        そのエンジンの開発者のところにはサンプルとしてエロい写真とかがいっぱいあるんですね。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      >> 正しいメタデータが書いてあれば
      
      画像検索の専門家じゃないので正確には知りませんが，画像検索において，（単なる2次元のデジタルデータとして扱うのではなく）コンテキストを解釈するという意味では「正しい」メタデータというものは存在し得ない（厳密には「無限に存在する」の方が正確だけど）のが問題の難しいところなんだとオレは理解しています．
      
      例えばF1の写真をとってみても，「F1」の写真なのか，ある特定のレースの写真なのか，ある特定の「チームXXXの車」の写真なのか，ある特定の「ドライバー」の写真なのか，あるいは「XXXが***を抜い
- Re:新しい〜 (スコア:0)
  
  by Anonymous Coward
  
  たしか更新日で絞れるオプションがあったはず
矛盾 (スコア:0)

by Anonymous Coward on 2008年04月30日 8時16分 (#1337589)

画像検索なんていうから、てっきり、

「Google研究者ら、新しいCAPCHA破りアルゴリズムについて発表」

かと思っちゃったよ。
テキスト検索は？ (スコア:0)

by Anonymous Coward on 2008年04月30日 9時33分 (#1337628)

最近、テキスト検索の精度がガタ落ちでがっかりすることが多くなったんですが、何か対策のようなことをやるんでしょうかね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  精度が落ちたというより、処理すべきデータ(要するにWebページ)が多くなりすぎて、絞りきれなくなってきたように思います。
  従来の検索アルゴリズムでページランク１と判断できそうなサイトが、気がついたら100もできてる、といった具合に。
  
  人間はせいぜい4-5ページしか見ないでしょうしね。
  
  # うちに来るGoogleBot、百度のクローラの倍以上だ。なんか力技でしのいでる気がする。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    本当に4-5ページしか読まないのかな。
    俺は漏れがあるんじゃないかと80ぐらいまでは読むことが多い。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ブログを除外できれば精度上がりそう。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      そうですか？ブログに屑が多いのも事実だけど
      特に技術情報に関しては有用な情報も多いですよ。
      単純にブログを対象から外すだけで問題解決になるのなら
      とっくにGoogleはそうしていると思いますが。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        ブログの内容が屑だとは私は思わないんだけど、
        (典型的な)ブログの「フォーマット」が検索に優しくないなあと思うことは多いです。
        
        ●無関係な話題からなる(日付でいえば連番の)記事が合体している。
        ●しばしば脇に広告とかが載る。
        
        これらのせいで、凄くノイズ率が上がってる気がする。
        あれが無くなってくれれば結構マシになるのにな。
        
        逆にいえば、ノイズ率が上がらないような"できの良い"ブログエンジンを使えばいい、ということじゃないかなと。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      とりあえずソーシャルブックマークを除外して欲しい。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        同意。
        実体と、それへのソーシャルブックマークとかが近い序列にあるとイラッとする。
        あと鬱陶しいのはアソシエイト付の amazon へのリンクとか、 amazon を使ったサイトみたいなやつ。
        
        個人設定で常に黙示する条件を指定できればいいのに。
ニューラルネットとどう違うの？ (スコア:0)

by Anonymous Coward on 2008年04月30日 10時42分 (#1337678)

論文読まずに脊髄反射だけど。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  おまえニューラルネット知らんだろ
一方その頃 (スコア:0)

by Anonymous Coward on 2008年05月01日 1時51分 (#1338182)

情報大航海プロジェクト [igvpj.jp]では。
この音頭取りが言ってる発言 [impress.co.jp]が気になって
現在、日本は米国の後追いをするのか、それとも（情報大航海プロジェクトで）さまざまな情報を連鎖させることで新たな付加価値を生み出すのか、という岐路に立っている。

なに？このオレ（お上が作って下さるインフラ＝情報大航海プロジェクト＝八尋俊英様）を取るかアイツ（米国・・の誰だよ）を取るかみたいな２択の強要。
おまいら、実は俺らそんな２択の岐路に立ってるんだそうですが、いかが。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Google研究者ら、新しい画像検索アルゴリズムについて発表 More ログイン

手持ちの画像を検索したい (スコア:2, 興味深い)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

日本でも同じようなことしてますけど。 (スコア:2, 参考になる)

Re:日本でも同じようなことしてますけど。 (スコア:3, 参考になる)

Re:日本でも同じようなことしてますけど。 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

関連検索 (スコア:1, おもしろおかしい)

Re:関連検索 (スコア:1)

Re:関連検索 (スコア:2, おもしろおかしい)

Re:関連検索 (スコア:1)

Re: (スコア:0)

やだなぁ…(Re:関連検索) (スコア:5, すばらしい洞察)

Re:やだなぁ…(Re:関連検索) (スコア:1)

Re:やだなぁ…(Re:関連検索) (スコア:2, 興味深い)

Re: (スコア:0)

新しい～ (スコア:0)

Re: (スコア:0)

フレッシュ (スコア:1)

Re:フレッシュ (スコア:1, おもしろおかしい)

水洗トイレで (スコア:0)

RとL (スコア:0)

Re:新しい～ (スコア:1)

Re: (スコア:0)

メタデータで (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:新しい〜 (スコア:0)

矛盾 (スコア:0)

テキスト検索は？ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

ニューラルネットとどう違うの？ (スコア:0)

Re: (スコア:0)

一方その頃 (スコア:0)