Google研究者ら、新しい画像検索アルゴリズムについて発表 44
ストーリー by mhatta
応用自在 部門より
応用自在 部門より
TechCrunchの記事より。北京で開かれていたWWW2008の席上、Googleの研究者らがなかなか興味深い画像検索アルゴリズムの研究成果を披露したようだ(論文PDF)。 ユーザは画像を探す時、似たような画像を探していくものだという仮定を行い、確率的なvisual-hyperlinkというリンクが様々な画像の間にあると想定する。似通った画像間にはより訪問者が多いと想定され、より大きな重み付けがなされる。これに対してPageRankアルゴリズムを適用することにより、画像のRankを計算するのだという。現在のアルゴリズムでは、単語に対して妙な画像がひっかかってしまう場合が時々あるのだが、このアルゴリズムを利用することでユーザの満足度を向上できる結果が得られたとしている。これが実際にGoogleに採用されるか、採用されるにしてもにしてもそれが何時かはまだわからないが、実にアレゲでなかなか感心させられてしまう。
手持ちの画像を検索したい (スコア:2, 興味深い)
同じような画像(イラストなら同じ作者のイラスト)が見つかる可能性が高い(というか、その作者のサイトが見つかる)。
画像ファイルのMD5で検索したら、同じMD5をもつ画像が見つかると便利なんだけど。
Re: (スコア:0)
画像や音楽の出所(1次掲載場所)を知りたいときや、
自分がウェブで掲載している画像や音楽がどこに転載されているかなど。
再エンコードでの劣化を考えると類似度で検索できることが望ましい。
言いだしっぺが作れとか言われそうなのでID
Re: (スコア:0)
Re: (スコア:0)
イラスト検索システム Comition
http://comition.net/ [comition.net]
新しい検索エンジンの形? イラスト検索Comition登場!
http://srad.jp/it/article.pl?sid=07/12/25/0257235 [srad.jp]
日本でも同じようなことしてますけど。 (スコア:2, 参考になる)
中の人に聞いたことあるのですが、ユーザが踏んだURLを元にユーザをグルーピングし、似たような嗜好を持つユーザ同士でのレコメンドを行うとか。
音楽等データにしにくいサイトで、似たような楽曲を提案することもできるシステムとのこと。
こちらは画像や音楽に特化してるわけではないらしいですけど、特許出願中らしいので日本でGoogleがリリースしても大丈夫でしょうか。
Googleの規模でやってPageRankのアルゴリズムと組み合わせたら事情が違うかもしれませんけど。
Re:日本でも同じようなことしてますけど。 (スコア:3, 参考になる)
ユーザーの行動を基準にして、ランキングするという話ではありません。
現状での Google Image Search を使った検索で出力された
Top-N の結果に関してだけ、画像の類似度に相当する重みを持った
リンクを張り、そのネットワークを使って PageRank のような量を
計算するという話です。
タレコミ文が「ユーザの行動を基準として、画像をランキングする」と
読めなくもないので(よく読むと違うのですが)誤解の元かもしれません。
画像の類似度を使うだけではなく、
同じクエリで検索される仲間同士を結合することで、
画像が潜在的に持つ意味的なものもカバーできるという点が、
シンプルで新しい点なのだと思います。
ていうか、えー、そんなシンプルな考え方で
ほんとに大丈夫かなー、という気も。
Re:日本でも同じようなことしてますけど。 (スコア:1)
あるユーザーが検索結果中の画像u を見た次に画像v を見たらそれは画像が類似してるからだと見なして
>画像の類似度に相当する重みを持ったリンクを張り、
ってことかと思いました。
>画像の類似度を使うだけではなく、
>同じクエリで検索される仲間同士を結合することで、
>画像が潜在的に持つ意味的なものもカバーできるという点が、
ではなく、
同じクエリで検索された中でユーザーがクリックしたもの同士を仲間として仮想的な hyperlink で結合して
Page Rank を計算することで、画像が潜在的に持つ意味的な類似度や重要度をカバーしたランキングを行う
つまりユーザーの行動を利用して画像をランキングしてるように思います。
Re: (スコア:0)
あっちはケチョンケチョンに叩いて、Googleがやると興味を持つんだね
不思議なことだ
Re: (スコア:0)
当然でしょ。
Googleは実績で名を上げた。そして色々な成果物をリリースしてGeekをくすぐってる。
それにひきかえ、あっちは何の成果物もない癖に名前ばっかり。
Re: (スコア:0)
日本であげるならこれでしょ。
似たような画像を周辺に表示するという意味で、似たような画像に重み付けをする部分は同様のアプローチだと思いますね。
関連検索 (スコア:1, おもしろおかしい)
# この画像を検索した人はこんな画像も検索しています。
Re:関連検索 (スコア:1)
でもってスモウレスラーもひっかかってしまうみたいな話だったような。
Re:関連検索 (スコア:2, おもしろおかしい)
Re:関連検索 (スコア:1)
「まったまた~、主任だって力士好きでしょ?」
Re: (スコア:0)
#身長や体型が小さくて少女と区別がつかないのでダメ理論が通るならこれも通るかもしれない
やだなぁ…(Re:関連検索) (スコア:5, すばらしい洞察)
とゆーか、ホモ・ゲイ相手のエロが規制されないというのは、ある意味相当大きな差別なんですが…規制対象自体がオールオアナッシングなのですよ、我々人類の性嗜好は貪欲ですから。食欲と同じかそれ以上に。
つまりは、
人類、老いも若きも太いも細いも肌の色も問わず、嗜好も問わず、全てが欲情される対象なんだから、全ての人間はポルノとして取り締まる必要がある! by ポルノ有害論者
とゆー事ですよ(^-^)b
Re:やだなぁ…(Re:関連検索) (スコア:1)
そうか! モハメットが偶像崇拝を禁止したのは、これを先見して(あるいは神から預言されて)のことだったのか!!
でもって、イスラム芸術の幾何学文様に萌える文化が秋葉原を席捲。
Re:やだなぁ…(Re:関連検索) (スコア:2, 興味深い)
もっと前のモーゼから禁止ですね。キリスト教だって禁止なんだけど、ギリシャ・ラテン文化に溶け込んでいくうちに、聖像OKになってしまったとか。
#仏教だって、仏像を崇めよなんて教えは本来無いと思う。
Re: (スコア:0)
新しい~ (スコア:0)
「新しい画像」を検索してくれるアルゴリズムではなく
掲載日時だけだと、単なる再掲載の区別が付かないから
「新しい画像」を見極めてくれるとうれしいんだけどなー
Re: (スコア:0)
フレッシュ (スコア:1)
「フレッシュ」ゴーレムを,新しいゴーレムなんだ,
と勘違いしていた俺.
#肉は flesh
屍体メモ [windy.cx]
Re:フレッシュ (スコア:1, おもしろおかしい)
flush(fp);
とするところを、
flash(fp);
と書いてしまい、
実行時にはファイルが凄まじい勢いで輝いてしまった。
水洗トイレで (スコア:0)
アレが凄まじい勢いで輝いてしまった。
RとL (スコア:0)
Re:新しい~ (スコア:1)
Re: (スコア:0)
>「新しい画像」を見極めて
再掲画像へのリンクに世間のみんなが「これは再掲だ」、
つまりスラド風にいえば「余計なもの」というモデレーションを
付けれたら話は簡単なんですけどねえ…
メタデータで (スコア:1)
正しいメタデータが書いてあればいいんですけどねぇ.
Office 系文書のプロパティにでたらめな情報が書いてある
ことが多いように,直接&頻繁に目に触れるデータじゃないと
まともな情報は記述されないんだろうなぁ.
#日付くらいならデジカメが自動で埋め込むかな
屍体メモ [windy.cx]
Re: (スコア:0)
#またそれがいきすぎたことが原因で、エロい写真の撮影場所とかがバレたりして問題になるんだろうな
Re: (スコア:0)
そのエンジンの開発者のところにはサンプルとしてエロい写真とかがいっぱいあるんですね。
Re: (スコア:0)
画像検索の専門家じゃないので正確には知りませんが,画像検索において,(単なる2次元のデジタルデータとして扱うのではなく)コンテキストを解釈するという意味では「正しい」メタデータというものは存在し得ない(厳密には「無限に存在する」の方が正確だけど)のが問題の難しいところなんだとオレは理解しています.
例えばF1の写真をとってみても,「F1」の写真なのか,ある特定のレースの写真なのか,ある特定の「チームXXXの車」の写真なのか,ある特定の「ドライバー」の写真なのか,あるいは「XXXが***を抜い
Re:新しい〜 (スコア:0)
矛盾 (スコア:0)
「Google研究者ら、新しいCAPCHA破りアルゴリズムについて発表」
かと思っちゃったよ。
テキスト検索は? (スコア:0)
Re: (スコア:0)
従来の検索アルゴリズムでページランク1と判断できそうなサイトが、気がついたら100もできてる、といった具合に。
人間はせいぜい4-5ページしか見ないでしょうしね。
# うちに来るGoogleBot、百度のクローラの倍以上だ。なんか力技でしのいでる気がする。
Re: (スコア:0)
俺は漏れがあるんじゃないかと80ぐらいまでは読むことが多い。
Re: (スコア:0)
Re: (スコア:0)
特に技術情報に関しては有用な情報も多いですよ。
単純にブログを対象から外すだけで問題解決になるのなら
とっくにGoogleはそうしていると思いますが。
Re: (スコア:0)
(典型的な)ブログの「フォーマット」が検索に優しくないなあと思うことは多いです。
●無関係な話題からなる(日付でいえば連番の)記事が合体している。
●しばしば脇に広告とかが載る。
これらのせいで、凄くノイズ率が上がってる気がする。
あれが無くなってくれれば結構マシになるのにな。
逆にいえば、ノイズ率が上がらないような"できの良い"ブログエンジンを使えばいい、ということじゃないかなと。
Re: (スコア:0)
Re: (スコア:0)
実体と、それへのソーシャルブックマークとかが近い序列にあるとイラッとする。
あと鬱陶しいのはアソシエイト付の amazon へのリンクとか、 amazon を使ったサイトみたいなやつ。
個人設定で常に黙示する条件を指定できればいいのに。
ニューラルネットとどう違うの? (スコア:0)
Re: (スコア:0)
一方その頃 (スコア:0)
この音頭取りが言ってる発言 [impress.co.jp]が気になって
なに?このオレ(お上が作って下さるインフラ=情報大航海プロジェクト=八尋俊英様)を取るかアイツ(米国・・の誰だよ)を取るかみたいな2択の強要。
おまいら、実は俺らそんな2択の岐路に立ってるんだそうですが、いかが。