アカウント名:
パスワード:
日本語の扱いは昔からイマイチだったから、この成果を検索のほうにフィードバックして、よりよい結果を導き出せるようになったらいいね。 「日本語のページを検索」すると中国語のページとかまでヒットする、なんてのはいい加減直して欲しいぞ。
日本語のページと中国語のページを見分けるのは、実用的なレベルに水準(確率)を上げることはできるけど、厳密には無理だよ。ページに言語の情報がなくて、Unicodeで漢字だけが書かれていた場合、見分けられないもの。
そういうなら日本語と英語のページも見分けられないわけで。
それでも十分だから早いとこ頼むわ。 現状、日本語としてはマイナー、中国語としてはメジャーな単語(の一部?)だったりすると、検索エンジンスパムと中国語のページの山を越えて、ようやく俺が探していたページ達が出てくる、なんてのがあるからさ。
ページに文字コードの情報がなければ、バイト列を与えられたときに、ISO-8859-*のどれなのか(はたまたShift_JISかEUC-JPかEUC-KRかGB2312か)、厳密には識別できないことと引き換えですから。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall
Google検索の精度向上 (スコア:0)
日本語の扱いは昔からイマイチだったから、この成果を検索のほうにフィードバックして、よりよい結果を導き出せるようになったらいいね。 「日本語のページを検索」すると中国語のページとかまでヒットする、なんてのはいい加減直して欲しいぞ。
Re:Google検索の精度向上 (スコア:2)
日本語のページと中国語のページを見分けるのは、実用的なレベルに水準(確率)を上げることはできるけど、厳密には無理だよ。
ページに言語の情報がなくて、Unicodeで漢字だけが書かれていた場合、見分けられないもの。
Re:Google検索の精度向上 (スコア:1, 参考になる)
言語指定をするのが面倒くさいので、日本語以外なら、対象とする言語特有かつ頻出の単語をキーワードに混ぜれば、狙いの言語で検索できます。「Google」で検索したとき、日本語のものが優先的に出てくる設定でも、「Google the」とすれば、英語のものだけを検索することができます。
#最近の人はこんな小技を知らんのだろうか。
Re: (スコア:0)
そういうなら日本語と英語のページも見分けられないわけで。
Re: (スコア:0)
それでも十分だから早いとこ頼むわ。 現状、日本語としてはマイナー、中国語としてはメジャーな単語(の一部?)だったりすると、検索エンジンスパムと中国語のページの山を越えて、ようやく俺が探していたページ達が出てくる、なんてのがあるからさ。
Re: (スコア:0)
ページに文字コードの情報がなければ、バイト列を与えられたときに、ISO-8859-*のどれなのか(はたまたShift_JISかEUC-JPかEUC-KRかGB2312か)、厳密には識別できないことと引き換えですから。