パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Googleが「Google 日本語入力」ベータ版を公開」記事へのコメント

  • by Anonymous Coward on 2009年12月03日 15時38分 (#1682801)

    日本語の扱いは昔からイマイチだったから、この成果を検索のほうにフィードバックして、よりよい結果を導き出せるようになったらいいね。 「日本語のページを検索」すると中国語のページとかまでヒットする、なんてのはいい加減直して欲しいぞ。

    • by nmaeda (5111) on 2009年12月03日 16時08分 (#1682827)

      日本語のページと中国語のページを見分けるのは、実用的なレベルに水準(確率)を上げることはできるけど、厳密には無理だよ。
      ページに言語の情報がなくて、Unicodeで漢字だけが書かれていた場合、見分けられないもの。

      親コメント
      • by Anonymous Coward on 2009年12月03日 21時27分 (#1683080)
        検索ワードに「 は」と追加しておけば、日本語を含むものが出てきます。言語指定が中国語であっても。「が」とか「で」とか、日本語の文章に確実に入っていそうな仮名を使うのがポイント。

        言語指定をするのが面倒くさいので、日本語以外なら、対象とする言語特有かつ頻出の単語をキーワードに混ぜれば、狙いの言語で検索できます。「Google」で検索したとき、日本語のものが優先的に出てくる設定でも、「Google the」とすれば、英語のものだけを検索することができます。

        #最近の人はこんな小技を知らんのだろうか。
        親コメント
      • by Anonymous Coward

        そういうなら日本語と英語のページも見分けられないわけで。

      • by Anonymous Coward

        それでも十分だから早いとこ頼むわ。 現状、日本語としてはマイナー、中国語としてはメジャーな単語(の一部?)だったりすると、検索エンジンスパムと中国語のページの山を越えて、ようやく俺が探していたページ達が出てくる、なんてのがあるからさ。

      • by Anonymous Coward

        ページに文字コードの情報がなければ、バイト列を与えられたときに、ISO-8859-*のどれなのか(はたまたShift_JISかEUC-JPかEUC-KRかGB2312か)、厳密には識別できないことと引き換えですから。

アレゲは一日にしてならず -- アレゲ見習い

処理中...