パスワードを忘れた? アカウント作成
13304115 story
Google

Googleの音声認識技術、誤認識率は5%以下 63

ストーリー by hylom
日本語だとどうなんだろう 部門より

GoogleのSundar Pichai CEOによると、Googleの音声認識技術の精度は「人間並み」で、現行の誤認識率は4.9%だという(海外SEO情報ブログVenturBeat)。

Googleの音声認識技術の精度は短期間で大きく向上しており、2016年6月は誤認識率が8.5%だったのが、2016年10月には6.8%、同12月には6.1%と、数ヶ月で精度を向上させている。

なお、2016年のモバイル検索のうち20%が音声検索だったそうだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2017年06月09日 11時29分 (#3224748)

    タイトル通りですが、Youtubeの自動生成英語字幕が非常によくなっており
    中級くらいの英語学習者のヒアリング/リーディングにおいて最適に近い教材と化しています

    ときどき間違った認識があるのも、
    「似た発音の単語や、発言者の滑舌や訛りにより紛らわしい単語」を覚えるのにとても有用

    (そこをリアルタイムで意識する余裕がないレベルのうちはオススメしませんが)

    また、自動認識の精度が低いだろうとGoogle側で判断した字幕箇所は自動でグレーっぽく表示されるなど
    至れり尽くせりです

  • by o-nikko (46233) on 2017年06月09日 8時20分 (#3224644) 日記

    「誤認識率=5%以下」という数字が人間並みという情報はありますが
    具体的な誤認の内容や傾向に関する記述がありません。

    メディアお得意の情報の独り歩きがありませんように。

    • ああ、ここに情報があった

      https://robotstart.info/2017/05/22/google-speech-recognition-word-erro... [robotstart.info]
      (ロボット情報Webマガジン:ロボスタ)

      >音声認識技術を評価する基準として、人間が発話した単語の聞き取りできなかった
      >ワードに着目する「ワードエラー率(Word Error Rate)」がある。

      さすが、専門のサイトは言葉の定義から入りますね。
      これを知ると、本テーマの元記事とは印象が変わります。

      ワードエラー率が1年経たずして「8.5%」から「4.9%」に改善されたのに驚く
      というような感じで記事が書かれております。

      親コメント
    • んにゃ? わたしゃ神様だ

      # 神様だって誤認識するんだよ(まちなさい

      親コメント
    • by Anonymous Coward

      貴社の記者は汽車で帰社。

      同音異義語はどこまで識別できるのだろうか。
      「音としては認識できてるから無問題」という解釈もアリと言えばアリだが。

      • by nemui4 (20313) on 2017年06月09日 9時08分 (#3224667) 日記

        「人間並」というなら、ある程度前後の文脈も汲み取って認識しそう。
        前後の後ろは無理として、続いている会話から関連度が高い言葉を同音異義語の中から選択するくらいはやってるんだろうなぁ。

        親コメント
        • by Anonymous Coward

          とりあえずAndroid持ってるならマイクのアイコン押して話してみればいい。
          とりあえず候補がでるけど、しゃべっていると補正されていく。
          地名だとかお店の名前なんかを検索する分にはほぼあたる。
          通信できないと認識しないのでサーバで候補を絞っているらしい。
          日常会話でキシャキシャいうかというとそういうことはないので、5%と言われてもふーんそんなに外すんだ、という感じ。

        • by Anonymous Coward

          人間並みって言うと、誤認識は5%どころかもっと高くても不思議じゃない気もするが。

      • by Anonymous Coward on 2017年06月09日 11時29分 (#3224747)

        GoogleはIMEも作ってるからねえ
        「きしゃのきしゃは(略)」さえ聞き取れれば後はそれを漢字に変換させるだけでないの

        親コメント
      • by Anonymous Coward

        その例は普通に認識できました。思ったよりすごいぞこれ。

        • by Anonymous Coward

          昔IMEの変換精度のテストに散々使われたその手の同音異義語満載短文をまるまる辞書登録することで見かけ上うまく変換できたように見せるという暴挙に出たIMEがあってだな。

          その手の典型的見本文は精度評価として役に立たないという。

      • by Anonymous Coward

        この程度はMeCabのころからできていたわ
        当時「すももも・・・・」のやつもきちんと認識できるので驚いた記憶がある。

        • by Anonymous Coward

          すみません
          Mecab + Juliusでした

    • by Anonymous Coward

      タレコミ内のリンクから辿れる元論文に具体的な誤認の内容や傾向に関する記述があります。
      https://arxiv.org/abs/1610.05256 [arxiv.org]

      スラドお得意のソースも読まずに印象だけで批判がありませんように。

  • by Anonymous Coward on 2017年06月09日 8時22分 (#3224645)

    hylomさんがhylomする確立よりも低い感じですか。

    • by nemui4 (20313) on 2017年06月09日 9時04分 (#3224666) 日記

      >hylomさんがhylomする確立よりも低い感じですか。

      hylomさんが確立される確率はどれくらいだろう。

      親コメント
      • by Anonymous Coward

        やめろ
        観測すればするほど確定してしまう

        • by Anonymous Coward

          スルー力とは量子的な力だったのか...

    • by Anonymous Coward

      誤認識と誤記を一緒くたにするのはちょっと

      • by Anonymous Coward

        今までのtypoが誤記ではなくhylomの誤認識だった可能性が出てきたな

        • by Anonymous Coward

          hylomの御認識は謝りません!

          • by Anonymous Coward

            困った話ですね。

            ご認識先

  • 渡部恒三「英語がやられたようだな…」
    長州力「ククク…奴は四天王の中でも最弱…」
    天龍源一郎「音声認識如きにやられるとは我らのツラ汚しよ…」

    • by Anonymous Coward

      なんで数字のときだけ「以下」はinclusiveなんだろうね。

  • よく言われるけど
    「アホ!」
    「アホやね~」
    「…アホ」
    は月が綺麗なみに難しいんじゃなかろうかと予想
    機械学習の嵐でなんとかなる?

    • by Anonymous Coward
      翻訳じゃないので、、、
    • by Anonymous Coward

      音声の聞き取り精度の話ですよ。
      翻訳は関係ありません。

    • by Anonymous Coward

      そんなの必要あるのかねと思ったが
      聴覚障害者や言外の事がわからないアスペ・自閉症向けにはいいかもしれんな

      # そして「嘘・ツンデレ見抜きマシーン」として恐れられるように

  • by Anonymous Coward on 2017年06月09日 8時01分 (#3224639)

    英語に限る

  • by Anonymous Coward on 2017年06月09日 9時14分 (#3224672)

    制度が良ければ会議を録音して後で翻訳させようと少し前にTED talkを聞かせて試してみましたが全然でした。
    数年前から飛躍的に改善してるとはいえTEDのような簡単な英語でこれだとまだ厳しいです。
    音声検索のような簡単なものに限っては正しいかもしれないですが音声認識技術の精度が人間並みというのは誇張でしょう。

    • by Anonymous Coward

      その、5%切った奴というのが外から使えるサービスとして提供されてるものなのか分からないやん。
      研究レベルでAlphaGOみたいに馬鹿でっかいクラスタをフルにぶん回して、ついに人類未到の5%切り達成! というニュースなのかも。

    • by Anonymous Coward

      制度が良ければ俺だって

    • by Anonymous Coward
      TED のような簡単な英語っていうけど、それは人によるぞ。
      • by Anonymous Coward

        TEDはいいぞと勧められ初級とか子供向け番組的なの聞いてみたけど全く意味がとれなかった俺に対する慰めかー

    • by Anonymous Coward

      人間の場合、音声認識そのものの精度は大したことなくても、後段の構文解析とか文意の把握が段違いに優れているんでは?
      実際、リンク先に「(人間は)誤認識率が 20% を超えると、もはや会話が成立しなくなる」とありますけど、逆に言えば「2割ぐらい聞き逃しても文意を補完できる可能性がある」ということですよね。

      • by annoymouse coward (11178) on 2017年06月09日 13時10分 (#3224785) 日記

        > 逆に言えば「2割ぐらい聞き逃しても文意を補完できる可能性がある」ということですよね。

        「2割ぐらいは真面目に聞いてない」ということでもありますね

        親コメント
      • by Anonymous Coward

        > 後段の構文解析とか文意の把握が段違いに優れているんでは?
         
        それhylomさんにも同じこと言えんの?

    • by Anonymous Coward

      IBM Watsonのほうが日本語音声認識はよかった。
      どっちもどっちという程度のレベルだったが。

  • by Anonymous Coward on 2017年06月09日 10時13分 (#3224709)

    そもそも4.9%ってほぼ1/20なので、そこまで低い誤認率ではないですね。

    • OCRでの認識率という場合、文字単位で数えますから誤認率5%はぐだぐだですよ。400字詰めの原稿用紙一枚あたり誤字が20文字。誤認率0.1%のオーダーぐらいになってやっと実用レベルですかね。

      一方、今回の報告は、元記事によると「Word Error Rate」つまり単語単位の誤認率。
      英単語は大ざっぱに平均 1word=5文字程度でしょうから、文字単位の誤認率1%相当です。

      「文章入力のための音声認識」と考えると、この程度の誤認率でもまだまだ悪い数字ですが
      「検索条件入力のための音声認識」(せいぜい数ワード)でこの認識率なら、間違えたら言い直せばいいだけですし、まあ実用的でしょうね。
      5単語を発話したとして、1単語でも間違えてしまう誤認率は23%に落ちますが、1回言い直してそれでも失敗する率は5%、2回言い直してもやっぱり失敗する率は1%ぐらいになる計算。

      #で、それを繰り返すうちに、人間側で「認識しやすい発話」を心がけるようになっちゃうんですよね。
      #「○時にタイマー」って言うと○時2分にタイマーセットされたりとかするので、「タイマー、○時○分」って言うようにしたりとか。
      #誤認率の低下には、そういう「人間側の訓練の成果」もあるんじゃないかとちょっと疑ってみたり。

      親コメント
  • by Anonymous Coward on 2017年06月09日 10時49分 (#3224724)

    俺は正しく認識してくれることの方が少ないんだが自分が思ってる以上に滑舌が悪いのかな

    • by Anonymous Coward
      音声認識できない人の滑舌が、良いか悪いかは判定できませんが、音声認識で問題が起きない人の滑舌が良いのは間違いないです。
      # 数年後には滑舌悪くても OK になるかもしれませんが。
typodupeerror

一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy

読み込み中...