Googleの音声認識技術、誤認識率は5%以下 63
ストーリー by hylom
日本語だとどうなんだろう 部門より
日本語だとどうなんだろう 部門より
GoogleのSundar Pichai CEOによると、Googleの音声認識技術の精度は「人間並み」で、現行の誤認識率は4.9%だという(海外SEO情報ブログ、VenturBeat)。
Googleの音声認識技術の精度は短期間で大きく向上しており、2016年6月は誤認識率が8.5%だったのが、2016年10月には6.8%、同12月には6.1%と、数ヶ月で精度を向上させている。
なお、2016年のモバイル検索のうち20%が音声検索だったそうだ。
Youtubeの自動生成英語字幕が非常によくなったのはこれの影響? (スコア:2, 参考になる)
タイトル通りですが、Youtubeの自動生成英語字幕が非常によくなっており
中級くらいの英語学習者のヒアリング/リーディングにおいて最適に近い教材と化しています
ときどき間違った認識があるのも、
「似た発音の単語や、発言者の滑舌や訛りにより紛らわしい単語」を覚えるのにとても有用
(そこをリアルタイムで意識する余裕がないレベルのうちはオススメしませんが)
また、自動認識の精度が低いだろうとGoogle側で判断した字幕箇所は自動でグレーっぽく表示されるなど
至れり尽くせりです
誤認の中身は? (スコア:1)
「誤認識率=5%以下」という数字が人間並みという情報はありますが
具体的な誤認の内容や傾向に関する記述がありません。
メディアお得意の情報の独り歩きがありませんように。
Re:正確には「ワードエラー率(Word Error Rate)」 (スコア:2)
ああ、ここに情報があった
https://robotstart.info/2017/05/22/google-speech-recognition-word-erro... [robotstart.info]
(ロボット情報Webマガジン:ロボスタ)
>音声認識技術を評価する基準として、人間が発話した単語の聞き取りできなかった
>ワードに着目する「ワードエラー率(Word Error Rate)」がある。
さすが、専門のサイトは言葉の定義から入りますね。
これを知ると、本テーマの元記事とは印象が変わります。
ワードエラー率が1年経たずして「8.5%」から「4.9%」に改善されたのに驚く
というような感じで記事が書かれております。
Re:誤認の中身は? (スコア:1)
んにゃ? わたしゃ神様だ
# 神様だって誤認識するんだよ(まちなさい
Re:誤認の中身は? (スコア:2)
大阪ではえべっさんは耳悪いっちゅうことで、なかなか願いがとどきまへん。
Re:誤認の中身は? (スコア:1)
ドンドン叩かんとあかんかな。
Re: (スコア:0)
貴社の記者は汽車で帰社。
同音異義語はどこまで識別できるのだろうか。
「音としては認識できてるから無問題」という解釈もアリと言えばアリだが。
Re:誤認の中身は? (スコア:1)
「人間並」というなら、ある程度前後の文脈も汲み取って認識しそう。
前後の後ろは無理として、続いている会話から関連度が高い言葉を同音異義語の中から選択するくらいはやってるんだろうなぁ。
Re: (スコア:0)
とりあえずAndroid持ってるならマイクのアイコン押して話してみればいい。
とりあえず候補がでるけど、しゃべっていると補正されていく。
地名だとかお店の名前なんかを検索する分にはほぼあたる。
通信できないと認識しないのでサーバで候補を絞っているらしい。
日常会話でキシャキシャいうかというとそういうことはないので、5%と言われてもふーんそんなに外すんだ、という感じ。
Re: (スコア:0)
人間並みって言うと、誤認識は5%どころかもっと高くても不思議じゃない気もするが。
Re:誤認の中身は? (スコア:1)
それは「人間並みに間違える」率ってことですね。
#飲食店でのオーダー誤認識率は客単価に反比例する仮説。
Re:誤認の中身は? (スコア:1)
GoogleはIMEも作ってるからねえ
「きしゃのきしゃは(略)」さえ聞き取れれば後はそれを漢字に変換させるだけでないの
Re:誤認の中身は? (スコア:1)
かな漢字変換に比べると、アクセント情報も乗ってるから変換精度あがりそう。
「このはしわたるべからず」とか。
Re: (スコア:0)
その例は普通に認識できました。思ったよりすごいぞこれ。
Re: (スコア:0)
昔IMEの変換精度のテストに散々使われたその手の同音異義語満載短文をまるまる辞書登録することで見かけ上うまく変換できたように見せるという暴挙に出たIMEがあってだな。
その手の典型的見本文は精度評価として役に立たないという。
Re:誤認の中身は? (スコア:1)
入れた手のお茶(それ違う)
GoogleだとWeb上の文章から学習させてそうだから、特に工夫をしなくても典型的な例文は入っちゃいそうな予感
Re: (スコア:0)
この程度はMeCabのころからできていたわ
当時「すももも・・・・」のやつもきちんと認識できるので驚いた記憶がある。
Re: (スコア:0)
すみません
Mecab + Juliusでした
Re: (スコア:0)
タレコミ内のリンクから辿れる元論文に具体的な誤認の内容や傾向に関する記述があります。
https://arxiv.org/abs/1610.05256 [arxiv.org]
スラドお得意のソースも読まずに印象だけで批判がありませんように。
5%ですか... (スコア:1)
hylomさんがhylomする確立よりも低い感じですか。
Re:5%ですか... (スコア:1)
>hylomさんがhylomする確立よりも低い感じですか。
hylomさんが確立される確率はどれくらいだろう。
Re: (スコア:0)
やめろ
観測すればするほど確定してしまう
Re: (スコア:0)
スルー力とは量子的な力だったのか...
Re: (スコア:0)
誤認識と誤記を一緒くたにするのはちょっと
Re: (スコア:0)
今までのtypoが誤記ではなくhylomの誤認識だった可能性が出てきたな
Re: (スコア:0)
hylomの御認識は謝りません!
Re: (スコア:0)
困った話ですね。
ご認識先
ウンコ以下はウンコを含まないが、5%以下なら5%も含みます。 (スコア:1)
渡部恒三「英語がやられたようだな…」
長州力「ククク…奴は四天王の中でも最弱…」
天龍源一郎「音声認識如きにやられるとは我らのツラ汚しよ…」
Re: (スコア:0)
なんで数字のときだけ「以下」はinclusiveなんだろうね。
話し言葉はどうなんだろう (スコア:1)
よく言われるけど
「アホ!」
「アホやね~」
「…アホ」
は月が綺麗なみに難しいんじゃなかろうかと予想
機械学習の嵐でなんとかなる?
Re: (スコア:0)
Re: (スコア:0)
音声の聞き取り精度の話ですよ。
翻訳は関係ありません。
Re: (スコア:0)
そんなの必要あるのかねと思ったが
聴覚障害者や言外の事がわからないアスペ・自閉症向けにはいいかもしれんな
# そして「嘘・ツンデレ見抜きマシーン」として恐れられるように
※ただし (スコア:0)
英語に限る
Re: (スコア:0)
お↑ぅけぇ↓ぐぅぐる・・・・
中々動いてくれない、親父のスマホ。
Re: (スコア:0)
おぎくぼ!
Re:なお (スコア:1)
↑リンク先が変だから貼り直しておくよ
http://developer.cybozu.co.jp/akky/2007/02/vista-edit-by-speech/ [cybozu.co.jp]
いやいや (スコア:0)
制度が良ければ会議を録音して後で翻訳させようと少し前にTED talkを聞かせて試してみましたが全然でした。
数年前から飛躍的に改善してるとはいえTEDのような簡単な英語でこれだとまだ厳しいです。
音声検索のような簡単なものに限っては正しいかもしれないですが音声認識技術の精度が人間並みというのは誇張でしょう。
Re: (スコア:0)
その、5%切った奴というのが外から使えるサービスとして提供されてるものなのか分からないやん。
研究レベルでAlphaGOみたいに馬鹿でっかいクラスタをフルにぶん回して、ついに人類未到の5%切り達成! というニュースなのかも。
Re: (スコア:0)
制度が良ければ俺だって
Re: (スコア:0)
Re: (スコア:0)
TEDはいいぞと勧められ初級とか子供向け番組的なの聞いてみたけど全く意味がとれなかった俺に対する慰めかー
Re: (スコア:0)
人間の場合、音声認識そのものの精度は大したことなくても、後段の構文解析とか文意の把握が段違いに優れているんでは?
実際、リンク先に「(人間は)誤認識率が 20% を超えると、もはや会話が成立しなくなる」とありますけど、逆に言えば「2割ぐらい聞き逃しても文意を補完できる可能性がある」ということですよね。
Re:いやいや (スコア:1)
> 逆に言えば「2割ぐらい聞き逃しても文意を補完できる可能性がある」ということですよね。
「2割ぐらいは真面目に聞いてない」ということでもありますね
Re: (スコア:0)
> 後段の構文解析とか文意の把握が段違いに優れているんでは?
それhylomさんにも同じこと言えんの?
Re: (スコア:0)
IBM Watsonのほうが日本語音声認識はよかった。
どっちもどっちという程度のレベルだったが。
OCRもそうだった (スコア:0)
そもそも4.9%ってほぼ1/20なので、そこまで低い誤認率ではないですね。
Re:OCRもそうだった (スコア:1)
OCRでの認識率という場合、文字単位で数えますから誤認率5%はぐだぐだですよ。400字詰めの原稿用紙一枚あたり誤字が20文字。誤認率0.1%のオーダーぐらいになってやっと実用レベルですかね。
一方、今回の報告は、元記事によると「Word Error Rate」つまり単語単位の誤認率。
英単語は大ざっぱに平均 1word=5文字程度でしょうから、文字単位の誤認率1%相当です。
「文章入力のための音声認識」と考えると、この程度の誤認率でもまだまだ悪い数字ですが
「検索条件入力のための音声認識」(せいぜい数ワード)でこの認識率なら、間違えたら言い直せばいいだけですし、まあ実用的でしょうね。
5単語を発話したとして、1単語でも間違えてしまう誤認率は23%に落ちますが、1回言い直してそれでも失敗する率は5%、2回言い直してもやっぱり失敗する率は1%ぐらいになる計算。
#で、それを繰り返すうちに、人間側で「認識しやすい発話」を心がけるようになっちゃうんですよね。
#「○時にタイマー」って言うと○時2分にタイマーセットされたりとかするので、「タイマー、○時○分」って言うようにしたりとか。
#誤認率の低下には、そういう「人間側の訓練の成果」もあるんじゃないかとちょっと疑ってみたり。
滑舌 (スコア:0)
俺は正しく認識してくれることの方が少ないんだが自分が思ってる以上に滑舌が悪いのかな
Re: (スコア:0)
# 数年後には滑舌悪くても OK になるかもしれませんが。