Microsoftの音声認識技術、英語では人間並みのレベルに到達 76
ストーリー by hylom
日本語だとどうなんでしょう 部門より
日本語だとどうなんでしょう 部門より
headless 曰く、
Microsoftの音声認識技術が英語では人間並みのレベルに到達したそうだ(論文概要、Next at Microsoft、The Next Web、Register)。
論文ではNIST 2000テストのSwitchboardとCallHomeを用い、人間(文字起こし専門家)とMicrosoftのASR(Automatic Speech Recognition)システムでのエラー率(WER: word error rate)を比較している。
SwitchboardのWERは専門家・ASRともに5.9%。MicrosoftのASRシステムは9月に6.3%に到達していたが、1か月ほどで0.4%向上したことになる。一方、CallHomeでは専門家の11.3%に対しASRは11.1%となり、人間による認識能力を上回った。
人間並みの音声認識技術の実現は、5年前には想像もできなかったという大きなマイルストーンであり、幅広い製品の機能を大幅に拡張することが期待される。
Surface 製品のプレゼンターがかなり早口だったのにキャプションの認識精度に驚いた (スコア:2)
Surface がたまに Service になってたのはご愛敬だけど、ときどき処理に少し時間がかかったくらいで、かなり正確に音声認識できていた。
それにしても饒舌なプレゼンだった、笑いを誘えるプレゼンも才能だね
Youtubeの自動キャプションも (スコア:1)
ちょっと前までは意味の通った文章になってない、使い物にならないレベルだったんだが、
最近使ってみたらかなりの精度に仕上がっていてびっくりした。
余りに優秀なんで、もしや人手?と思ったが、ときどきおバカな間違いをするので、
やはり自動認識らしい。
すごいもんだ。
Re:Youtubeの自動キャプションも (スコア:4, おもしろおかしい)
動画の最後に戸田奈津子って書いておけば誰も気がつかないかもしれない
Re: (スコア:0)
sqlで基盤を上書きしちゃいます?
Re:Youtubeの自動キャプションも (スコア:1)
英語も方言や言い松外(あれ変換がおかしい)は結構あると思うけど、そのへんも飲み込んで認識されるなら凄いな。
Re:Youtubeの自動キャプションも (スコア:1)
言語認xって、x際に発声さた音声以kaいでボキャxゥxxァxィーで補正しているところが大きいでxしね。
Re:Youtubeの自動キャプションも (スコア:2, すばらしい洞察)
もう気づかれたかと思いますが、hylomさんもMicrosoftの音声認識を使って入力してるのです。
Re:Youtubeの自動キャプションも (スコア:1)
だったらもっと精度よくなってるはずだろ
Re: (スコア:0)
知ってた
Re: (スコア:0)
このコメントも機械翻訳かな?
Re: (スコア:0)
それかbotか
Re:Youtubeの自動キャプションも (スコア:1)
Re: (スコア:0)
人間の専門家のエラー率が10%以上有るってのが驚き
もっとヒアリングに自信もっても良いかも?
Re:Youtubeの自動キャプションも (スコア:1)
Re: (スコア:0)
文字起こしの専門家は、その起こす内容は専門でないので、専門用語や特殊な言い回しなんかは認識するのが難しいんだと思います。だから思ったよりエラー率が高いのかと。
つまり専門家同士で会話する場合は……
Re:Youtubeの自動キャプションも (スコア:1)
けど、日本人の英語は認識できない…とか? (スコア:0)
It's Engrish!
Re:けど、日本人の英語は認識できない…とか? (スコア:1)
(ロシア語で考えるんだ)
Re: (スコア:0)
ナンバーワンよりオンリーワンだからいいんだよ。
#よくない。 http://bessou.hatenablog.com/entry/2015/04/18/115440 [hatenablog.com]
「ワンルームマンション」とか、考えてみたらすげーよな。億ションの方は意味が被ってるし。
Re:けど、日本人の英語は認識できない…とか? (スコア:1)
アクセル・ハンドル・サイドブレーキが仲間になりたそうにこっちを見ている!!
Re: (スコア:0)
オンリーワンというのは英語で普通によく聞くフレーズだとおもうけどなぁ。
You are the only one. とか You are my only one.とか。
Re: (スコア:0)
オンリーワンはマイカーと同じです。いや違うか。日本語のオンリーワンは英語より狭い意味。
英語だといい意味にも悪い意味にもどうでもいいけどそれしかないものにも使うが日本語だとほぼいい意味でしか使わない。
Re: (スコア:0)
まあ英語といっても、アメリカンイングリッシュ。
ジャパニーズイングリッシュ・コングリッシュ・オージーイングリッシュ・キーウィイングリッシュ・英国下町英語等はまた別だろう。
Re:けど、日本人の英語は認識できない…とか? (スコア:1)
google assistant に呟いてみてもほぼ通らず使うの諦めた・・・
Re: (スコア:0)
分かるわー
発音の練習してもwaterを全然認識してくれない…
Re: (スコア:0)
東山奈央イングリッシュも仲間にいれてあげてください。
Re: (スコア:0)
英語圏での訛りを言い始めたらそれこそアメリカ国内でもかなり濃いぃ地方もありますが、それらはOKなのでしょうか。
日本語対応 (スコア:0)
この分野でも日本語対応って30年ぐらい停滞しているんだよなあ。
一般への応用は進んではいるのだけれど、認識率とか、認識後の文章への補正とかあまり進んでいない。
英語版の認識モジュールを流用すればいいという割り切りが、日本語特有の誤認識を生み出している。
そのうえ、日本でも研究が盛んだった頃に知財による変な利権がついているようで、日本国内ではそれが足かせになっているというのもある。
残念な話である。
Re: (スコア:0)
玉虫色に的確な白黒つけるAIできたら
日本で大ヒット間違いない罠
Re: (スコア:0)
玉虫色とわかってるだけマシかと
♯笑えねえ
Re: (スコア:0)
日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。
カメラとかGPSも付けないと正確な翻訳は難しいのじゃ。
「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。
でも文章的にストレートに意訳すると後者なんだ。
でも実際の意味は逆だ。
Re:日本語対応 (スコア:1)
> 日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。
それはどこの言葉でも同じでしょう。
> 「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。
> でも文章的にストレートに意訳すると後者なんだ。
「I wish I could.」も「私に(それが)可能であることを望んでいる」ではないよ。
Re: (スコア:0)
「びーず」と発音した時に「B'z」なのか「ビーズ」なのか「びーず」なのか「Bees」なのか、パターン多すぎて難しいんだと思う。
漢字も絡むから、さらに難易度高い。
認識するだけならまだしも、それを解釈してアクションを起こす時に、漢字とひらがな、の違いだけでも結果が変わってしまう。
検索結果に出ないとか。世界でも最も複雑な言語の一つでは。
Re: (スコア:0)
え? Googleの音声検索とか、30年前に比べたら圧倒的だと思うんですが?
30年前じゃようやく不特定話者連続発生が対応できたかどうかぐらいで
認識対象語数もすかすか。
その辺の町の店まで認識できるGoogleを停滞してるとはとてもいえない。
Re: (スコア:0)
Cortanaの反応見る限り、停滞しているというほどじゃない
そこそこ使える
Re: (スコア:0)
入力された音を表音文字のカナに変換するまでだけの音声認識なら日本語も相当な正確性で認識しますよ。
そういう意味では、日本語対応が30年遅れているというのはちょっと違うように思います。
ブレークスルーが待ち望まれているのはカナから漢字かな混じり文に変換する部分で、これは表音文字だけの言語には存在しない要素です。
ここの技術がなかなか進んでいません。(それでも着実に少しずつ進展してはいるんですけどね)
英語にも同音異字語はありますが、日本語でカナ→漢字かな混じり文の変換とは量も質も全く違います。
Re:日本語対応 (スコア:1)
アクセントも含めていきなり漢字(熟語、単語)にするんじゃないのかね。
英語だって発音記号に直したりアルファベットにしてから単語認識してるんじゃあるまいて
Re:日本語対応 (スコア:1)
「わたしは」と聞き取れたときに、
「わたしは」「ワタシは」「私は」「妾は」のどれにするか判断つかないってことじゃない?
音声認識できても文意を理解できないんでしょ? (スコア:0)
google翻訳で英語を訳したらチンパンジーなみの翻訳が返ってくるのだが、あれが並みの人間のレベルに近づくのはいつですか?
Re: (スコア:0)
翻訳については、基本的にこの30年ぐらい大きな進展はないよ。
今の翻訳は、字句解析した結果を、機械的に単語を置き換えて、変換先の構文に突き合わせて再構築しているだけなんです。
意味解析によるフレーム問題というのがありまして、意訳レベルのものはできないのです。
特に日本語が主語や目的語の省略があまりにも多くて、それを文脈から補えないものだから、翻訳の品質が悪いのです。
要素がそろっていそうな英語だって、他の言語に翻訳するには足りない要素が多いのです。
Re: (スコア:0)
> 今の翻訳は、字句解析した結果を、機械的に単語を置き換えて、変換先の構文に突き合わせて再構築しているだけなんです。
Google、そのやり方止めるってよ
http://www.itmedia.co.jp/news/articles/1609/28/news085.html [itmedia.co.jp]
Re: (スコア:0)
それ、構文解析の精度向上にニューラルネットを使うってだけだからな。
うちの研究室で、20年前に卒論研究で学生にやらせたのとでやったのと同類の手法だよ。
精度こそ上がったものの、当時の計算能力ではコストがかかりすぎるって結論だったと思う。
Re: (スコア:0)
わかってないですね。
Google様は沈みかけた極東の島国のローカル言語への対応なんて重要度の低いことは
ずっと後回しにされているのですよ。
Googleの翻訳サービス「Google翻訳」が、ちょうど10周年を迎えるタイミングで [gigazine.net]
より自然な翻訳を可能にする人工知能(AI)を活用した「GNMT」システムを発表しました。...
...GNMTは一部のケースでは人間レベルの翻訳が可能なレベルに達しているとのこと。
...中国語から英語への翻訳限定でGoogle翻訳にGNMTを実装済み。
Re: (スコア:0)
日本語絡ませると糞なんですけど、英語⇔スペイン語や英語⇔独語とかなら普通に困らない精度になってますよ
テレビ局がアップを始めたようです。 (スコア:0)
すごいチンパンジーですね!ぜひ紹介してください!!!
Re: (スコア:0)
日本人のほとんどはチンパンジー以下というわけですな。
結局のところ (スコア:0)
人間同士のコミュニケーションはただ聞いてるだけではなく、思考というエラー訂正を使って修正して意味が通じるわけだ
AIが人間の常識(or聞き取る業界の常識)を覚えて適切に修正できる日はいつなのか…
Re:結局のところ (スコア:1)
意味解析によるフレーム問題を解決しないとならない。第5世代ブームの頃に盛んに研究されたものの一つだけれど、そもそもベースとなる常識の構築に莫大なデータ量が必要で、自動学習能力方式で解決しようとする派閥もあったんだけれど、結局コストとデータ量の壁の前に研究が頓座していたはずだ。そこまでやっても、翻訳精度が大して上がらなかったから、もうまともに研究しているところなんてないだろうなあ。
はっきり言って、日本語の日常会話で、省略されている主語や目的語を補うだけでも、結構大変なのです。
結局、第5世代ブームは、ルールベースの論理知識処理では限界だというので研究が下火になったんだよなあ。
Re: (スコア:0)
2、3年後くらい?
Re: (スコア:0)
30年以上まともに研究が進んでいないのに、2~3年でどうにかなるわけなかろう。
テキスト処理の闇は深いのだ。アドホックなやり方がすべてのものに適用できるわけではない。
成功したといわれる研究にしたって、よくよく論文等を調べると、結構ズルしているところがあって、類似事例でも他の分野に利用しようとすると応用するのが大変だったりする。
それらしく動かすだけなら、AIでなくとも、ローコストな方法はいくらでもあるというのも、痛いところだ。