Microsoftの音声認識技術、英語では人間並みのレベルに到達

Microsoftの音声認識技術、英語では人間並みのレベルに到達 76

ストーリー by hylom 2016年10月27日 15時34分
日本語だとどうなんでしょう部門より

headless 曰く、

Microsoftの音声認識技術が英語では人間並みのレベルに到達したそうだ（論文概要、Next at Microsoft、The Next Web、Register）。
論文ではNIST 2000テストのSwitchboardとCallHomeを用い、人間（文字起こし専門家）とMicrosoftのASR（Automatic Speech Recognition）システムでのエラー率（WER: word error rate）を比較している。
SwitchboardのWERは専門家・ASRともに5.9%。MicrosoftのASRシステムは9月に6.3%に到達していたが、1か月ほどで0.4%向上したことになる。一方、CallHomeでは専門家の11.3%に対しASRは11.1%となり、人間による認識能力を上回った。
人間並みの音声認識技術の実現は、5年前には想像もできなかったという大きなマイルストーンであり、幅広い製品の機能を大幅に拡張することが期待される。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索76コメント Log In/Create an Account

Surface 製品のプレゼンターがかなり早口だったのにキャプションの認識精度に驚いた (スコア:2)

by caret (47533) on 2016年10月28日 14時22分 (#3104580) 日記

Surface がたまに Service になってたのはご愛敬だけど、ときどき処理に少し時間がかかったくらいで、かなり正確に音声認識できていた。
それにしても饒舌なプレゼンだった、笑いを誘えるプレゼンも才能だね
Youtubeの自動キャプションも (スコア:1)

by Anonymous Coward on 2016年10月27日 15時41分 (#3104022)

ちょっと前までは意味の通った文章になってない、使い物にならないレベルだったんだが、
最近使ってみたらかなりの精度に仕上がっていてびっくりした。
余りに優秀なんで、もしや人手？と思ったが、ときどきおバカな間違いをするので、
やはり自動認識らしい。
すごいもんだ。
- Re:Youtubeの自動キャプションも (スコア:4, おもしろおかしい)
  
  by Anonymous Coward on 2016年10月27日 16時10分 (#3104045)
  
  動画の最後に戸田奈津子って書いておけば誰も気がつかないかもしれない
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    sqlで基盤を上書きしちゃいます？
- Re:Youtubeの自動キャプションも (スコア:1)
  
  by nemui4 (20313) on 2016年10月27日 15時49分 (#3104028) 日記
  
  英語も方言や言い松外(あれ変換がおかしい)は結構あると思うけど、そのへんも飲み込んで認識されるなら凄いな。
  
  シェア
  
  親コメント
  - Re:Youtubeの自動キャプションも (スコア:1)
    
    by Anonymous Coward on 2016年10月27日 16時02分 (#3104038)
    
    言語認ｘって、ｘ際に発声さた音声以kaいでボキャｘゥｘｘァｘィーで補正しているところが大きいでｘしね。
    
    シェア
    
    親コメント
    - Re:Youtubeの自動キャプションも (スコア:2, すばらしい洞察)
      
      by Anonymous Coward on 2016年10月27日 18時39分 (#3104165)
      
      もう気づかれたかと思いますが、hylomさんもMicrosoftの音声認識を使って入力してるのです。
      
      シェア
      
      親コメント
      - Re:Youtubeの自動キャプションも (スコア:1)
        
        by Anonymous Coward on 2016年10月28日 0時01分 (#3104326)
        
        だったらもっと精度よくなってるはずだろ
        
        シェア
        
        親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        知ってた
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      このコメントも機械翻訳かな？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        それかbotか
  - Re:Youtubeの自動キャプションも (スコア:1)
    
    by headless (41064) on 2016年10月27日 21時36分 (#3104265)
    
    昨年、マイケル・J・フォックスとクリストファー・ロイドが2015年についてダイナーで語り合うというToyota Miraiのキャンペーン動画 [idle.srad.jp]で、2人の会話は聞き取りづらいものの確実に英語でしたが、自動生成字幕はオランダ語になっていました。キャンペーン動画の公開は終了しているようですが、YouTubeで「toyota mirai diner」を検索すればいくつか見つかります。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  人間の専門家のエラー率が10%以上有るってのが驚き
  もっとヒアリングに自信もっても良いかも？
  - Re:Youtubeの自動キャプションも (スコア:1)
    
    by headless (41064) on 2016年10月27日 21時46分 (#3104268)
    
    サンプルはLinguistic Data ConsortiumのWebサイト [upenn.edu]にありますが、英語のテスト問題みたいに聞き取りやすいわけではないので、すべてを間違いなく文字起こしするのは大変そうです。
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    文字起こしの専門家は、その起こす内容は専門でないので、専門用語や特殊な言い回しなんかは認識するのが難しいんだと思います。だから思ったよりエラー率が高いのかと。
    つまり専門家同士で会話する場合は……
    - Re:Youtubeの自動キャプションも (スコア:1)
      
      by nekopon (1483) on 2016年10月27日 16時59分 (#3104087) 日記
      
      一般用語や普通の言い回しが認識できずドロップしまくり! (ﾏﾃ
      
      シェア
      
      親コメント
けど、日本人の英語は認識できない…とか？ (スコア:0)

by Anonymous Coward on 2016年10月27日 15時48分 (#3104027)

It's Engrish!
- Re:けど、日本人の英語は認識できない…とか？ (スコア:1)
  
  by nemui4 (20313) on 2016年10月27日 17時26分 (#3104107) 日記
  
  (ロシア語で考えるんだ)
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ナンバーワンよりオンリーワンだからいいんだよ。
  ＃よくない。 http://bessou.hatenablog.com/entry/2015/04/18/115440 [hatenablog.com]
  「ワンルームマンション」とか、考えてみたらすげーよな。億ションの方は意味が被ってるし。
  - Re:けど、日本人の英語は認識できない…とか？ (スコア:1)
    
    by qem_morioka (30932) on 2016年10月27日 16時25分 (#3104061) 日記
    
    アクセル・ハンドル・サイドブレーキが仲間になりたそうにこっちを見ている!!
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    オンリーワンというのは英語で普通によく聞くフレーズだとおもうけどなぁ。
    You are the only one. とか　You are my only one.とか。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      オンリーワンはマイカーと同じです。いや違うか。日本語のオンリーワンは英語より狭い意味。
      英語だといい意味にも悪い意味にもどうでもいいけどそれしかないものにも使うが日本語だとほぼいい意味でしか使わない。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  まあ英語といっても、アメリカンイングリッシュ。
  ジャパニーズイングリッシュ・コングリッシュ・オージーイングリッシュ・キーウィイングリッシュ・英国下町英語等はまた別だろう。
  - Re:けど、日本人の英語は認識できない…とか？ (スコア:1)
    
    by nemui4 (20313) on 2016年10月27日 17時28分 (#3104110) 日記
    
    google assistant に呟いてみてもほぼ通らず使うの諦めた・・・
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      分かるわー
      発音の練習してもwaterを全然認識してくれない…
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    東山奈央イングリッシュも仲間にいれてあげてください。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    英語圏での訛りを言い始めたらそれこそアメリカ国内でもかなり濃いぃ地方もありますが、それらはＯＫなのでしょうか。
日本語対応 (スコア:0)

by Anonymous Coward on 2016年10月27日 17時06分 (#3104089)

この分野でも日本語対応って30年ぐらい停滞しているんだよなあ。
一般への応用は進んではいるのだけれど、認識率とか、認識後の文章への補正とかあまり進んでいない。
英語版の認識モジュールを流用すればいいという割り切りが、日本語特有の誤認識を生み出している。
そのうえ、日本でも研究が盛んだった頃に知財による変な利権がついているようで、日本国内ではそれが足かせになっているというのもある。
残念な話である。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  玉虫色に的確な白黒つけるAIできたら
  日本で大ヒット間違いない罠
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    玉虫色とわかってるだけマシかと
    ♯笑えねえ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。
  カメラとかGPSも付けないと正確な翻訳は難しいのじゃ。
  「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。
  でも文章的にストレートに意訳すると後者なんだ。
  でも実際の意味は逆だ。
  - Re:日本語対応 (スコア:1)
    
    by nim (10479) on 2016年10月28日 16時43分 (#3104670)
    
    > 日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。
    それはどこの言葉でも同じでしょう。
    > 「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。
    > でも文章的にストレートに意訳すると後者なんだ。
    「I wish I could.」も「私に（それが）可能であることを望んでいる」ではないよ。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  「びーず」と発音した時に「B'z」なのか「ビーズ」なのか「びーず」なのか「Bees」なのか、パターン多すぎて難しいんだと思う。
  漢字も絡むから、さらに難易度高い。
  認識するだけならまだしも、それを解釈してアクションを起こす時に、漢字とひらがな、の違いだけでも結果が変わってしまう。
  検索結果に出ないとか。世界でも最も複雑な言語の一つでは。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  え？ Googleの音声検索とか、30年前に比べたら圧倒的だと思うんですが？
  　
  30年前じゃようやく不特定話者連続発生が対応できたかどうかぐらいで
  認識対象語数もすかすか。
  その辺の町の店まで認識できるGoogleを停滞してるとはとてもいえない。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  Cortanaの反応見る限り、停滞しているというほどじゃない
  そこそこ使える
- Re: (スコア:0)
  
  by Anonymous Coward
  
  入力された音を表音文字のカナに変換するまでだけの音声認識なら日本語も相当な正確性で認識しますよ。
  そういう意味では、日本語対応が30年遅れているというのはちょっと違うように思います。
  ブレークスルーが待ち望まれているのはカナから漢字かな混じり文に変換する部分で、これは表音文字だけの言語には存在しない要素です。
  ここの技術がなかなか進んでいません。（それでも着実に少しずつ進展してはいるんですけどね）
  英語にも同音異字語はありますが、日本語でカナ→漢字かな混じり文の変換とは量も質も全く違います。
  - Re:日本語対応 (スコア:1)
    
    by Anonymous Coward on 2016年10月27日 22時04分 (#3104276)
    
    アクセントも含めていきなり漢字(熟語、単語)にするんじゃないのかね。
    英語だって発音記号に直したりアルファベットにしてから単語認識してるんじゃあるまいて
    
    シェア
    
    親コメント
    - Re:日本語対応 (スコア:1)
      
      by nim (10479) on 2016年10月28日 16時50分 (#3104673)
      
      「わたしは」と聞き取れたときに、
      「わたしは」「ワタシは」「私は」「妾は」のどれにするか判断つかないってことじゃない？
      
      シェア
      
      親コメント
音声認識できても文意を理解できないんでしょ？ (スコア:0)

by Anonymous Coward on 2016年10月27日 17時35分 (#3104118)

google翻訳で英語を訳したらチンパンジーなみの翻訳が返ってくるのだが、あれが並みの人間のレベルに近づくのはいつですか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  翻訳については、基本的にこの30年ぐらい大きな進展はないよ。
  今の翻訳は、字句解析した結果を、機械的に単語を置き換えて、変換先の構文に突き合わせて再構築しているだけなんです。
  意味解析によるフレーム問題というのがありまして、意訳レベルのものはできないのです。
  特に日本語が主語や目的語の省略があまりにも多くて、それを文脈から補えないものだから、翻訳の品質が悪いのです。
  要素がそろっていそうな英語だって、他の言語に翻訳するには足りない要素が多いのです。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    > 今の翻訳は、字句解析した結果を、機械的に単語を置き換えて、変換先の構文に突き合わせて再構築しているだけなんです。
    Google、そのやり方止めるってよ
    http://www.itmedia.co.jp/news/articles/1609/28/news085.html [itmedia.co.jp]
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      それ、構文解析の精度向上にニューラルネットを使うってだけだからな。
      うちの研究室で、20年前に卒論研究で学生にやらせたのとでやったのと同類の手法だよ。
      精度こそ上がったものの、当時の計算能力ではコストがかかりすぎるって結論だったと思う。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  わかってないですね。
  Google様は沈みかけた極東の島国のローカル言語への対応なんて重要度の低いことは
  ずっと後回しにされているのですよ。
  Googleの翻訳サービス「Google翻訳」が、ちょうど10周年を迎えるタイミングで [gigazine.net]
  より自然な翻訳を可能にする人工知能(AI)を活用した「GNMT」システムを発表しました。...
  ...GNMTは一部のケースでは人間レベルの翻訳が可能なレベルに達しているとのこと。
  ...中国語から英語への翻訳限定でGoogle翻訳にGNMTを実装済み。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  日本語絡ませると糞なんですけど、英語⇔スペイン語や英語⇔独語とかなら普通に困らない精度になってますよ
- テレビ局がアップを始めたようです。 (スコア:0)
  
  by Anonymous Coward
  
  すごいチンパンジーですね！ぜひ紹介してください！！！
- Re: (スコア:0)
  
  by Anonymous Coward
  
  日本人のほとんどはチンパンジー以下というわけですな。
結局のところ (スコア:0)

by Anonymous Coward on 2016年10月27日 21時02分 (#3104244)

人間同士のコミュニケーションはただ聞いてるだけではなく、思考というエラー訂正を使って修正して意味が通じるわけだ
AIが人間の常識(or聞き取る業界の常識)を覚えて適切に修正できる日はいつなのか…
- Re:結局のところ (スコア:1)
  
  by Anonymous Coward on 2016年10月27日 22時07分 (#3104278)
  
  意味解析によるフレーム問題を解決しないとならない。第5世代ブームの頃に盛んに研究されたものの一つだけれど、そもそもベースとなる常識の構築に莫大なデータ量が必要で、自動学習能力方式で解決しようとする派閥もあったんだけれど、結局コストとデータ量の壁の前に研究が頓座していたはずだ。そこまでやっても、翻訳精度が大して上がらなかったから、もうまともに研究しているところなんてないだろうなあ。
  はっきり言って、日本語の日常会話で、省略されている主語や目的語を補うだけでも、結構大変なのです。
  結局、第5世代ブームは、ルールベースの論理知識処理では限界だというので研究が下火になったんだよなあ。
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ２、３年後くらい？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    30年以上まともに研究が進んでいないのに、2～3年でどうにかなるわけなかろう。
    テキスト処理の闇は深いのだ。アドホックなやり方がすべてのものに適用できるわけではない。
    成功したといわれる研究にしたって、よくよく論文等を調べると、結構ズルしているところがあって、類似事例でも他の分野に利用しようとすると応用するのが大変だったりする。
    それらしく動かすだけなら、AIでなくとも、ローコストな方法はいくらでもあるというのも、痛いところだ。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Surface 製品のプレゼンターがかなり早口だったのにキャプションの認識精度に驚いた (スコア:2)

Youtubeの自動キャプションも (スコア:1)

Re:Youtubeの自動キャプションも (スコア:4, おもしろおかしい)

Re: (スコア:0)

Re:Youtubeの自動キャプションも (スコア:1)

Re:Youtubeの自動キャプションも (スコア:1)

Re:Youtubeの自動キャプションも (スコア:2, すばらしい洞察)

Re:Youtubeの自動キャプションも (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:Youtubeの自動キャプションも (スコア:1)

Re: (スコア:0)

Re:Youtubeの自動キャプションも (スコア:1)

Re: (スコア:0)

Re:Youtubeの自動キャプションも (スコア:1)

けど、日本人の英語は認識できない…とか？ (スコア:0)

Re:けど、日本人の英語は認識できない…とか？ (スコア:1)

Re: (スコア:0)

Re:けど、日本人の英語は認識できない…とか？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:けど、日本人の英語は認識できない…とか？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

日本語対応 (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:日本語対応 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:日本語対応 (スコア:1)

Re:日本語対応 (スコア:1)

音声認識できても文意を理解できないんでしょ？ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

テレビ局がアップを始めたようです。 (スコア:0)

Re: (スコア:0)

結局のところ (スコア:0)

Re:結局のところ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)