パスワードを忘れた? アカウント作成
12963795 story
人工知能

Microsoftの音声認識技術、英語では人間並みのレベルに到達 76

ストーリー by hylom
日本語だとどうなんでしょう 部門より
headless 曰く、

Microsoftの音声認識技術が英語では人間並みのレベルに到達したそうだ(論文概要Next at MicrosoftThe Next WebRegister)。

論文ではNIST 2000テストのSwitchboardとCallHomeを用い、人間(文字起こし専門家)とMicrosoftのASR(Automatic Speech Recognition)システムでのエラー率(WER: word error rate)を比較している。

SwitchboardのWERは専門家・ASRともに5.9%。MicrosoftのASRシステムは9月に6.3%に到達していたが、1か月ほどで0.4%向上したことになる。一方、CallHomeでは専門家の11.3%に対しASRは11.1%となり、人間による認識能力を上回った。

人間並みの音声認識技術の実現は、5年前には想像もできなかったという大きなマイルストーンであり、幅広い製品の機能を大幅に拡張することが期待される。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • Surface がたまに Service になってたのはご愛敬だけど、ときどき処理に少し時間がかかったくらいで、かなり正確に音声認識できていた。
    それにしても饒舌なプレゼンだった、笑いを誘えるプレゼンも才能だね

  • by Anonymous Coward on 2016年10月27日 15時41分 (#3104022)

    ちょっと前までは意味の通った文章になってない、使い物にならないレベルだったんだが、
    最近使ってみたらかなりの精度に仕上がっていてびっくりした。

    余りに優秀なんで、もしや人手?と思ったが、ときどきおバカな間違いをするので、
    やはり自動認識らしい。

    すごいもんだ。

  • by Anonymous Coward on 2016年10月27日 15時48分 (#3104027)

    It's Engrish!

  • by Anonymous Coward on 2016年10月27日 17時06分 (#3104089)

    この分野でも日本語対応って30年ぐらい停滞しているんだよなあ。
    一般への応用は進んではいるのだけれど、認識率とか、認識後の文章への補正とかあまり進んでいない。
    英語版の認識モジュールを流用すればいいという割り切りが、日本語特有の誤認識を生み出している。
    そのうえ、日本でも研究が盛んだった頃に知財による変な利権がついているようで、日本国内ではそれが足かせになっているというのもある。
    残念な話である。

    • by Anonymous Coward

      玉虫色に的確な白黒つけるAIできたら
      日本で大ヒット間違いない罠

      • by Anonymous Coward

        玉虫色とわかってるだけマシかと
        ♯笑えねえ

    • by Anonymous Coward

      日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。
      カメラとかGPSも付けないと正確な翻訳は難しいのじゃ。

      「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。
      でも文章的にストレートに意訳すると後者なんだ。
      でも実際の意味は逆だ。

      • by nim (10479) on 2016年10月28日 16時43分 (#3104670)

        > 日本は文脈だけでなくシチュエーションとか場所に依っても意味が変わったりするからなぁ。

        それはどこの言葉でも同じでしょう。

        > 「ぶぶづけでも」は「粗末な漬物しかないが、晩御飯を上がって行きなさい」では無いよね。
        > でも文章的にストレートに意訳すると後者なんだ。

        「I wish I could.」も「私に(それが)可能であることを望んでいる」ではないよ。

        親コメント
    • by Anonymous Coward

      「びーず」と発音した時に「B'z」なのか「ビーズ」なのか「びーず」なのか「Bees」なのか、パターン多すぎて難しいんだと思う。
      漢字も絡むから、さらに難易度高い。

      認識するだけならまだしも、それを解釈してアクションを起こす時に、漢字とひらがな、の違いだけでも結果が変わってしまう。
      検索結果に出ないとか。世界でも最も複雑な言語の一つでは。

    • by Anonymous Coward

      え? Googleの音声検索とか、30年前に比べたら圧倒的だと思うんですが?
       
      30年前じゃようやく不特定話者連続発生が対応できたかどうかぐらいで
      認識対象語数もすかすか。
      その辺の町の店まで認識できるGoogleを停滞してるとはとてもいえない。

    • by Anonymous Coward

      Cortanaの反応見る限り、停滞しているというほどじゃない
      そこそこ使える

    • by Anonymous Coward

      入力された音を表音文字のカナに変換するまでだけの音声認識なら日本語も相当な正確性で認識しますよ。
      そういう意味では、日本語対応が30年遅れているというのはちょっと違うように思います。

      ブレークスルーが待ち望まれているのはカナから漢字かな混じり文に変換する部分で、これは表音文字だけの言語には存在しない要素です。
      ここの技術がなかなか進んでいません。(それでも着実に少しずつ進展してはいるんですけどね)
      英語にも同音異字語はありますが、日本語でカナ→漢字かな混じり文の変換とは量も質も全く違います。

      • by Anonymous Coward on 2016年10月27日 22時04分 (#3104276)

        アクセントも含めていきなり漢字(熟語、単語)にするんじゃないのかね。
        英語だって発音記号に直したりアルファベットにしてから単語認識してるんじゃあるまいて

        親コメント
  • by Anonymous Coward on 2016年10月27日 17時35分 (#3104118)

    google翻訳で英語を訳したらチンパンジーなみの翻訳が返ってくるのだが、あれが並みの人間のレベルに近づくのはいつですか?

    • by Anonymous Coward

      翻訳については、基本的にこの30年ぐらい大きな進展はないよ。
      今の翻訳は、字句解析した結果を、機械的に単語を置き換えて、変換先の構文に突き合わせて再構築しているだけなんです。
      意味解析によるフレーム問題というのがありまして、意訳レベルのものはできないのです。
      特に日本語が主語や目的語の省略があまりにも多くて、それを文脈から補えないものだから、翻訳の品質が悪いのです。
      要素がそろっていそうな英語だって、他の言語に翻訳するには足りない要素が多いのです。

      • by Anonymous Coward

        > 今の翻訳は、字句解析した結果を、機械的に単語を置き換えて、変換先の構文に突き合わせて再構築しているだけなんです。

        Google、そのやり方止めるってよ
        http://www.itmedia.co.jp/news/articles/1609/28/news085.html [itmedia.co.jp]

        • by Anonymous Coward

          それ、構文解析の精度向上にニューラルネットを使うってだけだからな。
          うちの研究室で、20年前に卒論研究で学生にやらせたのとでやったのと同類の手法だよ。
          精度こそ上がったものの、当時の計算能力ではコストがかかりすぎるって結論だったと思う。

    • by Anonymous Coward

      わかってないですね。
      Google様は沈みかけた極東の島国のローカル言語への対応なんて重要度の低いことは
      ずっと後回しにされているのですよ。

      Googleの翻訳サービス「Google翻訳」が、ちょうど10周年を迎えるタイミングで [gigazine.net]
      より自然な翻訳を可能にする人工知能(AI)を活用した「GNMT」システムを発表しました。...
      ...GNMTは一部のケースでは人間レベルの翻訳が可能なレベルに達しているとのこと。
      ...中国語から英語への翻訳限定でGoogle翻訳にGNMTを実装済み。

    • by Anonymous Coward

      日本語絡ませると糞なんですけど、英語⇔スペイン語や英語⇔独語とかなら普通に困らない精度になってますよ

    • すごいチンパンジーですね!ぜひ紹介してください!!!

    • by Anonymous Coward

      日本人のほとんどはチンパンジー以下というわけですな。

  • by Anonymous Coward on 2016年10月27日 21時02分 (#3104244)

    人間同士のコミュニケーションはただ聞いてるだけではなく、思考というエラー訂正を使って修正して意味が通じるわけだ
    AIが人間の常識(or聞き取る業界の常識)を覚えて適切に修正できる日はいつなのか…

    • by Anonymous Coward on 2016年10月27日 22時07分 (#3104278)

      意味解析によるフレーム問題を解決しないとならない。第5世代ブームの頃に盛んに研究されたものの一つだけれど、そもそもベースとなる常識の構築に莫大なデータ量が必要で、自動学習能力方式で解決しようとする派閥もあったんだけれど、結局コストとデータ量の壁の前に研究が頓座していたはずだ。そこまでやっても、翻訳精度が大して上がらなかったから、もうまともに研究しているところなんてないだろうなあ。
      はっきり言って、日本語の日常会話で、省略されている主語や目的語を補うだけでも、結構大変なのです。
      結局、第5世代ブームは、ルールベースの論理知識処理では限界だというので研究が下火になったんだよなあ。

      親コメント
    • by Anonymous Coward

      2、3年後くらい?

      • by Anonymous Coward

        30年以上まともに研究が進んでいないのに、2~3年でどうにかなるわけなかろう。
        テキスト処理の闇は深いのだ。アドホックなやり方がすべてのものに適用できるわけではない。
        成功したといわれる研究にしたって、よくよく論文等を調べると、結構ズルしているところがあって、類似事例でも他の分野に利用しようとすると応用するのが大変だったりする。
        それらしく動かすだけなら、AIでなくとも、ローコストな方法はいくらでもあるというのも、痛いところだ。

typodupeerror

ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家

読み込み中...