パスワードを忘れた? アカウント作成
13390153 story
テクノロジー

Microsoftの音声認識システム、さらに性能を向上させる 21

ストーリー by hylom
これを利用した書き起こしサービスが待たれる 部門より

昨年10月、Microsoftが同社の音声認識技術で文字起こしの専門家よりも低いエラー率を達成できたと発表していたが(Mirosoft Researchの研究者らが発表した論文PDF)、その後の研究でさらに音声認識技術は向上しているという(Microsoft Research BlogTechCrunch)。

昨年10月に発表されたMicrosoftの音声認識技術のエラーレートは5.9%だったが、改良したシステムのエラーレートは5.1%まで改善したという。比較対象となっている人間の文字起こし専門家は、聞いているものを複数聞き直すこともできるといった条件であるためやや有利な状況であるが、それでも音声認識技術はそれと同等以上の成績を残したようだ。エラーレートの改善には、文脈を分析して次にくる言葉やフレーズを予測する技術が役立っているという。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2017年08月25日 16時14分 (#3267535)

    英語に限る

    • ただし英語に限る,というのは過去の発想だと思います

      Deep learning(深層学習)という大きなパラダイムシフトがあったので
      今では,言語に依存しない手法や技術,が主流になっています

      タレコミにある音声認識技術も,内部ではマイクロソフトが開発したDeep lerningのエンジンを使っています.
      これは日本語のデータを用意すれば,日本語を学習します.もはや言語は関係ありません.

      親コメント
      • by Anonymous Coward

        んなこたーない。
        このレベルのシステムは汎用的なディープラーニングに食わせてるだけじゃなくて、ディープラーニング自体も目的に最適化してるし、前処理や後処理でも言語の影響はでるよ。
        > エラーレートの改善には、文脈を分析して次にくる言葉やフレーズを予測する技術
        この辺なんかもモロに言語毎に貯めたノウハウが必要だし。

        Tensor Flowにでも適当なデータ入れて作ってみれば分かるけど、汎用プログラムじゃあ全く使い物にならない精度しかでないよ。

        • by Anonymous Coward

          言語ごとにNNを最適化するよりも、
          大抵の場合「適当なデータ」と量の方が問題でしょ

          適切なデータさえあればLSTMとSequence-to-Sequence Modelで
          なんとかなるやろ(適当)

          • by Anonymous Coward

            汎用NNで「適切なデータと量」だけで、日本語認識のエラーレートは5.9%とか絶対出ないと思うんだけど。
            NNは概念レベルではデータ量集める程、精度が上がるって事になるけど、現実的には保持できる内部データの量(段数)は有限だから、データが一定以上になるとそれ以上は精度が上がらなくなる。
            そうなると、NNを目的にそってカスタマイズしたり、前処理後処理を加えて精度を上げる事になるけど、英語圏の人が英語のデータで改良を加えていくと結果的に英語やそれに近い言語での精度が上がってくる。

      • by Anonymous Coward

        ディープラーニングだから、というのは間違った発想だと思います

        貴方、「ディープラーニング(ドヤァ」って言いたかっただけでディープラーニングが何なのか知らないでしょ

        ”日本語のデータを用意すれば”
        ハイ、「ただし英語」に限るですね

      • by Anonymous Coward

        過去の発想も何もない。音声認識は、世界中の言語を表現できる発音記号を利用して研究されている。

        それに、音声にフィルタをかけて声を作り出す筋肉や形をベクトル化するんだぞ。
        どっから英語に限るって話が出るんだ。

        • by Anonymous Coward on 2017年08月26日 2時44分 (#3267866)

          海外の音声認識エンジンを日本語に適用する音声認識の仕事してた事あるけど、研究レベルでは兎も角、実用のシステムで認識過程で一旦発音記号やまして筋肉の形のベクトルデータなんて経由するのってある?辞書登録で発音記号使えるってのはあるだろうけど。
          実際、同じ製品でも言語毎に性能全然違って製品によって得手不得手あるよ。

          親コメント
          • by Anonymous Coward

            ただの、知ったかぶりでしょ。
            言語固有の音のつながり無視して発音記号毎の認識なんてしてたらまともな精度出るわけないし。
            例えば日本語ならこの発音記号の次にこの発音記号は殆ど来ないとかそう言った統計データも合わせてやっと精度がでるんだから。
            それを楽に出来るツールとしてディープラーニング使ってるんだし。
            今回のはそれに加えて文脈予測まで入れて精度を上げたってストーリーなんだけど。

    • by Anonymous Coward

      どの地方の英語でしょうか

      # 極東のせまーい島国内でさえ津軽弁は聞き取れん

      • by manmos (29892) on 2017年08月25日 17時02分 (#3267579) 日記

        ブッシュJr.とゴアが争った大統領選の後に流れたイギリス発のチェーンメイルで、

        「アメリカは己れの元首もまともに決められない。
        そんな奴らはもう、独立を認めない。もう一度イギリスに戻って、英語を学び直せ。
        だいたい、なんだ、あのMicrosoftの使っている英語は。」

        とかあって、途中から、アメリカじゃなくてMSのディスりになっていくのがあったな。

        なので、イギリス発音がむっちゃ認識悪かったりしたら、笑える。

        #前回の大統領選は、イギリス自体がBrexitなので、その手のジョークが東洋の島国までは流れてこない。

        親コメント
    • by Anonymous Coward

      日本語は同音異義語があるから(多いから)
      単純に音を単語に置きなおすだけではできなそう。
      前後の文脈を理解しないとだめだし。
      日本語入力ソフトと同じ事情というか。
      そのあたりで人間との差が大きすぎて差を詰めるのが難しそう

      • by Anonymous Coward

        別にそんなのは日本語に限った話では無い。

      • by Anonymous Coward

        全てひらがな/カタカナで出力されるから、同音異義語で問題がでなかったりして。

    • by Anonymous Coward

      仮に私が英語しゃべれたとしても、滑舌悪すぎて認識されないだろうなあ。

  • by Anonymous Coward on 2017年08月25日 17時51分 (#3267620)

    同音異義語がありすぎの超高速ラップバトル、二人同時喋りの漫才、アイドルグループ全員でクロストークしまくるカオスなラジオ。書き起こしに頭が痛いこいつらで戦ってみてほしい。

  • by Anonymous Coward on 2017年08月25日 20時24分 (#3267724)

    翻訳以前に認識出来なかったりするけど、これは出来るようになるのだろうか。。。
    文字で書くと「ンフフフフフ」とか言うあたり。

    そもそも音声認識対象にするのも難しい?

  • by Anonymous Coward on 2017年08月26日 1時06分 (#3267846)

    Microsoftの翻訳ソフトと、アンドロイドだと、アンドロイドのほうがしっかりと聞き分けてくれますけどねぇ・・・

    • by Anonymous Coward

      英語限定の話だよ。日本語の方は最低レベル。

  • by Anonymous Coward on 2017年08月26日 6時37分 (#3267890)

    こっちがままならなきゃ高品質な日本語の音声認識なんて夢のまた夢でしょう。

typodupeerror

Stableって古いって意味だっけ? -- Debian初級

読み込み中...