Microsoftの音声認識システム、さらに性能を向上させる 21
ストーリー by hylom
これを利用した書き起こしサービスが待たれる 部門より
これを利用した書き起こしサービスが待たれる 部門より
昨年10月、Microsoftが同社の音声認識技術で文字起こしの専門家よりも低いエラー率を達成できたと発表していたが(Mirosoft Researchの研究者らが発表した論文PDF)、その後の研究でさらに音声認識技術は向上しているという(Microsoft Research Blog、TechCrunch)。
昨年10月に発表されたMicrosoftの音声認識技術のエラーレートは5.9%だったが、改良したシステムのエラーレートは5.1%まで改善したという。比較対象となっている人間の文字起こし専門家は、聞いているものを複数聞き直すこともできるといった条件であるためやや有利な状況であるが、それでも音声認識技術はそれと同等以上の成績を残したようだ。エラーレートの改善には、文脈を分析して次にくる言葉やフレーズを予測する技術が役立っているという。
ただし (スコア:0)
英語に限る
もはや言語は関係ない (スコア:1)
ただし英語に限る,というのは過去の発想だと思います
Deep learning(深層学習)という大きなパラダイムシフトがあったので
今では,言語に依存しない手法や技術,が主流になっています
タレコミにある音声認識技術も,内部ではマイクロソフトが開発したDeep lerningのエンジンを使っています.
これは日本語のデータを用意すれば,日本語を学習します.もはや言語は関係ありません.
Re: (スコア:0)
んなこたーない。
このレベルのシステムは汎用的なディープラーニングに食わせてるだけじゃなくて、ディープラーニング自体も目的に最適化してるし、前処理や後処理でも言語の影響はでるよ。
> エラーレートの改善には、文脈を分析して次にくる言葉やフレーズを予測する技術
この辺なんかもモロに言語毎に貯めたノウハウが必要だし。
Tensor Flowにでも適当なデータ入れて作ってみれば分かるけど、汎用プログラムじゃあ全く使い物にならない精度しかでないよ。
Re: (スコア:0)
言語ごとにNNを最適化するよりも、
大抵の場合「適当なデータ」と量の方が問題でしょ
適切なデータさえあればLSTMとSequence-to-Sequence Modelで
なんとかなるやろ(適当)
Re: (スコア:0)
汎用NNで「適切なデータと量」だけで、日本語認識のエラーレートは5.9%とか絶対出ないと思うんだけど。
NNは概念レベルではデータ量集める程、精度が上がるって事になるけど、現実的には保持できる内部データの量(段数)は有限だから、データが一定以上になるとそれ以上は精度が上がらなくなる。
そうなると、NNを目的にそってカスタマイズしたり、前処理後処理を加えて精度を上げる事になるけど、英語圏の人が英語のデータで改良を加えていくと結果的に英語やそれに近い言語での精度が上がってくる。
Re: (スコア:0)
ディープラーニングだから、というのは間違った発想だと思います
貴方、「ディープラーニング(ドヤァ」って言いたかっただけでディープラーニングが何なのか知らないでしょ
”日本語のデータを用意すれば”
ハイ、「ただし英語」に限るですね
Re: (スコア:0)
過去の発想も何もない。音声認識は、世界中の言語を表現できる発音記号を利用して研究されている。
それに、音声にフィルタをかけて声を作り出す筋肉や形をベクトル化するんだぞ。
どっから英語に限るって話が出るんだ。
Re:もはや言語は関係ない (スコア:1)
海外の音声認識エンジンを日本語に適用する音声認識の仕事してた事あるけど、研究レベルでは兎も角、実用のシステムで認識過程で一旦発音記号やまして筋肉の形のベクトルデータなんて経由するのってある?辞書登録で発音記号使えるってのはあるだろうけど。
実際、同じ製品でも言語毎に性能全然違って製品によって得手不得手あるよ。
Re: (スコア:0)
ただの、知ったかぶりでしょ。
言語固有の音のつながり無視して発音記号毎の認識なんてしてたらまともな精度出るわけないし。
例えば日本語ならこの発音記号の次にこの発音記号は殆ど来ないとかそう言った統計データも合わせてやっと精度がでるんだから。
それを楽に出来るツールとしてディープラーニング使ってるんだし。
今回のはそれに加えて文脈予測まで入れて精度を上げたってストーリーなんだけど。
Re: (スコア:0)
どの地方の英語でしょうか
# 極東のせまーい島国内でさえ津軽弁は聞き取れん
Re:ただし (スコア:2)
ブッシュJr.とゴアが争った大統領選の後に流れたイギリス発のチェーンメイルで、
「アメリカは己れの元首もまともに決められない。
そんな奴らはもう、独立を認めない。もう一度イギリスに戻って、英語を学び直せ。
だいたい、なんだ、あのMicrosoftの使っている英語は。」
とかあって、途中から、アメリカじゃなくてMSのディスりになっていくのがあったな。
なので、イギリス発音がむっちゃ認識悪かったりしたら、笑える。
#前回の大統領選は、イギリス自体がBrexitなので、その手のジョークが東洋の島国までは流れてこない。
Re: (スコア:0)
日本語は同音異義語があるから(多いから)
単純に音を単語に置きなおすだけではできなそう。
前後の文脈を理解しないとだめだし。
日本語入力ソフトと同じ事情というか。
そのあたりで人間との差が大きすぎて差を詰めるのが難しそう
Re: (スコア:0)
別にそんなのは日本語に限った話では無い。
Re: (スコア:0)
全てひらがな/カタカナで出力されるから、同音異義語で問題がでなかったりして。
Re: (スコア:0)
ああなるほど
賢い
Re: (スコア:0)
仮に私が英語しゃべれたとしても、滑舌悪すぎて認識されないだろうなあ。
複数一斉にしゃべっても大丈夫なのだろうか? (スコア:0)
同音異義語がありすぎの超高速ラップバトル、二人同時喋りの漫才、アイドルグループ全員でクロストークしまくるカオスなラジオ。書き起こしに頭が痛いこいつらで戦ってみてほしい。
笑い声 (スコア:0)
翻訳以前に認識出来なかったりするけど、これは出来るようになるのだろうか。。。
文字で書くと「ンフフフフフ」とか言うあたり。
そもそも音声認識対象にするのも難しい?
どこまで良いのだろうか? (スコア:0)
Microsoftの翻訳ソフトと、アンドロイドだと、アンドロイドのほうがしっかりと聞き分けてくれますけどねぇ・・・
Re: (スコア:0)
英語限定の話だよ。日本語の方は最低レベル。
IMEの精度向上が日本語認識の試金石となる (スコア:0)
こっちがままならなきゃ高品質な日本語の音声認識なんて夢のまた夢でしょう。