YouTube自動字幕機能、音声の誤認識で子ども向け動画でもエロ表現に 37
ストーリー by nagazou
技術で解決できるのだろうか 部門より
技術で解決できるのだろうか 部門より
YouTubeには自動で字幕を付ける機能が存在するが、こうした機能を子ども向けの動画に適用したところ、音声の誤認識によって不適切な内容の字幕が表示される問題が出てきているという。WIREDの記事によれば、「corn(コーン)」が「porn(ポルノ)」に置き換わったり、「brave(ブレイブ=勇敢な)」を「rape(レイプ)」に聞き間違えたり、「strong and brave like Heracles(ヘラクレスのように強くて勇敢)」に対して「strong and rape like Heracles(強く、ヘラクレスのようにレイプする)」といった例があるようだ(WIRED)。
研究では人気の子ども向けチャンネルで公開されている7000本の動画を調査した結果、その40%に「タブー単語」リストに含まれているような単語があったそうだ。なお、記事によると、YouTubeの広報担当者の説明では、13歳未満の子どもは字幕機能を使わないようにすることが推奨されているとのこと。
研究では人気の子ども向けチャンネルで公開されている7000本の動画を調査した結果、その40%に「タブー単語」リストに含まれているような単語があったそうだ。なお、記事によると、YouTubeの広報担当者の説明では、13歳未満の子どもは字幕機能を使わないようにすることが推奨されているとのこと。
空耳アワー (スコア:1)
文字自動おこしAI時代の「空耳あわー」
苛立つ (スコア:0)
思ったより低レベルだった。 (スコア:0)
薬缶がちんちんになったとかチンチン電車を誤訳したのかと思ったがよりショボかった。
Re: (スコア:0)
「悲鳴を上げるな ○茎が苛立つ」は未だに修正されてないですね……
Re:もしかして、ふたなりプリキュア? (スコア:0)
この数年後にAIは進化爆発するんだよね?
手抜きした結果 (スコア:0)
QCサボった結果がコレだよ。
Re:手抜きした結果 (スコア:2, 参考になる)
YouTubeの広報担当者の説明は「(自動字幕機能が無効となっている)YouTube Kids使え」なのに、
どうして「字幕機能使うな」になってしまったのか
Re: (スコア:0)
文頭から読めば、『自動』という語句が省略されているのは明らかでしょ。
行間を読めないのかな?
Re: (スコア:0)
行間の前にソース記事を読もう。
Re: (スコア:0)
文が読めない人が行間の話をするとは。
Re: (スコア:0)
それはちゃんと書けばいいだけ
必要な事まで省略して意味不明な文を書くやついるよね
んで、そういう奴に限ってアスペがどうとかレッテル貼って来たりする
Re: (スコア:0)
カテゴリや対象年齢で辞書(的なやつ)の優先順位を切り替えるようにしたほうが認識率は上げられると思うんだけど、どうしてそうしなかったのか。
#子供の話すデータから辞書作ったりしたらそうなるかも。
Re: (スコア:0)
選り好みできないんでしょ。AIは学習能力に比べて圧倒的に素材が足りない。そういう意味ではまだ人間の方が賢いって言えるのかも。
Re: (スコア:0)
ヘラクレスを認識してギリシャ神話系の辞書になれば、レイプとか出てくるのはまあ残当。
特に間違えられるのは「bitch」「bastard」「penis」「crappy」 (スコア:0)
子ども向けYouTubeに、タブー用語の自動字幕を表示する問題 インドの研究チームが指摘 [itmedia.co.jp]
Google speech-to-textを用いて動画からタブー用語を抽出した結果、330個が見つかった。中でも明らかに不適切な用語のみに絞ると「bitch」「bastard」「penis」「crappy」などが、特に変換される可能性が高いと分かった。
この辺りの言葉を特に間違える(というか不明瞭な場合にこれと推定しがち、つまりお好き?)らしい。
てっきりトップは f**k だと思ったし例題でも duck を f**k と読み違えているみたいだけど、割合としてはそうらしい。
# 卑猥な言葉とか侮蔑の言葉は子ども向けなら確かに防ぎたい所だけど、俗語は本来の意味もあるわけで難しいのぅ
Re: (スコア:0)
「タブー単語リスト」
どこにあんの?
Re: (スコア:0)
単語リスト自体はコレ [cmu.edu]
元の論文 [github.com]で脚注14として示されている
Re:特に間違えられるのは「bitch」「bastard」「penis」「crappy」 (スコア:1)
自動翻訳の出力単語で、タブー単語リストにヒットしたら XXXXX に置き換えるとかできひんのかな"
Re: (スコア:0)
タブー単語リストにヒットしたら置き換えるとかよりも「これは子ども向けコンテンツだからおかしいぞ、きっと聞き間違いだからこっちに直そう」って方になるんじゃないかな。
子ども向けコンテンツじゃなければ、そういったタブー単語が使われること自体はおかしくもないのでスルーだろうし。
なのでターゲット別にAIなり辞書なりタブー単語リストなりが変わるというのが最適解なのかな。
Re: (スコア:0)
> 単語で、タブー単語リストにヒットしたら XXXXX に置き換えるとかできひんのかな"
自動翻訳の出力 | sed -e "s/[タブー単語リスト]/XXXXX/g"
みたいなフィルター?
Re: (スコア:0)
子供向けではないがそういうツールはあるが非常に評判が悪い [gigazine.net]。
Re:特に間違えられるのは「bitch」「bastard」「penis」「crappy」 (スコア:1)
そういうAI支援ツールってエンドユーザ側で調教(学習)できれば良いと思うけど。
その学習結果を戻すようにすると、一部の特異なユーザががんばるから結果的にアカンか。
Re: (スコア:0)
本能として生殖のことばっかり考えてる人間の言葉を学習データにしたらAIもエロくなるのは必然なのかも。
変態大学 (スコア:0)
"Kinky University [kindai.ac.jp] has its main campus in Higashi-Osaka city, Japan."
のような誤認識が発生するということですね。
Re: (スコア:0)
それは正しい。
うおー!クラウザーさんだー! (スコア:0)
流石クラウザーさん、アルゴリズムもレイプしていらっしゃる
Re:問題なんだろうか? (スコア:1)
ちょっとでも訛りがひどかったり、専門用語だらけの動画を見ると、自動の字幕は使い物にならない。
なのに間違ったまま表示してるわけですよ。
さらに問題なのは、検索結果や動画の題の近くに「翻訳済み」と表示されることだ。
しかも金かけて翻訳者を雇って字幕を付けた動画と並んでるわけ。
間違いの報告すらできないし何年経っても改善しないなら取り外せよ。
Re: (スコア:0)
人間ならおかしいものをおかしいと認識し、修正もできる。
現在の音声認識にはそんな機能がないから、誤り訂正できない。
せめてコンテキスト依存の辞書セットとかを持ってれば、
もう少しマシな結果も出せるけど、まだその域に達してない。
Re: (スコア:0)
子供向け動画で汚い単語が出てしまうのが問題なんでしょう。
小学生くらいの年齢だと、有害な情報への対処として「遮断」が非常に有効なので。
逆に少しでも見せると好奇心故どんどん吸収していってしまう。まだ学ぶべきではないのに。
まあ、字幕を使えないようにする設定はあるみたいですが・・・
Re: (スコア:0)
そしてモラルの形成がおいつかず少年犯罪者へまっしぐらと
Re: (スコア:0)
それ偏見っていうデータあるんですか?どっちも根拠もなく言ってるだけなんでは?
Re: (スコア:0)
その「空耳」があたかも正しいかのように字幕で明確に表示してしまうのが問題でないとでも?
そしてその字幕の内容が激しく非道徳的な犯罪行為になっていたりするのに?
Re: (スコア:0)
中学男子くらいにはむしろウケそうな気が…
#「何の単語と間違えたんだよww」と、英語に興味を持つきっかけに…
Re: (スコア:0)
本気で言ってたらだいぶ馬鹿だな。子どもか人工知能?