パスワードを忘れた? アカウント作成
171865 story
インターネット

「くだけた表現」を自動修正する技術をKDDI研究所が開発 81

ストーリー by hayakawa
「伏せ字」が無意味になる時代、到来 部門より

osakanasan 曰く、

RBB TODAYの記事によると、これまでの言語解析技術では困難だった、口語やギャル文字などの「くだけた表現」を自動修正する技術をKDDI研究所が開発したとのこと。これは、情報通信研究機構(NICT)からの委託研究(インターネット上の違法・有害情報検出技術の研究開発)の一部として開発されたもので、Web上の文書を高精度に解析するもの。

同記事中には一例として、

  • 「ゎナ=∪も行くょ~」→「わたしも行くよ」
  • 「この携帯ヵゎいいね」→「この携帯かわいいね」
  • 「オ●マ大統領来日」→「オバマ大統領来日」

といった変換が可能であると紹介されている。

今後は、違法・有害情報フィルタリング技術などに応用されるそうだ。これが各種ブラウザに装備されれば解読に四苦八苦する時間が減ると思うのは、もう若くない証拠なのだろうか……?

KDDI研究所のプレスリリースからたどれる資料【PDF】に、もう少し詳細な情報が記載されていますので、あわせて参照いただくとよいかと思います。

RBB TODAYの記事中でも触れられていますが、この技術を商用のブログ記事に適用してみた結果、従来の形態素解析器では解析できなかったくだけた表現を、最大で38%低下させることができたとのことです。ただし、前述のPDF資料によると、「恋愛・結婚など若い女性が興味のあるカテゴリ」などの一部のカテゴリに限った話であり、平均では30%ほどになるようです。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」

読み込み中...