「くだけた表現」を自動修正する技術をKDDI研究所が開発 81
ストーリー by hayakawa
「伏せ字」が無意味になる時代、到来 部門より
「伏せ字」が無意味になる時代、到来 部門より
osakanasan 曰く、
RBB TODAYの記事によると、これまでの言語解析技術では困難だった、口語やギャル文字などの「くだけた表現」を自動修正する技術をKDDI研究所が開発したとのこと。これは、情報通信研究機構(NICT)からの委託研究(インターネット上の違法・有害情報検出技術の研究開発)の一部として開発されたもので、Web上の文書を高精度に解析するもの。
同記事中には一例として、
- 「ゎナ=∪も行くょ~」→「わたしも行くよ」
- 「この携帯ヵゎいいね」→「この携帯かわいいね」
- 「オ●マ大統領来日」→「オバマ大統領来日」
といった変換が可能であると紹介されている。
今後は、違法・有害情報フィルタリング技術などに応用されるそうだ。これが各種ブラウザに装備されれば解読に四苦八苦する時間が減ると思うのは、もう若くない証拠なのだろうか……?
KDDI研究所のプレスリリースからたどれる資料【PDF】に、もう少し詳細な情報が記載されていますので、あわせて参照いただくとよいかと思います。
RBB TODAYの記事中でも触れられていますが、この技術を商用のブログ記事に適用してみた結果、従来の形態素解析器では解析できなかったくだけた表現を、最大で38%低下させることができたとのことです。ただし、前述のPDF資料によると、「恋愛・結婚など若い女性が興味のあるカテゴリ」などの一部のカテゴリに限った話であり、平均では30%ほどになるようです。
どこまでフォローできるのか (スコア:2, すばらしい洞察)
Re:どこまでフォローできるのか (スコア:2, おもしろおかしい)
死ね → ごきげんよう
ぬるぽ → そもさん
がっ → せっぱ
Re:どこまでフォローできるのか (スコア:2)
「死ね」「死ね」
なんてあいさつが行き交う女学園 [wikipedia.org]、見たくもありません。
#先輩の人(謎)が「○○をイヤッッホォォォオオォオウ!!もちろん、△△や■■を
#買い忘れるようなはしたない生徒など存在していようはずもない。」といい出したので、
#『IYH!があいさつで飛び交う女学園は嫌過ぎるよ。卒業時には箱入りのやっちまった商品が
#社会に送り出されるんでしょ?』と返してみたのさ
Re:どこまでフォローできるのか(プロジェクトX風に) (スコア:1)
検証チームは無作為に選択したスレッド、約1メガバイト分を用意してシステムにフィードした。
誰もが固唾を呑んで押し黙った。
画面には変換途中の文字が並ぶ。
ワケワカメ --> 訳が判りません
逝ってよし --> 邪魔だから黙って下さい
・
・
次々に難読インターネットスラングが変換されていく。
開発チームの一人がホッと息をついて、手にしたコーヒーを口に持っていく。
しかしその手が凍りついたように止まり、カップに3割ほど残ってぬるまったコーヒーはゆっくりと床のカーペットに向けこぼれ落ちた。
画面には、相変わらず変換作業の経過が映し出されている。
そもそも、 --> 官能的に愛撫、
火曜な論説は似非科学なのせあり、 --> 火曜日の論説は似非科学ななせなのであり、
・
・
誰かが叫ぶ、「しまった、持って回った言い回しと誤字脱字に対応してない!」
そこから更に3週間、辞書データ制作チームが猛烈に対応することになる…
#辞書検索による置き換えなんだろうけど、悪筆な書き込みに引っ掛かって、途端にすごいことになりそうだな~
# 爆言のち漏電中… :D
危ない空目 (スコア:1)
妙なところを伏字にしてあるので、こんな空目をしてしまったよ。
・・ていうか、オバマ大統領を伏せ文字にする必要性があるのって
テロリストで、エシュロンの対象なのではないか・・・
Re:危ない空目 (スコア:1)
・ぬよゆよ年
・新1000歳空港
が直せるようになったら、どこぞの新聞社が大喜びで採用してくれるとおもう。がんばれKDDI。
Re:危ない空目 (スコア:1, 興味深い)
・新1000歳空港
別の新聞社のシステムだけど、記事の縦横変換の機能っていうをやったことがあって、それを知ってるとこれってありがちなミスだと感じますよ。
新聞だと普通、数字は漢数字を使うんだけど、それをWebに流すときには算用数字に変換してるんだよね。
その時の変換規則が大まかに言うと、漢数字+数詞だと算用数字変換するっていう風になってました。
「千」は漢数字で、「歳」は数詞だから、1000歳に変換されちゃったんだと思います。
もちろん、この変換規則は例外がたくさんあるので、チェックして間違いを直してから流すことを前提に運用されてるんで、普通はこういうのがそのまま流れるはずはないんですけどね。
#この仕様を聞いたとき、八戸(はちのへ)とか、十三駅(じゅうそうえき)なんかが間違ったまま流れそうだなと思ったけど、やっぱりこういうことってあるんだねえ。
1000葉県/Re:危ない空目 (スコア:1)
新1000歳は知らないけど、1000葉県 [google.co.jp]なら何度か目撃しました。
Re: (スコア:0, フレームのもと)
黒人だから黒丸なんじゃないか。
だれもつっこまないのか? (スコア:1, すばらしい洞察)
それは「くだけた表現」というのとは違う!
でも「砕けた表現」と書くと合っている様な気がしないでもない。
次は「くだけた表現」“に”自動修正する技術を (スコア:1, すばらしい洞察)
Re:次は「くだけた表現」“に”自動修正する技術を (スコア:2)
くだけた日本語 -> オウム型翻訳ロボット -> 美しい日本語 -> 相手のオウム型翻訳ロボット -> くだけた日本語
うーん、なんと言う社会の真実。
False positive (スコア:1)
早い者勝ち (スコア:0)
Re:早い者勝ち (スコア:2)
部門名 (スコア:0)
Re:部門名 (スコア:1)
Re:部門名 (スコア:1)
#……ってのは死語だろうか。
Re:部門名 (スコア:1)
いまでも普通にいます。
昨年だか一昨年に友人の職場に面接に来たのが
夜学に通う高校1年生で、昼間は学歴不問の職場で社員として働いて、
夜は高校に通いたいという少年だったとか。
経済的な事情で公立高校の夜学を選択したそうです。
☆大きい羊は美しい☆
Re:部門名 (スコア:1)
じゃぁオゲフィンだけど (スコア:0)
とかならどう変換するんだろうか?
wktk
Re:じゃぁオゲフィンだけど (スコア:2)
マルコ、だな。
普通ユトレヒトの白鳥のことだろ。その伏字じゃ。
#やや偏ってます
まあ三千里旅するんでもいい。異論は認める。
ま○こならシラネ。
Re:じゃぁオゲフィンだけど (スコア:1)
静岡的に
Re:じゃぁオゲフィンだけど (スコア:2)
そっちはま○子だし。つーか、めんどーだから○子でいんじゃね?
#趣旨が変わってます
北海道民じゃないとますこってあんまりぴんとこないかもなーと。鮭の筋子よりかは各種鱒のたまごの方が安くて味もそんなに落ちるもんじゃないから、自家製いくら向きに結構出回ってるんですよ。
某所よりコピペ (スコア:2, おもしろおかしい)
124 スズナ(大阪府)[] 投稿日:2009/05/17(日) 21:01:44.10 ID:KALCxZA/
○ンチタイム
普通に読むとラかウを入れたくなるけど、逆から読むと違う文字を入れたくなるんだ。
130 ベゴニア・センパフローレンス(神奈川県) 投稿日:2009/05/17(日) 21:03:01.45 ID:7RxSI/C/
>>124
トだろト。
トンチターイム!!!
好き好き好き好き好きっ好きっ!
1を聞いて0を知れ!
Re:じゃぁオゲフィンだけど (スコア:1)
Re: (スコア:0)
●ンコ ならどうしてくれる?
Re:じゃぁオゲフィンだけど (スコア:1)
Re:じゃぁオゲフィンだけど (スコア:1)
リンコでもランコでもテンコでも、幾らでも嫁の名前が出てくると思うのだが。
Re:じゃぁオゲフィンだけど (スコア:1)
にゃんこ
# 字余り
Re: (スコア:0)
【TV】“○んこ”の○に入る文字は? 1位う 2位あ 3位ち 4位い 5位ま 6位わ(ランク王国) [livedoor.biz]
Re: (スコア:0)
何で伏せるんですか? by 沖縄県民
Re:じゃぁオゲフィンだけど (スコア:1)
>何で伏せるんですか? by 沖縄県民
あそこは漢字で書くので問題ないのでは?
カタカナや平仮名で書きません。
にしても、意図しない誤変換が続出しそうで楽しみ
Re: (スコア:0)
Re:じゃぁオゲフィンだけど (スコア:1)
「全国共通おこめ券」にどきっとしてしまうんは、
関西人でも私だけなんやろか。
Re: (スコア:0)
なにも見えやしない
マルコそんなもの見ちゃだめよ
古典なぞなぞ (スコア:0)
方言も修正できるかな? (スコア:0)
ほげだものでわがるくれならおらほのことばもわがるんでねが。
Re: (スコア:0)
発音を聞き取って聞き取る自身はありませんが、その書き言葉なら普通に読んで理解できる範囲だと思います。
ネイティブの弘前弁とか鹿児島弁、紀州弁は文字に書き下しても理解不可能だと聞きます…
Re:方言も修正できるかな? (スコア:1, おもしろおかしい)
誤字は直してくれるのかなぁ。
SF的な何か (スコア:0)
遠い未来、日本語保護法が発令され、くだけた文章を電子作成しようとしても強制的に「正しい日本語」に修正されてしまうようになる。
いつしか人は相手との直接対話と手書き文書の重要性に気づき(ここで考えるのをやめました)
Re: (スコア:0)
「くずし字解読辞典」 [kinokuniya.co.jp]のナ=<”L1がバカ売れ。
# 本当の売れ筋は「丸文字」「マンガ字」解読のたぐいだろうけど
「この携帯」ではなく「auの携帯って」 (スコア:0)
原文が「この携帯」ではなく「auの携帯って」なのは(まあauは伏せるとしても)結構大きな違いがあるのではないでしょうか。「~の携帯ってかわいいね」という表現こそ「くだけた表現」ではないかと思うのです。しかし例では「ギャル文字」や「伏せ字」を変換しているだけなのです。
つまり、このシステムを経た修正済文書を解析するという「言語解析器」にこそいわゆる「くだけた表現」をも解析しうる能力を持たせなければならず、実のところこのシステムにできるのは「くだけた」どころか、もはや「崩れた」とでも言いようがない表現を修正することだけなのではないでしょうか。
# まあ、Google翻訳でも「~の携帯ってかわいいね」を感嘆文とみなしていますので、言語解析器のほうはそれくらい平気なんでしょうね、きっと。
Re: (スコア:0)
もはや「崩れた」とでも言いようがない表現もはや「崩れた」としか言いようがない表現
or
もはや「崩れた」とでも言うべき表現
システムの空目もあるんだろうな (スコア:0)
自動解析「おとしだまが欲しい」
正解「おともだちが欲しい」
Re:システムの空目もあるんだろうな (スコア:2, おもしろおかしい)
顧客理解「おとなだけが欲しい」
真の正解「おとこだけが欲しい」
顧客「あーーーーーーーーーーっ!」
Re:システムの空目もあるんだろうな (スコア:2, おもしろおかしい)
誤 顧客「あーーーーーーーーーーっ!」
正 顧客「アッーーーーーーーーーー!」
http://ja.uncyclopedia.info/wiki/%E3%82%A2%E3%83%83%E3%83%BC [uncyclopedia.info]!
もう少し。 (スコア:0)
くらいに修正してくれれば、ビジネス文書でくだけた表現になってないかチェックできて逸般人にも嬉しい技術になったのに。
Re:問い合わせ対応で使いたい! (スコア:3, 興味深い)
読めるとか読めないとか、受け手がどう感じるか考えが及ばないんでしょうね。
私の経験では、mixiのコミュニティにてギャル文字使った質問スレッドが立ったことがあります。
1レス目が「日本語でおK」でした。
2レス目か3レス目が皮肉たっぷりの釣りでしたが、
それに対して皮肉に全く気付かない謝意のレスを返していたので、
どうやら本気で回答の欲しい質問だったようですね。
別コミュでも「ぁ」や「ゎ」を多用しているコメントを多々見かけるので、
最近の若い人にとっては普通なんでしょうね。
☆大きい羊は美しい☆
Re:口語やギャル語以前に (スコア:1)
# ヴァンフォーレ甲府ファンなのでID
Copyright (c) 2001-2014 Parsley, All rights reserved.