アカウント名:
パスワード:
>近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく >多数の事例を力業で集めて、半教師あり機械学習をするのが流行です
警察署の倉庫の中には、取り調べの時の資料(調書)がいっぱい溜まっているはずで、それを学習データにするんじゃないですか。データが沢山あれば、それを学習に使うものと、テストに使うものに分け、後者を犯罪と関係のない文の中に紛れ込まさせておいて、判別機械がどれだけ認識できるかを調べるテストもできるでしょう。捜査資料がちゃんとデータベース化されていれば、犯罪としての重要度の予測だってできそうです。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall
大きな規模でお金が動きそうですね。 (スコア:1, すばらしい洞察)
そーゆーのはパターンファイル的なものを延々とメンテナンスしていかなきゃいけないし、
運用コスト的な意味で美味しそうな案件ですね。
# 一次・二次請の可能性のある会社にいない以上はすっぱい葡萄なのでAC
Re:大きな規模でお金が動きそうですね。 (スコア:1, 興味深い)
近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく多数の事例を力業で集めて、半教師あり機械学習をするのが流行です。
今回の例だと、「レンコン」の語義曖昧性解消問題としてみなすこともできますので、「レンコン」を含む文を多数あつめてきて、大多数の文章と何かちがう特徴をもっている文(レンコンを拳銃の隠語として扱っているもの、かもしれない)を拾う、という形になるでしょうか。
もちろん、最終的にその結果をみて機械学習がうまく動いているか、例でいうなら分類器が生成した集合において「レンコンが拳銃の意味で使われているかどうか」を判断するのは人手に頼る作業になりそうですが。
Re:大きな規模でお金が動きそうですね。 (スコア:1)
>近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく
>多数の事例を力業で集めて、半教師あり機械学習をするのが流行です
警察署の倉庫の中には、取り調べの時の資料(調書)がいっぱい溜まっているはずで、それを学習データにするんじゃないですか。データが沢山あれば、それを学習に使うものと、テストに使うものに分け、後者を犯罪と関係のない文の中に紛れ込まさせておいて、判別機械がどれだけ認識できるかを調べるテストもできるでしょう。捜査資料がちゃんとデータベース化されていれば、犯罪としての重要度の予測だってできそうです。
Re:大きな規模でお金が動きそうですね。 (スコア:1)
逆に、これに当てはまるメールをフィルタアウトすればSPAMが減りそうでいいな。