Re:大きな規模でお金が動きそうですね。 (#1407769) | 総務省の犯罪検知システム、その後

「総務省の犯罪検知システム、その後」記事へのコメント

記事ページを表示すべてのコメント取得

検索94コメント Log In/Create an Account

大きな規模でお金が動きそうですね。 (スコア:1, すばらしい洞察)

by Anonymous Coward

そりゃダミーの住所ぐらいは判別できるようにするでしょうけど、
そーゆーのはパターンファイル的なものを延々とメンテナンスしていかなきゃいけないし、
運用コスト的な意味で美味しそうな案件ですね。

# 一次・二次請の可能性のある会社にいない以上はすっぱい葡萄なのでAC
- Re:大きな規模でお金が動きそうですね。 (スコア:1, 興味深い)
  
  by Anonymous Coward on 2008年08月22日 13時01分 (#1407769)
  
  > パターンファイル的なものを延々とメンテナンス
  
  近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく多数の事例を力業で集めて、半教師あり機械学習をするのが流行です。
  今回の例だと、「レンコン」の語義曖昧性解消問題としてみなすこともできますので、「レンコン」を含む文を多数あつめてきて、大多数の文章と何かちがう特徴をもっている文（レンコンを拳銃の隠語として扱っているもの、かもしれない）を拾う、という形になるでしょうか。
  もちろん、最終的にその結果をみて機械学習がうまく動いているか、例でいうなら分類器が生成した集合において「レンコンが拳銃の意味で使われているかどうか」を判断するのは人手に頼る作業になりそうですが。
  
  シェア
  
  親コメント
  - Re:大きな規模でお金が動きそうですね。 (スコア:1)
    
    by gigo (21150) on 2008年08月22日 22時10分 (#1408104)
    
    >近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく
    >多数の事例を力業で集めて、半教師あり機械学習をするのが流行です
    
    警察署の倉庫の中には、取り調べの時の資料（調書）がいっぱい溜まっているはずで、それを学習データにするんじゃないですか。データが沢山あれば、それを学習に使うものと、テストに使うものに分け、後者を犯罪と関係のない文の中に紛れ込まさせておいて、判別機械がどれだけ認識できるかを調べるテストもできるでしょう。捜査資料がちゃんとデータベース化されていれば、犯罪としての重要度の予測だってできそうです。
    
    シェア
    
    親コメント
  - Re:大きな規模でお金が動きそうですね。 (スコア:1)
    
    by njt (4968) on 2008年08月25日 9時15分 (#1409307) 日記
    
    ベイジアンですね、わかります
    
    逆に、これに当てはまるメールをフィルタアウトすればSPAMが減りそうでいいな。
    
    シェア
    
    親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

総務省の犯罪検知システム、その後 More ログイン

「総務省の犯罪検知システム、その後」記事へのコメント

大きな規模でお金が動きそうですね。 (スコア:1, すばらしい洞察)

Re:大きな規模でお金が動きそうですね。 (スコア:1, 興味深い)

Re:大きな規模でお金が動きそうですね。 (スコア:1)

Re:大きな規模でお金が動きそうですね。 (スコア:1)

スラド