アカウント名:
パスワード:
>近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく >多数の事例を力業で集めて、半教師あり機械学習をするのが流行です
警察署の倉庫の中には、取り調べの時の資料(調書)がいっぱい溜まっているはずで、それを学習データにするんじゃないですか。データが沢山あれば、それを学習に使うものと、テストに使うものに分け、後者を犯罪と関係のない文の中に紛れ込まさせておいて、判別機械がどれだけ認識できるかを調べるテストもできるでしょう。捜査資料がちゃんとデータベース化されていれば、犯罪としての重要度の予測だってできそうです。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
※ただしPHPを除く -- あるAdmin
大きな規模でお金が動きそうですね。 (スコア:1, すばらしい洞察)
そーゆーのはパターンファイル的なものを延々とメンテナンスしていかなきゃいけないし、
運用コスト的な意味で美味しそうな案件ですね。
# 一次・二次請の可能性のある会社にいない以上はすっぱい葡萄なのでAC
Re:大きな規模でお金が動きそうですね。 (スコア:1, 興味深い)
近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく多数の事例を力業で集めて、半教師あり機械学習をするのが流行です。
今回の例だと、「レンコン」の語義曖昧性解消問題としてみなすこともできますので、「レンコン」を含む文を多数あつめてきて、大多数の文章と何かちがう特徴をもっている文(レンコンを拳銃の隠語として扱っているもの、かもしれない)を拾う、という形になるでしょうか。
もちろん、最終的にその結果をみて機械学習がうまく動いているか、例でいうなら分類器が生成した集合において「レンコンが拳銃の意味で使われているかどうか」を判断するのは人手に頼る作業になりそうですが。
Re:大きな規模でお金が動きそうですね。 (スコア:1)
>近頃の自然言語処理ではパターンを人手でメンテするのよりも、タグづけされていなくてもよいのでとにかく
>多数の事例を力業で集めて、半教師あり機械学習をするのが流行です
警察署の倉庫の中には、取り調べの時の資料(調書)がいっぱい溜まっているはずで、それを学習データにするんじゃないですか。データが沢山あれば、それを学習に使うものと、テストに使うものに分け、後者を犯罪と関係のない文の中に紛れ込まさせておいて、判別機械がどれだけ認識できるかを調べるテストもできるでしょう。捜査資料がちゃんとデータベース化されていれば、犯罪としての重要度の予測だってできそうです。
Re:大きな規模でお金が動きそうですね。 (スコア:1)
逆に、これに当てはまるメールをフィルタアウトすればSPAMが減りそうでいいな。
Re: (スコア:0)
無作為にクロールするしても、1回作ってずっと同じロジックで有効でありつづけるなんて考えられない。
その度に改修を発注する(のか高額な保守契約を結ぶ)んだろうか。
...っていうのはそもそもWGとか立てる前に内部で検討すればすむこっちゃないのかと。
こういうのって最初に話持っていったコンサルが仕切って、研究会続いてる間は開発費とは別にそこのコンサルにドバドバ金流れるような構造じゃないんでしょうかね。そこのコンサルから大手のメーカーに開発が流れるんでしょうけど、キックバックでまたコンサルはうはうはとか...。
# 本当にこんな感じだったら税金投入は腹立たしいなぁ...でもありそうだしなぁ
Re: (スコア:0)
たぶん違います。
後から「このコンサルを通すように」と暗に言われるんです。
何処のOB様のコンサル会社かは存じませんが、
Re: (スコア:0)
総事業費は十数億円規模 (スコア:0)