アカウント名:
パスワード:
褒めてることが分かっている文例と、貶してることが分かっている文例を集めて機械学習すれば、「○ニータイマー」はnegativeな用語だくらいは認識できるでしょう。「分かります」も、褒めてる文例と貶してる文例で、出現頻度に有意な差があれば、識別に使えるでしょう。
ただ、考えてみると、それは「○ニータイマー」「分かります」が意味のあるキーワードという認識あってのことで、茶筌でバラバラにしてしまうと訳が分からなくなります。また、人間だって、キーワード見てるだけで、あまり複雑な処理はしてないのかも知れないと思います。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
人生unstable -- あるハッカー
意味解析は? (スコア:1)
例えば、"A社の製品Bは使い勝手が悪い" と "「A社の製品Bは使い勝手が悪い」と言われるが、私は良いと思う" では、全く異なる意味になります。
パターンマッチの工夫でそれは対応できるのでしょうか。
世には意味解析エンジンも存在しますが、確か富士通では無いと記憶しています。
# 上記のどちらでも、とにかく検知したいというのであれば問題ないですが
Re:意味解析は? (スコア:2, 参考になる)
"良い" positive 1
"悪い" negative 1
とかカウントされてくから。
それよりも
「A社の製品Bは素晴らしいよね。○ニータイマーとか付いてるし(プ」
「A社の製品Bほど他に良いものはみたことないですね。分かります。」
なんて書き方の場合、人間が見れば明らかに揶揄表現で反対のことを意味すると分かるが、今の解析ではどちらも positive とカウントされるんですよ。
それが一番やっかい。
Re:意味解析は? (スコア:2, おもしろおかしい)
うまく相殺されてそれほど問題はないのでは?
「べっ、別にA社の製品なんて欲しくないんだからねっ!」
「製品Bなんて売れるわけないじゃないよ。どっ、どうしてもって言うなら私が買ってあげてもいいけど…」
これらがnegativeとカウントされればいいので。
Re:意味解析は? (スコア:1)
>「A社の製品Bほど他に良いものはみたことないですね。分かります。」
褒めてることが分かっている文例と、貶してることが分かっている文例を集めて機械学習すれば、「○ニータイマー」はnegativeな用語だくらいは認識できるでしょう。「分かります」も、褒めてる文例と貶してる文例で、出現頻度に有意な差があれば、識別に使えるでしょう。
ただ、考えてみると、それは「○ニータイマー」「分かります」が意味のあるキーワードという認識あってのことで、茶筌でバラバラにしてしまうと訳が分からなくなります。また、人間だって、キーワード見てるだけで、あまり複雑な処理はしてないのかも知れないと思います。
Re:意味解析は? (スコア:2, 参考になる)
最近の自然言語処理の流れをみていると、人手をかけて学習用コーパスを大量に整備するよりも、Webから大量にコーパスを集めてきてそのうちの一部にのみ人手でラベルをつけて、あとは半教師あり機械学習でがんばるという例が増えています。
このようにコーパスが大きいと形態素解析や構文解析、意味解析などに時間がかかること、Webの表現ではあまりよい性能で解析できないこともあって、単なるN-グラムやbag of wordsで乗りきってしまうということもされてますね。
うまく機械学習器を調整することができれば、他が多少はいい加減でもweb as corpusが巨大であるという点で解決してしまうことができるようです。
まぁ計算機資源は非常に食うのですが...
ギガバイトのオーダーになってくると茶筌かけるだけで一苦労。
Re: (スコア:0)
Re:意味解析は? (スコア:1, 参考になる)
形態素解析だと意外と拾ってこれないケースが多くて・・・。
特に話し言葉に近い感じで書かれるようなテキストだと。
たぶん解釈はシステムに求めすぎない方が良いんだと思うな。
粗いレベルで情報を拾ってくれればOK。
Re: (スコア:0)
Re: (スコア:0)
されませんよ?
そんなレベルは5年ほど前に通過してます。