中国のネット工作員を88%の精度で見分けるソフトウェア 65
次は日本のネット工作員対応もお願いします 部門より
カナダのビクトリア大学で、中国の「ネット工作員」を見分ける研究が行われたそうだ(論文要旨、本家/.)。
中国ではネット上の世論を左右するコメントを投稿することで賃金を得ている人々が存在することが分かっており、インターネットにコメントを溢れさせることから「Internet Water Army」と呼ばれているそうだ。社会的なイベントへの世論を誘導したり、市場を左右したりとその目的は様々であるが、特定の件に関し様々なサイドからこのような活動が行われた際には情報が混乱し、信憑性のある情報が分からなくなってしまうといった状況を生んでしまう。
この研究では研究者ら自身がまずこの「Internet Water Army」として活動し、その仕組みを調査したとのこと。その後中国の大手ウェブポータルサイトSina.com及びSohu.comに寄せられるコメントから、賃金活動による投稿だと考えられるコメントを手作業で選出し、一般ユーザとの違いを分析したとのこと。このような投稿は「コメントへ返信するより新規コメントの投稿頻度の方が多い」、「一つの議論に長居しない」といった傾向が見受けられたとのこと。また、彼らの半数以上は平均2分半に1回という高頻度で投稿を行っており、また同じ内容をコピーして何度も投稿するといった特徴もあったそうだ。
この分析を元に賃金活動による投稿を判別するソフトウェアを開発したところ、Sina.comおよびSohu.comからダウンロードしたデータセットに対しては88%の正確さで判別に成功したとのこと。
なお、研究者らがマニュアルで行ったという賃金活動によるコメント選出の正確性については議論の余地はあるが、これはスパムフィルタの仕組み同様、今後取り組むべき課題であるとのことだ。
論文読んでないので (スコア:2)
素朴な疑問。
1. まず自身が一員として活動した → その Water Army とやらは工作員を公募でもしているのだろうか?
2. それと思しき投稿を手作業で選出 → その時点でバイアスかかってしまうのではないの? こういう手法って有効なの?
3. 正解率88% → いったい何と答え合わせをしたのだろうか…。
さっぱりわかんないよー><
网络水军 (スコア:1)
「Internet Water Army」じゃなくて「网络水军 [baidu.com]」のことですよ。
中国のネトゲ兵士がゲーム会社に金を払ってネトゲの中で終わりなき聖戦を繰り広げている頃、ゲーム会社から金をもらったとかもらってないとか言う水軍がネット掲示板で終わりなき聖戦を繰り広げています。
Re:网络水军 (スコア:1)
五毛 [google.com]たら言うのは今回は関係ないんですかね。
Re:网络水军 (スコア:1)
中国語が読めないので失礼。「网络水军」とは日本語に訳すとどのような意味なのですか?
「Internet Water Army」は原文そのままの表現ですが、
それよりも相応しい表現の仕方があるということでしょうか?
自由の行使には責任を伴わなければならない
Re:网络水军 (スコア:1)
「网络水军」を日本語に訳すと…ステルスマーケティング?ただどうしても文化的背景の違いが出るので、あえて中国語のままで百度百科のリンクを貼り付けました。
日本語でもカタカナ英語でもない用語ですが、少なくとも「Internet Water Army」という造語よりは適切な表現かと。
中国語が読めない場合はgoogle翻訳などの翻訳サービスを利用するのが便利ですよ。
Re:网络水军 (スコア:1)
すいません、#2056683のACのコメントは私のものです。
書きこむ端末を変えて、そのままログインするのを忘れたまま書きこんでしまいました。申し訳ありませんm(_ _)m
(ACでの書き込みを断っておきながら恥ずかしい……)
自由の行使には責任を伴わなければならない
Re: (スコア:0)
ちなみに日本の漢字で書くと「網絡水軍」で「網絡」はインターネットのことね。
Re: (スコア:0)
補足します。
「網絡」自体はネットワークのことであり、インターネットだけを指す言葉ではないですね。
日本で使うネットワークという言葉と同様にIT系以外にも使います。
インターネットだけを指す場合は互聯網など複数の特定する単語がありますが、
日本と同じでネットとだけ言うと、LANだったりWANだったりインターネットだったり。
また、水軍には中国のネット用語でサクラや工作員の意味があるようです。百度の「水军」の項目(http://baike.baidu.com/view/404844.htm#sub5072348)。
つまり、網絡水軍はそのまんま「ネットワークのサクラ、工作員」となりますね。
どうなの? (スコア:1)
「僕が認定した工作員」か
「僕と似た傾向の書き込みをする人」を
抽出してるだけに過ぎない気がする。
Re:どうなの? (スコア:1)
まあ、そういうことじゃないかな。本当に工作員なのかどうかを知ってるわけじゃないみたいだし。
メールで言うspamフィルタの様な役割は果たせる、という点が利点なんじゃない?
データマイニングなのか、機械学習なのか、その辺りはどうなんだろ?
Re: (スコア:0)
おっとnemui4 [srad.jp]氏の悪口は(ry
Honeypot (スコア:1)
Re: (スコア:0)
次元どころか、関連性が見出せない。
サブジェクト(Honeypot)も含めて何もかもが、
「対処」って、このストーリーで言う工作員の話?
それとも、「カッコウはコンピュータに卵を産む」で扱ってる様なクラッカーの話?
Re: (スコア:0)
Re:Honeypot (スコア:1)
じゃあ、あなたのコメントはトピックに関連性が見られないとして、オフトピ認定食らっても文句は言えませんよね。
自由の行使には責任を伴わなければならない
Re: (スコア:0)
Internet Navy (スコア:1)
タレコミのリンク先http://arxiv.org/pdf/1111.4297v1 [arxiv.org]の論文だと、
・ビクトリア大学の3人と北京大学の一人の共著。
・ビクトリア大学の二人と北京大学の人は中国人(or 中国系)ぽい。
・論文は英語で書かれている。
・企業の雇われ投稿者としてBaiduの掲示板で働いてみた。
・Sina.comなどで投稿のデータを取った。
・中国ではhidden paid postersとかInternet water armyとか呼ばれている。
などとあるのだが、
hidden paid postersは、雇われ投稿者かヤラセ投稿者でいいとして、
どうして 网络水军(網絡水軍)が、Internet water armyになるんだろう。
中国語がわからないのが機械翻訳してそれを使ったというオチはないと思うので、ここが気になる。
それでこの論文の評価はどうだったんだろう。
「参考になる」のか、「おもしろおかしい」 あたり?。
Re: (スコア:0)
> どうして 网络水军(網絡水軍)が、Internet water armyになるんだろう。
> 中国語がわからないのが機械翻訳してそれを使ったというオチはないと思うので、ここが気になる。
機械翻訳というか無理に当てはめた感じですね。海軍だとnavyみたいですが水軍という表現は英語にはないみたいです。
水軍というと海賊っぽい感覚?でもpirateだと違和感が…。
(某ゲームには網絡蟲毒なるスーパーハカーがいましたね)
コメントへ返信するより新規コメントの投稿頻度の方が多い (スコア:0)
2chでいう単発か
分断厨とかも分析結果に出てきてたりするのかな
収束厨 (スコア:0)
工作活動というのは文言を広める事だけに限らない。消火作業にも活躍。
Re: (スコア:0)
飽きた寝る
K国の (スコア:0)
工作員を見分けるフィルターもよろしく。
Re:K国の (スコア:1)
文法上の間違いや使ってる単語、話題なんかで相関取れば比較的簡単に抽出できるかもねw
Re:K国の (スコア:1)
一世紀経っても何も変わっとらんのな。
Re:K国の (スコア:1)
これはまた随分と食いつきがいいことw
Re:K国の (スコア:1)
Re: (スコア:0)
「うる覚え」とか「ふいんき」とか「たべれる」とかですか。
Re: (スコア:0)
俺は日本人だが(略)
Re: (スコア:0)
その全ての元凶であるネトウヨから見ると在日の証らしいんだよね。
本当にあいつらどこまでも頭おかしいよな。
Re: (スコア:0)
Re: (スコア:0)
> 相関取れば
なんで相撲の話やねん、と一瞬思った。
疲れてるな……
Re: (スコア:0)
きよびん [google.co.jp]ですね
Re: (スコア:0)
ケニアですか?
Re: (スコア:0)
Re: (スコア:0)
マジレスするとコートジボワールは頭文字Cですよ。
あの名前フランス語ですし英語でもおそらく頭文字はCになるかと。
Re: (スコア:0)
マジレスを続けると Côte d'Ivoire = Ivory Coast
象牙海岸国と直訳されていた時代もありますな。
Re: (スコア:0)
Ivory Coastのように訳して呼ぶのではなくそのまま読んでくれ、という要請が出ていて、各国それにそってそのまま呼ぶようですね。
Re: (スコア:0)
神奈川?
金を払わないと駄目とかまだまだ甘いね (スコア:0)
中国の愛国教育とやらもたいしたことねえな
Re: (スコア:0)
日本だと、ある新興宗教がネット工作にご熱心ですな。
なんとか学会とかなんとかの科学とか、果物の名前のところとか。
#このコメントにマイナスするモデレータ=信者です。
Re: (スコア:0)
日夜ネットウヨクと戦ってますby民潭戦士 は有名ですねぇw
Re: (スコア:0)
まあそのコピペを広めるべくネットウヨク様が頑張ったからだが。要するに金なんか払わずとも馬鹿を洗脳しちゃえばいいんだよね。そうすりゃロハで頑張ってくれる、たまーに暴走して日本企業の筈の花王に攻撃したりしちゃうけどw
判別できた? (スコア:0)
どうやって答え合わせしたんでしょうか
Re:判別できた? (スコア:1)
投稿について「人が判定した」ものについて傾向を抽出し「ソフトウェアにより判定した」ところ
「人が判定したもの」と「ソフトウェアが判定したもの」との一致率が88%ということですかね。
つまり、単に自分の判定基準を分析して機械的に抽出するソフトウェアを作りました、ということであって、真に”工作員”かどうかはこの際大して重要じゃない。
目的は工作員を浮かび上がらせることじゃなくて、議論の邪魔になる、工作員的な投稿をフィルタリングすること
……なんじゃないかな。
工作員発見! (スコア:0)
Re: (スコア:0)
判定者の意見と合わない人は皆ネトウヨです。
Re: (スコア:0)
88%って (スコア:0)
良くもまあ、実際の結果検証無しで言い切れるもんだ。
自分の判断ロジックをそのままソフト化して自動判定したってだけだから、そりゃ自身の判断と比べれば検出率は高くなる。
そりゃあ単なるマッチポンプだからなあ。
昔あった無料アンチウイルスの検証サイトを思い出した。
そこの結果は何と、試験サンプルを集めるのに使った無料アンチウイルスが数ある有料ソフトを抑えて選出率トップだったよ。
Re: (スコア:0)
検出したい対象があって、検出モデルを構築、実装、試験したら88%を検出した。
というだけのこと。ごく普通の研究成果発表でしかない。
これをマッチポンプということにして信用を貶めたい理由でもあるのかな?
ピックラー (スコア:0)
http://ja.wikipedia.org/wiki/%E3%83%94%E3%83%83%E3%83%88%E3%82%AF%E3%8... [wikipedia.org]
最近あまり見かけないがこいつらも忘れないでやってください。