DeNAがキュレーションサイト問題の調査報告書を発表、2万記事以上に問題ありとの推計 47
タダで読める経営の実例資料 部門より
DeNAが運営する健康・医療関連キュレーションサイト「WELQ」で不適切なコンテンツが多数掲載されており、また他のメディアから盗用したと思われるコンテンツも多数存在した問題で(過去記事1、過去記事2)、DeNAは13日、第三者委員会による調査報告書を公表した(DeNAのIRページ)。
第三者委員会では、問題とされたキュレーションサイト10サイトで公開されている、DeNAが制作した記事37万6671記事から400記事をサンプリングして調査を行い、コンテンツの盗用などをチェックした。その結果、まず記事内のテキストについて著作権侵害と判断される可能性があると判断された記事は22記事(5.5%)だったという。これらのうち、11記事が外部記事の完全な「デッドコピー」であり、複製権・本案件侵害の可能性があると判断されたものが4記事、「可能性がないとはいえない」ものが7記事だった。DeNA制作記事のうち5.5%に問題があったと仮定すると、問題のある記事の総数は約2万記事以上にも上る。
ただし、参照した外部記事についてはDeNAの記事と比較してどちらが先に公開されたものかは判断が難しいことから、逆にその外部記事がDeNAの記事をコピーしたものである可能性もある点も補足されている。また、「引用分析ツール」で一致文章のある記事が見つからなかったものは400記事中167記事だったという。
画像については、記事内などで使われている画像472万4571個のうち、サイトを運用しているサーバー上に保存されており、かつその利用許諾が明確でないものは74万7643個だったという。
第三者委員会は記事制作を行ったライターなどの「外部者」に対する調査も行っているが、回答数134件のうち、「コピペ推奨とは感じない」と回答したのは77件だったという。ただし、同社の運営するサイトによって回答の傾向は異なり、「WELQ」においては「コピペ推奨とは感じない」との回答は18件中4件だったと少なかった。サイトによってはコピペについて厳しい注意や指導があったという回答もある。
WELQでもう1つ大きな問題となった、不適切な医療関連コンテンツについては、報道で取り上げられた19本のうち8本が薬機法に、1本が医療法に、1本が健康増進法に違反する可能性がある内容だったと分析。それ以外の記事でも問題がある可能性は否定できないとした。
そのほか調査報告書では、自前で制作された記事が主であるにもかかわらず一般消費者が投稿できる「プラットフォーム」であることを協調していた点についても不適切と指摘されている。また、記事単価については「不当に安かったとは考えられない」としている。
これを受けてDeNAはCEOの減給や、関係者に対し就業規則に基づく処分を行ったと発表。また、一部の取締役は辞任する模様。
まとめサイトがダメな理由 まとめ (スコア:4, おもしろおかしい)
皆さんの中にもまとめサイトを利用している方は多いのではないでしょうか。
【ここに大勢の人の写真】
でも、今このまとめサイトが社会的に問題になっています。
【ここに困った顔の女の人の写真】
なんでこんなことになったかというと、多くのまとめサイトで人の文章や写真を無断で使用してしまったからなのです。
【ここに海賊版ダメを意味する、ドクロに罰点印のイラスト】
更には、素人が医療関係の記事を書いたりした結果、間違いがたくさん含まれてしまい、批判を浴びてしまうことまでありました。
【ここに、0点で×ばかりのテスト用紙のイラスト】
このため、DeNAという無名の会社が記事の取り下げと謝罪にまで追い込まれてしまいました。
【ここに、会社の偉い人が頭を下げている写真】
いつも使っているまとめサイトにこんな問題があったのですね。
これからはまとめサイトを使う時には気を付けたいですね。
【ここに納得顔の女性の写真】
Re: (スコア:0)
文章の一段落ごと&画像に意味のない「出典:http://outer-service.example.co.jp/example.html」みたいなのつけるの忘れてるぞ
Re: (スコア:0)
一部の取締役が辞任ってMERYの村田と中川 (スコア:2)
DeNA問題、もみ消された社内からの警告 [nikkeibp.co.jp]
これは下手打ったねえ…
# 会長の温情かー
37万6671記事 (スコア:1)
自動生成してたのかと思った。
>DeNA制作記事のうち5.5%に問題があったと仮定すると、問題のある記事の総数は約2万記事以上にも上る。
仮定自体が根拠薄いから「以上」しか意味なさそう。
>画像については、記事内などで使われている画像472万4571個のうち、サイトを運用しているサーバー上に保存されており、かつその利用許諾が明確でないものは74万7643個だったという。
外部サイト直リン画像もあったりして。
関係ないけど、最近本文とは直接関係ない「イメージ画像」がトップに配置されてる記事よく見るね。
あれに出くわすとまた無駄な情報転送されてるなぁと思ってしまう。
#どうせ全部無駄情報・・・
>これを受けてDeNAはCEOの減給や、関係者に対し就業規則に基づく処分を行ったと発表。また、一部の取締役は辞任する模様。
結局責任者は国外に逃げたんだっけ
こないだ地上波テレビのニュースで見たDeNAの報告会壇上にもいなかった気がする。
Re:37万6671記事 (スコア:2, 参考になる)
> 責任者は国外に逃げたんだっけ
現場責任者の村田マリ氏と、パクリ手法をDeNAに持ち込んだ張本人高木健作氏(元BuzzNews責任者)は事件前からシンガポール住まい(税金対策?)。中川綾太郎氏はたぶん日本在住。
ちなみに高木氏はTechChurchによれば2016年頭には退社 [techcrunch.com]、村田・中川両名は役付を解かれてDeNAの人事部預かり [toyokeizai.net]とか。
Re:37万6671記事 (スコア:2)
> 自動生成してたのかと思った。
ですねぇ。
1記事一万円としても37億。てか、誰も読まない記事もあるだろうから、1記事がとってくる広告料の平均がそれほど行かないんじゃないか?
ライターにいくら払ってるかは推して知るべし。てか、逆に言うと35万記事がオリジナルってどう考えてもないけどなぁ。オリジナルそんなに書いてたらライターがペイしない。
Re:37万6671記事 (スコア:1)
相場がx千円/千記事とかだとしたらパクるか自動生成したくなりますね。
Re:37万6671記事 (スコア:1)
2000文字で1000円だそうで
https://www.buzzfeed.com/keigoisashi/welq-03?utm_term=.joJODdel4#.hfBAeBKZq [buzzfeed.com]
まぁそれよりも
>「参考サイトの文章を、事実や必要な情報を残して独自表現で書き換えるコツ」や「参考サイトに類似しない本文作成のコツ」
>中見出しごとに複数サイトを参考して複数意見を寄せ集めれば”どこを参考にしたかすぐ分かる”状態ではなくなり、独自性の高い記事になります
とかやってるから単純なデッドコピーでもないってのが闇が深い
Re: (スコア:0)
その定義だとスラドもやってること同じになるよね
Re:37万6671記事 (スコア:2, 興味深い)
いや、実際最近のスラドのタレこみ記事はダメ(著作権侵害になっている。引用の要件満たさない)なの多いと思うわ。
この記事とか。
自分の意見や感想など、「こちらで入れた主文」がないもの。
ソース元の記事のコピペとリライト、要約のみ。それだと確か引用の要件満たさないと思われ。
Re:37万6671記事 (スコア:1)
主文ってコレ
>ストーリー by hylom 2017年03月14日 15時31分タダで読める経営の実例資料 部門より
続く有象無象のコメント群がスラドの主文なのかもしれない。
#それもコピペ率高そうだけど
Re: (スコア:0)
なんで定義の話になるん?
Re: (スコア:0)
幾つかのサイトから文章を継ぎ接ぎした結果、不正確な記事になってしまった例もあるようで。
医療情報なんて素人が継ぎ接ぎしちゃだめだよね。
Re: (スコア:0)
そんなの真に受けるようなやつは死んだほうがいいでしょ。
「他のヤツもやってるから」理論は嫌いだが (スコア:0)
「他のヤツもやってるんだから自分のとこだけが叩かれるのがおかしい」みたいに言う奴は嫌いだけど、今のところDeNAはその気配はないからまだマシなのかもしれない
NAVERとかゲハブログが放置されたままの現状じゃなぁ・・・
Re: (スコア:0)
NAVERとかゲハブログはいかにも怪しさが漂うから
取り扱いには注意できるけど、
DeNA運営の健康サイトなんて情弱狙いすぎてて
さすがに看過できないでしょう
引用分析ツール (スコア:0)
剽窃チェッカーくらいしか思い浮かばなかったのですが、
今はもっと凄いヤツあるんですかね。
Re:引用分析ツール (スコア:1)
論文だとiThenticateが超有名だけど、日本語が通って汎用の市販品となると「コピペルナー [ank.co.jp]」なんてものもある。ちなみにこのソフトは、PC書の著者としても有名なアンク [amazon.co.jp]の製品。
Re: (スコア:0)
そんなものでチェックしなきゃいけないような質の悪いライターを使わなければ良いのです。
Re:引用分析ツール (スコア:1)
質の悪い
しつのわるい たちのわるい
どっち?
Re: (スコア:0)
37万記事も量産してるんだから、そんなの無理だろ。
Re: (スコア:0)
質の高いライター使ってたらコスト的に成立しないサイトだろう。
Re: (スコア:0)
そんなものでチェックしなきゃいけないような質の悪いライターを使わなければ良いのです。
質の良い悪いはどうやって判断するんでしょう?
もしくは質の良いライターさんが出来心を起こさないという保証はあるんでしょうか?
Re: (スコア:0)
コピーして作れって発注元の指示通りに仕事しただけ。ライターの質の問題じゃない。
Re: (スコア:0)
コピペブログをの記事を放り込めば、
マルチポストしたあちこちの情報ソースをちゃんぽんしようが、
情報ソースと別の掲示板に投げてロンダリングしようが、
情報ソースとは別の場所をもとにしたように書き込みのヘッダ行やレスの作法を偽装しようが、
まるっと暴いてくれる便利ツール…なんてものが無料で一般開放されていたら、
今頃やきうのお兄さんらが喜々としてコピペブログを根こそぎ狩りつくされてそうだ。
捜査機関や風評対策企業なら拡散過程を辿れるツールを持ってるんだろうなとは思うけど。
ゴキブリ一匹だけ殺してもなぁ (スコア:0)
バルサン焚いて皆殺しにできるならいいけど、
そんなことができるわけでもないし。
Re: (スコア:0)
任天堂の倒し方なら知ってるんですが...
Re: (スコア:0)
任天堂はこの手の企業に倒されたくないのでこことてを組みましたね
スマホ判ふぁいあーえむぶれむの売り上げランキング順位や継承とか言うえげつないシステムの実装はDenaのお陰でしょう。
本質 (スコア:0)
これでキュレーションサイトは十把一絡げに悪ってならなきゃいいけど。
WELQが問題になったのはDeNAがクズい記事をそのまま通したのが問題なのであって。
ちゃんと内容が正しい、有益な記事を集めたキュレーションサイトは別にあっても問題無いと思うけれども。
Re:本質 (スコア:2, 興味深い)
もはや手遅れでしょう。
数多くのサービスの提供者が著作権侵害等をオブラートにくるむためにキュレーションという語を使い、それが一般ニュースにまでなって悪のイメージが巷間に広まった以上、キュレーションサイトを謳いながらまともであるサービスなど今後登場することはないでしょう。
何かまともなサービスを新たに立ち上げたい場合に、キュレーションという体をとることやキュレーションを名乗ること自体がすでに巨大リスクですから。
Re: (スコア:0)
ならなきゃいいけど、とか言いつつ私ももうそうだろうなー、とは思う。
こういう言葉遊びみたいなの無くなりゃいいのになぁ。無くならないだろうなぁ。
マニフェスト→アジェンダとか。
馬鹿じゃねぇの、と思いつつも、世間の反応考えたら仕方ないのかなー、とも思ってた。
Re: (スコア:0)
IT系の人たちが、カタカナ語にするの大好きだもんね。古い技術の名前付け替えて売り出すとかもね。
Re: (スコア:0)
×IT系の人たち
○マーケター
IT関連でもASPとSaaSとか古くからいくらでもあるだろうに
Re: (スコア:0)
そんなもんあるわけないじゃん。
どうやったったてコストに見合わないでしょうが。
Re: (スコア:0)
有料会員制のサイトにしても、医療情報なら十分価値があるはずなんだけど、
でも人は集まらんだろう。
無料や安く、有益かつ正確でわかりやすい医療情報が入手できるってのが、甘い。
とわかったうえで、多くのクソサイトで多くの情報にあたった上で、自分が判断するしかないのよ。
Re: (スコア:0)
医療情報に関しては、無料でわかりやすいのがgo.jpとかac.jpとかにいっぱいある。
それすら読めないような馬鹿がこういうキュレーションとかいうのにひっかかるんだろうけど
そういう馬鹿はどうせ他のことでも騙される馬鹿だからほっとくしかないよ。
Re: (スコア:0)
検索エンジンが無能なだけでは
Re: (スコア:0)
有能な検索エンジンがありゃいいけど、ないんだから
自分で馬鹿サイトを見ないように気をつけるしかなかろう。
Re: (スコア:0)
無料はいいとして、わかりやすいかと言うとどーかな
分かりやすい正確な医療情報、自体が無理ゲーに近い気がする
Re: (スコア:0)
正確なのが一番分かりやすいじゃん。
そうでないとしたら、そんな馬鹿はかもられてりゃいいんだよ。
画像472万4571個はいくらなんでも多すぎないか? (スコア:0)
画像472万4571個なんてエロ画像サイトでもそんなには保存して無いだろうしそのうち利用許諾が明確でないものは74万7643個って誰が判断したんだろう?
ニュースを見てその辺を突っ込みたかった
延べなんじゃね? (スコア:0)
4724571 / 376671 で記事1件当たり画像12~13個。
Re: (スコア:0)
医療記事にはこれ!みたいな使い回しのアイキャッチ画像も含まれてるんじゃないの
画像472万4571個 であって、画像472万4571種類 じゃないし。
浴衣画像 (スコア:1)
http://withnews.jp/article/f0161207004qq000000000000000W03610701qq000014391A [withnews.jp]
ほぼ全部「浴衣結(ゆかたむすび)」さんから著作権侵害でコピペされてるという。
Re: (スコア:0)
「サイトを運用しているサーバー上に保存されており」ってのがキモじゃないかな。
直リンしてる不正利用は74万7643個に含まれない。
故に利用許諾が明確な画像数は未公表であり、最悪ゼロでも辻褄が合わせられる。
利用許諾が明確であるって判断は多分
「DeNA側が提供した素材や既知のフリー素材集との一致、EXIFなどでCCなどの利用条件が確認できるか」
で機械的に判定できる。
Re:画像472万4571個はいくらなんでも多すぎないか? (スコア:1)
追記
報告書全文 [dena.com]の内容確認したら、やっぱり直リンは含まないようだ。
それどころか、コピー保存だとクロだからグレーな直リンへの変更で問題解決として意図的にやってたらしい。
# 画像直リンは個人サイトでやっても嫌われるグレーゾーンというのに、商業として意図的にやったら絶対アウトだろ…
# 下手すりゃ法改正で個人レベルでの画像直リンすら制限されかねん悪質な行為だ…
許諾不明の直リンは910705件で、コピーの747543件と合わせて1658248件(35.1%)が許諾不明。
さらに、SNSなどの規約を盾に引用している画像がコピー622185件+直リン412699件の合計1034884件(21.9%)。
合計で2693132件(57.0%)が画像の持ち主の許可が確認できないままに使用されていた画像となる。
ちなみに契約による許諾が有る(恐らく素材集)がコピー1730643件+直リン194816件の合計1925459件(40.7%)。
そして、個別で許可取った画像はコピー79558+直リン6828件の合計86386件(1.8%)
ライター自身に権利があるオリジナルはコピー16556+直リン2938件の合計19494件(0.4%)
素材集と許諾不明画像で実に97.8%を占め、後のマトモな画像は2.2%しかない。ズタボロ。