クラウド型「人力OCR」、どう思う? 59
ストーリー by hylom
人に見られてまずいものはネットに出すな 部門より
人に見られてまずいものはネットに出すな 部門より
uxi 曰く、
ASCII.jpにて、クラウドノート「KYBER」なるものが紹介されている(記事)。要するに自分の書いたノートをクラウドに保存できるという、一見よくありそうなサービスなのだが、このサービスが一線を画すのが(中国人を主体とした)人海戦術によって非常に高精度なOCRを行うという点。
しかし、処理を行うのは日本語が分からない人間で、また一度に処理するのは意味の繋がらないような細切れの断片だとしても、自分の書いたメモが確実に人目に触れていると思うと、どうにも気持ちが悪い。仕組みは単なる入力代行サービスと同じなのだから、それを気持ち悪く思うのはそもそも使い方が間違っているのかもしれないが……。
クラウドが流行る昨今だが、他人の管理下にあるサーバーに個人的なデータをストアすることに抵抗感を覚えるタレコミ子。Gmailにさえも抵抗感を覚えてしまう辺り、ちょっと古目の人間なのかもしれない。Evernote などのクラウドサービスを日々使いこなしておられる諸兄におかれては、クラウド上にデータを保存することなども含めて、どう感じられただろう?
そもそも目新しいサービスではない (スコア:4, 参考になる)
一般の人が知らなかっただけで法人用途では昔からあったんですよ。半人海戦術の人力OCRは。
そもそもこのKYBERの会社だって、ここ1、2年でできた会社じゃないはず。
自分の書いたメモが他人に見られて恐い……とか言っている人が過去に書いた
保険や通販の申込書とかがこの手の業者によって、すでに電子化されてんですよ。ほぼ間違いなく。
逆に言うと、すでにセキュリティのノウハウがあって、
(文節で区切ってバラ撒くとか。日本人オペレーターが書類を1枚1枚入力するよりよっぽど安全)、
堅めの企業相手に取引ができる程度には信頼を勝ち得ているので、
個人相手にサービスするにあたって、安心感を得るための努力や警戒感が足らないのかもしれない。
そしてそれは法人相手のビジネスばっかやってた企業が比較的陥りやすい罠ではある。
Re: (スコア:0)
>自分の書いたメモが他人に見られて恐い……とか言っている人が過去に書いた
>保険や通販の申込書とかがこの手の業者によって、すでに電子化されてんですよ。ほぼ間違いなく。
保険や通販の申込書と比べると、メモというのはより個人的なものになりやすいですよね。
そう考えると用途はけっこう絞られてしまうのかも。
自分の場合はですが、メモはそのままでは出せないかな。
足ツボマッサーヅフェイツセル美容 (スコア:3, おもしろおかしい)
こんな感じの日本語 [sawadan.com]が量産されるのかもと思うと、胸熱。
#「日本語が分からない人間」というのがどうもね。わかっててもなんかイヤだけど。
Re: (スコア:0)
チョコボがチョコポになったりボイスがポイスになったりするんですね。
国家プロジェクトとして、特許公報についてやってほしい (スコア:3)
日本の特許公報は平成5年公開以降はテキストデータがあるが、それ以前はOCRデータしか存在しない。それ故に全文検索がやりづらい。
また、平成5年以降のものについても、表は画像になっていたりするので、実施例に記載の名称(部品や成分名など)がヒットしなかったりする。
昭和40年くらいから、これらを全てテキスト化してくれたら非常にありがたいんだが。
特許公報は公開情報なので、セキュリティ面も無問題。
Re: (スコア:0)
そして、「特許権者の名前が違う」とか「特許の内容が違う」とか言う問題が続出して年金問題と同じ運命を辿る訳ですね。
英語圏ではインド人がリアルタイムで捌く (スコア:3)
先頃本家で紹介 [slashdot.org]されていた、MobileWorks [mobileworks.com]は、
インド人に細かい業務を依頼でき、しかもAPI経由でどんなソフトウェアからも
業務を依頼でき、わずか数秒で結果を返すことができるらしい。ほんまかいな。
OCRとか、画像認識とかには向いているよね、てなことだが、
コメント欄では早速 "Slavery 2.0" とか揶揄されている。
件の「KYBER」は、判別精度とか情報漏洩とかが問題になりそうだけど、
タレコミの紹介記事読むと、単語にばらして一致しているか○×で
回答させているから、複数人に同じ問題やらせて結果担保させるとか、
問題をシャッフルさせて元の文書を分からなくするとか、割とうまいこと
やらせているんじゃなかろうかと。
多分「インド人API」を使うのであれば、そういう点も
ちゃんと考慮してつかわないとまずいでしょうね。
むしろ問題になるのは、"Cloud" でデータが保存されていることよりも、
今後 "Crowd "サービスが増えていくと、現代版・奴隷貿易みたくなって、
途上国から非難されて国際問題化したりしないか、とかいう点ではないかと。
タレコミ文は、論点をどこに持って行きたいのか、いまいち謎だけど...
非常に高精度なOCR (スコア:2)
古くは香港の模型メーカー・ドラゴンの説明書に見られた「フや消しブラソワ(つや消しブラック)」、あるいはフジエアーのDVDプレイヤーの「オーポン(オープン)」 [plala.or.jp]の再現が目に浮かびます。
オフショアとしては最近はあるのかも (スコア:2)
経理、総務の日本語処理をオフショアってのは数年前から出てきたてみたいですね。
http://diamond.jp/articles/-/717 [diamond.jp]
コンシューマ向けで、クラウドってのが新機軸なんですかね。
IDとパスワードを OCRさせてみよう (スコア:2)
私は意地悪だろうか。
OCR? (スコア:1)
Re:OCR? (スコア:3, おもしろおかしい)
Oozei no Chinese de Reading
#イマイチ
Re: (スコア:0)
Overwriting Chinese Reader
でいかがでしょう?
彼らに都合のいいような解釈で書き込まれます
Re: (スコア:0)
Re:OCR? (スコア:1)
中国語の部屋 [wikipedia.org]?
Re: (スコア:0)
同じ事を連想した。
Re:OCR? (スコア:1)
記事を読むと、まずOCRに通して、その後の正誤チェックにクラウド(CROWD)を使うとあります。
つまり書き起こしを中国人がやってるわけじゃなく、
原稿画像と結果画像を見比べて○か×のボタンを押してるだけ。
Re: (スコア:0)
嫌なら使うな (スコア:1)
T/O
脱衣ゲームによるCAPTCHA突破ネタ (スコア:1)
をなんとなく思い出しました。
http://www.itmedia.co.jp/enterprise/articles/0710/29/news031.html [itmedia.co.jp]
Re:脱衣ゲームによるCAPTCHA突破ネタ (スコア:3)
クラウド+OCRというと私はまっさきに reCAPTCHA を思い出しました。
http://orepan.jp/category_daily/2010_05_27_recaptcha.html [orepan.jp]
reCAPTCHAは自身がCLOUDサービスとして認証(ボット判定)機能を他のWebサービス会社に提供しつつ
そこから得られるCROWDの集合知をOCRに利用するという、考えた人天才!な仕組みです。
本件のサービスもそれに似た方向のようですが、 reCAPTCHAはWin-Winなので
無報酬で回るのに対し、本サービスは報酬を払う形という点で、クラウド的には
もう一歩先へ進めて欲しいところではあります。
ちなみに・・・
中国人に書類を見られるのがイヤと言う人には残念なことに、
あなたが役所やお店で書かされた書類を電子化する際は、
データ入力は大抵日本人が行うものの、その検証は中国にアウトソーシングされることが
とっくの昔から普通に行われております。(全部じゃないですけどね)
Re:脱衣ゲームによるCAPTCHA突破ネタ (スコア:1)
この手の攻撃だとreCAPTCHAも危ない気がしてきたんですが。
特に行きずりで使うような怪しげなファイルホスティングサービスのreCAPTCHAが実は別サイトのアカウント取得用reCAPTCHAにリダイレクトされていた・・・とか、ありそうな話かも。
ちょっと位reCAPTCHAのUIが間違っていてもユーザは気にしませんし、気が付いても本人に目に見える実害が無い以上、検出する手間も通報する手間も掛けたくないでしょうし・・・
これからはreCAPTCHA見かけたらBlackJumboDogのプロキシログにreCAPTCHAへのアクセスがあるかどうか気にする事にしようと思います。
# recaptcha.net または www.google.com/recaptcha
とはいえ発見しても意味があるかどうか。
標的の特定はGoogle(reCAPTCHA)側なら可能なのだろうけれど、標的判っても攻撃阻止が出来なきゃ意味ないし。
CAPTCHAとしては死活問題じゃないのかな、これ?
Re:reCAPTCHAも危ない (スコア:1)
captcha 認証に、しばしば bot 判定されてしまう俺に隙はなかった
中国クラウドはこれだけじゃない (スコア:1)
中国の人海戦術処理方式は別に珍しいものでもない
所定の書式の注文書によるFAXでの発注を受け付けている通販業者には、スキャンした画像を中国の端末に表示させ、人が読みとった商品番号や数量をキーボードから入力しているところがある
発注者の住所等は代わりにあらかじめ登録された顧客コードを注文書に記入するようになっているので、中国では英数字を読みとるだけの作業ですむ
他にも各種申込書類のたぐいで中国で読み取り・コンピュータへの入力処理をしているものがかなりあるのでは?
あれ? (スコア:1)
日本国内でも一時期静かなブームになった方式じゃなかったっけ?
http://www.outsource.co.jp/out_p/ocr-6.html [outsource.co.jp]
ソーシャルメディア的にクラウドでやるのが新しいのか。
Re: (スコア:0)
既に日本国内でありますね。
OCRの訂正を人海戦術で行うのは、人件費が嵩むだけでスマートな解決方法とは到底思えませんね。
信用できない (スコア:1)
中国ってことは当局のチェック入ったりしないのかな (スコア:1)
「天安門」とか「法輪功」とか「チベット」とかちゃんと処理されるんだろうか
避難者名簿 (スコア:1)
震災の時に、現地にいる人が避難所に掲示している避難者名簿を撮影してネットに上げ
各地のボランティアがそれをテキストにしてネット上にデータベースを作るってのをやってました。
今も残っています。
http://www.google.co.jp/intl/ja/crisisresponse/japanquake2011_voluntee... [google.co.jp]
あらためて見たら日本語以外への翻訳も行っていたようです。
書いてない (スコア:0)
とりあえず、ホームページの浅いところには
断片でも他人に読まれる、って書いてないですね。
過渡期の産物。いずれ消える (スコア:0)
技術がまだ追いついてないだけで、過渡期の産物でしょう。
人力分類でのディレクトリ検索がGoogleなどの機械式に取って代わられたように、近い将来消えていくと思いますね。
どうせなら未来のある方を使いたいし、多少問題があっても他のサービスを選びます。
Re:過渡期を捕まえられるから (スコア:0)
儲けることができるんだと思います。
こんな商売も成立するのかと正直驚いた。
ニュースを見て他に人海商売できないかなーとか考えちゃうけど、そんなじゃ遅いんですよねー。
株価の頂点で買ってしまう客のように。
Re: (スコア:0, 興味深い)
よく記事読もうぜ。これも機械式だよ。
IBM用語 (スコア:0)
思い出すのはIBM OS/2のマニュアルにあった「ディチスット」。もちろんIBM用語のディスケット。
問題ない (スコア:0)
依頼者とメモの中身が関連付けられさえしなければ問題ない。
Re: (スコア:0)
メモの中身から依頼者が特定できることもあるだろうよ。
Re:問題ない (スコア:1)
走召糸色木亥火暴
のうちどれか2ワード位含まれていたらピンと来るかもしれない
サービス、始めました (スコア:0)
という段階みたいですね。
会社としては、既に企業向けの仕事はしていて、個人向けにクラウドノート「KYBER」を進めたい。
日常的にメモを取りまくっていて、さらに早急に電子化したいという人には便利なのかな。
これもクラウドなのか (スコア:0)
クラウド型OCRか。
クラウドねー。
要はあっちにあるとか、あっちでやるかだな。途中が雲みたいなっていて向こう側が見えない。
名付けて (スコア:0)
人肉雲
品質の担保はどうやってるんだろう? (スコア:0)
監視しないとすぐサボると思うんですが、品質の監視用のチームと分担させているのでしょうか?
人力OCRのチームがページあたり9割の確率で真面目に働いてくれて、
品質の監視チームが同じく9割の確率で真面目に働いてくれるとしたら、
不良ぺージが出てくるのは1%ほどの確率で、不良品率1%なら商用サービスとして機能するとかそんな感じですかねえ。
Re:品質の担保はどうやってるんだろう? (スコア:2)
だんだんみんな画面も見ずにランダムにボタンを押すだけになるとおもいます。
正しくしても間違っても給料が一緒なら自分でもそうします。
すると、正しく真面目に仕事をした人が損をするだけなので破綻するでしょう。
それを防ぐために、正しくマルバツをつけているか評価する人員が必要です。
それも中国人を雇って人海戦術でやったらいいでしょう。
以下ループ。
Re: (スコア:0)
それ機械的にできない?
ランダムに複数人に同じ内容配ってマルバツの結果をdiffする。
担当の正解率を計算する。
部署全員の正解率と、そいつの正解率を比較する。
正解率が高い人にはご褒美、悪い人はクビ。
部門全員ががんばるほど正解率があがって競争激化。
サボる人は機械的に排除。
このシステムを突破するには部署の半数ぐらいが同じくサボればいいけど、人数が多いと難しいし、抜け駆けされるかもしれない。
ってな感じでどうよ。
#某ECの倉庫はこんな感じって噂を聞いたことがある。怖いね
Re: (スコア:0)
正解がわかっている問題を混ぜておくという手は?
そういう問題の正答率が低い人は
「真面目にやってない」か「真面目にやっても役に立たない」のでサヨウナラと
これなら一致団結してサボる手はきかないかと
Re:品質の担保はどうやってるんだろう? (スコア:2)
なるほど。正解率確認用の正解がわかっている問題をランダムに発生させて統計とればいいのかぁ。
ついでに、隣組方式で誰かの正解率が下がると小グループの連帯責任のようにすれば
サボれなくなっていきそうですね。
Re: (スコア:0)
>#某ECの倉庫はこんな感じって噂を聞いたことがある。怖いね
安い人材を効率的に使うシステムだけがどんどん洗練されていくなあ。
ICタグとかも、万引きを防止するためと考えている人が多いと思いますが、
欧米の会社にとっての一番主要なニーズは、「店員による」商品の抜き取り防止が目的だと、(たしか)ICタグ関連の本で読みました。
たしかに、モラルで成り立っている日本的なシステムよりも、
人材の質が低下しても成り立つ欧米的なシステムのほうがよりロバストだなと思います。
でも、日本で従業員のモラルと現場の自由裁量が無くてもやっていけるようなシステムを導入すると、
不思議とモラルのほうもだんだんと崩壊していき、システムの改良がおっつかないから、さらによりマズい運用になっていく。
クラウドは麻薬? (スコア:0)
やはりクラウドには抵抗感がありました。極力クラウドサービスは避けていたんです。
でも実際使い始めると便利。
Evernote + Andoroid で結局ばりばり使う羽目に。やめられないどころか依存が高まる次第。
自分での素人サーバ管理よりましの可能性大だし面倒なのでまあいいっか。
でもとにかく個人情報に対する認識が甘いgoogleに情報が集約しないようには気をつけてます。
複数台のパソコンが面倒なのはデータ管理だったんだと今更気づいた。
エロ小説を (スコア:0)
OCRさせてみる。
Re: (スコア:0)
直ちに影響はない
あとでじわじわくるのか?
このトピックからわかるのは (スコア:0)
いかに元記事を読まずに好き勝手なコメントをしているか、ということだけだな。
# まぁ、いつものことだが。