スキャナで読み取った画像内の数字がランダムに置き換わる問題 75
ストーリー by hylom
心霊現象でも意図的でもない 部門より
心霊現象でも意図的でもない 部門より
guicho2.71828 曰く、
スキャナで文書を取り込むと、たとえOCRがオフでも、場合によってはランダムに数値が書き換わってしまうという問題が報告されている(Xerox scanners/photocopiers randomly alter numbers in scanned documents)。
この問題が報告されているのは、「Xerox WorkCentre 7535」などの機種。考察によると、画像圧縮に使われているJBIG2アルゴリズムに関係が有りそうだという。JBIG2はパターンマッチングを利用して圧縮効率を向上させているのだが、パターンマッチングに利用される領域サイズが画像中の文字サイズと同じぐらいの大きさになると、誤認識が発生して別の数字に「張り替え」てしまうらしい。
先の記事中では、「6」が「8」になったり、「14.13」が「17.42」になったりといった例が確認できる。対策としては高解像度にすること、あるいはTIFF形式で保存することが挙げられている。
英文読むのが面倒な人へ (スコア:5, 参考になる)
ザックリと要点だけ日本語訳してるサイトもあるのでリンク張っとく。
http://dailynewsagency.com/2013/08/05/xerox-scannersphotocopiers-rando... [dailynewsagency.com]
Re:英文読むのが面倒な人へ (スコア:2)
画像圧縮と展開の過程で画像が崩れるってんならよくわかるけど、文字が置き換わるってのはびっくり。
今どきの画像圧縮は文字認識もある程度やっちゃうってことなのね
まぁ、そのほうがデータが小さくなるのはわかります。
でも、結果として誤認識が起きてるんじゃだめじゃんねぇ
Re:英文読むのが面倒な人へ (スコア:5, 興味深い)
で、会社にある複合機のうち、最も新しいリコー MP C5503 の管理コンソールにログオンしてスキャナの圧縮設定を見てみました
MH、MR、MMR、JBIG2 の4段階が選べてデフォルトはMHでした
さすがに MH は古いなと思ったので MMR (CCITT Group4)にあげておきました
記事にある JBIG2 の問題は本当にアルゴリズムの問題なのか、それとも XEROX による実装によるものなのかはまだ分かんないんですよね?
Re: (スコア:0)
機種が限られている事から(とりあえず今のところ他メーカーの報告がない、ないだけかもしれないが)、
実装の問題じゃないですかね?(OCRの実装精度の問題)
とはいえ、そもそもJBIG2の規格自体にも無理ありそうですね。
>原稿の内容を認識・パターンマッチさせ、文字や数字をくっきりさせる仕組みになっています。
ってことは規格そのものが”OCRを含んでいる”って事で。誤認識でて当たり前のような。
Re:英文読むのが面倒な人へ (スコア:1)
Re: (スコア:0)
ボケボケの写真から人の顔だけをくっきりと取り出すフィルターあるけど、それだとそういうことある>「何人か同じ人になる」
Re:英文読むのが面倒な人へ (スコア:2, おもしろおかしい)
ピコーン!
この方法で、モザイクを外すソフトを作れば、売れるに違いない。
(これは、公知例です)
Re:英文読むのが面倒な人へ (スコア:2)
壁のシミや空の雲まで人の顔になってるとか
楽しい怖い写真になりそうですね。Re: (スコア:0)
http://mc.matome-complate.com/archives/26119887.html [matome-complate.com]
これですか?w
Re:英文読むのが面倒な人へ (スコア:2)
>>文字が置き換わるってのはびっくり。
>そうかな?
ごめん、僕がもの知らずで、パターンマッチングをやってるとはつゆ知らなかったからなんです
白黒画像の圧縮にそういう「判断」を入れるアルゴリズムが使われるとは知らなかったの
最近の情報 (スコア:5, 興味深い)
タレコミの時点ではまだ出ていなかった情報だと思いますが、既にこの辺の推測は全部 Xerox 社の人が事実と確認しています [dkriesel.com]。また、スキャン品質の設定画面にも「文字が置き換わる可能性がある」という警告がある [dkriesel.com]ので、 Xerox の技術者には知られていた話です。なので、第一義的には、 Xerox 社のサポートが自社の製品のことをわかっていなかったという、サポートの質の問題です。あと、デフォルトの動作がこれでいいのかという点も問題ではあります。
Re:最近の情報 (スコア:1)
>デフォルトの動作がこれでいいのかという点も問題ではあります
一番の問題はここじゃないですかね。
品質設定の画面に「文字が置き換わる警告」書いてあろうと、品質設定画面を開かずにデフォルトのまま使っていれば、
「警告を目にすることがない」わけで。
スキャン毎に警告するとか、マニュアルやチラシで「デフォルトだと文字が置き変わります」
と書いてない限り目にする機会がない。
Re:最近の情報 (スコア:2, おもしろおかしい)
品質設定の画面に「文字が置き換わる警告」書いてあろうと、品質設定画面を開かずにデフォルトのまま使っていれば、
「警告を目にすることがない」わけで。
スキャン毎に警告するとか、マニュアルやチラシで「デフォルトだと文字が置き変わります」
と書いてない限り目にする機会がない。
はは、やだなぁ、どこに書かれていようがわざわざ読むわけないじゃないですか。
Re:最近の情報 (スコア:1)
スキャン結果に警告を表示すればいいんですよ。
デフォルトは表示で、設定で消せるようにしておけば、
消したユーザーの責任ということで。
# 改変するな? いやいやFAXの出力に送信元の電話番号が表示されてるのと同じです
## ただそれでも読まないかもと言われたら同意せざるを得ない……
-- う~ん、バッドノウハウ?
Re: (スコア:0)
元※ですが
読むわけないと”目にする機会がない”
は全く別の話ですよ。
「読むわけがない」-必ず目に触れる所にあるのに読まないのはユーザーの問題でユーザー責任。
「目に触れる場所にない」-そもそものインターフェースの不具合という「また別のメーカの問題で責任」
まぁ、書いてあっても読まないだろうと言うのは同意なんですがwwww
Re:最近の情報 (スコア:1)
「文字が置き換わる警告」を出したとしても、
文字が置き換わってしまうのは、製品としてありえないんじゃないかな。
車で「ハンドルを右に切っても左に切れてしまう場合があります」って警告がある車なんて、製品としてありえないでしょ。
Re:最近の情報 (スコア:1)
文字化けの問題は別にして, 低いDPIで視認性の良いフォントというのはFAXで送付する書類用としてニーズがあったりします. 例えばリョービのシリウス [akibatec.net]などが, こうした用途で使われたり.
自炊の危機 (スコア:4, おもしろおかしい)
e-文書法 (スコア:3, 興味深い)
「200 DPI PDF scans w/o OCR」 の条件で問題が起きることが確認できてるようですが、
経産省のガイドラインが150dpi以上、財務省/国税庁のガイドラインが200dpi以上なので、
この問題が発生しているケースが、かなりあるかもしれません。
かなり深刻な問題として受け止めた方がいいかも。
のびたの耳も (スコア:0)
8 になったり。
近眼の眼も 2 になったり。
それはもう大変です。
ガンダムに置き換わる (スコア:0)
足なんて、飾り物です。
青焼き復権か!? (スコア:0)
違うか・・・・
Re:青焼き復権か!? (スコア:2)
TIFFとかの可逆圧縮フォーマットではおきないから、そういう問題じゃないよ。
#いままでJBIGは可逆圧縮だと思ってたよ。(正確には可逆も非可逆もできる。)
Re:青焼き復権か!? (スコア:1)
え、可逆もできるんですか? > JPEG
今まで非可逆しかできないと思ってました。
Re: (スコア:0)
Re: (スコア:0)
今回のは別コメにあるとおりJBIGですが、
JPEG自体には”可逆圧縮の規格もあります”
http://ja.wikipedia.org/wiki/JPEG [wikipedia.org]
ほとんどサポートされてるソフトないですが。
JPEG圧縮で品質を設定出来るような画像ソフトでは最高品質の場合可逆JPEGを使ってたりします。
Re: (スコア:0)
あと、いわゆるJPEGのアルゴリズムでも、なにをどれだけはしょるかはパラメータで設定できるので、
全くはしょらないという設定にも出来る。
計算誤差は出るかもしれないから、可逆とは言い切れないけど、
積極的にデータを棄てて圧縮率を高めようという意味での不可逆でもなくなる。
Re: (スコア:0)
別機種 (スコア:0)
多くの書類についてスキャンして原本捨てる運用をしているので、
一応、DocuCentre-IV C2263で試してみたけど再現しなかった。
(リンク先にあったpng画像をプリント、それをスキャナ。読み取り解像度を200dpiに落としてPDF形式で保存)
Re: (スコア:0)
これをスキャンして、原本を破棄しろ。
それから、スキャン結果を破棄しろ。
# 元ネタなんだっけ
大昔 (スコア:0)
まだPCがマイコンと呼ばれていた時代、紙に印刷されていたプログラムを必死で入力していたのですが、プリンタやフォント、印刷品質の問題から判読しにくいものはありました。(例えば Aと4、7と1、5とS や 8と6と0とOなど)
でも、さすがに「14.13」が「17.42」になるのはありえない話です。
おそろしや…
Re:大昔 (スコア:2, おもしろおかしい)
同じくらい昔、ファミコン版ドラゴンクエスト2で、「ぬ」「ね」「め」「わ」の違いに惑わされたことを思い出しました。
圧縮アルゴリズムが人間と同じように誤認するようになったわけですね。
Re: (スコア:0)
でも、あれは実際にバグもあるからなぁ。。。
エニックス認めないけど。
当時、ビデオに撮った画面と見比べながら入力しても
「ふっかつの呪文がちがいます」
って言われたからw
#ビデオ入力と切り変えすりゃ1台のテレビで可能です。
#当時のファミコンはRF(2ch)入力ですから。
Re: (スコア:0)
完全に解読されててたと思うが、バグっぽい話は無かったよ、確か。
Re: (スコア:0)
機械が人間と同じレベルに…すごい進化だ!
こんなの圧縮じゃない (スコア:0)
印刷や読み取りの品質が原因で、小さな字がつぶれてしまうというのは、ありうること。
それを取り繕うために、スキャナの側で勝手に文字を想像して置き換えてしまうというのは、
「圧縮」とは呼べません。「改竄」とか「捏造」と言ってよいと思います。
勝手じゃなくユーザーの同意の上でやるにしても、「圧縮」ではなく「推測」などと呼ぶべき。
スキャン結果を見てつぶれていたら、人間の側で対応できる可能性がありますが、
スキャン結果がつぶれていなかったら、きれいにスキャンできたと思い込んでしまって、
まさか原本と違うという考えに至らず、内容を信じてしまいます。
Re:こんなの圧縮じゃない (スコア:3)
「不可逆圧縮」というのは、実用上問題ない範囲でデータを変えて符号化することでデータサイズを減らすことです。今回の例のような場合には圧縮のつもりだったのに「実用上問題ない範囲」を超えてデータを変えてしまっているのだから、もちろん圧縮に失敗しています。
という意味で「こんなの圧縮ではない」というのは正しいのですが、開発者の意図はもちろん画像を圧縮することですよ。あなたは「推測」だとおっしゃいますが、推測に基づかない圧縮なんてありません。可逆圧縮なら推測が外れてもデータサイズが圧縮前より減らない (とか増えるとか) 程度で済みますが、不可逆圧縮で「実用上問題ない範囲」がどれだけかという推測が外れれば、実用上問題あるほどデータが変わってしまいます。
こんな方法で圧縮しようとするなボケ、という批判はできるかもしれませんが (知らない)、挙動の意図が圧縮であるという点を無視して「圧縮と呼ぶな」などと言っても的外れな批判だと思います。
Re:こんなの圧縮じゃない (スコア:1)
残念ながらこれも圧縮方法の一つです.いわゆる不可逆圧縮です.
例えば画像の圧縮でよく使われる jpeg や動画の圧縮のmpegでも同じようなことをやっていて,
勝手に色情報を置き換えています.
Re: (スコア:0)
普通の離散コサイン変換ならパターンマッチまではしないでしょうに…
パターンマッチ系(?)圧縮アルゴリズムというとフラクタル圧縮辺りがそこそこ有名ですかね
Re: (スコア:0)
MPEGって知らない?
Re: (スコア:0)
Re:こんなの圧縮じゃない (スコア:2)
補正じゃないんですよ。不可逆圧縮したらデータは失われる一方なんです。よく失われたデータを再現とか宣伝してるのは、コンテキストがわかっているからある程度推測できる(入力データの他にデータを受け取っている)だけです。失ったデータは失われているんです。
だからこれは「画像を縮小しすぎて読めない」というのと同じです。本来なら潰れて読めないレベルまで圧縮して小さくしているけど、他の手法によって見た目の解像度を稼いでいる。取り込まれたデータ量が情報を伝えるのに必要な量を割り込んでしまっていることが原因で、使いものにならないってことですね。そして、それが明らかには見えないので、困る、と。
Re:こんなの圧縮じゃない (スコア:1)
『このへんとこのへんは似たような色だから、同じ色ってことにしておこう』
と
『このへんとこのへんは似たような形だから、同じ形ってことにしておこう』
という程度の違いでしょう。
色よりも形の方が直接的に意味を示すことが多くて、
色違いがあっても見栄えだけの問題で、重要ではないことが多い、ってだけで、
圧縮の問題、としては、同じ方向性の問題だと思います。
例えば、国旗が並んだ画像を圧縮したらイタリア国旗が全部フランス国旗になってた。
とか、色の圧縮でまったく違う意味になってしまうこともあり得るわけで。
Re:こんなの圧縮じゃない (スコア:1)
不可逆圧縮ではそういう問題が起きえると諦めた上で、それぞれのアルゴリズムごとにどういう問題が起こりうるのかに関して気をつけるしかなないんでしょうね。 ここまで極端なトラブルが起こるとは想像外でしたけど。
Re: (スコア:0)
それがサンプリングによる単なるエイリアシングだったとしても「内容を信じてしまいます」は
変わらないよね。コピーはコピー、原本への参照に過ぎないっていうのは基本じゃないかしら。
セキュリティに応用できそう (スコア:0)
コピー出来ない紙資料とか。
Re:セキュリティに応用できそう (スコア:1)
そのうち (スコア:0)
画像のわいせつ部分は笑い男に置き換えるように画像フォーマットの仕様として強制させられたりして。
#で、生ガキの画像が笑い男になる。
Re:そのうち (スコア:2, おもしろおかしい)
大丈夫、そのうち笑男を見ると立つようになります。
スキャンスナップ (スコア:0)
下の広告の製品は大丈夫なのかな。