原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識 130
ストーリー by hylom
元データを共有していないのかかよ! 部門より
元データを共有していないのかかよ! 部門より
あるAnonymous Coward 曰く、
原子力規制委員会のWebサイトにて、「ロ」が「口」になっていたり、「ト」が「卜」になっているなど、目視では判別しづらい誤字があったことが話題になっている(ITmedia)。
検索避けではないかと一部で騒ぎになっていたのだが、原子力規制庁によると誤字はOCRソフトの誤認識だったという。通常は手打ちで行っている作業を、問題の資料では時間がなかったためOCRソフトと目視確認のみで行っていたため生じたとのことで、Webサイトはすでに修正されている。
今日のお前が言うなはここですね (スコア:3, すばらしい洞察)
> 元データを共有していないのかかよ! 部門より
元たれこみ文書をそのままコピペすればいいはずなのに
なぜかいちいち誤字が入ったりする仕事の仕方に比べれば
全然マシだと思いますがねぇ。
Re:今日のお前が言うなはここですね (スコア:2, 参考になる)
タレコミ本文を勝手に改変されるからもう長いことタレこんでねーわ
Re:今日のお前が言うなはここですね (スコア:1)
タレコミ文を誤字る。
ただそれだけのことが hylom にとって存在の証明であった。
Re:今日のお前が言うなはここですね (スコア:2)
ここに「はいろむ」という新たな言葉が誕生したのである。
Re:今日のお前が言うなはここですね (スコア:1)
編集するって、誤字を仕込むって意味じゃないよ……
普通可逆テストするじゃん? (スコア:2)
翻訳ソフトとかは、正確に翻訳できないことが多いから
英訳したのを、再度和訳させて確認したりするでしょ?
OCRでテキストデータ化したなら
読み上げソフトで流せば、ほとんどの誤字は気づくでしょ?
Re:普通可逆テストするじゃん? (スコア:1)
通常は手打ちで行っている作業を、問題の資料では時間がなかったためOCRソフトと目視確認のみで行っていたため生じた
って書いてあるじゃないですか。
Re:普通可逆テストするじゃん? (スコア:1)
読み上げソフトで確認しようとすると、最速でも読み上げる速度以上にはならないから。
それには膨大な時間がかかると思う。
>翻訳ソフトとかは、正確に翻訳できないことが多いから
>英訳したのを、再度和訳させて確認したりするでしょ?
そこまでするんだったら、自分だったら最初から自分で訳さずに読むかな。
英語以外の言語ならしかたないかもしれんが。
Re:普通可逆テストするじゃん? (スコア:1)
無能で十分説明されることに悪意を見出すな
Re:普通可逆テストするじゃん? (スコア:1)
> >英訳したのを、再度和訳させて確認したりするでしょ?
> しない。
あなたはしないかもしれないけど、再翻訳するのは一般的だと思う。
エキサイト翻訳 [excite.co.jp]とかだと、「再翻訳」てチェックボックスがあって自動的に再翻訳してくれるのよ。
Re:普通可逆テストするじゃん? (スコア:1)
百歩譲って、一般的なのかもしれないが、あまり責任ある行為ではない。遊びなら別だが。
仕事で「このメールの文面は翻訳ソフトで再翻訳させて確認したから大丈夫です(ドヤァ)」とか言ったら、助走つけてグーで殴るレベル。
文面の妥当性の責任を翻訳ソフトに転嫁するの?翻訳ソフトの出力が可逆であると誰が保障しているの?
みんながやっているから/機能が提供されているから/何かに書かれているから、それは正しいですと無条件で言うようなら、
首から上のものは捨てた方が軽くていいだろ。
可逆テストが目的ではなく、テストは問題を確認するために行なう (スコア:2)
可逆テストをするために不確かな機械翻訳やOCR取り込みをするのではありません。
ですから「普通可逆テストをする」は「不確かな技術を使った場合」という条件がつきます。
最初から手で入力する人手があれば、それが良かったんでしょうけどね。
見た目から取り込んで失敗したOCRソフトの出力を
目視で確認するという行為自体が、理論上不適切な確認方法のはずです。
コンピューターがよく似た文字や記号を、どう取り込んでいるかは
コンピューターに読み上げさせることによって、効率的に確認できると考えています。
フォントでも音でも取り違えやすい文字はあまり無いでしょう?
スト口ンチウムをVoiceroidのサイトで聞いて見ましたが、気づかないわけ無い感じですよ。
たしかに、目視確認もしないで公開するほどあわてているなら、読み上げる時間は無いでしょうけど
手で入力するだけの人手も時間も無かったということなら
技術的には、移動中や食事中に聴いたりする方法はあるかもしれませんね。
実際には、そうやって校正を行なうための
ソフトウェアの枠組みが無いだろうとは思いますが…
OCRで読み込み、機械読み上げ結果を音声ファイル化し
スキャンした画像やテキストと共に、クラウドに上げてくれるようなソフトがあれば便利な気はします。
クラウドに編集記号を使える校正ツールまであれば、分業も効率的にできるんじゃないかと思います。
禍転じて福となす (スコア:2)
こうした変換間違いが存在するからこそ口リ巨乳 [srad.jp]が生き残る余地があるわけで.
中国、韓国での日本語 (スコア:2)
この系統を思い出した。
怪しすぎ!海外で見つけたヘンな日本語(おもしろ看板、商品)
http://matome.naver.jp/odai/2127787173425674201 [naver.jp]
おかしな日本語・笑える日本語・変な日本語
http://www.geocities.co.jp/CollegeLife/4300/kimyou.html [geocities.co.jp]
正直かわいそう (スコア:1)
原子力の賛否はどちらでもない日和見派からすると
OCRで変な日本語になるのはごく普通のことだし人間が読めるならいいじゃんって思う。
それを検索エンジン回避だとか難癖つけられたあげく
手修正させられるって、なんだか可哀相すぎる。
それだけセンシティブなものだってのは理解できるが
さすがに中の人に同情を禁じ得ないよ。
Re:正直かわいそう (スコア:3, すばらしい洞察)
センシティブな問題ということは当事者たちもわかっているとは思うが、
だからこそこういありがちな誤認識をそのままスルーするなんて普通ありえないから、
意図的なんだろうって言われるんだよ。
Re:正直かわいそう (スコア:1)
OCRの誤字を残すことで、センシティブな人々の目をそこに集中させて、
本質から目をそらせようという高度な策略。
かもしれない。
Re:正直かわいそう (スコア:1)
もっと重要な問題に金を使うために一括で変換してるんでしょ
そういう要望を真面目に聞いた結果は安全神話にしか行き着かない
Re:正直かわいそう (スコア:1)
OCRの誤認識なんて当たり前のことなのに
それを前提にして修正を入れてないことがヤバイと思うのだけど。
OCRの誤認識を想定外でしたとか言ってるようなもんだぞ。
Re:正直かわいそう (スコア:1)
正直たいした話じゃないよね。こんなことで嬉々として叩いてる連中の気が知れない。
Re:正直かわいそう (スコア:1)
PDF検索してみると、反原発らしき団体や抗議団体が作った配布書類とか、事故より前にエンジンに載せられたもの、社名はあるが無関係と思える内容のもののも同様のエラーがありましたからねえ。
Re:未必の故意 (スコア:1)
そもそも元が電子文書なのに、わざわざOCRで読み取らなきゃいけないようにしていること自体が、あまり人に見られないように閲覧抑制、すなわち、検索回避のためなんだよ。
それ以外の理由が考えられないってわけでもないだろうに
根拠も無く強く断定したうえでそれが正しいこと前提の非難をするのは
胡散臭い陰謀論にしか見えない。
一件だけなら (スコア:1)
一件だけとか、数が少なければ「OCRが」も信じてもいいですけど、原子「カ」の多さを見ると、わざととしか思えない。
Re:一件だけなら (スコア:4, すばらしい洞察)
いや、同じソフトを使ってるんなら、全体的に「カ」になってるほうが自然でしょ。
Re:一件だけなら (スコア:1)
ストロンチウムの件と原子力の件は別の事象じゃないかと。
ストロンチウムは原子力規制委員会側の問題で本当に「卜口」になってますが、原子力の方は実際に「原子カ」になってるわけじゃなくて、PDFのインデックス化で発生したGoogle側の問題に見えます。
Wordか一太郎のファイルをそのままPDF化しろよ (スコア:0)
Wordか一太郎のファイルをそのままPDF化しろよ。
印刷してからOCRに掛けるなんて二度手間で税金の無駄遣いだ。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:5, 興味深い)
>>印刷してからOCRに掛けるなんて二度手間
某省庁ですが、ホームページ「部分黒塗りPDFファイル」事件 [nikkeibp.co.jp]ののちに、
「印刷してペンで塗りつぶしてスキャナで取り込むこと」が手順化されました。
オッサンがたには、わかりやすいと好評で一太郎→PDF化を頼まれることもなくなり、(私の)手間は減りましたよ。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:1)
ある時点での決定事項を印字して配布したのなら、その「紙に書いてある内容」が正になるのですから、
その後に改竄される可能性もある電子データのコピーなんて信用できませんよ。などと言ってみる。
紙に書いてあるものが一番偉いと思われているのは、文字通り目に見えるからなので、
文句があるならWordファイルをそのまま人間が読めるようにしてみればどうでしょう?
# てか、OCR通した結果、誤字のせいで文意が変わるような事態になったらどうするんだろうってのは気になりますが。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:1)
# てか、OCR通した結果、誤字のせいで文意が変わるような事態になったらどうするんだろうってのは気になりますが。
スキャナで読み取った画像内の数字がランダムに置き換わる問題 [srad.jp]とか現実にありますからね。世の中には誰も気づかないけど置き換わってた文字もあるんでしょうね。
一方人間OCRの結果 (スコア:1)
インド人を右に!
Re: (スコア:0)
えッ?
Wordファイルって印刷しないと人間は読めないの?
Re: (スコア:0)
Wordファイルなんて印刷するかパソコンのディスプレイ介してじゃなきゃ人間は読めないと思う。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:1)
そして一休に手渡されるWordのショートカットファイル
一人以外は全員敗者
それでもあきらめるより熱くなれ
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:1)
その通りで、電子署名後に印刷したなら電子ファイルと紙とは一応同格の原本として扱えると思うのですが。
他国との契約で、翻訳文も内容は同等であることを認めるが○○国語の文書を原本とする、
みたいな縛りがかかってるのと同じようなものではないでしょうか。
Re: (スコア:0)
Re: (スコア:0)
元ファイルをくれない東京電力が問題なんだよ。
怒る相手が違う。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)
あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
原本の電子化も進んでいるけれど、テキスト化ではなく、画像化して取り込むことも多いよ。
古い資料なんかは特にそう、竹島関連でも一時期話題になったけど、原本を画像化して保持するのも重要なんだよね。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)
↓
うっさいハゲ
↓
つまり、データは残っていないって事?
辞書使わないの? (スコア:0)
OCRソフトって、ただ似ている字形をコード化してるだけなの? アルファベットの大文字小文字もけっこう上手に認識してたけど、日本語は辞書とか使って正しそうな文章を推定したりしてないの?
Re:辞書使わないの? (スコア:3, 参考になる)
一般の文書でもよくある話なので、それほど立派な性能はないのでしょう。
古書とかをOCRで写して再版しようなんて時には、校正担当が目を皿にして確認しないとまともな状態で出版できないそうです。
# こんなのを検索避けの陰謀だなんて考えるような連中って、よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。
Re:辞書使わないの? (スコア:3, 興味深い)
>よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。
逆。
普段から他人に騙されたり陥れられたりばかりしてるから、少しでも「わかる」物が出てきた時に過剰反応してるの。
可哀想なんだよ。
Re: (スコア:0)
科学用語に疎い辞書だったのでしょう。
Re:辞書使わないの? (スコア:1)
> このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えて
会社名にも疎いみたいね。
(これ、業務での実用に堪えないレベルじゃ……)
pdfの中身は間違っていなかったみたいだけど、htmlはOCRソフトで、
pdfは手打ちで書いてたってことなのかな?
ふ~ん……。
Re: (スコア:0)
辞書もってないタイプのOCR使ったんでしょう。
手元にある「いきなりPDF to Data」が同じような誤認識します。
犯人はgoogle? (スコア:0)
例えばこのファイル [fukushima.jp]は画像だけのPDFのように見えるけど、
googleの検索結果 [google.co.jp]では文字が表示されるので、
googleが勝手にテキスト化しているだけのように思えます。
Acrobat Distiller 9 (スコア:4, 興味深い)
話題になったPDFファイルのひとつを開いてプロパティを見ると「Acrobat Distiller 9.0.0」ってありましたよ。Acrobat9にもOCR機能はあったので、恐らくそれが使われたのではないでしょうか。2008年のソフトですね。国産でもないし、日本語認識が賢くなくてもまあ仕方ないかも知れません。
ってか、「Acrobat9はサポート切れだから使用禁止」って触れて回っている身としては腰が砕けそう。
Jubilee
Re:Acrobat Distiller 9(かなりオフトピ) (スコア:1)
職場のPCに残ってるDocuworks 7同梱版のPDF Creation Addonは大丈夫だろうな、と調べてみたらアウトだったー! [fujixerox.co.jp]
でもサポート情報の指示どおりDW 7.3xへのアップデートはしてるんだよな。
これにより富士ゼロックスのPDF変換ツールに置き換えられると思ったんだが、文書のプロパティではAcrobat Elements 9.0.0と出る。
Acrobat Elementsって随分前にディスコンしたはずだけど、OEMはこっそり続いてるのかしら。
Re:余計なことせず (スコア:1)
そうしたらなおさら検索除けと言われるにきまってるじゃない
そこは最初の頃に通った道だな。 (スコア:1)
画像取り込んだだけのPDFはデータの再利用を考えてる人たちから3.11直後、文句が出てたんだよ。
正直これぐらいだったら取り込めさえすれば機械的に修正できる範囲内だしね。そのままPDFにされるよりはマシ。
Re:ア刈カの糸色亡 (スコア:1)
安いのはできない
高いのもちょっとマシになるだけ