パスワードを忘れた? アカウント作成
11065455 story
ソフトウェア

原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識 130

ストーリー by hylom
元データを共有していないのかかよ! 部門より
あるAnonymous Coward 曰く、

原子力規制委員会のWebサイトにて、「ロ」が「口」になっていたり、「ト」が「卜」になっているなど、目視では判別しづらい誤字があったことが話題になっている(ITmedia)。

検索避けではないかと一部で騒ぎになっていたのだが、原子力規制庁によると誤字はOCRソフトの誤認識だったという。通常は手打ちで行っている作業を、問題の資料では時間がなかったためOCRソフトと目視確認のみで行っていたため生じたとのことで、Webサイトはすでに修正されている。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2014年06月10日 19時58分 (#2618785)

    > 元データを共有していないのかかよ! 部門より

    元たれこみ文書をそのままコピペすればいいはずなのに
    なぜかいちいち誤字が入ったりする仕事の仕方に比べれば
    全然マシだと思いますがねぇ。

  • 翻訳ソフトとかは、正確に翻訳できないことが多いから
    英訳したのを、再度和訳させて確認したりするでしょ?

    OCRでテキストデータ化したなら
    読み上げソフトで流せば、ほとんどの誤字は気づくでしょ?

    • 通常は手打ちで行っている作業を、問題の資料では時間がなかったためOCRソフトと目視確認のみで行っていたため生じた

      って書いてあるじゃないですか。

      親コメント
    • 読み上げソフトで確認しようとすると、最速でも読み上げる速度以上にはならないから。
      それには膨大な時間がかかると思う。

      >翻訳ソフトとかは、正確に翻訳できないことが多いから
      >英訳したのを、再度和訳させて確認したりするでしょ?
      そこまでするんだったら、自分だったら最初から自分で訳さずに読むかな。
      英語以外の言語ならしかたないかもしれんが。

      親コメント
    • by Anonymous Coward on 2014年06月11日 0時06分 (#2618956)

      無能で十分説明されることに悪意を見出すな

      親コメント
  • by SteppingWind (2654) on 2014年06月10日 21時16分 (#2618860)

    こうした変換間違いが存在するからこそ口リ巨乳 [srad.jp]が生き残る余地があるわけで.

  • この系統を思い出した。

    怪しすぎ!海外で見つけたヘンな日本語(おもしろ看板、商品)
    http://matome.naver.jp/odai/2127787173425674201 [naver.jp]

    おかしな日本語・笑える日本語・変な日本語
    http://www.geocities.co.jp/CollegeLife/4300/kimyou.html [geocities.co.jp]

  • by Anonymous Coward on 2014年06月10日 20時25分 (#2618805)

    原子力の賛否はどちらでもない日和見派からすると
    OCRで変な日本語になるのはごく普通のことだし人間が読めるならいいじゃんって思う。

    それを検索エンジン回避だとか難癖つけられたあげく
    手修正させられるって、なんだか可哀相すぎる。

    それだけセンシティブなものだってのは理解できるが
    さすがに中の人に同情を禁じ得ないよ。

    • Re:正直かわいそう (スコア:3, すばらしい洞察)

      by Anonymous Coward on 2014年06月10日 20時30分 (#2618816)

      センシティブな問題ということは当事者たちもわかっているとは思うが、
      だからこそこういありがちな誤認識をそのままスルーするなんて普通ありえないから、
      意図的なんだろうって言われるんだよ。

      親コメント
    • by Anonymous Coward on 2014年06月10日 20時45分 (#2618831)

      OCRの誤認識なんて当たり前のことなのに
      それを前提にして修正を入れてないことがヤバイと思うのだけど。

      OCRの誤認識を想定外でしたとか言ってるようなもんだぞ。

      親コメント
    • by Anonymous Coward on 2014年06月10日 20時53分 (#2618837)

      正直たいした話じゃないよね。こんなことで嬉々として叩いてる連中の気が知れない。

      親コメント
    • by Anonymous Coward on 2014年06月10日 21時39分 (#2618876)

      PDF検索してみると、反原発らしき団体や抗議団体が作った配布書類とか、事故より前にエンジンに載せられたもの、社名はあるが無関係と思える内容のもののも同様のエラーがありましたからねえ。

      親コメント
  • by manmos (29892) on 2014年06月10日 20時30分 (#2618814) 日記

    一件だけとか、数が少なければ「OCRが」も信じてもいいですけど、原子「カ」の多さを見ると、わざととしか思えない。

    • Re:一件だけなら (スコア:4, すばらしい洞察)

      by Anonymous Coward on 2014年06月10日 20時33分 (#2618818)

      いや、同じソフトを使ってるんなら、全体的に「カ」になってるほうが自然でしょ。

      親コメント
    • by Anonymous Coward on 2014年06月11日 2時00分 (#2618993)

      ストロンチウムの件と原子力の件は別の事象じゃないかと。
      ストロンチウムは原子力規制委員会側の問題で本当に「卜口」になってますが、原子力の方は実際に「原子カ」になってるわけじゃなくて、PDFのインデックス化で発生したGoogle側の問題に見えます。

      親コメント
  • by Anonymous Coward on 2014年06月10日 19時32分 (#2618766)

    Wordか一太郎のファイルをそのままPDF化しろよ。
    印刷してからOCRに掛けるなんて二度手間で税金の無駄遣いだ。

  • by Anonymous Coward on 2014年06月10日 19時36分 (#2618771)

    OCRソフトって、ただ似ている字形をコード化してるだけなの? アルファベットの大文字小文字もけっこう上手に認識してたけど、日本語は辞書とか使って正しそうな文章を推定したりしてないの?

    • by yasuchiyo (11756) on 2014年06月10日 20時07分 (#2618793) 日記

      一般の文書でもよくある話なので、それほど立派な性能はないのでしょう。
      古書とかをOCRで写して再版しようなんて時には、校正担当が目を皿にして確認しないとまともな状態で出版できないそうです。

      # こんなのを検索避けの陰謀だなんて考えるような連中って、よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。

      親コメント
      • by Anonymous Coward on 2014年06月10日 21時34分 (#2618872)

        >よほどふだんから他人を騙して陥れることばかり考えてるんだろうな。

        逆。
        普段から他人に騙されたり陥れられたりばかりしてるから、少しでも「わかる」物が出てきた時に過剰反応してるの。
        可哀想なんだよ。

        親コメント
    • by Anonymous Coward

      科学用語に疎い辞書だったのでしょう。

      • by Anonymous Coward on 2014年06月10日 19時57分 (#2618784)

        > このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えて

        会社名にも疎いみたいね。
        (これ、業務での実用に堪えないレベルじゃ……)

        pdfの中身は間違っていなかったみたいだけど、htmlはOCRソフトで、
        pdfは手打ちで書いてたってことなのかな?
        ふ~ん……。

        親コメント
    • by Anonymous Coward

      辞書もってないタイプのOCR使ったんでしょう。
      手元にある「いきなりPDF to Data」が同じような誤認識します。

    • 例えばこのファイル [fukushima.jp]は画像だけのPDFのように見えるけど、
      googleの検索結果 [google.co.jp]では文字が表示されるので、
      googleが勝手にテキスト化しているだけのように思えます。

typodupeerror

ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家

読み込み中...