パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識」記事へのコメント

  • by Anonymous Coward on 2014年06月10日 19時32分 (#2618766)

    Wordか一太郎のファイルをそのままPDF化しろよ。
    印刷してからOCRに掛けるなんて二度手間で税金の無駄遣いだ。

    • by Anonymous Coward on 2014年06月10日 21時14分 (#2618856)

      >>印刷してからOCRに掛けるなんて二度手間
      某省庁ですが、ホームページ「部分黒塗りPDFファイル」事件 [nikkeibp.co.jp]ののちに、
      「印刷してペンで塗りつぶしてスキャナで取り込むこと」が手順化されました。
      オッサンがたには、わかりやすいと好評で一太郎→PDF化を頼まれることもなくなり、(私の)手間は減りましたよ。

      親コメント
      • by Anonymous Coward

        もう何がなんだかハー
        いやここはOCRチェックとかが大得意な障害者の方とかいそうだしそういう人の仕事に・・・?

      • by Anonymous Coward

        f-secureも推奨
        http://blog.f-secure.jp/archives/50315714.html [f-secure.jp]

      • by Anonymous Coward

        自分がまだピチピチ(死語)の若輩者だった頃に、似たような仕事をした記憶があります。
        FAXで送られてきたテンプレに手書きで数字等を記入し、
        上司の判子を押してもらったうえで、コピーを取ってファイルして上部へFAXするというお仕事でした。

        #なんか、どうでも良くなって実家の家業継いで7年目

    • ある時点での決定事項を印字して配布したのなら、その「紙に書いてある内容」が正になるのですから、
      その後に改竄される可能性もある電子データのコピーなんて信用できませんよ。などと言ってみる。

      紙に書いてあるものが一番偉いと思われているのは、文字通り目に見えるからなので、
      文句があるならWordファイルをそのまま人間が読めるようにしてみればどうでしょう?

      # てか、OCR通した結果、誤字のせいで文意が変わるような事態になったらどうするんだろうってのは気になりますが。

      親コメント
    • by Anonymous Coward
      そんなことしたら印刷を手打ちする係の人が失業しちゃうじゃないか
    • by Anonymous Coward

      元ファイルをくれない東京電力が問題なんだよ。
      怒る相手が違う。

      • by Anonymous Coward on 2014年06月10日 21時11分 (#2618851)

        あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。

        原本の電子化も進んでいるけれど、テキスト化ではなく、画像化して取り込むことも多いよ。
        古い資料なんかは特にそう、竹島関連でも一時期話題になったけど、原本を画像化して保持するのも重要なんだよね。

        親コメント
        • by Anonymous Coward

          原子力規制庁ができたのは2012年なんだけど、紙資料で仕事をしてるんだ。

          • by Anonymous Coward

            その時代のコンピュータは放射能に弱いので原発事故で全滅しました
            髪に印刷されたデーターしか残ってないものも多いですよ

          • by Anonymous Coward

            役所に限らんけど、できた年代が新しくても紙ベースでの仕事は山ほどある。
            企業だって、「新しくできた部署だから紙での保管は一切無い」ってところはそうそう無いでしょ?(多分)
            やってる方も「非効率的だなあ」と感じながらもなかなか治らない悪弊というか。「提出は紙媒体に押印して……」ってのが残ってるのは結構無駄だよね。

        • by Anonymous Coward

          > あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。

          今どき、原本が紙媒体で、それをOCRや画像で取り込んでるだけなんて、どこのなんて理研のなんてリケジョの論文だよ。
          まさか、手書きした資料をOCRで取り込んで公表していると?

          そうではなくて、実際には東電やなんとか規制委員会が配布される資料の原本はWordやExcelで作成された電子データなんだから、それをそのまま配布・公開すればいいのに、なぜ印刷したものしか渡さないのかという問題でしょう。
          そして、なぜ印刷した物をOCRで再取り込みしてWebに載せてたりするんだろう?

          または、テキスト抽出ができない状態にされた電子データにする意図は?

          特に意図が無いならば、パソコンを使ってする仕事として無能すぎるので、別の仕事に転職したほうがいいと思う。
          意図的にやっているなら悪質。

          • by Anonymous Coward

            彼らは、

            だって、電子ファイルって、会議などで配布された原本よりも古いでしょ。
            原本より前のものを原本として配布するのは、おかしいじゃん。

            という論理。それはそれで一理ある。事後の電子データは、OCRデータが正しいことを検証して配布すればいいだけのこと。

            もっとも、他省庁の委員会・審議会では、電子データからPDFに変換したものを配布している所も多いので、要はやる気の問題だけどね。

            ところで、事後の電子データにはOCRデータは含まれておらず、Google様がPDFファイルをクロールしてOCR処理したものの精度が悪い、という話もあるようだけど、そうだとすると、問題を生み出したのはGoogle様ということになる。

      • by Anonymous Coward

        東京電力に頭が上がらずファイルを貰えない原子力規制庁って?!

    • by Anonymous Coward

      元となる電子ファイルを所持できているという根拠はどこから出てきた?
      というかWordか一太郎のファイルがあるならテキストを取得するのにPDF化すること自体が必要ないよね

      画像PDFをスキャンしてOCRソフトにかけたという部分と合わせて察すれば画像PDFまたは紙媒体しかなかったんじゃないかと

計算機科学者とは、壊れていないものを修理する人々のことである

処理中...