Re:Wordか一太郎のファイルをそのままPDF化しろよ (#2618851) | 原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識

「原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識」記事へのコメント

記事ページを表示すべてのコメント取得

検索130コメント Log In/Create an Account

Wordか一太郎のファイルをそのままPDF化しろよ (スコア:0)

by Anonymous Coward

Wordか一太郎のファイルをそのままPDF化しろよ。
印刷してからOCRに掛けるなんて二度手間で税金の無駄遣いだ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  元ファイルをくれない東京電力が問題なんだよ。
  怒る相手が違う。
  - Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)
    
    by Anonymous Coward on 2014年06月10日 21時11分 (#2618851)
    
    あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
    原本の電子化も進んでいるけれど、テキスト化ではなく、画像化して取り込むことも多いよ。
    古い資料なんかは特にそう、竹島関連でも一時期話題になったけど、原本を画像化して保持するのも重要なんだよね。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      原子力規制庁ができたのは2012年なんだけど、紙資料で仕事をしてるんだ。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        その時代のコンピュータは放射能に弱いので原発事故で全滅しました
        髪に印刷されたデーターしか残ってないものも多いですよ
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        うっさいハゲ
        
        Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)
        
        by uippi (9904) on 2014年06月11日 18時52分 (#2619428) 日記
        
        髪に印刷されたデーターしか残ってないものも多いですよ
        ↓
        うっさいハゲ
        ↓
        つまり、データは残っていないって事？
        
        シェア
        
        親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        役所に限らんけど、できた年代が新しくても紙ベースでの仕事は山ほどある。
        企業だって、「新しくできた部署だから紙での保管は一切無い」ってところはそうそう無いでしょ？（多分）
        やってる方も「非効率的だなあ」と感じながらもなかなか治らない悪弊というか。「提出は紙媒体に押印して……」ってのが残ってるのは結構無駄だよね。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      > あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
      今どき、原本が紙媒体で、それをOCRや画像で取り込んでるだけなんて、どこのなんて理研のなんてリケジョの論文だよ。
      まさか、手書きした資料をOCRで取り込んで公表していると？
      そうではなくて、実際には東電やなんとか規制委員会が配布される資料の原本はWordやExcelで作成された電子データなんだから、それをそのまま配布・公開すればいいのに、なぜ印刷したものしか渡さないのかという問題でしょう。
      そして、なぜ印刷した物をOCRで再取り込みしてWebに載せてたりするんだろう？
      または、テキスト抽出ができない状態にされた電子データにする意図は？
      特に意図が無いならば、パソコンを使ってする仕事として無能すぎるので、別の仕事に転職したほうがいいと思う。
      意図的にやっているなら悪質。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        彼らは、
        だって、電子ファイルって、会議などで配布された原本よりも古いでしょ。
        原本より前のものを原本として配布するのは、おかしいじゃん。
        という論理。それはそれで一理ある。事後の電子データは、OCRデータが正しいことを検証して配布すればいいだけのこと。
        もっとも、他省庁の委員会・審議会では、電子データからPDFに変換したものを配布している所も多いので、要はやる気の問題だけどね。
        ところで、事後の電子データにはOCRデータは含まれておらず、Google様がPDFファイルをクロールしてOCR処理したものの精度が悪い、という話もあるようだけど、そうだとすると、問題を生み出したのはGoogle様ということになる。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識 More ログイン

「原子力規制庁サイトの「目視では判別しづらい誤字」、原因はOCRソフトの誤認識」記事へのコメント

Wordか一太郎のファイルをそのままPDF化しろよ (スコア:0)

Re: (スコア:0)

Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

スラド