アカウント名:
パスワード:
Wordか一太郎のファイルをそのままPDF化しろよ。印刷してからOCRに掛けるなんて二度手間で税金の無駄遣いだ。
元ファイルをくれない東京電力が問題なんだよ。怒る相手が違う。
あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
原本の電子化も進んでいるけれど、テキスト化ではなく、画像化して取り込むことも多いよ。古い資料なんかは特にそう、竹島関連でも一時期話題になったけど、原本を画像化して保持するのも重要なんだよね。
原子力規制庁ができたのは2012年なんだけど、紙資料で仕事をしてるんだ。
その時代のコンピュータは放射能に弱いので原発事故で全滅しました髪に印刷されたデーターしか残ってないものも多いですよ
役所に限らんけど、できた年代が新しくても紙ベースでの仕事は山ほどある。企業だって、「新しくできた部署だから紙での保管は一切無い」ってところはそうそう無いでしょ?(多分)やってる方も「非効率的だなあ」と感じながらもなかなか治らない悪弊というか。「提出は紙媒体に押印して……」ってのが残ってるのは結構無駄だよね。
> あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
今どき、原本が紙媒体で、それをOCRや画像で取り込んでるだけなんて、どこのなんて理研のなんてリケジョの論文だよ。まさか、手書きした資料をOCRで取り込んで公表していると?
そうではなくて、実際には東電やなんとか規制委員会が配布される資料の原本はWordやExcelで作成された電子データなんだから、それをそのまま配布・公開すればいいのに、なぜ印刷したものしか渡さないのかという問題でしょう。そして、なぜ印刷した物をOCRで再取り込みしてWebに載せてたりするんだろう?
または、テキスト抽出ができない状態にされた電子データにする意図は?
特に意図が無いならば、パソコンを使ってする仕事として無能すぎるので、別の仕事に転職したほうがいいと思う。意図的にやっているなら悪質。
彼らは、
だって、電子ファイルって、会議などで配布された原本よりも古いでしょ。原本より前のものを原本として配布するのは、おかしいじゃん。
という論理。それはそれで一理ある。事後の電子データは、OCRデータが正しいことを検証して配布すればいいだけのこと。
もっとも、他省庁の委員会・審議会では、電子データからPDFに変換したものを配布している所も多いので、要はやる気の問題だけどね。
ところで、事後の電子データにはOCRデータは含まれておらず、Google様がPDFファイルをクロールしてOCR処理したものの精度が悪い、という話もあるようだけど、そうだとすると、問題を生み出したのはGoogle様ということになる。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」
Wordか一太郎のファイルをそのままPDF化しろよ (スコア:0)
Wordか一太郎のファイルをそのままPDF化しろよ。
印刷してからOCRに掛けるなんて二度手間で税金の無駄遣いだ。
Re: (スコア:0)
元ファイルをくれない東京電力が問題なんだよ。
怒る相手が違う。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)
あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
原本の電子化も進んでいるけれど、テキスト化ではなく、画像化して取り込むことも多いよ。
古い資料なんかは特にそう、竹島関連でも一時期話題になったけど、原本を画像化して保持するのも重要なんだよね。
Re: (スコア:0)
原子力規制庁ができたのは2012年なんだけど、紙資料で仕事をしてるんだ。
Re: (スコア:0)
その時代のコンピュータは放射能に弱いので原発事故で全滅しました
髪に印刷されたデーターしか残ってないものも多いですよ
Re: (スコア:0)
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)
↓
うっさいハゲ
↓
つまり、データは残っていないって事?
Re: (スコア:0)
役所に限らんけど、できた年代が新しくても紙ベースでの仕事は山ほどある。
企業だって、「新しくできた部署だから紙での保管は一切無い」ってところはそうそう無いでしょ?(多分)
やってる方も「非効率的だなあ」と感じながらもなかなか治らない悪弊というか。「提出は紙媒体に押印して……」ってのが残ってるのは結構無駄だよね。
Re: (スコア:0)
> あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
今どき、原本が紙媒体で、それをOCRや画像で取り込んでるだけなんて、どこのなんて理研のなんてリケジョの論文だよ。
まさか、手書きした資料をOCRで取り込んで公表していると?
そうではなくて、実際には東電やなんとか規制委員会が配布される資料の原本はWordやExcelで作成された電子データなんだから、それをそのまま配布・公開すればいいのに、なぜ印刷したものしか渡さないのかという問題でしょう。
そして、なぜ印刷した物をOCRで再取り込みしてWebに載せてたりするんだろう?
または、テキスト抽出ができない状態にされた電子データにする意図は?
特に意図が無いならば、パソコンを使ってする仕事として無能すぎるので、別の仕事に転職したほうがいいと思う。
意図的にやっているなら悪質。
Re: (スコア:0)
彼らは、
という論理。それはそれで一理ある。事後の電子データは、OCRデータが正しいことを検証して配布すればいいだけのこと。
もっとも、他省庁の委員会・審議会では、電子データからPDFに変換したものを配布している所も多いので、要はやる気の問題だけどね。
ところで、事後の電子データにはOCRデータは含まれておらず、Google様がPDFファイルをクロールしてOCR処理したものの精度が悪い、という話もあるようだけど、そうだとすると、問題を生み出したのはGoogle様ということになる。