アカウント名:
パスワード:
Wordか一太郎のファイルをそのままPDF化しろよ。印刷してからOCRに掛けるなんて二度手間で税金の無駄遣いだ。
>>印刷してからOCRに掛けるなんて二度手間某省庁ですが、ホームページ「部分黒塗りPDFファイル」事件 [nikkeibp.co.jp]ののちに、「印刷してペンで塗りつぶしてスキャナで取り込むこと」が手順化されました。オッサンがたには、わかりやすいと好評で一太郎→PDF化を頼まれることもなくなり、(私の)手間は減りましたよ。
もう何がなんだかハーいやここはOCRチェックとかが大得意な障害者の方とかいそうだしそういう人の仕事に・・・?
f-secureも推奨http://blog.f-secure.jp/archives/50315714.html [f-secure.jp]
自分がまだピチピチ(死語)の若輩者だった頃に、似たような仕事をした記憶があります。FAXで送られてきたテンプレに手書きで数字等を記入し、上司の判子を押してもらったうえで、コピーを取ってファイルして上部へFAXするというお仕事でした。
#なんか、どうでも良くなって実家の家業継いで7年目
ある時点での決定事項を印字して配布したのなら、その「紙に書いてある内容」が正になるのですから、その後に改竄される可能性もある電子データのコピーなんて信用できませんよ。などと言ってみる。
紙に書いてあるものが一番偉いと思われているのは、文字通り目に見えるからなので、文句があるならWordファイルをそのまま人間が読めるようにしてみればどうでしょう?
# てか、OCR通した結果、誤字のせいで文意が変わるような事態になったらどうするんだろうってのは気になりますが。
スキャナで読み取った画像内の数字がランダムに置き換わる問題 [srad.jp]とか現実にありますからね。世の中には誰も気づかないけど置き換わってた文字もあるんでしょうね。
インド人を右に!
ザンギュラのスーパーウリアッ上とか
メストの誤植の多くは、ぜんじさんがずっと手で原稿書いてた(上に原稿が遅かった)のが一因だと聞いた(全部ではない)。
なつかしい名前を聞いた。
えッ?Wordファイルって印刷しないと人間は読めないの?
Wordファイルなんて印刷するかパソコンのディスプレイ介してじゃなきゃ人間は読めないと思う。
何だ、印刷しなくてもそのまま読めるじゃん。
「では将軍様、Wordファイルを読みますのでPCからWordファイルを取り出してください」
そして一休に手渡されるWordのショートカットファイル
将軍様はWordファイルをダブルクリックした!!
重要文書.doc .exeですか?分かりません><
>その後に改竄される可能性もある電子データのコピーなんて信用できませんよ。などと言ってみる。
AcrobatProに流しこめば電子署名できるだろ…電子署名に必要な電子証明書体系だってGPKIで整備されている
その通りで、電子署名後に印刷したなら電子ファイルと紙とは一応同格の原本として扱えると思うのですが。
他国との契約で、翻訳文も内容は同等であることを認めるが○○国語の文書を原本とする、みたいな縛りがかかってるのと同じようなものではないでしょうか。
そんなこむつかしい話じゃなくて、GPKIは現場のおっちゃんおばちゃんが運用できるような仕組みになってない、というだけでは。
元ファイルをくれない東京電力が問題なんだよ。怒る相手が違う。
あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
原本の電子化も進んでいるけれど、テキスト化ではなく、画像化して取り込むことも多いよ。古い資料なんかは特にそう、竹島関連でも一時期話題になったけど、原本を画像化して保持するのも重要なんだよね。
原子力規制庁ができたのは2012年なんだけど、紙資料で仕事をしてるんだ。
その時代のコンピュータは放射能に弱いので原発事故で全滅しました髪に印刷されたデーターしか残ってないものも多いですよ
役所に限らんけど、できた年代が新しくても紙ベースでの仕事は山ほどある。企業だって、「新しくできた部署だから紙での保管は一切無い」ってところはそうそう無いでしょ?(多分)やってる方も「非効率的だなあ」と感じながらもなかなか治らない悪弊というか。「提出は紙媒体に押印して……」ってのが残ってるのは結構無駄だよね。
> あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
今どき、原本が紙媒体で、それをOCRや画像で取り込んでるだけなんて、どこのなんて理研のなんてリケジョの論文だよ。まさか、手書きした資料をOCRで取り込んで公表していると?
そうではなくて、実際には東電やなんとか規制委員会が配布される資料の原本はWordやExcelで作成された電子データなんだから、それをそのまま配布・公開すればいいのに、なぜ印刷したものしか渡さないのかという問題でしょう。そして、なぜ印刷した物をOCRで再取り込みしてWebに載せてたりするんだろう?
または、テキスト抽出ができない状態にされた電子データにする意図は?
特に意図が無いならば、パソコンを使ってする仕事として無能すぎるので、別の仕事に転職したほうがいいと思う。意図的にやっているなら悪質。
彼らは、
だって、電子ファイルって、会議などで配布された原本よりも古いでしょ。原本より前のものを原本として配布するのは、おかしいじゃん。
という論理。それはそれで一理ある。事後の電子データは、OCRデータが正しいことを検証して配布すればいいだけのこと。
もっとも、他省庁の委員会・審議会では、電子データからPDFに変換したものを配布している所も多いので、要はやる気の問題だけどね。
ところで、事後の電子データにはOCRデータは含まれておらず、Google様がPDFファイルをクロールしてOCR処理したものの精度が悪い、という話もあるようだけど、そうだとすると、問題を生み出したのはGoogle様ということになる。
東京電力に頭が上がらずファイルを貰えない原子力規制庁って?!
> 頭が上がらず想像力だけは無駄に豊かですね。
元となる電子ファイルを所持できているという根拠はどこから出てきた?というかWordか一太郎のファイルがあるならテキストを取得するのにPDF化すること自体が必要ないよね
画像PDFをスキャンしてOCRソフトにかけたという部分と合わせて察すれば画像PDFまたは紙媒体しかなかったんじゃないかと
>一度電子文書化した物を印刷してスキャナで再取り込みしたり、機械的にテキスト編集(コピペ)できない状態のファイルで公開することの意味。http://it.srad.jp/comments.pl?sid=633388&cid=2618856 [srad.jp]
※放射能汚染防止のため、福島第一原子力発電所関連データは隔離した状態で取り扱っております。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
計算機科学者とは、壊れていないものを修理する人々のことである
Wordか一太郎のファイルをそのままPDF化しろよ (スコア:0)
Wordか一太郎のファイルをそのままPDF化しろよ。
印刷してからOCRに掛けるなんて二度手間で税金の無駄遣いだ。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:5, 興味深い)
>>印刷してからOCRに掛けるなんて二度手間
某省庁ですが、ホームページ「部分黒塗りPDFファイル」事件 [nikkeibp.co.jp]ののちに、
「印刷してペンで塗りつぶしてスキャナで取り込むこと」が手順化されました。
オッサンがたには、わかりやすいと好評で一太郎→PDF化を頼まれることもなくなり、(私の)手間は減りましたよ。
Re: (スコア:0)
もう何がなんだかハー
いやここはOCRチェックとかが大得意な障害者の方とかいそうだしそういう人の仕事に・・・?
Re: (スコア:0)
f-secureも推奨
http://blog.f-secure.jp/archives/50315714.html [f-secure.jp]
Re: (スコア:0)
自分がまだピチピチ(死語)の若輩者だった頃に、似たような仕事をした記憶があります。
FAXで送られてきたテンプレに手書きで数字等を記入し、
上司の判子を押してもらったうえで、コピーを取ってファイルして上部へFAXするというお仕事でした。
#なんか、どうでも良くなって実家の家業継いで7年目
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:1)
ある時点での決定事項を印字して配布したのなら、その「紙に書いてある内容」が正になるのですから、
その後に改竄される可能性もある電子データのコピーなんて信用できませんよ。などと言ってみる。
紙に書いてあるものが一番偉いと思われているのは、文字通り目に見えるからなので、
文句があるならWordファイルをそのまま人間が読めるようにしてみればどうでしょう?
# てか、OCR通した結果、誤字のせいで文意が変わるような事態になったらどうするんだろうってのは気になりますが。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:1)
# てか、OCR通した結果、誤字のせいで文意が変わるような事態になったらどうするんだろうってのは気になりますが。
スキャナで読み取った画像内の数字がランダムに置き換わる問題 [srad.jp]とか現実にありますからね。世の中には誰も気づかないけど置き換わってた文字もあるんでしょうね。
一方人間OCRの結果 (スコア:1)
インド人を右に!
Re: (スコア:0)
ザンギュラのスーパーウリアッ上とか
Re: (スコア:0)
メストの誤植の多くは、ぜんじさんがずっと手で原稿書いてた(上に原稿が遅かった)のが一因だと聞いた(全部ではない)。
Re: (スコア:0)
なつかしい名前を聞いた。
Re: (スコア:0)
えッ?
Wordファイルって印刷しないと人間は読めないの?
Re: (スコア:0)
Wordファイルなんて印刷するかパソコンのディスプレイ介してじゃなきゃ人間は読めないと思う。
Re: (スコア:0)
何だ、印刷しなくてもそのまま読めるじゃん。
Re: (スコア:0)
Re: (スコア:0)
「では将軍様、Wordファイルを読みますのでPCからWordファイルを取り出してください」
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:1)
そして一休に手渡されるWordのショートカットファイル
一人以外は全員敗者
それでもあきらめるより熱くなれ
Re: (スコア:0)
将軍様はWordファイルをダブルクリックした!!
Re: (スコア:0)
重要文書.doc .exe
ですか?分かりません><
Re: (スコア:0)
>その後に改竄される可能性もある電子データのコピーなんて信用できませんよ。などと言ってみる。
AcrobatProに流しこめば電子署名できるだろ…
電子署名に必要な電子証明書体系だってGPKIで整備されている
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:1)
その通りで、電子署名後に印刷したなら電子ファイルと紙とは一応同格の原本として扱えると思うのですが。
他国との契約で、翻訳文も内容は同等であることを認めるが○○国語の文書を原本とする、
みたいな縛りがかかってるのと同じようなものではないでしょうか。
Re: (スコア:0)
そんなこむつかしい話じゃなくて、GPKIは現場のおっちゃんおばちゃんが運用できるような仕組みになってない、というだけでは。
Re: (スコア:0)
Re: (スコア:0)
元ファイルをくれない東京電力が問題なんだよ。
怒る相手が違う。
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)
あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
原本の電子化も進んでいるけれど、テキスト化ではなく、画像化して取り込むことも多いよ。
古い資料なんかは特にそう、竹島関連でも一時期話題になったけど、原本を画像化して保持するのも重要なんだよね。
Re: (スコア:0)
原子力規制庁ができたのは2012年なんだけど、紙資料で仕事をしてるんだ。
Re: (スコア:0)
その時代のコンピュータは放射能に弱いので原発事故で全滅しました
髪に印刷されたデーターしか残ってないものも多いですよ
Re: (スコア:0)
Re:Wordか一太郎のファイルをそのままPDF化しろよ (スコア:3, すばらしい洞察)
↓
うっさいハゲ
↓
つまり、データは残っていないって事?
Re: (スコア:0)
役所に限らんけど、できた年代が新しくても紙ベースでの仕事は山ほどある。
企業だって、「新しくできた部署だから紙での保管は一切無い」ってところはそうそう無いでしょ?(多分)
やってる方も「非効率的だなあ」と感じながらもなかなか治らない悪弊というか。「提出は紙媒体に押印して……」ってのが残ってるのは結構無駄だよね。
Re: (スコア:0)
> あくまで原本は紙媒体だから、官庁には電子データの形式で存在しない資料が多いよ。
今どき、原本が紙媒体で、それをOCRや画像で取り込んでるだけなんて、どこのなんて理研のなんてリケジョの論文だよ。
まさか、手書きした資料をOCRで取り込んで公表していると?
そうではなくて、実際には東電やなんとか規制委員会が配布される資料の原本はWordやExcelで作成された電子データなんだから、それをそのまま配布・公開すればいいのに、なぜ印刷したものしか渡さないのかという問題でしょう。
そして、なぜ印刷した物をOCRで再取り込みしてWebに載せてたりするんだろう?
または、テキスト抽出ができない状態にされた電子データにする意図は?
特に意図が無いならば、パソコンを使ってする仕事として無能すぎるので、別の仕事に転職したほうがいいと思う。
意図的にやっているなら悪質。
Re: (スコア:0)
彼らは、
という論理。それはそれで一理ある。事後の電子データは、OCRデータが正しいことを検証して配布すればいいだけのこと。
もっとも、他省庁の委員会・審議会では、電子データからPDFに変換したものを配布している所も多いので、要はやる気の問題だけどね。
ところで、事後の電子データにはOCRデータは含まれておらず、Google様がPDFファイルをクロールしてOCR処理したものの精度が悪い、という話もあるようだけど、そうだとすると、問題を生み出したのはGoogle様ということになる。
Re: (スコア:0)
東京電力に頭が上がらずファイルを貰えない原子力規制庁って?!
Re: (スコア:0)
> 頭が上がらず
想像力だけは無駄に豊かですね。
Re: (スコア:0)
元となる電子ファイルを所持できているという根拠はどこから出てきた?
というかWordか一太郎のファイルがあるならテキストを取得するのにPDF化すること自体が必要ないよね
画像PDFをスキャンしてOCRソフトにかけたという部分と合わせて察すれば画像PDFまたは紙媒体しかなかったんじゃないかと
Re: (スコア:0)
>一度電子文書化した物を印刷してスキャナで再取り込みしたり、機械的にテキスト編集(コピペ)できない状態のファイルで公開することの意味。
http://it.srad.jp/comments.pl?sid=633388&cid=2618856 [srad.jp]
[放射能]Wordか一太郎のファイルをそのままPDF化しろよ[穢れ] (スコア:0)
※放射能汚染防止のため、福島第一原子力発電所関連データは隔離した状態で取り扱っております。