アカウント名:
パスワード:
印刷物をスキャンしたデータ(いわゆる自炊データ)を読みやすいように最適化するソフトに関しては、マンガの存在や、印刷書籍の品質が高い等の影響か日本の方が進んでます。既にいくつかのソフトウエアが出ています。フリー、有償問わず。
そのなかで、高精度のOCRエンジンまで搭載して最適化して書き出せるソフトというと、ソースネクストがhttp://www.sourcenext.com/product/pdf/jisui/ [sourcenext.com]いきなりPDF for 自炊 と言うソフトを出してます。
ソースネクストという所で身構える人もいる [srad.jp]と思いますが、このソフトはかなりよくできています。自炊で取り込んだデータを突っ込んで、あらかじめ用意されたプロファイル(自分で作る事もできますが)を選択してスタートするだけで、多数のファイルを一括でバッチ処理できます。日本語OCRをかけて、余白のカットや、背景の黄ばみ除去、必要に応じてコントラスト調節や文字の修正などを項目はだいたい揃っています。
特にOCRについては、単体で9千円ほどするPanasonicのOCRソフトのエンジンが使われており、精度はかなり良好、また処理がマルチスレッド化されているので、シングルスレッド処理に制限されているスキャナバンドル版のOCRソフトより高速です。
この他に、OCRソフトでいくつか自炊向けの簡易データ処理を備え得ているものがあるようです。ただ、英語圏製のものはやはりちょっと遅れていて、OCRはできるのに縦書きが上手く処理出来なくて最適化ができなかったりします。
フリーソフトなら、No.722氏による定番ソフトChainLPhttp://no722.cocolog-nifty.com/blog/chainlp/index.html [cocolog-nifty.com]ですかね。上記のソースネクストのソフトウエアから、OCR機能を除いた部分はだいたいできますし、インターフェイスなどは商用ソフトの方が優れていますが、その他にも詳細な制御ができるありがたいソフトです。
後はtDiaryのただただし氏がオープンソースのリソースを利用するスクリプトhttp://sho.tdiary.net/20110107.html [tdiary.net]などを公開されているので、これを自分好みに直すという手もあります。
今回のAmazonのソフトは、有償なのに何故かKindle用のデータでしか出力出来ません。この型式、Amazon Kindleでしか使われていない、プロプライエタリの型式で、他とは互換がありません。ファイルを解析して無理矢理読み込むものが少しあるくらい。そしてそれらの解析から得られる情報を見ると、ほとんどフォーマットとしても優れた点がありません。なぜAmazonはこんな型式に固執するのか分からないレベル。
一方で、日本では既に存在するこれらの方法は、汎用のフォーマットで出力できます。PDFであったり、EPUBであったり。Kindleであっても当然PDFやEPUBは読めますし、DropBoxなどに上げてスマフォで見るとか環境に縛られる事なく利用できます。正直、このソフト、タダでも使うかどうか悩むレベルの出来で、有償なら選ぶ理由は無いですね。もう普通にスキャナに付いてるバンドル版のソフトウエア群のほうが優秀です。自炊ユーザからすると、7年は遅れていると言わざるを得ない感じ。「日本で利用できるのはいつの日か」なんて話じゃないです。日本で出したら一部のアフィリエイターやAmazon大好きさんは大絶賛するでしょうが、実際に利用するユーザ層からは「こ、こんな古い物を。Amazon…。酸素欠乏性にかかって」と失笑されるだけでしょう。
縦書き自体が世界的に特殊なわけで、それをあっちに求めるのもどうかと思うがな。まだアメリカ向けなんだし。日本は縦書きが主体だから、そりゃ縦書き対応してないと商品にもならない。日本が進んでるというより生態系が違うんだから。それに、自分とこの客を満足させるためのソフトなのは当然だし、どんどん潰れていってるような日本の電子書籍サービスより、よっぽど電子版へのやる気が感じられるよ。
これがガラパゴス脳脳か…
既にもっと便利なソフトがあるよと言う話に「縦書き自体は世界的に特殊」「生態系が違う」「日本の電子書籍サービスより、よっぽど電子版へのやる気が感じられる」と言う反応をしてしまう脳の構造に興味がある。
こう言う脳に「日本車には燃費がいい車たくさんあるよ」とか「日本食は全般にローカロリー」とかいろいろ入力して反応をみる実験をしたい
同じ環境のものを比較するならわかる。「日本車には燃費がいい車たくさんあるよ」は、日本もアメリカも同じような環境での比較だから日本の方が優れてるなら進んでるといってもいいだろう。
でも、今回のネタは、縦書き日本語と横書き英語、という全く別のものについて比較し、縦書き対応できてる日本が進んでる、と言ってるわけだ。例えれば、南極のような極寒仕様の自動車を持ってきて「進んでるだろ?」といってるようなもんだぞ。
日本食の方も頼むよ
劣ってる所は縦書きと日本語対応だけじゃないだろどう見ても
OCRでおっ!と思ったけど、AcrobatのClearScanみたいにサイズが減るわけじゃないんですね。やっぱAcrobat買うしか無いか。
って、OCR機能だけ比較しただけかよ…だったら普通にOCRソフト買えよ
epubで満足てあーた。ちゃんと内容読んでもなく、自炊も使ってないでしょ。
この型式、Amazon Kindleでしか使われていない、プロプライエタリの型式で、他とは互換がありません。ファイルを解析して無理矢理読み込むものが少しあるくらい。そしてそれらの解析から得られる情報を見ると、ほとんどフォーマットとしても優れた点がありません。なぜAmazonはこんな型式に固執するのか分からないレベル。
あと、azw/mobi変換は普通の品質のPDFがあれば普通にパーソナルドキュメントサービスに投げれば内部的にされていて、どうしても生でazw/mobi変換が必要な場合でも、各種フォーマットからオープンソースソフトウエアのcalibre [calibre-ebook.com]で変換できます。azw/mobiを使わないと死ぬ病に侵されている人もわざわざ使う必要はないですよ。
ユーザー目線の話をしてるのに「Amazonは」とか言われてもなあ
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
日々是ハック也 -- あるハードコアバイナリアン
自炊とその調整ソフトは日本の方が進んでいる (スコア:4, 参考になる)
印刷物をスキャンしたデータ(いわゆる自炊データ)を読みやすいように最適化するソフトに関しては、マンガの存在や、印刷書籍の品質が高い等の影響か日本の方が進んでます。
既にいくつかのソフトウエアが出ています。フリー、有償問わず。
そのなかで、高精度のOCRエンジンまで搭載して最適化して書き出せるソフトというと、ソースネクストが
http://www.sourcenext.com/product/pdf/jisui/ [sourcenext.com]
いきなりPDF for 自炊 と言うソフトを出してます。
ソースネクストという所で身構える人もいる [srad.jp]と思いますが、このソフトはかなりよくできています。
自炊で取り込んだデータを突っ込んで、あらかじめ用意されたプロファイル(自分で作る事もできますが)を選択してスタートするだけで、多数のファイルを一括でバッチ処理できます。
日本語OCRをかけて、余白のカットや、背景の黄ばみ除去、必要に応じてコントラスト調節や文字の修正などを項目はだいたい揃っています。
特にOCRについては、単体で9千円ほどするPanasonicのOCRソフトのエンジンが使われており、精度はかなり良好、また処理がマルチスレッド化されているので、シングルスレッド処理に制限されているスキャナバンドル版のOCRソフトより高速です。
この他に、OCRソフトでいくつか自炊向けの簡易データ処理を備え得ているものがあるようです。ただ、英語圏製のものはやはりちょっと遅れていて、OCRはできるのに縦書きが上手く処理出来なくて最適化ができなかったりします。
フリーソフトなら、No.722氏による定番ソフト
ChainLP
http://no722.cocolog-nifty.com/blog/chainlp/index.html [cocolog-nifty.com]
ですかね。上記のソースネクストのソフトウエアから、OCR機能を除いた部分はだいたいできますし、
インターフェイスなどは商用ソフトの方が優れていますが、その他にも詳細な制御ができるありがたいソフトです。
後はtDiaryのただただし氏がオープンソースのリソースを利用するスクリプト
http://sho.tdiary.net/20110107.html [tdiary.net]
などを公開されているので、これを自分好みに直すという手もあります。
今回のAmazonのソフトは、有償なのに何故かKindle用のデータでしか出力出来ません。
この型式、Amazon Kindleでしか使われていない、プロプライエタリの型式で、他とは互換がありません。ファイルを解析して無理矢理読み込むものが少しあるくらい。そしてそれらの解析から得られる情報を見ると、ほとんどフォーマットとしても優れた点がありません。なぜAmazonはこんな型式に固執するのか分からないレベル。
一方で、日本では既に存在するこれらの方法は、汎用のフォーマットで出力できます。PDFであったり、EPUBであったり。Kindleであっても当然PDFやEPUBは読めますし、DropBoxなどに上げてスマフォで見るとか環境に縛られる事なく利用できます。
正直、このソフト、タダでも使うかどうか悩むレベルの出来で、有償なら選ぶ理由は無いですね。
もう普通にスキャナに付いてるバンドル版のソフトウエア群のほうが優秀です。
自炊ユーザからすると、7年は遅れていると言わざるを得ない感じ。
「日本で利用できるのはいつの日か」なんて話じゃないです。日本で出したら一部のアフィリエイターやAmazon大好きさんは大絶賛するでしょうが、実際に利用するユーザ層からは「こ、こんな古い物を。Amazon…。酸素欠乏性にかかって」と失笑されるだけでしょう。
Re: (スコア:0)
縦書き自体が世界的に特殊なわけで、それをあっちに求めるのもどうかと思うがな。まだアメリカ向けなんだし。
日本は縦書きが主体だから、そりゃ縦書き対応してないと商品にもならない。日本が進んでるというより生態系が違うんだから。
それに、自分とこの客を満足させるためのソフトなのは当然だし、どんどん潰れていってるような日本の電子書籍サービスより、よっぽど電子版へのやる気が感じられるよ。
Re: (スコア:0)
これがガラパゴス脳脳か…
Re: (スコア:0)
既にもっと便利なソフトがあるよと言う話に
「縦書き自体は世界的に特殊」
「生態系が違う」
「日本の電子書籍サービスより、よっぽど電子版へのやる気が感じられる」
と言う反応をしてしまう脳の構造に興味がある。
こう言う脳に「日本車には燃費がいい車たくさんあるよ」とか「日本食は全般にローカロリー」とかいろいろ入力して反応をみる実験をしたい
Re: (スコア:0)
同じ環境のものを比較するならわかる。
「日本車には燃費がいい車たくさんあるよ」は、日本もアメリカも同じような環境での比較だから日本の方が優れてるなら進んでるといってもいいだろう。
でも、今回のネタは、縦書き日本語と横書き英語、という全く別のものについて比較し、縦書き対応できてる日本が進んでる、と言ってるわけだ。
例えれば、南極のような極寒仕様の自動車を持ってきて「進んでるだろ?」といってるようなもんだぞ。
Re: (スコア:0)
日本食の方も頼むよ
Re: (スコア:0)
劣ってる所は縦書きと日本語対応だけじゃないだろどう見ても
Re: (スコア:0)
OCRでおっ!と思ったけど、AcrobatのClearScanみたいに
サイズが減るわけじゃないんですね。
やっぱAcrobat買うしか無いか。
Re: (スコア:0)
まだ 1冊でしかためしていないけどOCRはscansnapかなぁ。甲乙つけがたいぐらいの差ではあるけど、たまたまサンプルで比較した部分で拾われなかった字があったり誤認識してたので。
日英混在の文書でアルファベットはこのいきなりPDFfor自炊もscansnapも方向性は違うけどどちらも苦手みたいで(for自炊はアルファベット自体の認識はよさそうだけど全角で認識されたり空白が入ったり。scansnapはlとIとが間違ってたりする。)
ただK
Re: (スコア:0)
って、OCR機能だけ比較しただけかよ…
だったら普通にOCRソフト買えよ
Re: (スコア:0)
また検索可能文書化した上で各種サイズへの調整ができるのが本ソフト。
このソフトにはpdfとかzip、つまりすでに電子化されたデータを渡すので、scansnapと比較出来る部分はOCR部分しかないと思うんだけど…?
サイズ最適化はscansnapにはないから比較じゃないし。
何か期待してる比較要素があった?
Re: (スコア:0)
epubで満足てあーた。ちゃんと内容読んでもなく、自炊も使ってないでしょ。
この型式、Amazon Kindleでしか使われていない、プロプライエタリの型式で、他とは互換がありません。ファイルを解析して無理矢理読み込むものが少しあるくらい。そしてそれらの解析から得られる情報を見ると、ほとんどフォーマットとしても優れた点がありません。なぜAmazonはこんな型式に固執するのか分からないレベル。
あと、azw/mobi変換は普通の品質のPDFがあれば普通にパーソナルドキュメントサービスに投げれば内部的にされていて、どうしても生でazw/mobi変換が必要な場合でも、各種フォーマットからオープンソースソフトウエアのcalibre [calibre-ebook.com]で変換できます。
azw/mobiを使わないと死ぬ病に侵されている人もわざわざ使う必要はないですよ。
Re: (スコア:0)
「自炊も使う」ってどういう意味?
calibre で変換した azw/mobi を kindle で使ったうえでの発言?
そもそも kindle 使ってる? kindleの独自機能って知ってる?
amazon は独自ハードと独自フォーマットと独自機能でユーザを囲い込みたいと思ってるんだよ。
これはそのためのツール。それに興味がない人、敢えて避けたい人には、これは不要という当り前の話。
Re: (スコア:0)
ユーザー目線の話をしてるのに「Amazonは」とか言われてもなあ