壊れたら直そう日記


さくらぃ(櫻井啓一郎)の私的な日記です。なお、最近はもっぱら[ついったー] を使っています。一覧はこちら(twilog)
2004|08|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|09|10|11|12|
2011|01|02|03|04|05|06|07|09|12|
2012|01|02|04|06|10|11|12|
2013|01|04|08|12|
2014|01|12|
2015|01|12|
2016|01|12|
2017|01|12|
2018|01|12|
2019|12|
2020|01|
はやぶさ2計画絶賛応援中


2010-11-17 (Wed)

蔵書電子化計画

本棚があふれてきたので、蔵書の電子化を開始。その過程のメモ。

_

(1)書籍のスキャニングを発注

ScanSnapはあるが、数百冊ともなると自前じゃさすがにやってられない。

まとめサイト(BookFire)から適当に業者さんを選定。今回はScanowを選択。

・webから情報を入力、代金を振り込み。書籍を梱包して発送する。

・段ボールはホームセンターで小型のもの(重要!)を調達。

・書籍は処分して貰うので、念のため全ての書籍の表紙をデジカメで撮影してから梱包した。(表紙・裏表紙もスキャンしてくれるが、万一、数が合わない場合等への備え。なお、ハードカバーや背表紙はスキャンしてくれないので注意。)

・ハードカバーの表紙は、書影がインターネットで取得できないものはスキャンしておく。

・カバーは除去して、後でPDFに追加できるように自前でスキャンする(カバーもスキャンしてくれるサービスがあると良いのだが…)。

→追記:Scanowにカバーもスキャンしてくれるサービス(30円/冊)が追加された。

・折り込みは伸ばす。付箋紙は取る。

・スキャナーに詰まるような薄い紙などはダメ。

・機密書類を含めないよう注意 B)

・タイトル変更オプションを依頼。

・コメントで、スキャン品質を高めにお願いした。容量は大きくなるが、PCで読むから気にならない。必要なら自分で画像処理すれば済むだろう。(→全ページがグレースケールもしくはカラーで納品された。紙の黄ばみが見えたりするが、自分としては満足。)

・納期短縮のため、OCRは自分でやることに。

・ダウンロードは面倒なので、DVD納品を選択。

一度に60余冊送ってみたところ、送ってから約半月で納品された。340冊だと3週間。あまり一度にたくさん送らない方が親切そうだ。

_

(2)OCR

複数のソフトを試してみた。使い方をメモ。

・ScanSnap Organizer:

→特定フォルダを監視させて自動的に変換させることが可能。ただしこの場合、CPUが空いているときしか処理しない。

→選択したファイルを変換させると、「今すぐ実行」でCPU負荷に関係なく処理可能。

→ここに挙げた中では、動作が一番安定している。落ちにくい。ただし複数ファイルを処理中に、処理予定のファイルを他フォルダへ移動させたりすると、ハングすることがある。

・Acrobat Standard 9:

→OCRテキスト認識の機能があり、複数のPDFにまとめて透明テキストとしてOCR結果を追加出来る。自動的にファイル名変更したり、別フォルダへの保存も可能で使いやすい。CPU負荷関係なし。

→OCR中はPDFの表示ができなくなるので要注意。Readerを使ってもダメ。

→たまにエラーを出して落ちることがある。

・読取革命:

→分かりづらいが、「フォルダーウォッチャー」を使うと特定フォルダーを監視して自動的に変換させることが可能。

→大量のファイルを処理させると、途中で変換に失敗し、以降のファイルも全て失敗する現象が起きることがある。原因・対処ともに不明。

_

いずれのソフトも、Core2Duo E4400 (2GHz) + Windows7 + 200ページぐらいの書籍で処理時間は15分前後、CPUは50%程度を使用。複数起動不可で、CPUを使い切るには2種類を併用する必要あり。メモリは大して食わないみたい。

検索に使える精度を求める分には、認識結果はとりあえずどのソフトも及第点っぽい。

_

お金や納期を気にしないなら、OCRは発注しちゃっても良いかも知れない。だが冊数によっては、CPUをアップグレードできる金額になる。

_

大きめのサイズにして貰ったが、それでも1000冊で60GB強に収まった。ノートPCで持ち歩ける(適当にサーバに置いても良いだろう)。検索もできるし、かさばらない。本棚もいらない。

_

もう、紙の本には戻れない感じ。


Written by "バカ殿"さくらぃ
 [利用上の注意]