Scansnap で E-BOOK を作る


山のようにたまるペーパーバック。整理するためにScansnapでpdf化し始めた。
PCの画面で読むだけなら、pdfファイルで十分だが、もうちょっと便利なものに
したいと思い、スキャンした結果できたpdfを、直接 Mobipocket に読み込ませてみた。
だが、これは全く実用的ではなかった。

次に、Scansnap 510 にバンドルしているABBYYアプリを使ってみた。すると、
結構イケルことがわかったので、ここでちょっと紹介してみる。

Mobipocket Reader のダウンロードはこちら


洋書ペーパーバック古本のようなわら半紙は、FujitsuのScansnapに向いている。
本の背を裁断機で一気に裁断し、30枚ぐらいずつ、スキャンスナップに入れていく。
ざらざらした紙質のため、マルチフィードが滅多に起こらない。
300ページほどのペーパーバックは5回ほどにわけてスキャンするが、
継続読み取り設定にしておき、ひとつのファイルにする。

pdfで読むだけなら「ファイン」でも十分だが、Wordに変換させるので
「スーパーファイン」「白黒」の設定で行う。

出来上がったpdfは、検索可能になるように透明文字づけの処理をし、
ABBYYで、Wordファイルも作る。

ここまでは、本のページの補充以外はパソコンに任せて放っておけばよい。

出来上がったWordファイルを、スペルチェックツールを動かして手直しする。
この作業は、本によってはかなり時間がかかるので、どこまで完璧にしたいのか
よく考えて行うべきだ。
ABBYY というソフトは、英文に関してはかなり優れている。
誤認識するのは、たいてい、元のページの印刷にインクのシミがあったり、
かすれている場合に限られる。
人の目で読むには辛すぎる、という小さなフォントとインクむらのあるPBを
きれいにWordに変換したのには、驚いた。

  
だが、論文などと違い、小説というものは、チェック泣かせである。
  なまっていたり、幼児言葉をしゃべったりしている箇所を、
  誤認識かどうか、pdfファイルと見比べてチェックしないといけない。

  太字になっている所は、元のインクが濃いだけだったのか、
  イタリックになっているところは、ページが傾いただけなのか、
  完璧を目指すなら、pdfファイルと見比べてチェックしないといけない。

ABBYYは、段落を自動認識して、1行の終わりを次の行につなげてくれる。
  通常の文の場合は、これが大変助かるが、会話文が
  "ああああ"
  "いいいいいい"
  "うううう"
  と延々続くようなところでは、
  "ああああ" "いいいい" とつなげてしまうこともある。

  また、会話が多用される小説の場合、’”が実に多くて、誤認識が増える。

これらの箇所を完全にチェックしようとすると、大変な時間がかかる。
というわけで、本気でE-BOOKを作ろうと思うなら、かなりのチェックが必要である。
ま、pdfファイルもあることだし、簡易E-BOOKで良いのなら、あまり、手直しに
時間をかけないで前進することだ。

さて、出来上がったWordファイルは Mobipocket Reader に読み込ませると、
自動的に Mobipocket 形式に変換され、指定したフォルダーに保存される。






マウスで選択した部分は、参照(辞書よびだし)やコメント付加などができる

もちろん、辞書は買っておかなくてはならないが。
これは「訂正」。OCRの認識が上手くいかなかった箇所をこうやって訂正しておける。 OCRのプロセスで、真面目に訂正作業を手で行うのなら、もっと完璧になるが、 それでは手間がかかりすぎるので、少々のへんてこ部分には目をつぶる。 どうにも変な所は、元のpdfファイルを開いて確認。 検索可能な透明文字つきの pdfにしておけば、該当箇所がすぐに探し出せる。 コメントや訂正をした箇所は リストできる。 コメントや訂正には日本語が使える。 というわけで、文字チェック無しの おおざっぱな電子ブックならば、 ソフトにお任せで完成する。 Word ファイルの文字判定チェックをして、きちんとした電子ブックにしようと思ったら、 350ページの本に1時間くらい作業が必要になるが、1時間でPBを1冊 読めるわけでもないので、なんとか許せる範囲かもしれない。 最初は、読み終わったPBをpdfにしようと思って始めたのだが、 最近は、これから読む予定のPBを裁断して、ワード化している。
更新の記録に戻る みーはーに戻る ホームに戻る