自宅の押し入れを占拠している雑誌を処分しようと長らく作業を行なっているのですが、あると便利なのが「スキャナー」です。私はコピー機のようにスキャンするタイプのものを持っていますが、多少は時間がかかるものの、スキャン作業が終わったらそれをファイルとしてパソコン内やクラウドで保存し、いつでも呼び出せるようにするだけでも結構違います。
今回はそこからちょっと進めて、電子書籍のように専用アプリで読めるように編集したいものが少ないのですがあるので、以前からためておいたスキャンしたPDFファイルをテキスト化し、それを昔からある「青空文庫」のアプリで読めるように加工することを最近になってやろうと思いました。
先月からU-NEXTのポイントで購入している電子本が意外と自分の使い方に合っていると思ったので、PDFのリーダーでタブレットで読むよりも、自在に文字の大きさを変えられたり、ルビや太字なども細かく変えることのできる青空文庫のテキスト編集ルールで作ったファイルは、本当に市販の電子本のように利用できるのです。ただし、PDFや本そのものをいちいちキーボードを叩いて入力するのは大変です。そこで利用しようと考えたのが「PDFをテキスト化」するツールでした。
ネットで調べると、PDFファイルをMicrosoft Officeの中の「Word」で開くことにより、編集可能な状態で開けたり、GoogleDriveにPDFファイルをアップし、それを「Googleドキュメント」で開くことにより、編集可能な状態にテキストファイル化できるという方法があります。特にGoogleドキュメントについては利用料金がかからないので、まずはその方法を試してみたのですが、私が以前からスキャンして保存しているPDFファイルではうまく文字化できませんでした。
となると、専用ソフトが必要かと思い、以前古いWindowsで使っていたOCRソフトを改めてインストールし、読み取りを試してみたのですが、残念ながら全く反応しませんでした。となると、専用ソフトを買い直すかということになるのですが、現在私が使っているOSは専用のソフト自体の入手が難しいLinux Mintなので、もう一つの可能性としてウェブ上からファイルの変換をサポートしているサイトを探してみることにしました。
ただ、こうしたサイトは本格的に使おうとするとお金がかかるようになっているのが普通で、無料で使うためには日数の制限があったり、利用できるファイルに制限があったりします。もちろん、きちんと文字をテキスト化できないと話にならないわけで、とにかく色々なサイトを試す中、何とか自分の目的に合った形で使えそうなのが以下のサイトでした。
・EzOCR
https://ezocr.net/
このサイトは、一度に変換できるページ数が10ページまでで、10ページ変換するとその時点から24時間利用できなくなります。ただ、私の場合はちょっと気になる文章をテキスト化できれば良く、OCRで出てきたファイルには微妙に加工が必要になるのでちまちま作業をしながら使う分であればこのサービスの無料分で十分かなと思います。今後、本格的に使うということになれば、アカウントを登録し、100枚分550円、1,000枚分3,080円と使う分だけ購入できるということなので、毎月料金が発生するわけではなく、それなりにきちんと文字化してくれるので、このサイトではこのサービスを紹介させていただきます。
とりあえずこれで、Linux Mintを入れたパソコンでもスキャナーは使えるので、Windowsを介さなくても一通りの作業はできることがわかりほっとしました。既存の本や雑誌などを電子化したい方の参考になればと思います。