パソコン用「電子書籍の作成」ソフト 利用の手引き

 このソフトは、書籍などをスキャナーで読み込み、PDFファイルなどの画像情報を作成し、それを用いた電子書籍を作成します。
また、OCRソフトの認識機能を用いて、画像情報からテキストデータを取得し、検索機能付きの電子書籍を作成します。


 利用の手順

利用の手順の概略を、「木の事典(平井信二)」第一巻を例題として、示します。

 電子書籍の作成
   書籍(例1 例2) 
⇒ スキャナーによる複写 
⇒ 画像情報・PDFファイル(例1 例2) 
⇒ 電子書籍の作成 
⇒ HTMLファイルの作成
⇒ 目次の設定 
⇒ HTMLファイルの変更

 検索機能 
   書籍(例1 例2) 
⇒ スキャナーによる複写 
⇒ 画像情報・PDFファイル(例1 例2) 
⇒ ファイルの連番の変更 その1 その2 
⇒ pdfファイルの統合 その1 その2 その3 その4 統合(29MB)
⇒ ファイルの連番の再変更  
⇒ OCRソフトによるテキストデータの取得 その1 その2 その3 その4 その5 テキストデータ
⇒ ページ区切り記号”@”の挿入
⇒ 検索用テキストファイルの処理 処理結果(ページ情報”No.&本文”の作成)
⇒ 検索ソフトの利用 その1 その2 検索結果の表示 その1 その2 その3



 画像ファイルの用意 : 書籍のスキャナーなどによる複写

電子書籍で利用する画像は、1ページ毎に一つのファイルとします。そのファイル名は、「書籍名_連番.拡張子」とします。利用できる拡張子は、PDF,pdf,JPG,jpg,GIF,gifです。

1ページ毎の画像ファイルは、スキャナーやデジタルカメラにより取得します。その際、スキャナーの機能によっては、複数ページを一つのPDFファイルとし、1冊の書籍を複数個のPDFファイルとして取得する場合があります。この場合には、複数個のPDFファイルを統合し、さらに1ページ毎のファイルに分割することが必要となります。

スキャナーの機能によっては、スキャンの順番が書籍のページの順番に対応しない場合があります。この場合、取得した画像ファイルの順番を、書籍のページの順番に対応させることが必要となります。

スキャンの手違いによって、画像ファイルが欠落することがあります。この場合には、画像ファイルの挿入が必要となります。また、重複や白紙のページを削除したいことも生じます。

ここでは、これらの対処方法について説明します。

 PDFファイルの統合と分割

一冊の書籍が、複数ページを一つのPDFファイルとして、複数個のファイルに及ぶことがあります。この場合、複数個のファイルを一つのファイルに統合し、さらに1ページ毎に分割したPDFファイルとします。この処理に利用するソフトとして、「Adobe Acrobat Standard」などがあります。

「Adobe Acrobat Standard」では、ファイルの統合には、
  「ファイル」 
⇒ 「PDFの作成」 
⇒ 「複数ファイル」 
⇒ 「参照その1」 その2 
⇒ 「追加」 
⇒ 「複数ファイルからPDFを作成」 
⇒ 「名前を付けて保存」の機能を利用します。作成されたファイルのデフォルト名は、バインダ1.pdfです。

ファイルの分割には、
  「文書」 
⇒ 「ページの抽出」
⇒ 「開始ページ」と「終了ページ」の指定 
⇒ 「ページを個別のファイルとして抽出 
⇒ 「OK」 
⇒ 「保存先フォルダ」の指定です。
ファイル名:名前.pdfを分割すると、生成されるファイル名は、名前 1.pdf,名前 2.pdf,...です。

 書籍のページの順番に対応した連番画像ファイル名の作成

スキャナーには、ADF(auto document feeder ・自動給紙装置)機能を備えたものがあります。これを利用するためには、書籍を1ページづつ切り離してスキャンします。さらに、両面読み取りの機能を備えたものもあります。

ADF・両面読み取り機能のスキャナーでは、書籍の先頭ページから順に読み取りが可能です。従って、取得された画像のファイル名に含まれる連番情報は、書籍のページ順に対応します。

両面読み取りができない片面読み取りADF機能のスキャナーでは、まず書籍の表ページ(奇数ページ)だけを読み取ります。それが完了したら、書籍の最終ページから先頭ページの順に、裏ページ(偶数ページ)の読み取りを行います。
この場合、表ページの画像のファイル名に含まれる連番情報は、書籍のページ順に対応します。
裏ページに関しては、逆順になっています。すなわち、書籍の表側の連番は、裏側より大きな値になっています。連番を変更し、書籍のページの順番に対応させることが必要になります。また、表側と裏側のファイルを、統合することが必要になります。これには、以下の方法を用います。

フォルダーを2個作成し、表ページと裏ページに関するファイルを、各々に振り分けます。
複数ページが一つのPDFファイルにまとめられる場合には、PDFファイルの統合や分割を行い、1ページごとのファイルを作成します。

表ページ側のフォルダーに関しての処理は、以下のとおりです。
「連番ファイル名の変更」ソフトを用いて、「書籍名」を入力し、「開始頁番号」を1、「増分」を2に設定し、拡張子を選択し、「実行」をクリックします。その結果、ファイル名は、書籍名_1.拡張子,書籍名_3.拡張子,...に変更されます。

裏ページ側のフォルダーに関しは、
「連番ファイル名の変更」ソフトを用いて、「書籍名」を入力し、「開始頁番号」を2、「増分」を2に設定し、「降順」を選択し、拡張子を選択し、「実行」をクリックします。その結果、ファイル名は、書籍名_2.拡張子,書籍名_4.拡張子,...に変更されます。「降順」を選択することで、連番の数値が大きい表側のページから順次、ファイル名を書籍名_2.拡張子,書籍名_4.拡張子,・・・に変更する処理がなされます。
表裏ページの処理終了後、書籍名を付けたフォルダーを用意し、表・裏二つのフォルダーのファイルをコピーします。


 画像ファイルの削除と挿入

画像ファイルの削除は、削除したい画像ファイルが存在するフォルダを開き、マウスを利用して削除します。その後、「」ソフトを用いて、連番ファイル名を変更します。

挿入する場合は、「連番ファイル名の変更」ソフトを用いて、「開始頁番号」を10、「増分」に10を設定し、ファイル名の変更を行います。次に、挿入したい画像ファイルを、フォルダにコピーします。画像ファイル名の連番を、挿入該当箇所に含まれるように変更します。例えば、51ページと52ページの間に挿入したい場合には、ファイル名を「書籍名_511.拡張子」とします。その後、「」ソフトを用いて、連番ファイル名を変更します。


 電子書籍作成の手順

電子書籍用の画像ファイルが用意できたら、それを電子書籍として利用するウェブページを作成します。ウェブページの作成は、電子書籍の作成のソフトによってなされます。その利用の手順は、以下のとおりです。

 ウェブページの作成

(1) パソコン用「電子書籍の作成」ソフトを立ち上げる。
(2) 「」をクリックする。
(3) 電子書籍用の画像ファイルが格納されたフォルダーを選択する。
    選択すると、電子書籍用ファイルが表示される。
(4) 「書名の入力」と「拡張子の選択」を行う。
    書名は、「電子書籍用ファイル」に表示される書名と一致しなくてもよい。
(5) 「」をクリックをクリックすると、ウェブページが、選択したフォルダー作成されます。
    ウェブページの名称は、書名.htmlです。
    また画像のファイル名が、書名_1.拡張子,書名_2.拡張子,,...に変更されます。
(6) ウェブページが表示される。
(7) ウェブページが作成できたら、次回からの利用は、「書名.html」をクリックするだけでよい。

 ウェブページの利用

「セキュリティ保護のため、...ここをクリックしてください」のメッセージが表示された場合は、「ここをクリック」して、「ブロックされているコンテンツを許可」をクリックし、「アクテブコンテンツを実行」してください。これは、ウェブページの作成にjavascriptを用いているので、「セキュリティ」の制限によるものです。従って、「javascriptを有効にする」必要があります。

ページの表示
参照したいページ番号を入力し、「頁に」をクリックします。別画面に、指定したページが表示されます。この際、書籍のページ番号と一致しない場合があります。ここで用いるページ番号は、画像ファイルに付加された連番です。
ページ番号の入力は、二箇所あります。それぞれの先頭に、ラジオボタンが表示されています。これは、表示される別画面が2つ利用できることによるものです。チェックされているラジオボタンの「頁」が表示されます。
「次頁に」をクリックすると、次のページが表示され、ページ番号が一つ増加します。
「前頁に」をクリックすると、前のページが表示され、ページ番号が一つ減少します。


 目次の設定

ウェブページに、目次を付加することができます。目次の設定の手順は、以下のとおりです。
(1) パソコン用「電子書籍の作成」ソフトを立ち上げる。
(2) 「」をクリックする。
(3) 電子書籍が格納されたフォルダーを選択する。選択すると、電子書籍のファイルが表示される。
(4) 「書名の選択」を行う。選択を行うと、「頁番号」,「タイトル」,「別窓」の入力欄が表示される。
(5) 「頁番号」に半角数値を、「タイトル」にタイトルを入力する。
    「頁番号」の入力順は、頁番号の順と一致しなくてもよい。
    表示枠を二つ使用したい場合は、第二の表示枠に表示したい箇所の「別窓」をチェックする。
    入力欄が不足すると、「」をクリックして、入力を続ける。
(6) 「」をクリックする。
(7) ウェブページが表示される。
    目次のタイトルをクリックすると、別画面に表示される。
(8) 目次の追加作成や変更は、上記の手順により、可能である。


 検索機能付電子書籍

キーワード検索機能を用いることにより、必要な情報が存在するページを表示することができます。そのためには、OCR(Optical Character Recognition 、光学文字認識)ソフトを利用し、画像ファイルの文字認識を行い、テキストデータを取得します。次に、テキストデータを対象とした検索ソフトを情報の検索を利用します。利用の手順は、以下のとおりです。

 OCRソフトによる文字認識

OCRソフトとして、「読取革命」や「読んde!!ココ」を利用します。「読取革命」では、一つの画像ファイル毎の処理となります。例えば1000ページの書籍のJPG画像であれば、1000回の処理が必要となります。PDF画像であれば、1枚毎のPDFファイル1000個を統合して1つのPDFファイルにすれば、OCRソフトの利用は一回ですみます。「読んde!!ココ」は、1000枚のJPG画像やPDF画像を、一度の利用で処理することが可能です。
ここでは、PDFファイルと「読取革命」の利用を前提に説明します。

 PDFファイルの統合

書籍1ページ毎のPDFファイルの準備は、「電子書籍作成の手順」によります。
1ページ毎のPDFファイルを統合するためには、「Adobe Acrobat Standard」などを利用します。
「Adobe Acrobat Standard」では、ファイルの連番情報として「1,2,...,10,11,...,100,101,...」などの場合、連番通りの順で統合が行われません。そこで、ファイルの連番を、「1001,1002,1003...」などに変更後、ファイルの統合を行います。ファイルの連番の変更には、「」を利用します。
連番の変更後、「Adobe Acrobat Standard」を起動し、PDFファイルを統合します。 「Adobe Acrobat Standard」の起動、「ファイル」⇒「PDFの作成」⇒「複数ファイル」⇒「参照」⇒「追加」⇒「開いているすべてのPDFファイルを対象にする」をチェック ⇒「バインダ1.pdf」の保存を行います。
この段階でファイルの連番は、「1001,1002,1003...」などなっています。「」を用いて、連番を「1,2,3...」に修正します。

 「読取革命」の利用して文字認識を行う。

  「読取革命」の起動 
⇒ 標準モード 
⇒ 入力 
⇒ 画像ファイルを開くでバインダ1.pdfを指定 
⇒ 読み込むページの指定で「すべてのページ」を選択 
⇒ 認識 
⇒ テキスト 
⇒ テキストデータ・デフォルト名「yomikaku.txt」の保存を行います。

 情報検索用のテキストデータを作成する。

「読取革命」で得られたテキストデータには、2013年6月現在のヴァージョンでは、ページの区切り情報がありません。情報検索では、必要な情報が何ページにあるかを表示します。従って、ページの情報をテキストデータの中に挿入することが必要です。
また、1ページ毎の検索では、1ページの最後尾にのみ「改行コード」を含む文字列を利用します。これらのテキストデータを得るために、以下の処理を行います。

(1)ページ区切り記号として、ファイル「yomikaku.txt」に「@」を挿入する。テキストエディターで「yomikaku.txt」を開き、ページの最後尾に「@」を挿入する。保存するときは、ファイル名を「書籍名.txt」とする。

(2)パソコン用「電子書籍の作成」ソフトを起動 ⇒ 検索用テキストファイルの処理 ⇒ 「フォルダーの選択」 ⇒ 「書名の選択」 ⇒ 「処理」を行う。
処理の結果は、
1&1ページの本文「改行コード」
2&2ページの本文「改行コード」
...
となります。

「@」記号が適切に挿入されないと、画像ファイルと該当するページとが一致しません。この場合は、ファイル「yomikaku.txt」に「@」を挿入し、「書籍名.txt」として保存し、「」を繰り返してください。

 情報の検索を行う。

  パソコン用「電子書籍の作成」ソフトを起動 
⇒ 情報の検索 
⇒ 「フォルダーの選択」 
⇒ 「書名の選択」 
⇒ 情報の検索のページに 
⇒ 「キーワード」の入力、And or の選択  
⇒ 「」をクリック  
⇒ 検出ページの一覧を表示  
⇒ 「検出ページ」をクリック 
⇒ 別窓に検出ページを表示

キーワードを用いた情報検索は、ページ単位で行います。キーワードが含まれるページが検索されると、そのページ番号の一覧が表示されます。
キーワードとして、空白(全角または半角)で区切られた複数個を指定することが可能です。その際、「And」を指定すると、1ページに総てのキーワードを含むページが検索されます。「 or」の選択では、いずれかのキーワードを含むページが検索されます。

 検索結果の表示

検索結果として、ページ番号の一覧が表示されます。それを表示する場合に、「頁めくり」にチェックを入れ、ページ番号をクリックすると、該当ページの前後のページの参照が、「前頁に」や「次頁に」のクリックで可能になります。その際、「→」の選択では、横書き書籍などのように、左ページから右ページにかけて読み取る書籍に適しています。他方、「←」の選択では、縦書き書籍などのように、右ページから左ページにかけて読み取る書籍に適しています。
(注1) このソフトは、「VisualBasic Ver.6」によって作成されています。従って、Windowsでは作動しますが、MacOSでは作動しません。

(注2) 「連番ファイル名の変更」やパソコン用「電子書籍の作成」ソフトの利用中に、その処理の対象となるファイルが他のソフトで使用されていたら、処理上で不都合が生じます。必ず使用中でないことを確かめた上で、ソフトを実行してください。


パソコン用「電子書籍の作成」ソフトのダウンロード