PDF教材をHTMLに変換する 1 - 下天の内をくらぶれば

長い間プログラムを書いていなかったのですが、
児童用のPDF教材をWEB用に書き換える手伝い仕事で、
短いプログラムを書きました。

PDFをそのままWEB画面に貼り付けるのではなく、
内容はそのままに、新たにWEBのサイトを作るのです。

与えられた材料は、PDFファイルだけです。

主な作業は次のようなものです。

①　PDFから文字と画像を取り出す。

②　画像と文字をHTMLファイルに書き込む。

③　一部の漢字にはルビを振り、
PDFと同じようなレイアウトをし、
ボタンを押すと動画を表示するようにする。

そもそもPDFがあるということは、
恐らく、アドビ・イラストレータかInDesignを使っているのでしょうから、
電子データがあるのでしょう。
ということは、その電子データから直接画像なり、文章なりを抽出すれば、
全く簡単で正確な情報が得られるのに、どうしてこうなったのでしょうか。
著作権が問題だったのでしょうか。

まず①の仕事。
当然、手作業で書き写すわけにはいきません。

画像と文字を抽出するのに、
無料のソフト、確か画像抽出ではPDFTools、文字抽出にはABBYY FineReaderを使いました。

私は、古いAdobe Acrobatを持っていますので試したのですが、
これより上記のソフトの方がよく働いてくれました。

抽出した画像は印刷用で小さく、拡大するとボケてしまいますが、
修正のしようがないのでそのまま使うことにして、
自動抽出した文字は修正する必要があります。

PDFファイルを作成したとき、そもそも間違った文字を使っていた可能性のものと、
先の抽出ソフトが間違って認識したものがあります。
（PDFのフリガナは完全に認識されていません。）

前者では、ひらがなの「り」を使うべきところで、片仮名の「リ」使っている例です。
これはエディターで見つけて変えていかなければいけませんが、
grep等を使って機械的に変更すればいいので、そんなに難しくありません。

気を遣うのは、間違って認識した文字です。
これは文章を丁寧に読んでいって、訂正することになります。
本屋やさんのやる校正作業です。

これらの前準備ができたら、
抽出した文字や画像をHTMLファイルに貼り付けていきます。
この段階では、画像と文字が単純に並べられただけですから、
原文に近い形に整形しルビを付けるのが私の仕事です。

私は、これまでWEBの仕事は遊び程度しか経験がなく、
あまりよく知りません。

WEBの画面をPCでもスマホでも違和感なく見えるようにするには、
それなりの工夫が必要です。
画面の大きさに対応して画面表示する技術(レスポンシブル)を使います。
定番のBootstrapを使いました。

印刷本100ページ強の教材2冊にBootstrapタグを入れていくのに、
正味3週間程度かかりました。

ビデオとのリンクは私の仕事でないので、
残された私の仕事は、フリガナを付けることです。

最初は、漢字に対して、ルビ用のタグを手作業でつけていたのですが、
結構面倒なので、プログラムを書くことにしました。

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31