4月 2022 - 下天の内をくらぶれば

長い間プログラムを書いていなかったのですが、
児童用のPDF教材をWEB用に書き換える手伝い仕事で、
短いプログラムを書きました。

PDFをそのままWEB画面に貼り付けるのではなく、
内容はそのままに、新たにWEBのサイトを作るのです。

与えられた材料は、PDFファイルだけです。

主な作業は次のようなものです。

①　PDFから文字と画像を取り出す。

②　画像と文字をHTMLファイルに書き込む。

③　一部の漢字にはルビを振り、
PDFと同じようなレイアウトをし、
ボタンを押すと動画を表示するようにする。

そもそもPDFがあるということは、
恐らく、アドビ・イラストレータかInDesignを使っているのでしょうから、
電子データがあるのでしょう。
ということは、その電子データから直接画像なり、文章なりを抽出すれば、
全く簡単で正確な情報が得られるのに、どうしてこうなったのでしょうか。
著作権が問題だったのでしょうか。

まず①の仕事。
当然、手作業で書き写すわけにはいきません。

画像と文字を抽出するのに、
無料のソフト、確か画像抽出ではPDFTools、文字抽出にはABBYY FineReaderを使いました。

私は、古いAdobe Acrobatを持っていますので試したのですが、
これより上記のソフトの方がよく働いてくれました。

続きを読む →

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

月別アーカイブ： 2022年04月

PDF教材をHTMLに変換する 1