最近把《蘆笛全集》pdf轉成文字檔案,放到手機裡看。文字沒有章節索引,看起來很不方便,後來想到用umd格式,用軟體自己編輯又太麻煩,所以決定做個程式排版。
1.按文章標題分章節——判斷一篇文章的頭和尾,比如標題一般比較短,結尾有「2023年6月12日」或"2008-6-12",或2個換行,而且下一行比較符合標題的特徵。按章把內容存入umd;
2.分段落——從pdf轉過來後,每行的長度基本都一樣,只要判斷一行長度是否與其他行一樣,結尾的標記是否是句號、問號、感嘆號、省略號等;
3.去除多餘文字——比如頁首、頁尾、頁碼、空格、空行
最後存入umd檔案即可
cumdbook umdbook = new cumdbook();
cchapter chapter = new cchapter();
chapter.title = "標題1";
chapter.content = "內容……";
umdbook.chapters.add(chapter);
......
umdfactory.writeumdbook(this.umdbook);
拷到手機上一看,可以按章節隨意看了,呵呵。
電子書收藏
以下是我蒐集的電子書備份。1.網路硬體 完整版 日 三輪賢一 著,盛榮 譯 人民郵電出版社 2015年8月第1版 2.python學習手冊 第4版 mark lutz 著 李軍 劉紅偉 等譯 機械工業出版社 2011年4月第1版 3.android軟體安全與逆向分析 豐生強著 人民郵電出版社 201...
豆瓣電子書
import requests import urllib.request from bs4 import beautifulsoup import csv 目標資料 書名作者 日期 評分評價人數 headers key key ascii urllib.request.quote key book...
開源電子書
語言相關類 讀書筆記及其它 測試相關 智慧型系統git 簡易指南 猴子都能懂的git入門 git 參考手冊 pro git pro git 中文版 整理在gitbook上 git magic gotgithub git權威指南 git community book 中文版 mercurial 使用教...