使用CHM文件 採集隨筆(續)

2022-01-24 12:20:52 字數 1520 閱讀 2358

上篇說到我們可以將自己的部落格內隨筆/文章/日記備份得到的xml 轉換成chm文件,如果我們希望將某個大牛的部落格隨筆全部匯出,這個能不能實現呢?寫在這裡算是廢話了,既然有了這篇部落格,那麼這個問題,一定是可以解決的。

可執行程式

源**示例文件截圖(路過秋天):

1.根據id得到隨筆類別,如位址為 則id為cyq1162,請求頁面請求結果如下:

通過正則匹配到該頁面的鏈結,以某個鏈結為例,其中包含cyq1162/category,基於這樣的規則,我們可以得到所有的隨筆分類鏈結。

3.得到文章的鏈結,這樣就能得到文章正文。我們要獲取的有文章標題、文章正文、發布時間。這裡沒有去嘗試獲取文章作者,不好獲取。前面指的需要獲取的3個內容,在某個明確id的節點裡。這裡使用了htmlagilitypack進行html解析,感覺非常方便,可以直接根據id得到元素,然後獲取它的內容。解析**如下:

//

var contentcode = getcontent(articleurl);//

獲取隨筆內容

htmldocument htmlcode = new

htmldocument();

htmlcode.loadhtml(contentcode);

var titlenode = htmlcode.getelementbyid("

cb_post_title_url");

var postbody = htmlcode.getelementbyid("

cnblogs_post_body");

var postdate = htmlcode.getelementbyid("

post-date");

//var topics = htmlcode.getelementbyid("topics");

var localhtml =template

.replace(

"", titlenode.innertext)//

博文標題

.replace("

", downimage(postbody.innerhtml))//

博文內容

.replace("

", titlenode.getattributevalue("

href

", "

#"))//

博文位址

.replace("

", userid + "

.cnblogs.com

")//

部落格位址

.replace("

", userid);//

博文作者

4.下一步則是編譯chm了,這裡就不重複介紹了。

其中參考啊漢的博文 《一鍵構造你的部落格目錄》 構造了隨筆目錄。

使用EasyCHM生成CHM文件

方式一 從0開始生成 1 把doc文件拆分成多個doc,每個章節乙個doc 2 把每個doc文件都轉換成網頁 2.1 開啟doc後,另存為 篩選過的網頁 之後彈出的格式警告,選擇 是 2.2 記得把所有生成的htm檔案都放在同乙個資料夾裡,以方便easychm.exe的目錄選擇 3 easychm設...

CHM文件製作

工作時遇到問題的時候,大腦的記憶體有限,常常要檢視各種方案文件。如果忘記了文件的位置,就需要在電腦的每個角落尋找,效率比較低。我在想,能不能把平時的經驗文件全部集中到乙個可以搜尋的chm的文件中。當需要的時候,只需要開啟乙個chm文件,就像看api文件一樣,非常方便。在網上找了一下,沒有通過寫程式的...

chm幫助文件編輯 chm檔案無法正常訪問

chm 檔案格式是微軟於 1998 年推出的基於 html 檔案特性的幫助檔案系統,以替代早先的 winhelp 幫助系統。它在 windows 98 中把 chm 型別檔案稱作 編譯的 html 幫助檔案 在windows中我們不用安裝軟體也能開啟檔案進行檢視,上圖可以看出chm檔案的展示凡是和 ...