建立這個**的目的就是想把原來csdn上的文章搬過來,但是手工一篇一篇的從後台新增太慢了,csdn也沒提供搬家的工具。自己動手弄吧。
思路是:首先得到csdn上我的所有文章頁面,csdn上是分頁顯示的
比如這個
,然後利用c#訪問到抓取到html** 最後用正規表示式篩選出我們需要的內容,在入庫。
得到頁面的html** 引數一是url位址 2是編碼
private string getcontent(string url, string bm)
return content;
這個後來改進的,因為有的頁面抓取的時候會出問題 所以增加了單個頁面的抓取,如果在出問題 那就到後台新增下文章了。
protected void button_click(object sender, eventargs e)
//開始進行資料庫的新增
for (int j = 0; j < urllist.length; j++)}}
else
}//需要得到 標題名 時間 關鍵字(標題名) 內容
regex rgcontent = new regex(@"", regexoptions.ignorecase);
matchcollection mc = rgcontent.matches(content);
stringbuilder sb1 = new stringbuilder();
for (int i = 0; i < mc.count - 1; i++)
catch
}nfrom = "原創";
content1 = sb1.tostring();//內容
string cate = sb.tostring();//類別
keyword = title;
try;
param[0].value = title; ;
param[1].value = htmlencode(content1);
param[2].value =dt;
param[3].value = nfrom;
param[4].value = sb.tostring();
param[5].value = keyword;
int i = sqlhelper.executenonquery(sqlhelper.connectionstring,commandtype.storedprocedure,"insertarticle",param);
if (i == 1)
//using (streamwriter sw = file.createtext(textname))
//else
}catch
}
配置Tomcat(原csdn部落格上的文章)
tomcat的相關配置 1 如何修改tomcat的埠 在tomcat目錄下的conf資料夾中開啟server.xml檔案 找到 將port 8080 中的8080修改即可,一般情況下修改為數值較大的數,最好大於10000不超過65535,避免埠衝突 2 如何設定虛擬目錄 在tomcat目錄下的con...
抓取csdn部落格的所有文章url
輸入部落格的主網域名稱,就可以抓取這個部落格所有的文章編號。coding utf8 import string import urllib2 import re import time import random class csdn spider def init self,url self.my...
爬蟲抓取自己csdn部落格點讚數
檢視自己文章的點讚數 瀏覽量。import requests,re,math url r requests.get url,headers text articles re.search d s 原創 r group 1 pages int math.ceil int articles 20 art...