有些小瑕疵不知道為啥爬取的標題個數與摘要個數不是整個頁面的,而且兩者也不相等,不過是第一次做出來,簡單記錄一下啦~~~~
import urllib.request
import re
import os
defurl_open
(url):
req=urllib.request.request(url)
response=urllib.request.urlopen(url)
html=response.read().decode('utf-8')
return html
defget_title
(html):
p=r'(.*?)'
t=r'(.*?)
' titlelist=re.findall(p,html,re.s)
abstractlist=re.findall(t,html,re.s)
'''for each in titlelist:
print(each)
for each in abstractlist:
print(each)
'''i=len(titlelist)
with open(r'essay.txt','w') as f:
for x in range(i-1):
f.write(str(x+1)+titlelist[x]+'\n'+abstractlist[x]+'\n')
if __name__=='__main__':
os.mkdir("e:\title")
os.chdir("e:\title")
url=''
get_title(url_open(url))
Python爬取 豆瓣讀書標籤 程式設計
要爬取的 簡單版 複雜版 簡單版 import numpy as np import csv import time def get one page url response requests.get url if response.status code 200 return response....
Python爬取網頁小標題
首先附上 爬取瞬眼天下網頁多頁的小標題 import requests from bs4 import beautifulsoup baseurl urls filename c users lws desktop shunyan.txt 需要儲存的位置 with open filename,w e...
例項二》爬取論壇標題
爬取論壇中的標題 這部分的重點 2 用到了正規表示式,正規表示式不準確也是輸出不了想要的結果,建議輸出r.text後在正規表示式的 上確認自己的表示式沒有問題,再進行使用。3 beautifulsoup知識點太多,單開文章彙總使用方法 使用正規表示式實現抓取網頁的標題 import requests...