#coding=utf8import requests
from bs4 import beautifulsoup
import os
import codecs
import mysqldb
def mysql(title):
conn= mysqldb.connect(
host='127.0.0.1',
port = 3306,
user='root',
passwd='',
db ='test',
charset="utf8",
)cur = conn.cursor()
sqli="insert into qiubai(text) values(%s)"
cur.execute(sqli,(title))
cur.close()
conn.commit()
conn.close()
def qiushi(url):
content = requests.get(url, headers=headers)
all_a = beautifulsoup(content.text, 'lxml').find('div', class_='col1').find_all('div', class_='content')
title_all =
for a in all_a:
title = a.get_text()
os.chdir("d:\mzitu")
f = open("111.txt", 'a')
for i in title_all:
x = i.encode("utf-8")
f.write(i.encode('utf-8'))
f.write("\n")
s=mysql(i.encode('utf-8')) ##這句是儲存乙份到資料庫中,如果沒配置資料庫的話,可以注釋掉
f.close()
url = ''
qiushi = qiushi(url)
寫個這麼簡答的東西踩的坑有:
os.chdir("d:\mzitu")
f = open("111.txt", 'a')
一開始下面寫的是d:\mzitu.111.txt,拼命的儲存,就是看不到資料,我這暴脾氣,簡直不能忍。
還有直接列印文字內容會出現亂碼 然後type()了一下發現是unicode,要用encode('utf-8')轉換一下。
後面儲存到mysql中又出現亂碼,還是不一樣的亂碼,我真是踏馬的萬馬奔騰一馬平川的草泥馬,後來發現是我建表沒設定utf-8編碼。
然後終於完成了這個小小的東西
python爬取糗百第一頁的笑話
自學python網路爬蟲,發現request比urllib還是要好用一些,因此利用request和beautifulsoup來實現糗百的首頁笑話的抓取。beautifulsoup通過find和findall以及利用正規表示式實現html對應模組的抓取,當然select也是乙個不錯的選擇。下面是臨時的...
我的第乙個爬蟲日誌
剛剛開始學習爬蟲,很多東西不懂,還望前輩們多多指教。總結流程 1 匯入相應的包 1 傳送 多頁在此不傳送頁碼,新編函式迴圈傳入新的頁碼 2 構建函式 1 傳送請求 2 伺服器的響應 3 讀取 編碼資訊 3 編寫正規表示式提取所需內容,括號內容具有唯一性 import urllib import ur...
我的第乙個爬蟲程式
最近開始迷上python了,當然,最讓我著迷的還是它的 風格,用一句話形容 乾淨利索脆。由於我有一些vb基礎,現在學python感覺特別的輕鬆。必須要強調一句 興趣是最好的老師。既然學寫爬蟲,先給自己定乙個小目標 爬一本 好了。從 縱橫中文網 裡找了部章節少的 神魔武帝 練手,別看就簡簡單單爬取一部...