乙個完整的(大)資料處理可以分為這幾個階段:
第一步的資料收集基本已經完成。
現在是第二步的資料儲存。
講道理,不懂點前端知識還真不好下手。
看到一堆標籤也是很煩的,還好這些東西就想剝洋蔥一樣,一層一層剝開。
配合上《愛麗絲夢遊仙境》的beautifulsoup,就方便多了。
csv( comma-separated values,逗號分隔值)是儲存**資料的常用檔案格式。
microsoft excel 和很多應用都支援 csv 格式,因為它很簡潔。
python 的 csv 庫可以非常簡單地修改 csv 檔案,甚至從零開始建立乙個 csv 檔案:
import csv
csvfile = open("../files/test.csv", 'w+')
try:
writer = csv.writer(csvfile)
writer.writerow(('number', 'number plus 2', 'number times 2'))
for i in range(10):
writer.writerow( (i, i+2, i*2))
finally:
csvfile.close()
這種方案來處理教務處的資料,就很方便。
這裡拿處理課表的來說。
解析課表的網頁原始碼會看到有乙個table的標籤,這個很重要。
class="arranging_arrange">
確定了table和class,就看開始剝洋蔥了。
import csv
from urllib.request import urlopen
from bs4 import beautifulsoup
html = urlopen("課表url")
bsobj = beautifulsoup(html)
# 看網頁原始碼的class
table = bsobj.findall("table",)[0]
#剝第一層洋蔥
rows = table.findall("tr")
#儲存csv
csvfile = open("../files/editors.csv", 'wt', newline='', encoding='utf-8')
writer = csv.writer(csvfile)
try:
for row in rows:
csvrow =
#繼續一層層剝洋蔥
for cell in row.findall(['td', 'th']):
writer.writerow(csvrow)
finally:
csvfile.close()
這樣就可以得到儲存在當前目錄的csv檔案了。
用notepad++開啟可以看,用excel開啟會亂碼。
虐狗節,擼**,還有誰。
哈哈哈哈。
python網路爬蟲 資料儲存之CSV
csv comma separated values,逗號分隔值 是儲存 資料的常用檔案格式。很多應用都支援csv格式,因為它很簡潔,下面就是乙個csv檔案的例子 fruit,cost banana,0.30 pear,1.25 python的csv庫可以非常簡單地修改csv檔案,甚至從零開始建立乙...
爬蟲資料儲存csv
一,csv檔案的簡單讀寫import csv csv也叫逗號分分隔,一般以逗號分隔,也可以使用空格或者tab分隔 csv file open file test.csv w 寫入 try csv write csv.writer csv file csv write.writerow col1 co...
MySQL儲存引擎之CSV
csv儲存引擎可以將csv檔案作為mysql的表進行處理。儲存格式就是普通的csv檔案。資料以文字方式儲存在檔案中 innodb則是二進位制 csv檔案儲存表內容 csm檔案儲存表的元資料如表狀態和資料量 frm檔案儲存表結構資訊例項 我們新建乙個csv檔案,但是不指定not null mysql ...