資料獲取,解析,儲存等知識的學習總結
email:[email protected]
說明:因內容較多,會不斷更新 ***學習總結,此部分已更新完;
回主目錄:2017 年學習記錄和總結
1.直接讀取已有的.csv;.txt;.excel檔案;
2.解析json資料;
3.url獲取資料;自己在網上或指定的**抓取,解析,來獲取資料。
這部分我們主要講解第3點,如何自己從**抓取資料,解析資料,儲存資料;一般從指定url獲取資料,清洗資料,儲存到csv檔案裡;
主要的知識點有:
1.http請求處理requests:
定製頭部資訊
post表單提交
cookie設定與讀取
超時設定
2.xml/json解析
內建json庫
dump(s):把dict轉換為json文字
load(s):把json文字轉換為dict
htmlparser:
dom:特點
sax:特點
3.css定位器基礎知識
定位方式 同過html,css的頁面元素來定位
元素 element
類 .class, element.class1.class2
id, element
屬性 [prop=value], element[prop=value]
4.靜態網頁解析
bs4:find函式搜尋使用
使用css定位器搜尋,獲取所需要的資料
5.反爬蟲用到的主要方法
偽裝瀏覽器
偽裝多個ip
操作速度不要太快
使用不同賬號
6.使用redis實現佇列服務
7.selenium
寫定位資訊,快速和穩定地定位頁面上的元素
android涉及的基礎知識等擴充套件內容總結記錄
一 dp 和 sp 的區別 由於手機螢幕解析度各有不同,而且無法調整當前手機的解析度,因此,android sdk提供了dp 和 sp 兩個尺寸單位來根據解析度調整元件和字型的大小。dp 和 sp 都是相對於160 dpi 的尺寸單位的。160 dpi 相當於每英吋螢幕上有160個物理畫素點,一般3...
關於PageHelper獲取資料總條數的問題
關於pageheler這個外掛程式很早就用過,但總有些問題,比如說 pageinfo.gettotal 獲取的總是分頁當前的資料條數,今天抽空研究了下發現使用這個外掛程式中間只能有一次進行查詢的操作 如果進行了兩次查詢操作就會讓pageinfo.gettotal 獲得的是當前查詢的當前頁的資料總條數...
Oracel,Mysql等資料的儲存引擎
mysql常用的儲存引擎主要就是2個 innodb和myiasm.是mysql的isam擴充套件格式和預設的資料庫引擎。除了提供isam裡所沒有的索引和字段管理的大量功能,myisam還使用一種 鎖定的機制,來優化多個併發的讀寫操作,其代價是你需要經常執行optimize table命令,來恢復被更...