結構化資料:json、xml等
尋找json資料中的url
包含json的類檔案物件
往乙個檔案中寫入多個json串,不再是乙個json串,不能直接讀取
html(hypertext markup language)超文字標記語言
@符號
//
@* :匹配任何屬性節點
node():匹配任何型別的節點
/bookstore/* :選取bookstore元素下的所有子元素
//* :選取文件中的所有元素
html/node()/meta/@*:選擇html下面任意節點的meta節點的所有屬性
//title[@*]:選取所有帶屬性的title元素
//book/title|//book/price:選取book元素的所有title和price元素
//title|//price:選取文件中的所有title和price元素
lxml能夠接收bytes和str的字串
提取頁面資料的思路
爬蟲 資料處理 pandas資料處理
使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 dataframe替換操作 使用df.std 函式可以求得dataframe物件每一列的標準差 資料清洗清洗重複值 清...
資料處理 流資料處理利器
流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...
資料處理 pandas資料處理優化方法小結
資料處理時使用最多的就是pandas庫,pandas在資料處理方面很強大,整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題 計算資料的某個欄位的所有值,對其欄位所有值進行運算 處理的字段資料為時間戳,需要計算該時間戳距離現在的時間,單位為天。一般方法 使用現在的...