爬蟲 資料處理

2021-09-26 15:28:03 字數 545 閱讀 8908

結構化資料:json、xml等

尋找json資料中的url

包含json的類檔案物件

往乙個檔案中寫入多個json串,不再是乙個json串,不能直接讀取

html(hypertext markup language)超文字標記語言

@符號

//

@* :匹配任何屬性節點

node():匹配任何型別的節點

/bookstore/* :選取bookstore元素下的所有子元素

//* :選取文件中的所有元素

html/node()/meta/@*:選擇html下面任意節點的meta節點的所有屬性

//title[@*]:選取所有帶屬性的title元素

//book/title|//book/price:選取book元素的所有title和price元素

//title|//price:選取文件中的所有title和price元素

lxml能夠接收bytes和str的字串

提取頁面資料的思路

爬蟲 資料處理 pandas資料處理

使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 dataframe替換操作 使用df.std 函式可以求得dataframe物件每一列的標準差 資料清洗清洗重複值 清...

資料處理 流資料處理利器

流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...

資料處理 pandas資料處理優化方法小結

資料處理時使用最多的就是pandas庫,pandas在資料處理方面很強大,整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題 計算資料的某個欄位的所有值,對其欄位所有值進行運算 處理的字段資料為時間戳,需要計算該時間戳距離現在的時間,單位為天。一般方法 使用現在的...