人力資源部漂亮的小mm,跑來問我:老陳,資料分析和爬蟲究竟是關係呀?說實在的,我真不想理她,因為我一直認為這個跟她的工作關係不大,可一想到她負責我負責部門的招聘工作,我只好勉為其難地跟她說:資料分析,吃里,爬蟲,爬外,合在一起就是吃裡爬外。
大資料時代,要想進行資料分析,首先要有資料**,單靠公司那幾條毛毛雨(資料),分析個寂寞都不夠,唯有通過學習爬蟲,從外部(**)爬取一些相關、有用的資料,才能讓老闆進行商業決策時的有據可依,而你,亦是老闆。
一提到老闆,漂亮的小mm,興奮得不得了,馬上大聲問:你們it界,最帥的是不是就是那個搞搜尋引擎的李老闆?
一想到排名賺到的money,李老闆一分都不給我,我就跟人力mm說:好了,不跟你扯犢子了,我要跟我的老鐵說網路爬蟲的原理了,你個吃裡爬外的傢伙,見你的老闆去吧。
說白點,就是用python程式語言模擬瀏覽器,訪問指定**,對其返回結果,按規則進行篩選並提取自己需要的資料,存放起來使用,以供使用。
看過我《第10天 | 12天搞定python,檔案操作 》和《第11天 | 12天搞定python,資料庫操作》的老鐵,應該知道,資料常存在檔案或資料庫中。
爬蟲程式設計,指定**,模擬瀏覽器傳送請求(獲取網頁**)->提取有用的資料->存放於檔案或資料庫中。
(1) 用http庫向目標站點發起請求,即傳送乙個request(包含請求頭和請求體等);
(2) 對伺服器返回的response,用內建的庫(html、json、正規表示式)就進行解析
(3) 將所需資料儲存到檔案或資料庫當中。
在編寫爬蟲**的過程中,經常需要指定爬取的節點或路徑。如果我告訴你,chrome瀏覽器,就可以快速獲取節點或路徑的話,你會不會馬上看一下電腦是否安裝了?
會的話,那就對了,不會的,趕緊去安裝吧。
在頁面中,按下鍵盤f2鍵,可顯示源**。滑鼠選中你要獲取的節點,右鍵【檢查】就可定位到**中,右鍵**,選擇【copy】-【copy selector 】或【copy xpath】便可複製節點或路徑的內容。
#網路爬蟲#
#程式設計師#
#爬蟲#
第1天 12天搞定Python網路爬蟲,吃裡爬外?
人力資源部漂亮的小mm,跑來問我 老陳,資料分析和爬蟲究竟是關係呀?說實在的,我真不想理她,因為我一直認為這個跟她的工作關係不大,可一想到她負責我負責部門的招聘工作,我只好勉為其難地跟她說 資料分析,吃里,爬蟲,爬外,合在一起就是吃裡爬外。大資料時代,要想進行資料分析,首先要有資料 單靠公司那幾條毛...
python學習第12天
一.迭代器 1.概念 迭代器指的是迭代取值的工具,迭代是乙個重複的過程,每次重複都是基於上一次的結果而繼續,單純的重複不是迭代 2.特徵 不依賴索引,通過next指標迭代所有資料,一次只取乙個,可以大大節省空間,迭代無限量的資料 3.可迭代物件 如果成員中含有 iter 這個方法,就是可迭代物件 d...
Python學習第12天 類
1 類的建立 語法 class 類名 類的屬性 name 喵醬 類的方法 def joke self print 建立類成功 2 類的例項化 語法 例項名 類名 列如 my captain captain 意義 建立乙個例項,它可以呼叫所屬類的所有屬性和方法 知識點 3 self引數 4 init ...