下面是乙個小爬蟲的整個誕生過程
from:
step 1
在本地使用git管理工具:
[python]view plain
copy
mkdir douban_movie
#建立並進入該目錄下
git init#初始化
vim readme.txt#在本檔案中寫入相關的必要資訊
git add readme.txt#新增
git commit -m 『add comment』#提交到本地
step 2
在github上新建乙個倉庫douban_movie後, ssh key 說明,
[python]view plain
copy
git remote add origin [email protected]:icheli/douban_moive.git
#或者git remote add origin 首次互動要建立連線
至此我們就知道如何將**提交到github上了,下面我們所要做的就是程式設計了。
step3
在本地編寫程式之後就可以提交到本地git和github的伺服器上了
[python]view plain
copy
git add movie_crawler.py
git commit -m "this is the crawler"
git remote add origin [email protected]:ichenli/zhihu_movie.git#或者git remote add origin 即github上專案的鏈結)
"code"有關程式的部分,已經放到github上了,程式其實很簡單,就是爬取了豆瓣上按類別的電影排序,爬取了其中前34個類別,例如愛情,喜劇,動畫等多種類別的電影,並依次獲取電影的id,名稱,上映年份,型別,片長,分數,評價人數和劇情簡介。class
="python"
>git push -u origin master
step4
python3使用mysql
[python]view plain
copy
python3 setup.py install
#安裝,好像需要管理員許可權
若在python3中能匯入pymysql包即代表成功,成功後就可以繼續程式設計啦!
注:程式已經上傳到github上啦,
,大家如果沒有安裝資料庫或者不想涉及資料庫,稍加修改即可執行,**很簡單。
乙個網頁開啟的全過程
從使用者在瀏覽器輸入網域名稱開始,到web頁面載入完畢,這是乙個說複雜不複雜,說簡單不簡單的過程,下文暫且把這個過程稱作網頁載入過程。下面我將依靠自己的經驗,總結一下整個過程。如有錯漏,歡迎指正。閱讀本文需要讀者已有一定的計算機知識,了解tcp dns等。眾所周知,開啟乙個網頁的過程中,瀏覽器會因頁...
訪問乙個網頁的全過程
前言 訪問目標位址有兩種方式 使用目標ip位址訪問。由於ip位址是一堆數字不方便記憶,於是有了網域名稱這種字元型標識。使用網域名稱訪問。網域名稱解析就是網域名稱到ip位址的轉換過程,網域名稱的解析工作由dns伺服器完成。比如說訪問 baidu.com 1.如果是網域名稱,首先將網域名稱解析成ip 計...
乙個url載入的全過程
最近在進行前端面試方面的一些準備,遇到了乙個經典前端問題,乙個url從輸入到頁面載入中間到底發生了什麼,以前也認真想過這個問題,但是當時回答的都不全面,現在來好好總結一下 總體來說分為以下六個步驟 1 dns解析 2 tcp連線 3 傳送http請求 4 伺服器處理請求並返回http報文 5 瀏覽器...