今天打算開始著手做bioasq的專案——除了看**的部分。
學長分配的最初步內容是,去統計一下資料集裡面list/factoid的數量,以及exact ans 在 snippets中的出現次數。本來覺得這是個很簡單的資料處理任務嘛,然後突然意識到,snippets裡的document給的是**,這豈不是意味著,我要寫爬蟲了????一臉懵逼啊。然後立馬開始查**怎麼寫。
*進入cmd,來到解壓完的目錄(這個資料夾裡應該有乙個setup.py的檔案),在這裡輸入命令 python setup.py install,然後就搞定了。
*ps:開著的kernel無法檢測新安裝的模組,需要重啟一下。
接著找了另外乙個解決方案 (給出的方案是在urlopen中傳入上下文引數。
按照他的寫了一下,總算是不報錯,而且跑出東西來了——一堆html**。覺得可以根據標籤篩了,但是似乎還很煩;之後仔細研究一下urllib2這個模組吧
第乙個爬蟲
很多人學習python的目的就是為了學習能夠實現爬蟲的功能,這裡,我使用了scrapy框架來實現了乙個簡單的爬蟲功能,這裡我簡單的介紹一下scrapy專案的建立,和執行。1,第一步是安裝scrapy,我相信到了這一步,大多數人都已經會安裝第三方庫檔案了,這裡主要是使用命令pip install sc...
第乙個爬蟲
一 程式測試 二 開啟360網頁 三 html計算 四 中國大學排名 爬取年費2018 五 函式介紹總結 1.requests 庫的網頁請求函式 函式 說明 get url timeout n 對應http的get方式,設定請求超時時間為n秒 post url,data 對應http的post方式,...
python爬蟲 第乙個爬蟲
1.本地安裝了nginx,在預設的html目錄下建立測試html 如圖,即index.html導向a,b,c 3個html,a.html又可以導向aa,bb兩個html,c.html可以導向cc.html。2.修改nignx配置使得本地可以訪問寫的kmtest裡的index.html。參考文件 ng...