1. python語言中map函式返回型別是什麼?
2. 請給出以下**執行結果
import re
pattern = re.compile(r"(\w+)\s(\w+)")
s = "hello 123,hello 456,byebye789"
m = pattern.sub(r"hello world", s)
print(m)
輸出結果:
hello world,hello world,byebye789
3. 請用beautifulsoup或者xpath任一方式找到以下id標籤裡面的內容?class="sister" href="" id="link1">elsie
答案:
html.xpath("//a[@id='link1']")
4. 爬蟲一般獲取http請求返回內容編碼型別的途徑有哪些?在使用requests時,返回的response內容,我們可以使用response.rncoding來檢視返回內容的編碼型別
5. 簡單說明requests.content
和requests.text
的區別requests.text返回的是unicode型別的資料,如果想獲取文字,可以使用request.text
requests.content返回的是bytes型別的資料,也就是二進位制型別的資料,如果想獲取,檔案,則可以使用requests.content
6. 請用__new__
方法來實現單例模式class
singleton
(object):
def__new__
(cls, *args, **kw):
ifnot hasattr(cls, '_instance'):
orig = super(singleton, cls)
cls._instance = orig.__new__(cls, *args, **kw)
return cls._instance
class
myclass
(singleton):
a = 1
7."insert into business_info(create_time,date,from,websites) values (?,?,?,?)"
能否正常執行?如果不能,為什麼?可以
8. 簡述scrapy
或者scrapy-redis
的抓取流程?
爬蟲解析response
解析出實體(item),則交給實體管道進行進一步的處理
解析出的是鏈結(url),則把url交給排程器等待抓取
爬蟲工程師轉反爬蟲 如何入行爬蟲工程師
撰文 皓禹在現狀和想要達到的目標之間,總是有一條大河。大部分人花費了巨大的精力在水流裡掙扎,還沒能接近目標,就已經被湍急的水流沖走了。然而,總有少部分人能乘著小船,直達對岸。10年前,從普通學校畢業的我進入了一家小公司,傳統運維的工作重複性太高,特別枯燥。3個月之後,我跳槽了,薪酬是之前的兩倍。學一...
Python爬蟲工程師面試常見題
一.專案問題 一般面試官的第乙個問題八成都是問一下以前做過的專案,所以最好準備兩個自己最近寫的有些技術 含量的專案,當然一定要自己親手寫過的,在別的地方看的原始碼,就算看的再清楚,總歸沒有自己敲的 了解的多。以下是抽出的幾點 1.你寫爬蟲的時候都遇到過什麼反爬蟲措施,你是怎麼解決的 2.用的什麼框架...
爬蟲工程師的日常
很多讀者可能都不太清楚爬蟲是幹什麼的,今天我就來跟大家科普下爬蟲工程師平時的工作都是怎樣的。爬蟲又分為增量式爬蟲和全量式爬蟲。全量式爬蟲又稱為一次性爬蟲,就是把該 的資料一次性全部抓取下來,後面就不需要再管該 了,這種爬蟲任務通常比較簡單。而增量式爬蟲不止這次要把 資料抓取下來,而且之後還要檢測該 ...