make_dictionary.py
import urllib.request
from lxml import etree
import re
url =
""meaning_xpath =
"/html/body/div[1]/div/div/div[1]/div[1]/ul/li"
defget_word_meaning
(word)
: html = urllib.request.urlopen(url + word)
.read(
) selector = etree.html(html.decode(
'utf-8'))
meaning =
""for item in selector.xpath(meaning_xpath)
: it = item.xpath(
'span'
) meaning +=
"####{}$${}"
.format
(it[0]
.text, it[1]
.xpath(
'span')[
0].text)
return word + meaning
fw =
open
("dictionary.txt"
,'w'
)with
open
("words.txt"
)as fr:
for line in fr.readlines():
word_list = re.split(r'[;,. -]'
, line.strip())
for word in word_list:
if word:
result = get_word_meaning(word)
fw.write(result +
"\n"
)print
(result)
fw.close(
)
words.txt
hello bug, you. dhsj dsj dsdh
good
abcdhghh
puts
goods
your
yours
dictionary.txt
bug####n.$$缺陷;蟲子;***;小昆蟲####v.$$在(某處)裝***;竊聽(談話);使煩惱;使惱怒####網路$$臭蟲;錯誤;漏洞
dhsj####網路$$瀛樻煡
dsj####網路$$鄧順傑;虹吸式雨量計;東安縣
dsdh####網路$$馬蘭花;躲;初開
good####adv.$$好####n.$$好處;好人;益處;善行####adj.$$有好處;好的;優質的;符合標準的####網路$$良好;很好;佳
abcdhghh####
puts####
goods####n.$$商品;貨品;動產;私人財產####網路$$貨物;物品;產品
your####adv.$$你的;您的;你們的;(泛指)大家的####pron.$$你(們)的;大家都很知道的####網路$$稱別人的事物;物主代詞
yours####pron.$$你的;您的;你們的;用於書信結尾的簽名前####adj.$$你(們)的(東西);信末署名前用語####網路$$你的就是我的;你的東西;你的朋友
python實現單詞的簡單爬取
因為不需要登入之類的操作,可以說,這是對爬蟲初學者來說最簡單最基礎的乙個案例了,由於之後要用到這裡就簡單學習記錄一下。爬取目標 金山詞霸的四六級詞彙 我們可以很容易看到四個選項,六級就不列出來了。很容易拿到,且規律這麼明顯,所以說很容易。我們每次爬取單詞的時候僅需對這四個詞庫隨機選取即可。我們選擇四...
python動態爬取知乎 python爬取微博動態
在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...
Python爬取小說
感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...