python爬取單詞構造自己的詞典

2021-09-19 05:54:06 字數 1750 閱讀 3429

make_dictionary.py

import urllib.request

from lxml import etree

import re

url =

""meaning_xpath =

"/html/body/div[1]/div/div/div[1]/div[1]/ul/li"

defget_word_meaning

(word)

: html = urllib.request.urlopen(url + word)

.read(

) selector = etree.html(html.decode(

'utf-8'))

meaning =

""for item in selector.xpath(meaning_xpath)

: it = item.xpath(

'span'

) meaning +=

"####{}$${}"

.format

(it[0]

.text, it[1]

.xpath(

'span')[

0].text)

return word + meaning

fw =

open

("dictionary.txt"

,'w'

)with

open

("words.txt"

)as fr:

for line in fr.readlines():

word_list = re.split(r'[;,. -]'

, line.strip())

for word in word_list:

if word:

result = get_word_meaning(word)

fw.write(result +

"\n"

)print

(result)

fw.close(

)

words.txt

hello bug, you.   dhsj dsj   dsdh

good

abcdhghh

puts

goods

your

yours

dictionary.txt

bug####n.$$缺陷;蟲子;***;小昆蟲####v.$$在(某處)裝***;竊聽(談話);使煩惱;使惱怒####網路$$臭蟲;錯誤;漏洞

dhsj####網路$$瀛樻煡

dsj####網路$$鄧順傑;虹吸式雨量計;東安縣

dsdh####網路$$馬蘭花;躲;初開

good####adv.$$好####n.$$好處;好人;益處;善行####adj.$$有好處;好的;優質的;符合標準的####網路$$良好;很好;佳

abcdhghh####

puts####

goods####n.$$商品;貨品;動產;私人財產####網路$$貨物;物品;產品

your####adv.$$你的;您的;你們的;(泛指)大家的####pron.$$你(們)的;大家都很知道的####網路$$稱別人的事物;物主代詞

yours####pron.$$你的;您的;你們的;用於書信結尾的簽名前####adj.$$你(們)的(東西);信末署名前用語####網路$$你的就是我的;你的東西;你的朋友

python實現單詞的簡單爬取

因為不需要登入之類的操作,可以說,這是對爬蟲初學者來說最簡單最基礎的乙個案例了,由於之後要用到這裡就簡單學習記錄一下。爬取目標 金山詞霸的四六級詞彙 我們可以很容易看到四個選項,六級就不列出來了。很容易拿到,且規律這麼明顯,所以說很容易。我們每次爬取單詞的時候僅需對這四個詞庫隨機選取即可。我們選擇四...

python動態爬取知乎 python爬取微博動態

在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...

Python爬取小說

感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...