Python批量翻譯英語單詞(三十七)

2021-10-05 23:06:27 字數 2176 閱讀 1844

用途:

本**實現:

實現網頁中所有英語單詞的翻譯;

涉及技術:

1. 讀取英語-漢語翻譯詞典檔案

詞典檔案來自:

使用步驟:

解壓master.zip,然後解壓其中的‪stardict.csv檔案

import pandas as pd

df_dict = pd.read_csv("d:/tmp/ecdict-master/stardict.csv")

df_dict.shape

df_dict.sample(10).head()

# 把word、translation之外的列扔掉

df_dict = df_dict[["word", "translation"]]

df_dict.head()

import requests

# pandas官方文件中的乙個url

url = ""

html_cont = requests.get(url).text

html_cont[:100]

3. 提取html的正文內容

即:去除html標籤,獲取正文

from bs4 import beautifulsoup

soup = beautifulsoup(html_cont)

html_text = soup.get_text()

html_text[:500]

4. 英文分詞和資料清洗

# 分詞

import re

word_list = re.split("""[ ,.\(\)/\n|\-:=\$\["']""",html_text)

word_list[:10]

# 讀取停用詞表,從網上覆制的,位於當前目錄下

with open("./datas/stop_words/stop_words.txt") as fin:

stop_words=set(fin.read().split("\n"))

list(stop_words)[:10]

# 資料清洗

word_list_clean =

for word in word_list:

word = str(word).lower().strip()

# 過濾掉空詞、數字、單個字元的詞、停用詞

if not word or word.isnumeric() or len(word)<=1 or word in stop_words:

continue

word_list_clean[:20]

5. 分詞結果構造成乙個dataframe

df_words = pd.dataframe()

df_words.head()

# 統計詞頻

df_words = (

df_words

.groupby("word")["word"]

.agg(count="size")

.reset_index()

.sort_values(by="count", ascending=false)

)df_words.head(10)

6. 和單詞詞典實現merge

df_merge = pd.merge(

left = df_dict,

right = df_words,

left_on = "word",

right_on = "word"

)

7. 存入excel

df_merge.to_excel("./38. batch_chinese_english.xlsx", index=false)
後續公升級:

9 29 英語單詞

whisper v n 耳語,私語 in a whisper 低聲的 cheer 喝彩,歡呼 voice silence 安靜 whistle v n 吹哨,口哨,汽笛 judge 裁判員 race 比賽 white whowholly adv完全,一概 uncle whole n全部 all ad...

10 10 英語單詞

at various times 在不同的時代 vary v變化,指性質,特點的變化 change convert 使轉變 alter 指部分的改變 不影響整體結構的 vase瓶,花瓶 vast adj 1 面積 巨大,廣闊的 2 數量 大量,鉅額的 a vast plain at vast exp...

英語單詞學習

mutable mutable mjut b 1.可變的 可變的 2.易變的,不定的 once w ns 詞典釋義 1.一次,一回 1.一旦,一經.便 shape ep 詞典釋義 n.1.形狀 樣子,外形 2.表現 形式 體現,具體化 3.口 情況,狀態 4.模糊.random r nd m ran...