中文去標點符號,中文繁體字轉化簡體字,列表檢測並輸出重複項,list當多個相同值時索引
關於去標點,使用包 zhon,直接pip即可
安裝及使用:
關於中文繁簡轉換,安裝opencc-python
安裝及使用:
# -*- coding: utf-8 -*-
# @author: zhr
# @date: 2019-10-25 20:26:04
# @last modified by: zhr
# @last modified time: 2019-10-25 21:43:29
from opencc import opencc
from zhon.hanzi import punctuation
import os
import re
f = open("laoliangjia.txt", "r", encoding="utf-8")
text = f.readlines()
text = str(text[0]) # 轉化為字串,注意text為只有乙個元素的列表
text = re.sub(r"[%s]+" %punctuation, "", text) # 去標點
print(text[:100], "\n")
cc = opencc("t2s")
text2 = cc.convert(text) # 轉簡體
text_list = list(text)
text2_list = list(text2) # 字串變列表
n = 0
for w in text_list: # 找兩列表不一樣,即繁體字數量
if w not in text2_list:
n += 1
print(n, "\n")
print(len(text_list), " ", len(text2_list)) # 字數
num = 0 # 同字個數
for i in range(len(text2_list)):
if text2_list[i] in text2_list[i+1:]: # 如果該字在其後面的列表**現
print(text2_list[i], text2_list[i-(i%4):i-(i%4)+4]) # 輸出四字
index2 = text2_list.index(text2_list[i], i+1) # 索引
print(text2_list[index2], text2_list[index2-(index2%4):index2-(index2%4)+4]) # 重複的字所在四字
num += 1
print(num)
list.index() 方法,第乙個引數為值,第二三(可選)分別為查詢的開始和終點位置
對於有重複值的list索引,另一種更直接的方法,採用enumerate():
結果:
Python Word文件重複字檢測程式
要求 1.使用外接庫python docx 2.將檢測演算法封裝為函式並呼叫此函式實現功能 3.連續重複字刪除到只剩乙個 4.自定義指定某個字或詞,輸出出現次數 5.word文件 不限,建議使用正規表示式實現演算法 2.展示 import docx import re class solution ...
guid會重複麼 SCI重複多少字算抄襲
發表sci 是很多人的夢想和目標,但是我們都知道sci對文章的要求是非常高的,文章必須具備很高的學術價值才行,也就是說文章的原創度要夠高,但超高的原創度對於廣大普通作者來說似乎有點兒不大現實,我們或多或少都會引用別人的文獻,既然引用,就存在引用率過高的可能性,sci重複多少字算抄襲?sci文章檢測重...
sql DISTINCT 關鍵字去掉重複的列
distinct關鍵字主要用來從select語句的結果集中去掉重複的記錄。如果使用者沒有指定distinct關鍵字,那麼系統將返回所有符合條件的記錄組成結果集,其中包括重複的記錄。記錄一下工作中用到的sql語句吧,下面sql實現了去掉重複列id後顯示的資料。select distinct u.id,...