Python檢測重複字 部分中華字經重複字檢測

2021-09-29 00:07:53 字數 1576 閱讀 6788

中文去標點符號,中文繁體字轉化簡體字,列表檢測並輸出重複項,list當多個相同值時索引

關於去標點,使用包 zhon,直接pip即可

安裝及使用:

關於中文繁簡轉換,安裝opencc-python

安裝及使用:

# -*- coding: utf-8 -*-

# @author: zhr

# @date: 2019-10-25 20:26:04

# @last modified by: zhr

# @last modified time: 2019-10-25 21:43:29

from opencc import opencc

from zhon.hanzi import punctuation

import os

import re

f = open("laoliangjia.txt", "r", encoding="utf-8")

text = f.readlines()

text = str(text[0]) # 轉化為字串,注意text為只有乙個元素的列表

text = re.sub(r"[%s]+" %punctuation, "", text) # 去標點

print(text[:100], "\n")

cc = opencc("t2s")

text2 = cc.convert(text) # 轉簡體

text_list = list(text)

text2_list = list(text2) # 字串變列表

n = 0

for w in text_list: # 找兩列表不一樣,即繁體字數量

if w not in text2_list:

n += 1

print(n, "\n")

print(len(text_list), " ", len(text2_list)) # 字數

num = 0 # 同字個數

for i in range(len(text2_list)):

if text2_list[i] in text2_list[i+1:]: # 如果該字在其後面的列表**現

print(text2_list[i], text2_list[i-(i%4):i-(i%4)+4]) # 輸出四字

index2 = text2_list.index(text2_list[i], i+1) # 索引

print(text2_list[index2], text2_list[index2-(index2%4):index2-(index2%4)+4]) # 重複的字所在四字

num += 1

print(num)

list.index() 方法,第乙個引數為值,第二三(可選)分別為查詢的開始和終點位置

對於有重複值的list索引,另一種更直接的方法,採用enumerate():

結果:

Python Word文件重複字檢測程式

要求 1.使用外接庫python docx 2.將檢測演算法封裝為函式並呼叫此函式實現功能 3.連續重複字刪除到只剩乙個 4.自定義指定某個字或詞,輸出出現次數 5.word文件 不限,建議使用正規表示式實現演算法 2.展示 import docx import re class solution ...

guid會重複麼 SCI重複多少字算抄襲

發表sci 是很多人的夢想和目標,但是我們都知道sci對文章的要求是非常高的,文章必須具備很高的學術價值才行,也就是說文章的原創度要夠高,但超高的原創度對於廣大普通作者來說似乎有點兒不大現實,我們或多或少都會引用別人的文獻,既然引用,就存在引用率過高的可能性,sci重複多少字算抄襲?sci文章檢測重...

sql DISTINCT 關鍵字去掉重複的列

distinct關鍵字主要用來從select語句的結果集中去掉重複的記錄。如果使用者沒有指定distinct關鍵字,那麼系統將返回所有符合條件的記錄組成結果集,其中包括重複的記錄。記錄一下工作中用到的sql語句吧,下面sql實現了去掉重複列id後顯示的資料。select distinct u.id,...