Python檢測重複字部分中華字經重複字檢測

中文去標點符號，中文繁體字轉化簡體字，列表檢測並輸出重複項，list當多個相同值時索引

關於去標點，使用包 zhon，直接pip即可

安裝及使用：

關於中文繁簡轉換，安裝opencc-python

安裝及使用：

# -*- coding: utf-8 -*-
# @author: zhr
# @date:   2019-10-25 20:26:04
# @last modified by:   zhr
# @last modified time: 2019-10-25 21:43:29
from opencc import opencc
from zhon.hanzi import punctuation
import os
import re
f = open("laoliangjia.txt", "r", encoding="utf-8")
text = f.readlines()
text = str(text[0])   # 轉化為字串，注意text為只有乙個元素的列表
text = re.sub(r"[%s]+" %punctuation, "", text)   # 去標點
print(text[:100], "\n")
cc = opencc("t2s")
text2 = cc.convert(text)   # 轉簡體
text_list = list(text)
text2_list = list(text2)   # 字串變列表
n = 0
for w in text_list:        # 找兩列表不一樣，即繁體字數量
if w not in text2_list:
n += 1
print(n, "\n")     
print(len(text_list), " ", len(text2_list))   # 字數
num = 0  # 同字個數
for i in range(len(text2_list)):   
if text2_list[i] in text2_list[i+1:]:   # 如果該字在其後面的列表**現
print(text2_list[i], text2_list[i-(i%4):i-(i%4)+4])  # 輸出四字
index2 = text2_list.index(text2_list[i], i+1)   # 索引
print(text2_list[index2], text2_list[index2-(index2%4):index2-(index2%4)+4])   # 重複的字所在四字
num += 1
print(num)

list.index() 方法，第乙個引數為值，第二三（可選）分別為查詢的開始和終點位置

對於有重複值的list索引，另一種更直接的方法，採用enumerate()：

結果：

Python Word文件重複字檢測程式

要求 1.使用外接庫python docx 2.將檢測演算法封裝為函式並呼叫此函式實現功能 3.連續重複字刪除到只剩乙個 4.自定義指定某個字或詞，輸出出現次數 5.word文件不限，建議使用正規表示式實現演算法 2.展示 import docx import re class solution ...

guid會重複麼 SCI重複多少字算抄襲

發表sci 是很多人的夢想和目標，但是我們都知道sci對文章的要求是非常高的，文章必須具備很高的學術價值才行，也就是說文章的原創度要夠高，但超高的原創度對於廣大普通作者來說似乎有點兒不大現實，我們或多或少都會引用別人的文獻，既然引用，就存在引用率過高的可能性，sci重複多少字算抄襲?sci文章檢測重...

sql DISTINCT 關鍵字去掉重複的列

distinct關鍵字主要用來從select語句的結果集中去掉重複的記錄。如果使用者沒有指定distinct關鍵字，那麼系統將返回所有符合條件的記錄組成結果集，其中包括重複的記錄。記錄一下工作中用到的sql語句吧，下面sql實現了去掉重複列id後顯示的資料。select distinct u.id,...

Python檢測重複字 部分中華字經重複字檢測

Python Word文件重複字檢測程式

guid會重複麼 SCI重複多少字算抄襲

sql DISTINCT 關鍵字去掉重複的列

相關推薦

Python檢測重複字部分中華字經重複字檢測