f1=
open
(r'c:\users\langgoubao\desktop\senior_data.txt'
,'r'
,encoding=
'utf-8'
)#開啟原始檔
f=open
(r'c:\users\langgoubao\desktop\senior.txt'
,'w'
,encoding=
'utf-8'
)#開啟寫入檔案
for line in
file
.readlines():
if line.split():
#過濾空行 (不是空行,開始處理)
因為轉碼問題,或者本身作文中存在的問題,有很多不規則符號,比如多個問號相連線,還存在一些英文的標點,需要將其轉化為中文的標點。
ch=
['???'
,'? ? ?'
,'??'
,'???'
,','
,'!'
,':'
,'?'
]for i in ch:
if i in line and i is
'???'
: line=line.replace(
'???',''
)#去除不規則轉碼的字元
if i in line and i is
'? ? ?'
: line=line.replace(
'? ? ?',''
)#去除不規則轉碼的字元
if i in line and i is
'??'
: line=line.replace(
'??'
,','
)#去除不規則轉碼的字元
if i in line and i is
'???'
: line=line.replace(
'???',''
)#去除不規則轉碼的字元
if i in line and i is
',':
line=line.replace(
',',
',')
#將英文標點轉化為中文標點
if i in line and i is
'!':
line=line.replace(
'!',
'!')
#將英文標點轉化為中文標點
if i in line and i is
':':
line=line.replace(
':',
':')
#將英文標點轉化為中文標點
if i in line and i is
'?':
line=line.replace(
'?',
'?')
#將英文標點轉化為中文標點
有一些作文中,小學生寫感嘆號十分口語化,寫感嘆號總是把多個感嘆號寫在一其,比如:今天真的好開心啊!!!!,這裡不能直接把多個感嘆號一起去掉,需要在迴圈中逐個刪除,只保留最後乙個。
#處理多個感嘆號的情況
while
'!!'
in line:
line=line.replace(
'!!'
,'!'
)#去除不規則轉碼的字元
#轉換英文雙引號為中文雙引號,都是成對出現
count =
1for i in line:
if i is
'"'and count%2==
1:#前引號
line=line.replace(
'"',
'「')
#將英文標點轉化為中文標點
count = count+
1#計數器遞增
if i is
'"'and count%2==
0:#後引號
line=line.replace(
'"',
'」')
#將英文標點轉化為中文標點
#解決編碼導致的錯誤,兩個標點連線在一起,只保留前乙個
c=["!"
,"?"
,"。"
]for k in c:
for p in c:
a=k+p
if a in line:
print
(line)
line=line.replace(a, k)
#將英文標點轉化為中文標點
print
(line)
line=line.lstrip(
)#去除開頭的空格
f.write(line)
f.close(
)f1.close(
)
經過上述步驟,得到如下的小學生資料
高年級:
低年級:
ps
小學生作文
今天,有在微博上頒發了一篇小 作文,作文標題是 文章出軌 作文中呈現 小三 找葷吃 等敏感詞彙,有從容無言地問 這孩子懂這些詞的意思嗎?記者得悉,該篇作文的作者是邳州某小學的一名五年級 據知戀人田密斯披露,這名男終身常額外歡快喜愛上彀,尤其是歡快喜愛瀏覽娛樂音訊。如今的孩子太早熟了。揚子晚報 孫雲曉...
小學生作文
今天,有在微博上頒發了一篇小 作文,作文標題是 文章出軌 作文中呈現 小三 找葷吃 等敏感詞彙,有從容無言地問 這孩子懂這些詞的意思嗎?記者得悉,該篇作文的作者是邳州某小學的一名五年級 據知戀人田密斯披露,這名男終身常額外歡快喜愛上彀,尤其是歡快喜愛瀏覽娛樂音訊。如今的孩子太早熟了。揚子晚報 孫雲曉...
小學生作文
今天,有在微博上頒發了一篇小 作文,作文標題是 文章出軌 作文中呈現 小三 找葷吃 等敏感詞彙,有從容無言地問 這孩子懂這些詞的意思嗎?記者得悉,該篇作文的作者是邳州某小學的一名五年級 據知戀人田密斯披露,這名男終身常額外歡快喜愛上彀,尤其是歡快喜愛瀏覽娛樂音訊。如今的孩子太早熟了。揚子晚報 孫雲曉...