第一步:
判斷資料中是否存在重複資料
建立python檔案–
**框架
'''
author: kzb
time: 2018-12-10
'''import pandas as pd
import os,csv
datapath = os.path.join(
"音譯原始資料.csv"
)def
import_data
(datapath)
:'''
匯入檔案中的資料
return:dataframe
'''pass
deffind_en_cn_excess
(dataframe)
:'''
查出enname、cnname列中存在多餘資料的項
例如:「abaagu,」、「阿布(教名abijah、able、abner、absalom的暱稱)」
param:dataframe
return:dataframe
'''pass
defwrite_to_file
(dataframe)
:'''
將資料寫入檔案中
param:dataframe
'''pass
defmain()
:'''
程式入口
'''pass
if __name__ ==
'__main__'
: main(
)
單語種語料庫 平行語料庫 多語種語料庫 可比語料庫
單語種語料庫 monolingual 僅包含一種語言的文字。平行語料庫 parallel 包含兩個單語種語料庫,乙個語料庫是另乙個語料庫的翻譯。兩種語言都需要對齊,即相應的片段,通常是句子或段落需要匹配。多語種語料庫 multilingual 包含多種語言的文字,且都是相同文字的翻譯,存在與平行語料...
如何建語料庫 如何建立自己的語料庫?
謝邀。按照語料的語種,語料庫可以分成單語語料庫 雙語語料庫和多語語料庫。單語與雙語或多語語料庫之間的區別在於語料庫本身所包含的語言數量。凡語料僅為單一語言的語料庫屬於單語語料庫 語料為兩種語言的則稱為雙語語料庫 若兩種語言的文字互相是對方的譯文,則該語料庫屬於雙語平行語料庫 三種及三種以上的為多語語...
如何建語料庫 如何建立自己的語料庫?
不知道題主具體問的是什麼考試的語料庫,我從自己考托福的角度出發,說說托福寫作語料庫的建立吧。一 為什麼要建立自己的語料庫?英語寫作雖然不要求像高考作文那樣寫800到1000字,但是對字數都還是有一定的要求的。要擺脫小學生作文,流水賬的作文,就必須給自己建立語料庫。要麼,是給了你論點然後加上簡單的例子...