基於語料庫的工作
2023年11
月20日
21:28
詞幹化:諸如
sit,
sits
,sat
這樣的詞是否應該被視作相同的詞??
一般認為,這個想法在語義學上是有意義的。
一般把這個過程成為詞幹化 ps
:是否應該注意到
seated
和sit
之間的不強的關聯性呢??
station
和stationary
之間的關聯性???
非派生詞之間也可能有語義上的關聯。如英語中的希臘語數詞tri qua等詞綴。
另外,在中文中乙個字本身的意義和字形之間有個晦澀的不十分強的關係。而多個字之間是個很強的類似與派生的組合關係,在處理上和西語不同。
原始語料庫
第一步 判斷資料中是否存在重複資料 建立python檔案 框架 author kzb time 2018 12 10 import pandas as pd import os,csv datapath os.path.join 音譯原始資料.csv def import data datapath...
單語種語料庫 平行語料庫 多語種語料庫 可比語料庫
單語種語料庫 monolingual 僅包含一種語言的文字。平行語料庫 parallel 包含兩個單語種語料庫,乙個語料庫是另乙個語料庫的翻譯。兩種語言都需要對齊,即相應的片段,通常是句子或段落需要匹配。多語種語料庫 multilingual 包含多種語言的文字,且都是相同文字的翻譯,存在與平行語料...
如何建語料庫 如何建立自己的語料庫?
謝邀。按照語料的語種,語料庫可以分成單語語料庫 雙語語料庫和多語語料庫。單語與雙語或多語語料庫之間的區別在於語料庫本身所包含的語言數量。凡語料僅為單一語言的語料庫屬於單語語料庫 語料為兩種語言的則稱為雙語語料庫 若兩種語言的文字互相是對方的譯文,則該語料庫屬於雙語平行語料庫 三種及三種以上的為多語語...