如今,世界上存在兩種中文,一種是中文簡體,一種是中文繁體。如果要完全掌握中文語言的自然語言處理,那麼簡繁都不可避免。所以,掌握了簡體與繁體的轉換,往往能夠事半功倍。
而hanlp也提供了簡繁轉換的類:chartable,用它來執行字元正規化。比如簡體轉換繁體,全形轉換半形,大寫轉換小寫,都可以使用該類來實現。
下面,我們來直接使用chartable進行一段詩詞的繁體到簡單的轉換。具體**如下所示:
if __name__ == "__main__":
chartable=jclass('com.hankcs.hanlp.dictionary.other.chartable')
prvjdmmyaint(chartable.convert('空山新雨後,天氣晚來秋。明月松間照,清泉石上流。 竹喧歸浣女,蓮動下漁舟。隨意春芳歇,王孫自可留。'))
執行之後,效果如下:
不過,繁體發展並不是僅僅只有一種。漢語歷史悠久,發展至今在字元級別存在著「一簡對多個繁體」和「一繁對多簡」的現象。為此,hanlp實現了「簡體」、「繁體」、「台灣繁體」、「香港繁體」間的互相轉換功能,力圖將簡繁轉換做到極致。
hanlp中文分類如下:
盡然有這種多繁體,那麼轉換起來也肯定有很多種。下面,我們來分別實現這些字型之間的互相轉換。完整**如下所示:
if __name__ == "__main__":
text_tw="空山新雨後,天氣晚來秋。明月松間照,清泉石上流。 竹喧歸浣女,蓮動下漁舟。隨意春芳歇,王孫自可留。"
text_sc = "空山新雨後,天氣晚來秋。明月松間照,清泉石上流。 竹喧歸浣女,蓮動下漁舟。隨意春芳歇,王孫自可留。"
text_hk="空山新雨後,天氣晚來秋。明月松間照,清泉石上流。 竹喧歸浣女,蓮動下漁舟。隨意春芳歇,王孫自可留。"
text_st="空山新雨後,天氣晚來秋。明月松間照,清泉石上流。 竹喧歸浣女,蓮動下漁舟。隨意春芳歇,王孫自可留。"
#簡體轉台灣繁體
print(hanlp.s2tw(text_sc))
#台灣繁體轉簡體
print(hanlp.tw2s(text_tw))
#簡體轉香港繁體
print(hanlp.s2hk(text_sc))
#香港繁體轉簡體
print(hanlp.hk2s(text_hk))
#香港繁體轉台灣繁體
print(hanlp.hk2tw(text_hk))
# 台灣繁體轉香港繁體
print(hanlp.tw2hk(text_tw))
#香港台灣繁體轉標準繁體轉換
print(hanlp.tw2t(text_tw))
print(hanlp.hk2t(text_hk))
# 標準繁體轉換轉香港台灣繁體
print(hanlp.t2tw(text_st))
print(hanlp.t2hk(text_st))
執行之後,效果如下:
簡繁體轉換
這篇文章的題目應該叫中文 中國大陸 中文 中國台灣 字符集的轉換。因為如果僅僅是簡繁體的轉換,那麼友好多的文章都叫你去呼叫microsoft.visualbasic.strings.strconv,殊不知,他只是把中文 中國大陸 中的簡體字轉換成了中文 中國大陸 中的繁體字,這是治標不治本的做法。下...
php簡繁體轉換
實現簡體轉繁體,繁體到轉體 2007 12 27 16 34 function gb2big5 text else text i gb 0 text i 1 gb 1 i fclose fp return text 簡體轉繁體 end 繁體轉簡體 start function big52gb tex...
SQL簡繁體轉換
sql簡體繁體轉換函式 set quoted identifier on goset ansi nulls on go 簡繁轉換函式 利用編碼對照表,實現 簡體 繁體,繁體 簡體 的轉換 呼叫示例 轉換為繁體 select dbo.f gb2big 我是中國人 1 轉換為簡體 select dbo....