Python關於list裡面的unicode編碼

利用python2.7結巴分詞對文字分詞之後存進list列表裡面

import jieba
seg_list = jieba.cut("網路，讓我們之間的距離變的如此之近，也如此遙遠。")
a = [i for i in seg_list]
a = str(a).replace('u\'','\'')  
s = a.decode("unicode-escape")  
print s

此時seg_list是乙個生成器generator。如果不存進列表直接一次性列印的話，需要新增print ' '.join(seg_list)。

存進列表之後如果只是到了第乙個a就輸出的話，結果如下：

[u'\u7f51\u7edc', u'\uff0c', u'\u8ba9', u'\u6211\u4eec', ...]

此時如果直接索引的話，列印出來是正常中文，如print a[0]。

為了將list裡面的字串更換為中文，需要先將前面的u替換為空，之後利用decode函式解碼，結果如下：

['網路', '讓', '我們', '之間', '的', '距離', '變', '的', '如此', '之近', '，', '也', '同時', '讓', '我們', '變', '的', '如此', '遙遠', '。']

此時list全部變成unicode格式。如果文字包含標點符號也能分得出來，例如，「清峪路260-278號（雙）、258弄33、35號」，結果如下：

['清峪路', '260', '-', '278', '號', '（', '雙', '）', '、', '258', '弄', '33', '、', '35', '號']

結巴分詞如果需要去掉標點符號，則在jieba.cut加上引數：

seg_list = jieba.cut("清峪路260-278號（雙）、258弄33、35號",cut_all=true)

Python裡面的字典

python 將這種資料型別叫做 dict 有的語言裡它的名稱是 hash 這兩種名字都會用到，不過這並不重要，重要的是它們和列表的區別。你看，針對列表你可以做這樣的事情 things a b c d print things 1 b things 1 z print things 1 z prin...

python裡面的數學

一.基本運算子 1.算數運算 2.比較運算特殊情況不等於新版本不支援不等號 3.賦值運算 4.邏輯運算 not 非非真即假,非假即真.and 並且左右兩端同時為真,結果才為真.or 或者左右兩端有乙個為真,結果就是真.true 真 1 判斷的結果 false 假 0 判斷的結果 pri...

關於channel裡面的策略

關於channel裡面的策略 channel裡面的配置主要在data.data 0 pyload.data.config裡面。config是由groups遞迴形成的。groups的結構如下 groups 下一層 mod policy 當前層發生改變時，需要執行的策略名稱 policies 當前層策略...

Python關於list裡面的unicode編碼

Python裡面的字典

python裡面的數學

關於channel裡面的策略

相關推薦