使用pandas包進行處理:
1.讀取限定列:file = pd.read_csv('demo.csv',usecols=['column1', 'column2', 'column3'])
2.讀取限定行: file = pd.read_csv('demo.csv',nrows=1000,usecols=['column1', 'column2', 'column3']) #此時讀取的是前1000行資料,可以作為測試
3.分塊讀取:
reader = pd.read_csv('demo.csv',nrows=1000,
usecols=['column1','column2','column3'],
chunksize=1000,iterator=true) #此時chunksize=1000指定了塊的大小
4.使用head和tail函式讀取小部分資料觀察其特徵
python實現Simhash處理大規模文字相似度
simhash 顧名思義,通過hash值比較相似度,通過兩個字串得出來的hash值,進行異或操作,然後得到相差的個數,數字越大則差異越大。1 用分詞工具 jieba nlpir 哈工大分詞器等 對字串進行分詞 去除停用詞,英文除外 seg jieba.cut str keyword jieba.an...
python如何處理異常
利用python捕獲異常的方式 方法一 捕獲所有的異常 1 2 3 4 5 6 7 8 捕獲異常的第一種方式,捕獲所有的異常 try a b b c exceptexception,data printexception,data 輸出 type exceptions.exception local...
python時間如何處理 python 時間處理
time模組 獲取時間 time.time 獲取當前時間的時間戳 time.strftime y m d h m s 獲取格式化後的字元 type str time.localtime 獲取元組形式的時間 time.gmtime 將時間轉換成utc格式的元組格式時間 importtimeprint ...