(1)、在windows下的csv檔案,預設開啟方式是gbk格式,在linux下開啟的檔案預設是utf-8的格式。所以windows下的格式在linux下會出現中文亂碼的現象。使用iconv命令對整個檔案進行轉碼的操作。
sudo iconv -f gbk -t utf-
8 d_train_20180102.csv -o new_d_train.csv
後面的第乙個csv為需要轉碼操作的檔案,後面的為生成的新檔案。
(2)、對xls檔案的內容操作
import xlrd
data = xlrd.open_workbook('data.xls')
grade =
lik =
sheet = data.sheet_by_index(0) #此語句可以將xls按照索引進行查詢
s = '優秀'
#判斷某乙個單元格的內容
s_utf8 = s.encode('utf-8') #中文的內容需要就行轉碼操作才能進行比較
print(sheet.nrows) #列印列數
for i in range(1, sheet.nrows):
if sheet.cell(i, 7).value.encode('utf-8') == s_utf8: #把單元格的內容進行轉碼操作
else:
s2 = '是'
s2_utf8 = s2.encode('utf-8')
for i in range(1, sheet.nrows):
if sheet.cell(i, 9).value.encode('utf-8') == s2_utf8:
else:
(3)、csv檔案的處理
import numpy as npimport pandas as pd
train = pd.read_csv('train.csv')
#iloc是基於索引位來選取資料集,0:4就是選取 0,1,2,3這四行
#後面的兩個引數是多少行多少列
train = train.iloc[:-1, :-1]
#np.array可以將形成的矩陣的第一列自帶的行號去掉
print(np.array(train))
train = pd.read_csv('train.csv')
#train.columns是csv檔案中的資料標籤 axis=1表示的是列,不加的話預設為行
#drop函式的好處是不改變檔案的內容,而是返回了乙個新的pandas的解析型別,可以去獲得該變數
train = train.drop(labels= train.columns[-1], axis=1)
print(np.array(train))
xls與csv檔案的區別
在ax中,經常會使用者報表匯出格式為csv個xls格式。他們的效能相差很大,我認為csv是非常高效的格式,而xls效能雖比csv差很多,但xls可以把格式做得很完美。現在我將兩種不同格式做一些整理,希望對你們有點用。xls 檔案就是microsoft excel電子 的檔案格式。我想就不用多介紹了吧...
xls與csv檔案的區別
csv是文字檔案,用記事本就能開啟。xls 是二進位制的檔案只有用 excel 才能開啟 csv 檔案格式只能儲存活動工作表中的單元格所顯示的文字和數值。xls 中所有的資料行和字元都將儲存。資料列以逗號分隔,每一行資料都以回車符結束。如果單元格中包含逗號,則該單元格中的內容以雙引號引起。如果單元格...
python讀取XLS檔案或CSV檔案
file obj request.files.get uploadcsv 如果傳入的是xls檔案 import xlrd 1.讀取xls內容 bk xlrd.open workbook file contents file obj.read 2.或者是告訴它檔案路徑,如下 bk xlrd.open ...