讀取excel資料
我們知道資料科學研究中我們最常用的工具就是python,所以這裡講解一下一些讀取資料的方法——下面使用jupyter notebook進行資料讀取的小實驗
開啟檔案的基本語法:
file
=open
('輸入檔案所在的路徑',[
, mode],[
, buffering]
)例子:file
=open
('data.txt',[
, r+
])
後面的模式跟c語言中的讀寫模式一樣,常用的讀寫模式有:
三種python自帶的檔案讀取方法:
檔案的關閉
我們可以使用with來完成開啟和關閉:
with
open
('data.txt'
)as fn:
content = fn.read(
)
讀取完畢後會自動關閉檔案
理論上,python可以讀取任意型別的資料檔案, 但這裡常常讀取格式化的文字資料檔案為主, 一般是.txt .csv .tsv為副檔名的檔案
大致有三種方法:
這裡展示了前面兩個的用法:
常用方法:
剩下的讀取方法從方法名字就知道他們是讀取哪類資料的
可以看到我們可以使用pandas的read_excel來獲取,我們也可以使用另乙個專門讀取excel的包來讀取,比如:xlrd xlwt pyexcel-xls xluntils pyexcel-erator等,這裡使用xlrd作為例子
anaconda中內建了兩個模組:xlrd xlwt
import xlrd
xlsx = xlrd.open_workbook(
'file_name.xlsx'
)print
(xlsx.sheet_names)
這裡展示了一些探索資料的方法
可以使用urllib urllib2 requests等庫,具體可以看我爬蟲的系列文章:
使用requests獲取網頁資料
使用pillow來讀取
2.使用opencv讀取影象
Mars 加速資料科學的新方式
說到加速資料科學的新方式,就不得不說什麼是資料科學,以下是維基的定義 資料科學通過運用各種相關的資料來幫助非專業人士來理解問題。第一,它的目標是從資料中提取輸入價值的部分,第二,它要生產資料產品,第三它結合了非常多重要的技術,包括數學 統計 機器學習 視覺化,最後,它需要真正解決問題。它包含三個方面...
資料科學 什麼是資料科學?
資料是現實世界運轉留下的痕跡。這些痕跡如何展示出來,則取決於我們採用什麼樣的資料收集和樣本採集方法。將具象的資料轉化為抽象的資料,過程是絕對主觀的。統計推斷 關注的是如何從隨機過程產生的資料中提取資訊。關於建模資料即資訊,不需要模型,了解相關性就夠了。anderson 這是錯誤的想法。什麼是模型 模...
資料清洗 資料科學
資料清洗 data cleansing 指刪除 更正資料庫中錯誤 不完整 格式有誤或多餘的資料。資料清洗不僅僅更正錯誤,同樣加強來自各個單獨資訊系統不同資料間的一致性。專門的資料清洗軟體能夠自動檢測資料檔案,更正錯誤資料,並用全企業一致的格式整合資料。wikipedia 資料清理的第一步是從資料集中...