資料科學讀取資料的若干方式

讀取excel資料

我們知道資料科學研究中我們最常用的工具就是python，所以這裡講解一下一些讀取資料的方法——下面使用jupyter notebook進行資料讀取的小實驗

開啟檔案的基本語法：

file
=open
('輸入檔案所在的路徑',[
, mode],[
, buffering]
)例子：file
=open
('data.txt',[
, r+
])

後面的模式跟c語言中的讀寫模式一樣，常用的讀寫模式有：

三種python自帶的檔案讀取方法：

檔案的關閉

我們可以使用with來完成開啟和關閉：

with
open
('data.txt'
)as fn:
content = fn.read(
)

讀取完畢後會自動關閉檔案

理論上，python可以讀取任意型別的資料檔案，但這裡常常讀取格式化的文字資料檔案為主，一般是.txt .csv .tsv為副檔名的檔案

大致有三種方法：

這裡展示了前面兩個的用法：

常用方法：

剩下的讀取方法從方法名字就知道他們是讀取哪類資料的

可以看到我們可以使用pandas的read_excel來獲取，我們也可以使用另乙個專門讀取excel的包來讀取，比如：xlrd xlwt pyexcel-xls xluntils pyexcel-erator等，這裡使用xlrd作為例子

anaconda中內建了兩個模組：xlrd xlwt

import xlrd
xlsx = xlrd.open_workbook(
'file_name.xlsx'
)print
(xlsx.sheet_names)

這裡展示了一些探索資料的方法

可以使用urllib urllib2 requests等庫，具體可以看我爬蟲的系列文章：

使用requests獲取網頁資料

使用pillow來讀取

2.使用opencv讀取影象

Mars 加速資料科學的新方式

說到加速資料科學的新方式，就不得不說什麼是資料科學，以下是維基的定義資料科學通過運用各種相關的資料來幫助非專業人士來理解問題。第一，它的目標是從資料中提取輸入價值的部分，第二，它要生產資料產品，第三它結合了非常多重要的技術，包括數學統計機器學習視覺化，最後，它需要真正解決問題。它包含三個方面...

資料科學什麼是資料科學？

資料是現實世界運轉留下的痕跡。這些痕跡如何展示出來，則取決於我們採用什麼樣的資料收集和樣本採集方法。將具象的資料轉化為抽象的資料，過程是絕對主觀的。統計推斷關注的是如何從隨機過程產生的資料中提取資訊。關於建模資料即資訊，不需要模型，了解相關性就夠了。anderson 這是錯誤的想法。什麼是模型模...

資料清洗資料科學

資料清洗 data cleansing 指刪除更正資料庫中錯誤不完整格式有誤或多餘的資料。資料清洗不僅僅更正錯誤，同樣加強來自各個單獨資訊系統不同資料間的一致性。專門的資料清洗軟體能夠自動檢測資料檔案，更正錯誤資料，並用全企業一致的格式整合資料。wikipedia 資料清理的第一步是從資料集中...

資料科學 讀取資料的若干方式

Mars 加速資料科學的新方式

資料科學 什麼是資料科學？

資料清洗 資料科學

相關推薦

資料科學讀取資料的若干方式

資料科學什麼是資料科學？

資料清洗資料科學