資料科學 讀取資料的若干方式

2021-10-24 22:34:13 字數 1552 閱讀 8141

讀取excel資料

我們知道資料科學研究中我們最常用的工具就是python,所以這裡講解一下一些讀取資料的方法——下面使用jupyter notebook進行資料讀取的小實驗

開啟檔案的基本語法:

file

=open

('輸入檔案所在的路徑',[

, mode],[

, buffering]

)例子:file

=open

('data.txt',[

, r+

])

後面的模式跟c語言中的讀寫模式一樣,常用的讀寫模式有:

三種python自帶的檔案讀取方法:

檔案的關閉

我們可以使用with來完成開啟和關閉:

with

open

('data.txt'

)as fn:

content = fn.read(

)

讀取完畢後會自動關閉檔案

理論上,python可以讀取任意型別的資料檔案, 但這裡常常讀取格式化的文字資料檔案為主, 一般是.txt .csv .tsv為副檔名的檔案

大致有三種方法:

這裡展示了前面兩個的用法:

常用方法:

剩下的讀取方法從方法名字就知道他們是讀取哪類資料的

可以看到我們可以使用pandas的read_excel來獲取,我們也可以使用另乙個專門讀取excel的包來讀取,比如:xlrd xlwt pyexcel-xls xluntils pyexcel-erator等,這裡使用xlrd作為例子

anaconda中內建了兩個模組:xlrd xlwt

import xlrd

xlsx = xlrd.open_workbook(

'file_name.xlsx'

)print

(xlsx.sheet_names)

這裡展示了一些探索資料的方法

可以使用urllib urllib2 requests等庫,具體可以看我爬蟲的系列文章:

使用requests獲取網頁資料

使用pillow來讀取

2.使用opencv讀取影象

Mars 加速資料科學的新方式

說到加速資料科學的新方式,就不得不說什麼是資料科學,以下是維基的定義 資料科學通過運用各種相關的資料來幫助非專業人士來理解問題。第一,它的目標是從資料中提取輸入價值的部分,第二,它要生產資料產品,第三它結合了非常多重要的技術,包括數學 統計 機器學習 視覺化,最後,它需要真正解決問題。它包含三個方面...

資料科學 什麼是資料科學?

資料是現實世界運轉留下的痕跡。這些痕跡如何展示出來,則取決於我們採用什麼樣的資料收集和樣本採集方法。將具象的資料轉化為抽象的資料,過程是絕對主觀的。統計推斷 關注的是如何從隨機過程產生的資料中提取資訊。關於建模資料即資訊,不需要模型,了解相關性就夠了。anderson 這是錯誤的想法。什麼是模型 模...

資料清洗 資料科學

資料清洗 data cleansing 指刪除 更正資料庫中錯誤 不完整 格式有誤或多餘的資料。資料清洗不僅僅更正錯誤,同樣加強來自各個單獨資訊系統不同資料間的一致性。專門的資料清洗軟體能夠自動檢測資料檔案,更正錯誤資料,並用全企業一致的格式整合資料。wikipedia 資料清理的第一步是從資料集中...