0. 輸入與輸出大致可分為三類:
0.1 讀取文字檔案和其他更好效的磁碟儲存格式
2.2 使用資料庫中的資料
0.3 利用web api操作網路資源
1. 讀取文字檔案和其他更好效的磁碟儲存格式pandas提供了一些用於將**型資料讀取為dataframe物件的函式。
1.1 pandas中的解析函式:
read_csv 從檔案、url、檔案型物件中載入帶分隔符的資料。預設分隔符為逗號
read_table 從檔案、url、檔案型物件中載入帶分隔符的資料。預設分隔符為製表符("\t")
read_clipboard 讀取剪貼簿中的資料,可以看做read_table的剪貼簿版。在將網頁轉換為**時很有用
其中,read_csv、read_table使用較多。
1.2 逐塊讀取文字檔案
讀取幾行nrows
逐塊讀取chunksize(行數)
1.3 將資料寫到文字格式
利用dataframe的to_csv
2. 使用資料庫中的資料2.1 使用關係型資料庫中的資料,可以使用python sql驅動器(pyodbc、psycopg2、mysqldb、pymssql等)
2.2 使用非關係型資料庫中的資料,如mongodb,用其官方驅動器pymongo通過預設埠進行連線。
3. 利用web api操作網路資源3.1 應用lxml.html處理html
步驟:1)利用urllib2將url開啟,然後由lxml解析得到資料流
2)得到url和鏈結文字
使用文件根節點的findall方法以及乙個xpath,以及個物件的get方法(針對url)和text_content方法(針對顯示文字)
3)通過反覆試驗從文件中找到正確**
4)將所有步驟結合起來,將資料轉換為乙個dataframe
3.2 應用lxml.objectify處理xml
1)使用lxml.objetify解析檔案
2)通過getroot得到xml檔案的根節點
3.3 使用**通過jsom及其他格式提供資料的公共的api
使用requests包訪問這些api
Python之pandas資料載入 儲存
0.輸入與輸出大致可分為三類 0.1 讀取文字檔案和其他更好效的磁碟儲存格式 2.2 使用資料庫中的資料 0.3 利用web api操作網路資源1.讀取文字檔案和其他更好效的磁碟儲存格式pandas提供了一些用於將 型資料讀取為dataframe物件的函式。1.1 pandas中的解析函式 read...
Python 資料框之Pandas包
2.刪除 賦值 3.資料框的其他操作 從r語言轉戰python的小夥伴們,經常會遇到資料格式轉換上的問題。與r語言常用資料框格式不同,python以陣列矩陣儲存資料為主。但是python也是相容資料框格式,需要使用到pandas包。下面介紹幾種資料框的常用操作。df.columns 提取列名 df....
python資料分析之pandas
matplotlib inline import pandas as pd import numpy as np import matplotlib.pyplot as plt 1.建立dataframe dates pd.date range 20200401 periods 6,freq 2d ...