一、資料獲取
1.本地資料
with 語句,pd.read_csv('data.csv')
2.**上資料
2.1 直接獲取網頁原始碼,在用正規表示式進行刪選
2.2 api介面獲取---以豆瓣為例
import requests
r=requests.get(
其他電影或者**可以直接網上搜尋豆瓣api,會有相應教程教你如何使用,切記要直接看官網的
3.nltk 語料庫(自然語言工具包)
需要首先pip install nltk
包括古藤保語料庫,布朗語料庫,路透社語料庫,這些都可以在檢視其官網上看
二、資料準備
2.1 修改列索引和行索引
data.index=range(1,len(data)+1)
cols=['code',『name』,'lasttrade']
2.2 建立時間序列
import pandas as pd
dates=pd.date_range('20170520',periods=7) 建立了7個連續時間序列
建立乙個dataframe時間二維表
data=pd.dataframe(np.random.randn(7,3),index=dates,colums=list('abc'))
三、資料顯示
3.1 一維資料
data.head(5) 檢視前5個;data.tail(5) 檢視後5個;data.shape 維度;data.size 個數;
3.2 二維資料
loc類和iloc類,前者可以用標籤,後者只能用物理位置的引數
data.loc[1:5,['code','lasttrade']]
data.loc[1:6,[0,2]]
data.iat[1,'code'] 選擇乙個之可以有iat也可以用loc類
/// data.iloc[1:5,[0,2]] 中括號裡面只能是數字
四、分組grouping
data.groupby('month').count()
concat是連線兩個碎片,pd.concat([pieces1,pieces2],igonre_index=true)
join兩張表合併,必須要有相同的字段
pd.merge(data.drop(['code'],axis=1),data2,on='code') 給予code將data1和data2兩張表合併,並且將data1中code列刪除
《用Python玩轉資料》學習筆記第3周Part1
1 前面我們學到了乙個函式的argument前面有 表示可變長的元組。今天學到了如果argument前面有 則表示可變長的字典。deffunc args1,args2,args3 print args1 print args2 print args3 func a b c d 1,e 2,f 3 a...
用Pyton玩轉資料練習題 第二週
找前5個默尼森數。p是素數且m也是素數,並且滿足等式m 2 p 1,則稱m為默尼森數。例如,p 5,m 2 p 1 31,5和31都是素數,因此31是默尼森數。1 coding utf 8 2import math34 defisprime n 5if n int n or n 1 6return ...
精英計畫第五周資料結構試驗總結 飛鷹組
本週 2010 8 16到2010 8 20 試驗分為兩個階段,第一階段 前兩天 主要是大家一起學習 資料結構。第二階段 後三天 我們結合所學到的資料結構知識完成乙個小型的專案 模擬操作系 統執行 第一階段,我們把資料結構中從線性表到樹 還包括排序 的內容分給組內的各個成員,讓他們 完成各自的tas...