基於python的資料分析
1.為什麼要進行資料分析
簡答:人工智慧,大資料等資料的採集需要資料 -----資料通過python分析而來–進行資料的清洗操作----建立資料模型model
-----生成乙個目標資料----**未來—得到結果
2.企業資料存在的形式
(1):存在『檔案』例如:excel word csv txt…
(2):資料庫 例如:mysql oracle db2 sqlserver…
3.資料解析之read_table read_excel
(1):再資料分析裡面分析讀取文字資料用:
read_table --也可以快速讀取大資料,海量資料,人工智慧的資料集
read_excel --是指定讀取excel型別的資料
傳統的大資料開發就是再excel裡面進行資料分析,所以excel可以處理大資料庫~
(2):在以上兩個方法裡面。可以通過names屬性給列起名稱,方便資料的讀取
(3):匯入csv檔案型別
i.處理資料的編碼格式方法
通過editsplus或者ue開發工具可以進行編碼的切換 —開發天天使用
對於大資料的資料集不能利用轉碼的**機制去直接轉碼,這樣導致伺服器,資料等傳送異常情況1 --建議使用第三方工具直接運算元據集–面試問
ii:匯入csv的檔案需要通過read_csv
思考:csv和word excel wps txt 等通過那個資料集更好?
csv自身可以處理編碼問題
總結:read_table /excel/csv 等,全部返回值是dataframe
4.到模組/導包的區別
from pandas import dataframe
import pandas as pd
備註:to_csv不僅僅將手動建立的檔案資料,也可以將受到建立的檔案,通過資料存放至指定檔案 建議大量使用!安全資料維護簡單
df.to_csv(『e:/pythondata01/hello.txt』)
df.to_csv(『e:/pythondata01/hello.xls』)
df.to_csv(『e:/pythondata01/hello.xlsx』)
注意:1.匯出的檔案格式不受限制,可以通過to_csv進行匯出不同檔案型別
2.通過csv可以匯出任意型別的檔案。所以csv匯出檔案首選
5: 除去重複資料
df10=pd.read_csv(『d:/pythondata01/data.csv』)
newdfdata=df10.drop_duplicates()#此方法可以除去重複資料
print(『新資料:』,newdfdata)
6:資料抽取 通過slice方法 ,但是資料抽取之前必須將資料轉化為str
通過astype(str)-通過index抽取、----資料在列表裡面
df11=read_csv(『d:/pythondata01/datap.csv』)
#df[『tel』] = df[『tel』].astype(str);
#astype(str)表示的將資料轉化為字串 ----**號碼、身份證等都是字串組成,而不是整數
#結果:還是需要將乙個完整的資料進行拼接----拼接—自然是字串操作!
7:資料字段拆分
newdf12 = df12[『name』].str.split(』 『, 2, true);
newdf13 = df13[『name』].str.split(』 『, 1, false);
總結 newdf12 = df12[『name』].str.split(』 『, 2, true); --資料拆分可讀性差
newdf13 = df13[『name』].str.split(』 ', 1, false); --資料拆分可讀性很好
好文要頂 關注我 收藏該文
Python環境安裝Spyder
spyder scientific python development environment 是乙個強大的互動式 python 語言開發環境,提供高階的 編輯 互動測試 除錯等特性,支援包括 windows linux 和 os x 系統。ps,winpython裡就內建spyder編譯器。1 ...
使用Spyder進行Python除錯
相對於pydev pycharm ptvs這些軟體,spyder對記憶體的需求要小很多,而且也很簡單易學。下面做一些簡單的介紹。1 首先是建立工程 單擊 file newproject 在首次建立工程的時候會要求選擇工作空間,您可以選擇預設或者建立新的工作空間 然後就可以在文件中加入 並執行 也可以...
python學習之基礎之spyder
1,安裝anacoda後測試,安裝詳細見 開啟spyder,新建檔案,測試 執行 視窗 2,新建乙個test.py,測試 test.py print hello word sum tmp 0 for i in range 1,101,1 sum tmp i print sum tmp 字串的定義和引...