什麼是資料分析與資料探勘
資料分析:對已知資料進行分析,然後提取一些有價值的資訊;(比如:統計出平均數;標準差等資訊)
資料探勘:對大量的資料進行分析挖掘,得到一些未知的,有價值的資訊等。(比如從**的使用者或使用者行為資料中挖掘出使用者其潛在需求資訊,從而對**進行改善)—已知到未知
關係:
資料分析和資料探勘密不可分,資料探勘是資料分析的提公升。
能做什麼:
發現有聯絡事物之間的規律;資料規律的探索;發現竊電使用者;發掘使用者潛在需求;實現資訊的資料化推送;疾病與藥物之間的關係·······等等
資料探勘的過程:
1,numpy可以高效的處理資料,提供陣列支援,很多模組都依賴它,如:pandas,scipy,matplotlib。這個模組是基礎。
2,pandas:主要用於資料探索和資料分析
3,matplotlib:作圖模組,解決視覺化問題
4,scipy:數值計算,同時支援矩陣運算,並提供高等資料處理功能(積分,傅利葉變換,微分方程求解等)
5,statsmodels:主要是統計分析
6,gensim:主要用於文字挖掘
7,sklearn,keras:前者機器學習,後者深度學習。
注意:numpy:
panda:
series:一串資料,一行一列;
dataframe:資料框,多行多列
import pandas as pda
a=pda.series([8,9,2,1],index=['one','two','three','four'])
b=pda.dataframe([[3,4,3,4],[3,4,56,7],[3,3,4,5]],columns=['one','two','three','four'])
c=pda.dataframe()
b.head() #頭部資料,預設前5行
b.tail() #尾部資料,預設後5行
b.describe()#統計資料(按列統計)
b.t #轉置
資料匯入:
**匯入csv資料:
import pandas as pda
i=pda.read_csv("c:/fhiaw/jgi/ijfgk.csv")
i.describe()
i.sort_values(by="21") #按照21列排序
匯入excel資料:
j=pda.read_excel("f:/fjhzkjf.xls")
匯入mysql資料庫裡資料:
import pymysql
conn=pymyql.connect(host="127.0.0.1",user="root",passwd="root",db="hexun")
sql="select * from myhexun"
k=pda.read_sql(sql,conn)
d.describe()
匯入html資料:
使用pandas,可以直接從html網頁中載入對應table**中的資料,但是在使用read_html()之前,需要先安裝html5lib模組與beautifulsoup4模組。
l=pda.read_html("c:/jfkajfajf.html")
m=pda.read_html("")
匯入文字資料:**
n=pda.read_table("c:/afhjah.txt")
資料分析和資料探勘相關模組
numpy 一般使用 numpy mklpandas 資料分析和處理模組,能為複雜情形下的資料提供堅實的基礎分析功能scipy 支援數值計算,支援矩陣運算,提供高等數學處理 積分 傅利葉變換 微分方程求解matplotlib 資料成圖模組,解決資料視覺化statsmodels 注重資料統計建模分析的...
BI應用 資料分析和資料探勘時代來臨
如何把資料庫中存在的資料轉變為業務人員需要的資訊?大部分的答案是報表系統。簡單說,報表系統已經可以稱作是bi了,它是bi的低端實現。現在國外的企業,大部分已經進入了中端bi,叫做資料分析。有一些企業已經開始進入高階bi,叫做資料探勘。而我國的企業,目前大部分還停留在報表階段。資料包表不可取代 傳統的...
簡述資料探勘和資料分析的區別(二)
典型的例子就是比較神奇的神經網路挖掘技術,這個技術裡面有乙個隱蔽層,這個隱蔽層的存在的意義就是沒有人能在所有的情況下讀懂裡面的非線性函式是如何對自變數進行組合的。在實踐應用中,這種情況常會讓習慣統計分析公式的分析師或者業務人員感到困惑,這也確實影響了模型在實踐應用中的可理解性和可接受度。如果我們換種...