本次入門系列將使用python作為開發語言。要使用python語言,我們先來搭建python開發平台。我們將基於python 2.7版本、以及python的開發發行版本anaconda版本來開發。
anaconda指的是乙個開源的python發行版本,其包含了conda、python等180多個科學包及其依賴項。本小節將簡單介紹python語言,此處不會涉及過多的python語言細節。例如:物件導向之類。此處主要介紹後續學習資料探勘過程中會使用到的語法。
此案例將在控制台上列印 hello, python。
1、建立乙個文字檔案,並命名為hello_python.py
2、編寫以下內容
#3、在命令列中執行命令python hello_python.pypython中支援多重賦值列印字串
'hello, python
'
#注意:-*- coding: utf-8 -*
#多重賦值
zhangsan, lisi, wangwu = u'
張三', u'
李四', u'王五'
print zhangsan, lisi, wangwu
'''案例三:
定義變數 username 和 password
1. 如果 username 為 abc,且password為 123, 列印 正確
2. 如果 username 不為 abc,列印使用者名稱錯誤
3. 如果 password 不為 123,列印密碼錯誤
'''username = '
abc'
password = '
123'
if username == '
abc'
and password == '
123'
:
print u'正確'
else
:
if username != '
abc'
:
print u'
使用者名稱錯誤
'else
:
print u'
密碼錯誤
'
#在python可以使用def或者lambda表示式來定義函式:列印 1-10之間的數字
for i in range(1, 11):
print i
#以下**演示列表、元組、字典的使用定義乙個函式計算兩個數字的和
defadd(a, b):
return a +b
#呼叫函式
print add(1, 1)
print'==
' * 10
#使用 lambda表示式定義函式
add_lambda = lambda x,y: x +y
print add_lambda(1, 1)
#注意:元組的元素是不可以被修改的。定義列表
list1 = [1,2,3,4,5]
#定義元組
tuple1 = (1,2,3,4)
#定義字典
dict1 =
list1
tuple1
print dict1
可以使用 來訪問集合的元素
python支援函式式程式設計,編寫起來也很方便
#python中需要使用到外部的函式,可以使用import關鍵字來匯入庫函式函式式程式設計
#1. 初始化乙個集合,包含數字從1-10
list2 = range(1, 11)
#2. 對每乙個數字 +1
list3 = map(lambda n:n+1, list2)
list3
#3. 過濾集合中所有能夠整除2的數字
list4 = filter(lambda n: n%2==0, list2)
print list4
#要使用python進行資料探勘開發,需要提前安裝第三方庫。python中有非常豐富的第三方庫。使用以下方式可以非常簡便地安裝第三方庫。導入庫import
math
math.pi
print math.sin(1)
#給math庫取乙個別名
import
math as m
print m.pi
使用pip安裝。以下將演示使用pip來安裝各類資料分析工具。
numpy
numpy實現了真正的陣列功能。很多高階的庫都依賴該庫。我們可以使用pip來安裝它。
pip install numpy
資料探勘入門系列 資料探勘基礎
伴隨著資訊化系統建設的發展,各行各業的中大型企業都儲存了大量的業務資料。很多的企業想要通過對這些資料的分析,來發現新的商機以及從這些資料中找到提高盈利的方法。大部分的企業,都是憑藉管理人員的自身個人經驗來開展這項工作。如果有一套系統,能夠自動地或者半自動地發現相關的知識和解決方案,這樣將會有效地提高...
資料探勘入門
性挖掘 對當前資料進行推斷,以做出 主要包括分類 回歸。分類 將樣本劃分到幾個預定義類,屬於離散。回歸 將樣本對映到乙個真實值 變數上,連續值。描述資料 描述資料庫中資料的一般性質。聚類 將樣本劃分為不同類 無預定義類 關聯規則發現 發現資料集中相關性。聚類分析,在發現緊密相關的觀測值組群,可以在沒...
資料探勘系列之二 資料探勘概述
資料庫系統經歷了如下的技術演變 資料收集和資料庫建立,資料管理 dbms,包括資料儲存和檢索,聯機事務處理oltp 以及高階資料分析 涉及資料倉儲和資料探勘 當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理 資料整合和聯機分析處理olap...