#-*- coding: utf-8 -*-
#拉格朗日插值**
import pandas as pd #匯入資料分析庫pandas
from scipy.interpolate import lagrange #匯入拉格朗日插值函式
inputfile =
'd:\python\stats\pythonsjwj\chapter6\demo\data\missing_data.xls'
#輸入資料路徑,需要使用excel格式
outputfile =
'missing_data_processed.xls'
#輸出資料路徑,需要使用excel格式
data = pd.read_excel(inputfile, header =
none
)#讀入資料
#自定義列向量插值函式
#s為列向量,n為被插值的位置,k為取前後的資料個數,預設為5
defployinterp_column
(s, n, k=5)
: y = s.reindex(
list
(range
(n-k, n))+
list
(range
(n+1
, n+
1+k)))
#取數(這裡跟書本上不一樣,有改動,源**執行會出錯)
y = y[y.notnull()]
#剔除空值
return lagrange(y.index,
list
(y))
(n)#插值並返回插值結果
#逐個元素判斷是否需要插值
for i in data.columns:
for j in
range
(len
(data)):
if(data[i]
.isnull())
[j]:
#如果為空即插值
data[i]
[j]= ployinterp_column(data[i]
, j)
data.to_excel(outputfile, header =
none
, index =
false
)#輸出結果
Python資料分析與挖掘實戰 挖掘建模
常用的分類與 演算法 1回歸模型分類 1線性回歸 自變數因變數線性關係,最小二乘法求解 2非線性回歸 自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic回歸 因變數一般有1和0兩種取值,將因變數的取值範圍控制再0 1範圍內 4嶺回歸 自變數之間具有多重共線性 5...
python資料分析與挖掘實戰 資料探勘基礎
從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...
Python資料分析與挖掘實戰學習07
一 python基礎 1.python簡介 python是一種物件導向的解釋型語言,由荷蘭人guido van rossum與1989年發明,第乙個公開發行版本於1991年發布。python語法簡潔清晰,強制用空白符作為語句縮排。python語言最大的特點是簡單和強大。2.python庫 1 bas...