email:[email protected]
python 字典操作
python 陣列操作
import pandas as pd
import numpy as np
df = pd.read_csv(
'***.csv'
,encoding =
'latin-1'
)#使用pandas讀取csv,注意檔案路徑
df.columns=
["columns1"
,"columns2"
,"columns3"
,"columns4"
,"columns5"
,"columns6"
]#columns1-6 分別為csv列名
print
(df)
df.to_csv(
'***.csv'
,encoding=
'utf-8'
)
df1[
'columns7']=
''df1
df1 = df[
'columns4'
].value_counts(
)df1
for i in
range
(len
(df1)):
if df1[
'count'
][i]
>=30:
#這裡以count=30為分界點
df1[
'***'
][i]=1
else
: df1[
'***'
][i]
=0
df_sum = df[
'columns5'
].groupby(df[
'columns4'])
.sum()
print
(df_sum)
#兩個字典,如果 columns4 的 value 相同,根據 df2 的 columns6 的 value,對 df1 的 columns6 進行賦值
for i in
range
(len
(df1)):
for j in
range
(len
(df2)):
if df1[
'columns4'
][i]
== df2[
'columns4'
][j]
: df1[
'columns5'
][i]
= df2[
'columns5'
][j]
df1[
'columns6'
]= df1[
'columns5'
]/df1[
'count'
]print
(df1)
x = df[
["columns1"
,"columns2"]]
#提取df中的兩列至x
x = np.array(x)
#使用nupmy將提取的兩列轉化為陣列
print
(x)
y = df[
"columns3"
]#提取df中的一列至y
y = np.array(y)
#使用nupmy將其轉化為陣列
print
(y)
np.random.seed(
100)
#隨機種子數不變,每次亂序後順序相同
np.random.shuffle(x)
np.random.seed(
100)
np.random.shuffle(y)
print
(x)print
(y)
x_train, x_test = x[
:10000
], x[
10000:]
#以10000為分界點,分割為兩個陣列
y_train, y_test = y[
:10000
], y[
10000:]
print
(x_train)
print
(x_test)
print
(y_train)
print
(y_test)
資料預處理初步解釋
一 資料預處理 總結資料預處理的主要作用 提高資料計算的效果和效率,資料預處理需要考慮資料的質量要求和計算要求,質量要求 資料預處理可以把對最終分析結果影響較大的不一致資料 虛假資料 錯誤資料等等資料排除在外,保證了資料分析結果具有較大的準確性,大資料分析分析出來的結果是作為決策方面的依據,故結果的...
資料預處理 機器學習初步
這兩個是我們每次都需要匯入的庫。numpy包含數學計算函式。pandas用於匯入和管理資料集。資料集通常是.csv格式。csv檔案以文字形式儲存 資料。檔案的每一行是一條資料記錄。我們使用pandas的read csv方法讀取本地csv檔案為乙個資料幀。然後,從資料幀中製作自變數和因變數的矩陣和向量...
Python 資料型別初步 Numbers
本篇內容 今天主要簡介了幾種數字的資料型別和一些稍微比較常用的方法。int bytes float bool complex long python裡面的使用變數的時候並不需要提前宣告,直接用,然後他才會申請記憶體。python會識別出來你所要儲存的值的型別,然後再儲存。a 10 b 1.1 c 1...