《機器學習Python實踐》第5章 資料匯入

2021-08-20 11:36:11 字數 1027 閱讀 5275

python 提供了乙個標準類庫csv,用來處理csv檔案。

這個類庫中的reader()函式用來讀入csv檔案。當csv檔案被讀入後,可以利用這些資料生成乙個numpy陣列,用來訓練演算法模型。

from csv import reader

import numpy as np

filename='pima_data.csv'

#這個檔案中所有資料都是數字,並且資料中不包含檔案頭。

with open(filename,'rt') as raw_data:

readers = reader(raw_data, delimiter=',')

x=list(readers)

data=np.array(x).astype('float')

print(data.shape)

可以使用munpy的loadtxt()函式匯入資料。使用這個函式處理的資料沒有檔案頭,並且所有的資料結構都是一樣的,也就是說,資料型別都是一樣的。

import numpy as np

filename='pima_data.csv'

with open(filename,'rt') as raw_data:

data=loadtxt(raw_data,delimiter=',')

print(data.shape)

使用pandas來匯入檔案需要使用pandas.read_csv()函式。這個函式的返回值是dataframe,可以很方便地進行下一步的處理。

from pandas import read_csv

filename='iris.data.csv'

names=['separ-length','separ-width','petal-length','petal-width','class']

dataset=read_csv(filename,names=names)

print(dataset.shape)

《機器學習Python實踐》第7章 資料視覺化

直方圖 密度圖 箱線圖。一般橫軸表示資料型別,縱軸表示分布情況。直方圖可以很直觀地展示每個屬性的分布狀況。公國圖表可以很直觀地看到資料是高斯分布 指數分布還是偏態分布。從直方圖可以看出,separ length和separ length符合高斯分布。密度圖是一種表現資料值對應的邊界或域物件的圖形表示...

演算法第5章上機實踐

1.實踐題目 工作分配問題 2.問題描述 7 2 工作分配問題 20 分 設有n件工作分配給n個人。將工作i分配給第j個人所需的費用為cij 設計乙個演算法,對於給定的工作費用,為每乙個人都分配1 件不同的工作,並使總費用達到最小。輸入資料的第一行有1 個正整數n 1 n 20 接下來的n行,每行n...

演算法第5章實踐報告

實踐題目 工作分配問題 問題描述 7 2 工作分配問題 20 分 設有n件工作分配給n個人。將工作i分配給第j個人所需的費用為cij 設計乙個演算法,對於給定的工作費用,為每乙個人都分配1 件不同的工作,並使總費用達到最小。輸入資料的第一行有1 個正整數n 1 n 20 接下來的n行,每行n個數,表...