機器學習之 載入資料

2021-08-30 20:36:26 字數 2308 閱讀 1852

import numpy as np 

import urllib

# url with dataset

url =

""raw_data = urllib.request.urlopen(url)

# load the csv file as a numpy matrix

dataset = np.loadtxt(raw_data, delimiter=

",")

# separate the data from the target attributes

x = dataset[:,

0:7]

y = dataset[:,

8]

sklearn提供了常見的很多資料集,可以很方便地直接呼叫。使用load_*方法匯入:

from sklearn.datasets import load_digits

digits = load_iris(

)print

(iris)

images = digits.images

target = digits.target

如果是本地的檔案,如果是txt格式的,可以使用np.loadtxt載入

import numpy as np

#載入本地工作空間的檔案『iris.txt』

np.loadtxt('iris.txt',delimiter=',', dtype=, comments='#', converters=none, skiprows=0, usecols=none, unpack=false, ndmin=0)

如果是csv格式的,可以用pandas的load_csv()載入:

import pandas ad pd

csv_data = pd.read_csv(

)

如果資料比較複雜,以一定的目錄結構儲存的,那麼載入這些不同類別的檔案該如何操作呢? 假設檔案的存放路徑為:

container_folder/

category_1_folder/

file_1.txt file_2.txt … file_42.txt

category_2_folder/

file_43.txt file_44.txt …

其中,子資料夾(category_1_folder)的名字區別,作為監督學習的標籤區別。

這種情況可以用sklearn.datasets.load_files()函式實現。

sklearn.datasets.load_files(container_path, description=

none

, categories=

none

,load_content=

true

, shuffle=

true

, encoding=

none

, decode_error=

'strict'

, random_state=0)

[source]

返回值:data : bunch, 得到與直接載入sklearn的資料集相同的資料結構:

例項:data_folder/

category_1_folder/

1.txt file_2.txt

category_2_folder/

3.txt 4.txt

from sklearn import datasets

rawdata = datasets.load_files("data_folder")

rawdata

out[10]:

rawdata.data

out[11]:

['5 start, \r\ni like this book.',

'4 start, \r\nthis book is good,\r\ni like it.',

"1 start, \r\npretty bad, don't like it at all.",

"2 start, \r\nwe don't like so much."]

rawdata.target

out[12]: array([1, 1, 0, 0])

rawdata.filenames[rawdata.target[0]]

out[13]: 'data_folder\\positive_folder\\2.txt'

參考:

機器學習之資料清理經驗

文字類資料,尤其二分類,如果正反比懸殊 超過1 10 反例極容易出現包含正例的雜訊 人工標註準確率95 1.這時,首先去除反例中和正例完全相同的誤分類 比如新聞,就是標題 聊天資料就是去掉不可見字元後的文字 2.視資料質量,也可以用一些高閾值的相似性比較方法,比如傑卡德,余弦,編輯距離等,再去除一部...

機器學習之資料預處理

1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...

機器學習之資料預處理

from sklearn.preprocessing import standardscaler x scaler standardscaler y scaler standardscaler x train x scaler.fit transform x train y train y scal...