import numpy as np
import urllib
# url with dataset
url =
""raw_data = urllib.request.urlopen(url)
# load the csv file as a numpy matrix
dataset = np.loadtxt(raw_data, delimiter=
",")
# separate the data from the target attributes
x = dataset[:,
0:7]
y = dataset[:,
8]
sklearn提供了常見的很多資料集,可以很方便地直接呼叫。使用load_*方法匯入:
from sklearn.datasets import load_digits
digits = load_iris(
)print
(iris)
images = digits.images
target = digits.target
如果是本地的檔案,如果是txt格式的,可以使用np.loadtxt載入
import numpy as np
#載入本地工作空間的檔案『iris.txt』
np.loadtxt('iris.txt',delimiter=',', dtype=, comments='#', converters=none, skiprows=0, usecols=none, unpack=false, ndmin=0)
如果是csv格式的,可以用pandas的load_csv()載入:
import pandas ad pd
csv_data = pd.read_csv(
)
如果資料比較複雜,以一定的目錄結構儲存的,那麼載入這些不同類別的檔案該如何操作呢? 假設檔案的存放路徑為:
container_folder/
category_1_folder/
file_1.txt file_2.txt … file_42.txt
category_2_folder/
file_43.txt file_44.txt …
其中,子資料夾(category_1_folder)的名字區別,作為監督學習的標籤區別。
這種情況可以用sklearn.datasets.load_files()函式實現。
sklearn.datasets.load_files(container_path, description=
none
, categories=
none
,load_content=
true
, shuffle=
true
, encoding=
none
, decode_error=
'strict'
, random_state=0)
[source]
返回值:data : bunch, 得到與直接載入sklearn的資料集相同的資料結構:
例項:data_folder/
category_1_folder/
1.txt file_2.txt
category_2_folder/
3.txt 4.txt
from sklearn import datasets
rawdata = datasets.load_files("data_folder")
rawdata
out[10]:
rawdata.data
out[11]:
['5 start, \r\ni like this book.',
'4 start, \r\nthis book is good,\r\ni like it.',
"1 start, \r\npretty bad, don't like it at all.",
"2 start, \r\nwe don't like so much."]
rawdata.target
out[12]: array([1, 1, 0, 0])
rawdata.filenames[rawdata.target[0]]
out[13]: 'data_folder\\positive_folder\\2.txt'
參考: 機器學習之資料清理經驗
文字類資料,尤其二分類,如果正反比懸殊 超過1 10 反例極容易出現包含正例的雜訊 人工標註準確率95 1.這時,首先去除反例中和正例完全相同的誤分類 比如新聞,就是標題 聊天資料就是去掉不可見字元後的文字 2.視資料質量,也可以用一些高閾值的相似性比較方法,比如傑卡德,余弦,編輯距離等,再去除一部...
機器學習之資料預處理
1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...
機器學習之資料預處理
from sklearn.preprocessing import standardscaler x scaler standardscaler y scaler standardscaler x train x scaler.fit transform x train y train y scal...