爬蟲、買、實時資料、網上公開的資料集
資料處理成指定的格式
篩選資料
輸入模型,進行訓練
調優儲存模型
load開頭的小資料集
fetch開頭的是大資料集
make 本地資料集
from sklearn.datasets import
*#鳶尾花資料集
data = load_iris(
)print
(data)
#獲取的特徵名
print
(data.feature_names)
獲取的特徵陣列
print
(data.data)
獲取的目標值名字
print
(data.target_names)
獲取的目標陣列
print
(data.target)
注意點:
載入本地資料集
data = fetch_20newsgroups(
)print
(data)
data = make_classification(
)print
(data[0]
)print
(data[1]
)生成本地的分類資料集
import requests
from lxml import etree
import matplotlib.pyplot as plt
import jieba
import nltk
from wordcloud import wordcloud,imagecolorgenerator
from sklearn.feature_extraction.text import countvectorizer,tfidfvectorizer
from pil import image
import numpy as np
url =
''headers =
#根據請求get post
response = requests.get(url=url,headers=headers)
# #請求狀態
# print(response)
# print(response.text)
# #bytes型別 用來爬的
# print(response.content)
html_str = response.text
#將str字串轉成html文件
html_doc = etree.html(html_str)
#提取崗位資訊
data = html_doc.xpath(
"//span[@class='zhaopin_zw']/text()"
)#提取崗位要求i
data1 = html_doc.xpath(
"//p[@class='zhaopin_yq']"
)context =
for i in data1:
i = i.xpath(
"text()")[
0].replace(
'\r',''
).replace(
'\n',''
).replace(
' ','')
.replace(
'\t',''
).replace(
'要求',''
)print
(context)
# #分詞
# for i in jieba.cut(context[0]):
# print(i)
list_word =
[word for word in jieba.cut(
''.join(context))if
len(word)
>1]
#進行詞頻統計
freq_dist = nltk.freqdist(list_word)
print
(freq_dist)
top_word = freq_dist.most_common(10)
print
(top_word)
#畫圖#的向量化
bg_img = np.array(image.
open()
)wc = wordcloud(font_path=
'c:\windows\fonts\simhei.ttf'
,background_color=
'white'
,max_words=
100,mask=bg_img,max_font_size=80)
#獲取詞頻資料
wc.generate_from_frequencies(freq_dist)
#獲取背景顏色
機器學習相關 學習資料收集
回憶專用 1 如何在各種平台上安裝 python 自行谷歌 2 開發環境搭建?搭建機器學習環境 3 如何學習 python 官方教程 文件 tutorial,language reference,library reference 4 如何入門人工智慧?抱大腿。機器學習速成課程 neural net...
機器學習 資料探勘 資料收集
leftnoteasy部落格 機器學習 pymining 開源中文文字資料探勘平台 ver 0.1發布 支援中文文字的資料探勘平台開源專案pymining發布 機器學習中的數學 4 線性判別分析 lda 主成分分析 pca 機器學習中的數學 3 模型組合 model combining 之boost...
機器學習資料收集(持續更新)
書籍 資料 the discipline of machine learning a few useful things to know about machine learning 個人主頁 李航 是msra web search and mining group高階研究員和主管,主要研究領域是資...