上次爬蟲小分隊爬取了貼吧中python問題的精品回答,我自己也用scrapy寫了乙個程式,爬取了一點資訊,存入mongodb資料庫中,**就不上了,今天主要是通過pandas庫讀取資料,做問與答的文字雲。
pandas庫讀取檔案很方便,主要是運用dataframe,首先匯入需要的模組;
import pandas as pd
import pymongo
import jieba.analyse
然後連線資料庫,讀取資料;
我們知道分詞需要的是字串格式的資料,所以需要通過dataframe的切片提取question這列的資料,並轉化為字串格式。
question_data = '' #初始化字串
for i in range(563): #數字為資料的行數
index = data.ix[i,:] #取每行
question = index['question'] #取每行的question
這部分以前講過,貼上**。
jieba.analyse.set_stop_words('停用詞表路徑')
類似,也可以做出回答的詞云。
問:
答:
網易資料分析資訊搜尋貼
1 工具 主要使用什麼分析工具 會很細 臨場出題 2資料分析專案 用的什麼分析方法 達到什麼效果 目標,過程,價值 3 分析方法 具體看什麼指標,從哪些維度去資料分析 4 資料體系 定位 發展規劃 網易杭研公共技術資料分析崗 一面 1 1個小時左右,主要問了專案以及實習的情況 各種具體細節,對於專案...
Python之資料分析(寶可夢資料分析)
在此感謝阿里雲天池平台提供的學習平台,並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫,在 matplotlib 的基礎上,進行了更高階的封裝,使得作圖更加方便快捷。即便是沒有什麼基礎的人,也能通過極簡的 做出具有分析價值而又十...
python資料分析之Numpy
numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列 所有元素必須是相同型別 ndim屬性,維度個數 shape屬性,各維度大小 dtype屬性,資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...