Python資料分析之貼吧的問與答

上次爬蟲小分隊爬取了貼吧中python問題的精品回答，我自己也用scrapy寫了乙個程式，爬取了一點資訊，存入mongodb資料庫中，**就不上了，今天主要是通過pandas庫讀取資料，做問與答的文字雲。

pandas庫讀取檔案很方便，主要是運用dataframe，首先匯入需要的模組；

import pandas as pd
import pymongo
import jieba.analyse

然後連線資料庫，讀取資料；

我們知道分詞需要的是字串格式的資料，所以需要通過dataframe的切片提取question這列的資料，並轉化為字串格式。

question_data = ''  #初始化字串
for i in range(563):   #數字為資料的行數
index = data.ix[i,:]   #取每行
question = index['question']  #取每行的question
這部分以前講過，貼上**。
jieba.analyse.set_stop_words('停用詞表路徑')
類似，也可以做出回答的詞云。
問：
答：
				網易資料分析資訊搜尋貼
1 工具 主要使用什麼分析工具 會很細 臨場出題 2資料分析專案 用的什麼分析方法 達到什麼效果 目標，過程，價值 3 分析方法 具體看什麼指標，從哪些維度去資料分析 4 資料體系 定位 發展規劃 網易杭研公共技術資料分析崗 一面 1 1個小時左右，主要問了專案以及實習的情況 各種具體細節，對於專案...
				Python之資料分析（寶可夢資料分析）
在此感謝阿里雲天池平台提供的學習平台，並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫，在 matplotlib 的基礎上，進行了更高階的封裝，使得作圖更加方便快捷。即便是沒有什麼基礎的人，也能通過極簡的 做出具有分析價值而又十...
				python資料分析之Numpy
numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列 所有元素必須是相同型別 ndim屬性，維度個數 shape屬性，各維度大小 dtype屬性，資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...

Python資料分析之貼吧的問與答

網易資料分析資訊搜尋貼

Python之資料分析（寶可夢資料分析）

python資料分析之Numpy

相關推薦