利用Python爬取朋友圈資料,爬到你開始懷疑人生

2021-08-03 15:13:09 字數 2698 閱讀 5963

人生最難的事是自我認知,用python爬取朋友圈資料,讓我們重新審視自己,審視我們周圍的圈子。
文:朱元祿(@資料分析-jacky)

哲學的兩大問題:1、我是誰?2、我們從**來?

本文 jacky試圖用python,資料化、聚類化我們的人格標籤,試圖回答"我是誰?"這個哲學問題。

(一)確定資料來源

自我認知,很難,必須它證。

物以類聚,人以群分。每個人的社交圈,家庭圈,朋友圈的屬性,基本我們人格的特徵屬性。我們所處的階級,在別人眼中的印象,在我們的朋友圈中都會得到印證。

朋友圈資料中最具人格屬性的因素是個性簽名

,那麼下面我們就把所有好友的個性簽名作為我們的研究物件,以此出發爬取資料。

(二) 使用python的itchat 包對好友的個性簽名資料進行分析

這裡我們用到python乙個比較冷門的庫——itchat,它很好的相容了wechat個人賬號的api介面,讓我們能更加便捷的爬取wechat資料,itchat的功能很強大,這裡我們僅用它爬取wechat中我們每個好友的個性簽名。

之後,我們要分析出自定義詞雲圖中個性簽名使用的高頻詞語是什麼。

最後,生成視覺化詞雲圖,直觀的給出洞察結果。

源**如下:

# coding:utf-8

import itchat

import re

itchat.login()

friends = itchat.get_friends(update=true)[0:]

tlist =

for i in friends:

signature = i["signature"].replace(" ", "").replace("span", "").replace("class", "").replace("emoji", "")

rep = re.compile("1f\d.+")

signature = rep.sub("", signature)

# 拼接字串

text = "".join(tlist)

# jieba分詞

import jieba

wordlist_jieba = jieba.cut(text, cut_all=true)

wl_space_split = " ".join(wordlist_jieba)

# wordcloud詞云

下面對於**的解析,僅跟初學 python的朋友提示三點:

1)**第24行,其他網路版本的**為d= os.path.dirname(__file__),最好換成jacky這個版本的:

d=os.path.dirname(os.path.abspath(__file__)),具體原因jacky就不做過多解釋了;

2)**第25行,一定要提前在環境路徑下建立wechat.jpg的,這樣雲圖才能順利生成,並生成你希望的形狀。

3)提前在終端安裝jieba,matplotlib,wordcloud,numpy包

注意以上三點,想不執行成功都難。

執行上面的**,得到下面的雲圖:

(三)資料洞察

以jacky的朋友圈為例,在雲圖中,我們可以看見,高頻詞有:自己,創始人,電商,成功,努力,營銷,網際網路,資料,夢想,生活,諮詢,我們,未來。

其實,這些詞jacky還可以繼續用機器學習演算法搞一下,但到這就淺嚐則止吧。

從這些具體的資訊中,可以抽象出我的個人人格標籤,具體解析:

自己,我們:說明我很自我,很自大,很自以為是;

努力,未來,夢想:說明我想通過努力來實現自己的價值;

創始人:說明我的社交圈還ok;

網際網路,資料:說明我的能力屬性;

營銷,諮詢:說明了我賴以生存的飯碗;

**:這... ... 不好說了... ...

end

用itchat爬取朋友圈好友資訊

import itchat import numpy as np import pandas as pd from collections import defaultdict import re import jieba import os import matplotlib.pyplot as ...

資料結構與演算法問題 朋友圈

奈何能力不夠,用尤拉迴路dfs解題,但是memory limit exceed了,晚上回來再學用並查集。題目描述 假如已知有n個人和m對好友關係 存於數字r 如果兩個人是直接或間接的好友 好友的好友的好友.則認為他們屬於同乙個朋友圈,請寫程式求出這n個人裡一共有多少個朋友圈。假如 n 5 m 3 r...

選標籤屬性 利用好友標籤來管理朋友圈

朋友圈已是社交的主要方式之一,如何管理朋友圈是很多人頭疼的事兒。三天可見 把人遮蔽顯得不禮貌 長期可見又太危險,畢竟昨天的自己常常又傻又天真。推薦 部分可見 這一方式,對比 不給誰看 部分可見 可以防止手誤打錯標籤的和新加的好友看到不該看的內容 其實很多人已經在用這種方法,但各自方法不一。有些人把好...