情感本文分類的時候的,簡單的將文字中的emoji表情換為了文字,勉強提公升了一下準確率。
英文釋意:
中文釋義:
其實吧,直接三行**就可以搞定~
三行神龍**在結尾,先放一下正常的爬蟲。
import requests
from bs4 import beautifulsoup
from pandas import dataframe
import pprint
from lxml import etree
defget_table_from_html
(html)
: tree = etree.html(html)
# 尋找所有的table標籤
table_lst = tree.xpath(
"//table"
) table_data_lst =
for table in table_lst:
)return table_data_lst
defget_table
(table_ele)
:"""
獲取table資料
:param table_ele:
:return:
"""tr_lst = table_ele.xpath(
".//tr"
)# 第一行通常來說都是標題
title_data = get_title(tr_lst[0]
)# 第一行後面都是資料
data = get_data(tr_lst[1:
])return
defget_title
(tr_ele)
:"""
獲取標題
標題可能用th 標籤,也可能用td標籤
:param tr_ele:
:return:
"""# 先尋找th標籤
title_lst = get_tr_data_by_tag(tr_ele,
'th')if
not title_lst:
title_lst = get_tr_data_by_tag(tr_ele,
'td'
)return title_lst
defget_data
(tr_lst)
:"""
獲取資料
:param tr_lst:
:return:
"""datas =
for tr in tr_lst:
tr_data = get_tr_data_by_tag(tr,
'td'
)return datas
defget_tr_data_by_tag
(tr, tag)
:"""
獲取一行資料
:param tr:
:param tag:
:return:
"""datas =
nodes = tr.xpath(
".//"
.format
(tag=tag)
)for node in nodes:
text = node.xpath(
'string(.)'
).strip(
)return datas
defget_html
(url)
: headers =
res = requests.get(url, headers=headers)
res.encoding =
'utf-8'
return res.text
defrun
(url)
:
html = get_html(url)
table_lst = get_table_from_html(html)
# 結構是比較簡單的
ans =
for i in
range
(len
(table_lst[0]
['data'])
):[table_lst[0]
['data'
][i][7
], table_lst[0]
['data'
][i][1
]])return ans
if __name__ ==
'__main__'
: url =
''data = run(url)
# data.to_csv()
print
(data)
其實吧,直接三行**就可以搞定~
import pandas as pd
url=
''data = pd.read_html(url)[0
][1:
]
直接獲得**上的表情,刺激~。難怪都說python是爬蟲的最佳語言 使用EMOJI表情
由於ios系統支援日文中的字塊編碼,所以在uilable,uitextfield,uialertview等控制項中使用emoji表情編碼 emoji就是表情符號 詞義來自日語 e moji,moji在日語中的含義是字元 例如 plain view plain copy nsstring s nsst...
Python中使用表情符emoji
分析社交 資料的時候,表情符是重要的內容。表情符的模組是emoji,需要安裝emoji後使用 通過pip安裝模組 pip install emoji安裝後就可以通過如下方式使用表情符 import emoji 根據對應的 code 得到表情符 print emoji.emojize python i...
web前端emoji表情
通常作為前端,我們接收到的表情不會是一張,而是類似 smile 微笑 微笑這樣的字串,那麼如何將字串轉換為對應的表情就是問題的關鍵。毋庸置疑,通過正規表示式對相應的字串作匹配替換,從而將對應的emoji表情顯示出來是比較好的乙個方法。首先,本地要有乙個emoji表情庫,類似 其次 匹配,就免不了要用...