資料獲取
貓眼電影是簡單的動態網頁,資料格式為json,通過解析介面的方式即可輕鬆獲取。僅提供核心**:
df = df.drop_duplicates()
df = df.dropna()12
預覽並儲存
df.sample(5)
df.to_csv(「鷹獵長空.csv」,index=false,encoding=「utf_8_sig」)12
資料視覺化
匯入相關庫
def get_cut_words(content_series):
# 讀入停用詞表
stop_words =
with open("stop_words.txt", 'r', encoding='utf-8') as f:
lines = f.readlines()
for line in lines:
my_words = ['', '']
for i in my_words:
jieba.add_word(i)
# 自定義停用詞
my_stop_words = ['電影', '中國','一部']
stop_words.extend(my_stop_words)
# 分詞
word_num = jieba.lcut(content_series.str.cat(sep='。'), cut_all=false)
# 條件篩選
word_num_selected = [i for i in word_num if i not in stop_words and len(i)>=2]
return word_num_selected
df2 = data.groupby(『城市』)[『評分』].count() #按菜系分組,對評分求平均
df2 = df2.sort_values(ascending=false)[:10]
用python視覺化模擬退火演算法
按我個人的理解的話,是解決組合優化的問題是,使用隨機化的方法得到新解,如果新解比舊解要好,那麼就接受。如果新解沒有舊解好,那麼也按一定概率 exp delta f t 接受。t是乙個溫度,內迴圈就產生新解直到達到平穩,外迴圈就退火 緩慢的速率溫度 到結束溫度時,會收斂到最優解。那麼我用的示例是旅行商...
Python 資料視覺化
資料視覺化指的是通過視覺化表示來探索資料,它與資料探勘緊緊相關,而資料探勘指的是使用 來探索資料集的規律和關聯。資料集可以是用一行 就能表示的小型數字列表,也可以是數以吉位元組的資料。漂亮地呈現資料關乎的並非僅僅是漂亮的。以引人注目的簡潔方式呈現資料,讓人能夠明白其含義,發現資料集中原本未意識到的規...
python 視覺化庫
在做titanic分析的過程中,看了一些大神的想法,發現在分析資料的過程中,許多大神會使用到seaborn,plotly這些庫,而我等小白僅僅知道matplotlib這個唯一的資料視覺化庫而已。上網查詢資料後整理如下 資料視覺化庫可以根據其應用場景來分為以下幾類 基礎的2d,3d圖繪製庫,互動資訊視...