題目:
4 統計關於《上海堡壘》話題的輿情走勢,已知其上映時間為2019-08-09。(本題可以使用你擅長的程式語言和框架)
解析:由題目可知,資料是包含上海堡壘和烈火英雄的,但題目要求只統計有關上海堡壘的,所以要從資料中將所有有關上海堡壘的提取出來,這時我們可以使用一種提取我們所需要內容的**:如下:
bool = df["x"].str.contains("y")
filter_data = df[bool]
**的意思是:提取x中包含y的內容,生成新的**,我們也可以將它重新放入乙個檔案中,通過如下讀取的方式:
filter_data.to_csv("new4")
error_bad_lines:布林值,預設為true # 預設情況下,具有太多字段的行(例如,帶有太多逗號的csv行)將引發異常, # 並且不會返回任何dataframe。如果為false,則這些「壞行」將從返回的dataframe中刪除。
**如下:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas import series,dataframe
df = pd.read_csv("new5",error_bad_lines=false)
x = s["發布時間"].value_counts()
s1 = (s["發布時間"]=="2019-08-09").sum()
print("2019-08-09",s1)
s2 = (s["發布時間"]=="2019-08-10").sum()
print("2019-08-10",s2)
s3 = (s["發布時間"]=="2019-08-11").sum()
print("2019-08-11",s3)
s4 = (s["發布時間"]=="2019-08-12").sum()
print("2019-08-12",s4)
s5 = (s["發布時間"]=="2019-08-13").sum()
print("2019-08-13",s5)
s6 = (s["發布時間"]=="2019-08-15").sum()
print("2019-08-15",s6)
s7 = (s["發布時間"]>"2019-8-15").sum()
print("2019-昨天",s7)
結果截圖如下:
4.2 傳播影響的計算,計算出**次數最多的前5條文章,並列出該文章博主的粉絲數(請提供完整**和結果截圖3分)
**如下:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas import series,dataframe
df = pd.read_csv("new3.csv",error_bad_lines=false)
# 這兩行**是只獲取含有上海堡壘的部落格內容,通過這種方式可以獲取我們想要的任何部分內容
bool = df["部落格內容"].str.contains("上海堡壘")
filter_data = df[bool]
filter_data = filter_data.loc[filter_data["發布時間"]>='2019-08-09']
s = filter_data[["id","**數","粉絲數"]].sort_values(by="**數",ascending=false).head()
print(s)
結果截圖如下:
2023年大資料網路賽 第六部分 綜合題 第三問
解析 題目要求用spark,我用了python的方法 round的用法 可四捨五入保留小數 例子 pi 3.141592653589793 round pi 輸出整數 round pi,2 保留兩位小數輸出 round pi,3 保留三位小數輸出 format的用法 內建的python字串格式化方法...
第六部分總結(51 54)
這一部分主要學習了jquery的節點新增 刪除 替換 複製等操作。外插 1 從後面插after insertafter 效果一樣,寫法不同 2 從前面 efore insertafter 效果一樣,寫法不同 刪除 刪除指定元素 remove detach 效果一樣,寫法不同,如li.remove i...
第六部分 函式的工作原理一
寫這篇文章得益於我最近錢林松 趙海旭寫的新書 c 反彙編與逆向分析 一直希望學習相關的技術,但是一直沒有開始,看到此書後,激發起了我以前的興趣,最近一直在讀這本書,今日將我了解到的知識分享給大家。首先讓我們來看一段最簡單的 includevoid func int first,int second ...