import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas import series,dataframe
df = pd.read_table("h:\pythondata\\top250_f1.txt",encoding='utf8',delimiter='\t')
print(df[["rating_num","title","comment_num"]].sort_values(by='comment_num',ascending=false))
#第二問:統計2023年以後電影最多的5個地區
df_diqu = df.loc[df['init_year']>2013]
df_new = df_diqu.groupby('init_year')
df_diqu = dataframe(df_diqu)
movie_count = df_diqu[['area']].sort_values(by='area',ascending=false)
#這裡tolist將其dataframe形式轉換為series
lists = movie_count["area"].tolist()
def all_list(a):
result = {}
for i in set(a):
result[i] = a.count(i)
return result
# 對出現較多的地區按從大到小的順序排列
# sorted對字典的排序,zip高階函式把資料變成(值,鍵)元組形式
#這裡的字典排序本身是從小到大排列的,使用reverse為true使其變為從大到小排列
print(sorted(zip(all_list(lists).values(),all_list(lists).keys()),reverse=true))
#然後找出電影型別中同時包含「劇情」和「愛情」的,係數最大的前十部,這一問寫了一半沒寫完
list1 = df['comment_num']
list2 = df['rating_num']
dianying_redu = list1*list2
# 將電影熱度計算的結果作為新的一列新增到表中
df['redu'] = dianying_redu
s1 = df[['title','genre','redu']].sort_values(by='redu',ascending=false)
開源大資料週刊 2023年08月03日 第95期
apache kafka 2.0.0 已正式發布,這是乙個主要版本,新增了許多重要的新功能。此外還包括許多重要的 bug 修復和改進,其中還包括一些嚴重的錯誤修復。2018中國人工智慧大會在深圳舉行。會上,國際人工智慧聯合會 ijcai 主席 aaai acm ieee fellow 香港科技大學教...
從大資料到大智慧型 2023年的6大IT關鍵趨勢
1 大資料成為企業的智慧型之源 從大資料集中提取業務價值,這當然不是今年的新趨勢,但這些資料的 都在不斷多樣化。收集 整合和分析來自 邊緣 的資料至關重要,如何利用這些資料洪流將成為今年許多企業關注的焦點。相關的,我們將看到資料為ai在商業智慧型領域帶來新的可能性。idc 到2020年,90 的大型...
2023年大資料經典面試題和回答技巧!!鼓掌
1 海量日誌資料,提取出某日訪問次數最多的那個ip。解決方案 首先是將這一天,並且是訪問的日誌中的ip取出來,逐個寫入到乙個大檔案中。注意到ip是32位的,最多有個2 32個ip。同樣可以採用對映的方法,比如模1000,把整個大檔案對映為1000個小檔案,再找出每個小文 現頻率最大的ip 可以採用h...