Task2 資料讀取與資料分析

2021-10-08 08:52:08 字數 359 閱讀 3133

先用pandas讀取資料

train_df = pd.read_csv('./data/train_set.csv', sep='\t')

train_df.head()

label為新聞類別,text為之後的文章內容。

讀取資料後計算每條新聞的文字長度。

用plt庫繪製直方圖。

1、假設字元3750,字元900和字元648是句子的標點符號,請分析賽題每篇新聞平均由多少個句子構成?

2、統計每類新聞**現次數對多的字元。

我的確沒有掌握好python的一些庫,可能我現在的python基礎還沒到學習nlp的程度,但是至少這讓我從0起步,接下來好好鞏固基礎。

Task 2 資料讀取與資料分析

import pandas as pd import numpy as np import matplotlib.pyplot as plt train df train df pd.read csv d a train set1.csv sep t nrows 100 train df.head引...

Task 2 資料分析(EDA)

在此之前基本沒有關於python以及資料探勘的經驗,所以前期不管是庫的安裝還是按照指導pdf敲 都經常遇到錯誤,小白只能邊查邊改邊學,頭禿的同時也強迫自己學到了不少東西。前半部分的 還能勉強一邊敲一邊理解,後面只能走一下流程,粗略地了解一下eda的整體步驟,具體的 以及過程中蒐集的知識 遇到的問題將...

動手學資料分析 Task 2

常用的函式有dropna 和fillna dataframe.dropna axis 0,how any thresh none,subset none,inplace false 屬性說明 預設引數axis 0,根據索引 index 刪除指定的行 axis 1,根據列名 columns 刪除指定的...