先用pandas讀取資料
train_df = pd.read_csv('./data/train_set.csv', sep='\t')
train_df.head()
label為新聞類別,text為之後的文章內容。
讀取資料後計算每條新聞的文字長度。
用plt庫繪製直方圖。
1、假設字元3750,字元900和字元648是句子的標點符號,請分析賽題每篇新聞平均由多少個句子構成?
2、統計每類新聞**現次數對多的字元。
我的確沒有掌握好python的一些庫,可能我現在的python基礎還沒到學習nlp的程度,但是至少這讓我從0起步,接下來好好鞏固基礎。
Task 2 資料讀取與資料分析
import pandas as pd import numpy as np import matplotlib.pyplot as plt train df train df pd.read csv d a train set1.csv sep t nrows 100 train df.head引...
Task 2 資料分析(EDA)
在此之前基本沒有關於python以及資料探勘的經驗,所以前期不管是庫的安裝還是按照指導pdf敲 都經常遇到錯誤,小白只能邊查邊改邊學,頭禿的同時也強迫自己學到了不少東西。前半部分的 還能勉強一邊敲一邊理解,後面只能走一下流程,粗略地了解一下eda的整體步驟,具體的 以及過程中蒐集的知識 遇到的問題將...
動手學資料分析 Task 2
常用的函式有dropna 和fillna dataframe.dropna axis 0,how any thresh none,subset none,inplace false 屬性說明 預設引數axis 0,根據索引 index 刪除指定的行 axis 1,根據列名 columns 刪除指定的...