以wordsim240為例
目前大多數的資料集以txt檔案居多,但是我們在資料處理中,可能最終會在excel上進行一些分析、製圖,
當然也可以使用python製圖包,也可以做出很精美的結果圖。
此篇只是簡單的讀取,檔案,儲存到excel中,可以做一些回歸分析、相關係數等;
txt中的原始資料
sep="\t"是原始文件間的空格每乙個文件可能都不一樣,可能有空格,逗號或者是\n,根據情況選擇
names用來設定列名,如果不設定的話,則預設使用第一列作為列名,返回結果看起來非常奇怪!
這樣一行的**,看起來就是非常的整齊舒服。
接下來的話,就是可以把資料儲存到excel中,
data.to_excel('240.xlsx')
一句話即可,將處理的文件寫入到當前路徑中的excel中了
讀取某行某列的資料。可以使用這樣的索引方式
我們現在想要獲取前5行的兩個詞語
for i in range(5):
print(data.loc[i][0], data.loc[i][1])
data.loc即是行的索引,後面的[0], [1] ,[2]即是對應的列值 學習Python大資料處理模組Pandas
適合初學入門 本節基本了解pandas裡的一些資料結構和模組的基本使用,初步了解pandas的提供的一些功能,學會基本使用。通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。in 3 import pandas as pd in 4 import random i...
Python實用乾貨 panda多方面處理資料
padas是用於資料分析的最流行的python庫。它提供了高度優化的效能,後端源 純粹是用c或python。可以用來分析 series dataframes。series系列是在熊貓中定義的一維 1 d 陣列,可用於儲存任何資料型別。1 創作系列 program to create series i...
panda資料分析
1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...