python處理資料,pandas 處理txt檔案

2021-09-23 08:00:06 字數 971 閱讀 9658

以wordsim240為例

目前大多數的資料集以txt檔案居多,但是我們在資料處理中,可能最終會在excel上進行一些分析、製圖,

當然也可以使用python製圖包,也可以做出很精美的結果圖。

此篇只是簡單的讀取,檔案,儲存到excel中,可以做一些回歸分析、相關係數等;

txt中的原始資料

​sep="\t"是原始文件間的空格每乙個文件可能都不一樣,可能有空格,逗號或者是\n,根據情況選擇

names用來設定列名,如果不設定的話,則預設使用第一列作為列名,返回結果看起來非常奇怪!

這樣一行的**,看起來就是非常的整齊舒服。

接下來的話,就是可以把資料儲存到excel中,

data.to_excel('240.xlsx')
一句話即可,將處理的文件寫入到當前路徑中的excel中了

讀取某行某列的資料。可以使用這樣的索引方式

我們現在想要獲取前5行的兩個詞語

for i in range(5):

print(data.loc[i][0], data.loc[i][1])

data.loc即是行的索引,後面的[0], [1] ,[2]即是對應的列值

學習Python大資料處理模組Pandas

適合初學入門 本節基本了解pandas裡的一些資料結構和模組的基本使用,初步了解pandas的提供的一些功能,學會基本使用。通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。in 3 import pandas as pd in 4 import random i...

Python實用乾貨 panda多方面處理資料

padas是用於資料分析的最流行的python庫。它提供了高度優化的效能,後端源 純粹是用c或python。可以用來分析 series dataframes。series系列是在熊貓中定義的一維 1 d 陣列,可用於儲存任何資料型別。1 創作系列 program to create series i...

panda資料分析

1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...