1.import pandas
titanic=pandas.read_csv(「e:/機器學習資料集/泰坦尼克船員獲救/titanic_train.csv」)
這樣操作會報錯,呼叫pandas的read_csv()方法時,預設使用c engine作為parser engine,而當檔名中含有中文的時候,用c engine在部分情況下就會出錯。所以在呼叫read_csv()方法時指定engine為python就可以解決問題。
改正:import pandas
titanic=pandas.read_csv(「e:/機器學習資料集/泰坦尼克船員獲救/titanic_train.csv」,engine=『python』)
另外,讀取檔案時,要注意路徑:
⑴"e:/機器學習資料集/泰坦尼克船員獲救/titanic_train.csv" (乙個/正確)
⑵"e:\機器學習資料集\泰坦尼克船員獲救\titanic_train.csv" (兩個\正確)
⑶"e:\機器學習資料集\泰坦尼克船員獲救\titanic_train.csv" (乙個\不對)
2.展示csv檔案的資料
print titanic.describe()
報錯:syntaxerror: invalid syntax
解決辦法:
print (titanic.describe()),在print 後面加上括號
python讀取excel資料,並視覺化展現
coding utf 8 import pandas as pda import matplotlib.pyplot as pyl import matplotlib.font manager from collections import counter 配置變數區 start zhibanfil...
統計csv詞頻 統計詞頻並視覺化
最近參加乙個nlp的競賽,賽方提供了10萬條資料。由於是脫敏資料,所以作nlp之前需要先作word2vec,這時就需要將標點符號和無意義的詞 比如 的 去掉,我們採用的方法就是去掉高頻詞,所以首先要找到高頻詞。如何找到高頻詞呢,這裡當然可以使用dict了,但是有沒有更高階一點的方法呢。當然有了,我們...
python隨機漫步資料,並視覺化
randow walk.py內的 隨機漫步 from random import choice class randomwalk 乙個生成隨機漫步資料的類 def init self,num points 5000 初始化隨機漫步的屬性 self.num points num points 所有隨機...