python資料處理相關

2021-09-29 14:12:34 字數 1410 閱讀 6494

1.enumerate(sequence, start=0)函式

列舉函式,傳入乙個序列或迭代物件,列舉輸出乙個序號物件。

可用於對序列資料進行編號。

2.字串的split()方法和strip()方法

同屬字串物件的方法。

split()方法用於指定分割字元並返回乙個字串列表。

strip()方法用於去除掉首位的指定字串並返回處理好的字串

3.mongodb使用dpkg -i 安裝包

#啟動mongodb:

service mongod start

#安裝pymongo依賴,等價於安裝乙個連線mongodb的client:

pip install pymongo

#安裝pychar的mongodb外掛程式:

#軟體內setting->plugins->marketplace->search mongodb plugin

使用mongodb:

import pymongo

client = pymongo.mongoclient('localhost', 27017) #連線至資料伺服器

database = client['database'] #連線至資料庫

table = database['table'] #開啟資料庫下的表

table.insert() #在該錶插入資料

table.find() #在該錶查詢資料

'''查詢資料庫條件為字典形式,資料匹配有<,>,<=,>=,!=幾種等式

表示方法為$lt,$gr,$lte,$gte,$ne

比如查詢資料庫中年齡小於20歲則可寫成

table.find(})

'''client.drop_database('database') #刪除資料庫

4.tag型別的處理方法

對應tag型別的方法

string:獲取目標下第乙個文字字串,返回字串

strings:獲取目標下所有子孫標籤的文字字串,返回迭代器

stripped_strings:獲取目標下所有子孫標籤的文字字串,並去除掉空文字,返回迭代器

get(str):獲取指定標籤內對應str的值

get_text():獲取目標下所有子孫內容,包含html格式內容,返回字串

text():獲取目標下子孫內容的非標籤內容,返回字串

資料處理相關

資料集分為特徵值和目標值 由特徵值得到目標值 對特徵值的處理為特徵工程 1 缺失值處理 2 重複值的去重 特徵工程的意義 提高對未知資料的 字典特徵資料抽取 對字串轉成數字的,類 sklearn.feature extraction.dictvectorizer 文字特徵抽取 類 sklearn.f...

Python資料處理相關小例程式設計

有5名某界大佬xiaoyun xiaohong xiaoteng xiaoyi和xiaoyang,其qq號分別是88888 5555555 11111 1234321和1212121,用字典將這些資料組織起來。程式設計實現以下兩個功能 1 使用者輸入某乙個大佬的姓名後可以輸出其qq號,如果輸入的姓名...

Python 資料處理

將檔案切分,存入列表 strip split with open james.txt as jaf data jaf.readline james data.strip split 資料檔案為 2 34,3 21,2.34,2.45,3.01,2 01,2 01,3 10,2 22 print ja...