資料清洗之四 regex

2021-09-29 04:38:32 字數 425 閱讀 6532

一、正規表示式的基礎知識

正規表示式(regular expression)是一種處理字串的工具,功能十分強大。正規表示式使用預定義的特定模式去匹配一類具有共同特徵的字串,主要用於字串處理,可以快速,準確地完成複雜的查詢,替換等處理要求。

二、python中re模組提供的函式

re.search

re.match

re.fullmatch

re.split

re.findall

re.finditer

re.sub(pattern,new,string)

re.subn(pattern,new,string)

re.purge

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

資料清洗之微博時間清洗

資料清洗之微博時間清洗 爬取微博的時候時間格式比較亂,存到資料庫要統一成datatime型別,所以需要用到對時間的轉換 這裡是對time模組和datetime的模組的使用。對於當天的有三種 40秒前 50分鐘前 今天 08 12 針對這三種,第一步要做的是獲取當前的年月日 import dateti...

資料清洗之資料轉換

1.日期格式資料處理 import numpy as np import pandas as pd import os os.chdir r f csdn 課程內容 和資料 df pd.read csv baby trade history.csv encoding utf 8 dtype df.h...