爬蟲開發 1 檔案操作

2021-08-21 21:36:26 字數 1707 閱讀 2505

寫在前面:應專業課程要求,曾使用python在鏈家網爬取過一萬四千多條資料(爬了幾個小時…在沒有反爬蟲策略的情況下-_-||)。

突發興致,準備深入研究研究python爬蟲,擬定了幾個階段,首先就從啃書開始吧。所用書籍是《python爬蟲開發與專案實戰》,范傳輝老師編著,希望能堅持下去。

檔案開啟、操作、關閉

f = open(filename, mode=, buffering=, encoding=, errors=, newline=, closefd=)

f.read(): 將所有內容讀入記憶體

f.read(size): 一次最多讀取size個位元組

f.readline(): 讀一行

f.readlines(): 讀所有內容,以一行一行的形式返回乙個列表

f.write(string)

f.close()

*為了避免io異常,推薦使用with語句,常見檔案開啟,關閉語句如下:

with open(『/users/dmzxwcy0112/desktop/test.txt』,』r+』) as file:

str = file.readlines()

os、shutil模組(filepath 字串型別、file 檔案型別)

os.getcwd(): 獲得python指令碼的目錄路徑

os.listdir(「c:\」): 返回指定目錄下的所有檔案和目錄名(列表形式)

os.remove(filepath): 刪除檔案

os.removedirs(」d:\python」)、os.rmdir(」d:\python」): 刪除(多個)空目錄

os.path.isfile(filepath): 判斷該路徑是否為乙個檔案

os.path.isdir(filepath)

os.path.isabs(filepath):判斷該路徑是否為絕對路徑

os.path.exists(filepath):判斷該路徑是否存在

os.path.split(filepath):分割乙個路徑,返回元組型別(filedir,filename)

*僅僅是以 「path」 中最後乙個 『/』 作為分隔符,分隔後,將索引為0的視為目錄(路徑),將索引為1的視為檔名

os.path.splitext():分割乙個路徑,返回元祖型別,如(『/users/dmzxwcy0112/desktop/test』,』.txt』)

os.path.dirname(filepath):獲取路徑名

os.path.basename(filepath):獲取檔名

os.getenv()、os.putenv():讀取和設定環境變數

os.rename(oldname,newname):重新命名檔案

os.mkdir(dir):建立目錄

os.stat(file):後取檔案屬性

os.chmod(file)、os.path.getsize(filename)

shutil.copytree(olddirname,newdirname):引數只能是目錄,且newdirname必須不存在

shutil.copyfile(oldfilename,newfilename):oldfilename只能是檔案,newfile可檔案可目錄

shutil.move(oldname,newname)

shutil.rmtree(」d:\python」): 刪除目錄(無論空與否)

1 檔案測試 2 檔案操作

1 檔案測試函式 2 檔案操作 新建檔案 fopen filename,w 以 寫 的方式開啟乙個不存在的檔案,就會新建該檔案 檔案刪除 unlink 檔案複製 copy filename,aaa bb.txt 盡量使用 和相對路徑,因為linux只認 也沒有磁碟分割槽,而windows 和 都認 ...

檔案操作《1》檔案的讀寫

檔案操作在c語言中是乙個不能忽略的知識點,學習檔案操作也可以解除大家對檔案的誤解,可能許多人會認為只有資料夾中的文字檔案,編譯c語言時的原始檔和標頭檔案才是檔案等,其實不能,計算機中的顯示器 滑鼠 鍵盤 印表機等都可以稱為檔案,沒想到吧,其中的鍵盤是標準輸入檔案,顯示器是標準輸出檔案 理解了檔案後我...

1 檔案io操作習題

4 1 tee命令是從標準輸入中讀取資料,直至檔案結尾,隨後將資料寫入標準輸入和命令列引數所指定的檔案。請使用i o系統呼叫實現tee命令,預設情況下,若已存在命令列引數指定檔案同名的檔案tee命令會將其覆蓋。如檔案以存在,請實現 a命令列選項 tee a file 在檔案結尾出追加資料。inclu...