爬蟲和辦公自動化(一)
1.獲取資料,爬蟲會根據我們提供的**,向伺服器發起請求獲取資料;
2.處理資料,對獲取的資料進行處理,得到我們需要的部分;
3.儲存資料,將處理後的資料儲存起來,便於後續的使用和分析等。
requests.get()方法
獲取資料 使用requests.get(『**』)方法想對應的**發起了請求,將返回的結果存到變數res中供後續使用,它的型別是response物件.
例:
import requests # 匯入 requests 模組
res = requests.get('') # 發起請求
print(res)
輸出:200是狀態碼
response 物件的常用屬性:
res.status_code 響應的http狀態碼
res.text 響應內容的字串形式
res.conten 響應內容的二進位制形式
res.encoding 響應內容的編碼
res.status_code
import requests
res = requests.get('')
print(res.status_code)
輸出:200
200就是響應的狀態碼,表示請求成功
我們可以通過res.status_code的值來判斷請求是否成功。
res.text返回的是伺服器響應內容的字串形式,也就是文字內容
**返回的是**的純文字格式,源**和內容是一樣的
import requests
獲取孔乙己資料
res = requests.get('')
以寫入的方式開啟乙個名為孔乙己的 txt 文件
with open('孔乙己.txt', 'w') as file:
# 將資料的字串形式寫入檔案中
file.write(res.text)
說明:**涉及到了檔案操作
open()用於開啟檔案,返回值是乙個file物件
open() 函式接收的第乙個引數為檔名,第二個引數為檔案開啟模式。開啟模式預設為 r,是 read
的縮寫,表示唯讀模式。即只能讀取內容,不能修改內容。
在w和a模式下,如果開啟的檔案不存在,那麼open()函式回自動建立乙個
這些開啟模式還能兩兩組合,比如:rb 表示以二進位制格式開啟檔案用於讀取,wb 表示以二進位制格式開啟檔案用於寫入,ab
表示以二進位制格式開啟檔案用於追加寫入。
使用 open() 函式開啟檔案,操作完畢後,最後一定要呼叫 file 物件的 close() 方法關閉該檔案。所以一般我們像下面這樣讀寫檔案:
# 讀取檔案
file = open('文字.txt') # 開啟模式預設為 r,可省略
print(file.read()) # 呼叫 read() 方法讀取檔案內容
file.close() # 關閉檔案
# 寫入檔案
file = open('文字.txt', 'w') # 寫入模式
file.write('扇貝程式設計') # 呼叫 write() 方法寫入內容
file.close() # 關閉檔案
為了避免忘記呼叫 close() 方法關閉檔案,導致資源占用、檔案內容丟失等問題,推薦使用 with … as … 語法,它在最後會自動幫你關閉檔案。
# res=requests.get('')
# # 以二進位制寫入的方式開啟乙個名為 info.jpg 的檔案
# # 將資料的二進位制形式寫入檔案中
# film.write(res.content)
# # print(res.content)
# # #輸出的是的二進位制編碼。
res.encoding
編碼是資訊從一種形式或格式轉換為另一種形式的過程,常見的編碼方式有 ascii、gbk、utf-8 等。如果用和檔案編碼不同的方式去解碼,我們就會得到一些亂碼。
utf-8 最大的乙個特點,就是它是一種變長的編碼方式。它可以使用 1~4 個位元組表示乙個符號,根據不同的符號而變化位元組長度。
res.encoding 就是爬蟲獲取到資料的編碼格式,requests 庫會根據內容推測編碼格式是什麼,然後將 res.encoding 設成推測的格式,在訪問 res.text 時使用該格式解碼。
**筆記:
import requests
# res= requests.get('')
# print(res)#輸出:# print(res.status_code)#輸出200
# print(res.text)
# # 獲取孔乙己資料
# res = requests.get('')
# # 以寫入的方式開啟乙個名為孔乙己的 txt 文件
# with open('孔乙己.txt', 'w') as file:
# # 將資料的字串形式寫入檔案中
# file.write(res.text)
# res=requests.get('')
# # 以二進位制寫入的方式開啟乙個名為 info.jpg 的檔案
# # 將資料的二進位制形式寫入檔案中
# film.write(res.content)
# # print(res.content)
# # #輸出的是的二進位制編碼。
# res = requests.get('')
# print(res.encoding)
# # 輸出:iso-8859-1
# res = requests.get('')
# res.encoding ='utf-8'
# print(res.text)
# 輸出:
#
OA 辦公自動化
通常,oa 就是辦公自動化,英文office automation的縮寫。通過流程或特定環節與日常事務聯絡在一起,使公文在流轉 審批 發布等方面提高效率,實現辦公管理規範化和資訊規範化,降低企業執行成本的一套系統的統稱。多年來,oa尚無乙個確切的定義,人們對oa的看法和理解各有不同。筆者認為 oa本...
OA(辦公自動化)
2011 08 29 16 01 近期一直在研究oa,發現現在國產的oa軟體在實際應用中存在很多問題,並不像諸多廠家宣傳的那樣完美無瑕,甚至根本沒有體現出oa的真正辦公自動化的真諦。現行oa狀況大體是這樣的 1 企事業單位很多需要辦公自動化,但是又找不到乙個合適的oa產品,在選型上忐忑不安,猶豫不決...
辦公自動化 skydrive onedrive
國內暫時無法訪問onedrive,請按如下步驟操作嘗試 依次如下 在開始選單裡,單擊 所有程式 找到 附件 單擊找到裡面的 記事本 右鍵,然後選擇 以管理員身份執行 如果有對話方塊,選擇 是 然後單擊記事本視窗的 檔案 選單,選擇 開啟 在對話方塊中檔名處輸入引號內的內容,或者直接選擇如下目錄 c ...