import requests
import re
'''爬取新東方網的某課程答案文字,生成新的html檔案,便於在word中編輯。
重要知識點:
1.萬能解碼**
2.re.s匹配模式的使用
如果不使用re.s引數,則只在每一行內進行匹配,如果一行沒有,就換下一行重新開始。
而使用re.s引數以後,正規表示式會將這個字串作為乙個整體,在整體中進行匹配。
'''url_album = ''
headers = {
#以下三行**是萬能網頁轉碼方法,不用管編碼的問題
r = requests.get(url=url_album, headers=headers)
r.raise_for_status()
r = r.text
# print(r)
#匹配符合條件的**
pat_html = r'(.*?)正規表示式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為乙個可選的標誌。多個標誌可以通過按位 or(|) 它們來指定。如 re.i | re.m 被設定成 i 和 m 標誌:
修飾符 描述
re.i 使匹配對大小寫不敏感
re.l 做本地化識別(locale-aware)匹配
re.m 多行匹配,影響 ^ 和 $
re.s 使 . 匹配包括換行在內的所有字元
re.u 根據unicode字符集解析字元。這個標誌影響 \w, \w, \b, \b.
re.x 該標誌通過給予你更靈活的格式以便你將正規表示式寫得更易於理解。
星辰 感受新東方的獨特魅力
美學大師朱光潛先生曾說過 我堅信情感比理智重要,要洗刷人心,並非幾句道德家言所可了事,一定要從 怡情養性 做起。要求人心淨化,先要求人生美化 無論是時尚派的 新東方 系列,有意象美之稱的 天籟 系列,還是大道至簡的 一品柚 系列,都滲透著東方家居美學的獨特魅力。住在東方,就來星辰 挑選心儀的家具,讓...
某房產網資訊爬取
有反爬,出現訪問驗證!窮人,手裡沒啥 因為是著名大站,所以只貼出部分,防止侵權或者非法用途等等,僅供學習交流,我也是個菜!愁人!class ftxspider scrapy.spider name ftx allowed domains fang.com start urls def parse s...
新東方校長俞敏洪給我們的告誡。
第一句 優秀是一種習慣 這句話是古希臘哲學家亞里斯多德說的。如果說優秀是一種習慣,那麼懶惰也是一種習慣。人出生的時候,除了脾氣會因為天性而有所不同,其他的東西基本都是後天形成的,是家庭影響和教育的結果。所以,我們的一言一行都是日積月累養成的習慣。我們有的人形成了很好的習慣,有的人形成了很壞的習慣。到...