Python爬虫:Ptyhon中RE模块的使用

6年前 高效码农

Ptyhon中RE模块的使用 1. 正则表达式 参考:廖雪峰的官方网站 2. Python Re模块 Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用转义,因此我们 …

Python爬虫:UrlLib库的高级使用

6年前 高效码农

UrlLib库的高级使用 1. Headers设置 有很多网站为了防止程序爬虫爬网站造成网站瘫痪,会需要携带一些headers头部信息才能访问,最长见的有user-agent参数 # -*- codi …

Python爬虫:Urllib库的基本使用

6年前 高效码农

1.抓取一个网页 抓取网页就是根据URL来获取它的网页信息: # -*- coding:utf-8 -*- import urllib # urllib.request 请求模块 response = …