高效码农

撰写、分享国内外先进的IT技术

标签 spider 下的文章

March 12, 2019

Python爬虫:Ptyhon中RE模块的使用

Ptyhon中RE模块的使用1. 正则表达式参考:廖雪峰的官方网站2. Python Re模块Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用转义,因此我们强烈建议使用Python的r前缀,就不用考虑转义的问题了2.1   re.match(pattern, string[, flags])如果字符串开头的零个或多个字符与正则表达式模式...
March 12, 2019

Python爬虫:UrlLib库的高级使用

UrlLib库的高级使用1. Headers设置有很多网站为了防止程序爬虫爬网站造成网站瘫痪,会需要携带一些headers头部信息才能访问,最长见的有user-agent参数# -*- coding:UTF-8 -*- # urllib.request 请求模块 # import urllib.request # import urllib.parse # 以上2个导入可以合并为 from...
March 12, 2019

Python爬虫:Urllib库的基本使用

1.抓取一个网页抓取网页就是根据URL来获取它的网页信息:# -*- coding:utf-8 -*- import urllib # urllib.request 请求模块 response = urllib.request.urlopen("http://www.baidu.com") print(response.read())在vscode中按F5执行后结果如图...