爬虫因为需要大量抓取网页,所以有可能会被ban IP,所以通常使用加UA、代理、XFF等伪造真实IP等策略,其中X-Forwarded-For,Client-ip,REMOTE_ADDR可以使用burp的爆破模块,四个payload随机生成就行了,本文重点使用UA、代理IP测试。
0x00 设置编码
首先设置下默认编码。
0x01 设置UA
|
|
可以使用字典方式,这里我为了简便就随机粘了几个。
0x02 设置交互方式
数据交互使用python的PyMySQL模块,支持py2,py3。
0x03 代理获取
代理使用免费的西刺代理(没钱-.-),使用requests、BeautifulSoup做数据处理。
0x04 代理验证
验证代理的存活性,使用站长工具的ip定位实现
0x05 数据入库
这里就以谷安网校的课程来爬,主要爬课程名字及对应的价格。
效果如下图:
附:源代码