首页 > 使用教程 > 正文

代理IP.CC教你Python 免费代理ip的批量获取

介绍
爬虫技术,向来都是一场精彩纷呈的防御战。如今很多网址的反爬虫体制在持续的健全,在其中最让人头痛的,莫过立即封禁你的ip。可是道高一尺魔高一丈,在抓取网页页面的情况下,应用上代理ip,便能够合理的防止自己的ip被封禁。
要想应用代理ip,现阶段你能去相对的代理网站出售代理ip(如果是大中型的新项目還是强烈推荐去选购),还可以去应用一些代理网址出示的完全免费的代理ip,但是这种ip還是存有许多 难题的,一些不能用,一些不稳定,一些时效性短。但是假如量大得话,還是有许多能够应用的。
根据这一目地,运用Python的requests库写了一个简易的大批量获得完全免费代理ip的程序流程,在其中包含“免费下载+认证”程序流程。下边将简易详细介绍编码构思和操作方法。
 
Python完成构思

1.明确获得完全免费代理ip的网页页面
 
根据找寻,发觉现阶段一些出示完全免费代理ip网址有下列三类状况:
 
全部的完全免费代理ip信息内容在网页页面标识中
全部的完全免费代理ip信息内容在网页页面标识中,但是应用了一些掩藏标识
全部的完全免费代理ip信息内容在照片中


为了使付出和回报成正比,我就不去选择第二类和第三类的完整获取免费的ip。本
文将选择第一类网页进行提取

http://www.dailiip.cc/freedailiip/

2. 下载代理ip (parsing_html.py)
 
2.1. 获取网页
要解析一个网页,第一步就是先获取页面。因为有多个页面要获取,为了方便就编写一个获取页面的函数,便于之后进行调用
2.2. 保存ip
当我们对获取的每个页面进行解析时,都会获取页面上的代理ip,同样的,每个页面获取的代理ip都要保存下来,在此写一个保存函数,将获得的代理ip写入文件。在这里我是将代理ip写入txt文件。


3. 验证代理ip (checking_ip.py)
3.1. 文件查重
在第二部分获取代理ip中,我是将获取的代理ip信息直接保存在txt文件中,因此我写了一个简单的函数用于查重,这里的查重思路就是获取txt文件中的每一行元素,组成列表。对列表使用自带的set函数,这里需要注意的是:这种方法会改变列表原来的顺序

 

上一篇:在浏览器中设置代理ip 下一篇:没有了

看过本文的人还看过……

ip修改器知名品牌

热点排行

ip修改器知名品牌

最新文章

用户
反馈
返回
顶部
旗下产品:
代理IP
极速加速器
1代理IP
91IP代理
IP代理
51代理
代理IP
联系客服:
QQ:2578037309
工作时间:
9:00-18:00(工作日)