8000 GitHub - itcker/PythonCode: Python 学习笔记,工作中一些杂事,刚好趁学习顺便编写,仅供学习。
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

itcker/PythonCode

Repository files navigation

1.使用过程中需要安装所需要的第三方库,配置相应的运行环境等。各项代码中均存在部分已知bug(也许以后会修复),代码仅供学习参考,大神及喷子绕道,因使用代码造成任何损失,本人概不负责。

2.BeautifulSoup_urltitle_xls.py 使用BeautifulSoup实现的批量抓取url对应的title内容,同时将结果写入excel表中,此方法中的url必须同时满足以下条件:可正常访问/无指定端口/非JS生成的url和网页内容/无重定向/证书正确。需要为标准的url地址,如:https://www.baidu.com/ ,不能为https://x.x.x.x:8080,

3.geturltitle.py 与BeautifulSoup_urltitle_xls.py类似,实现的批量抓取url对应的title内容以及status_code(状态码),但相比BeautifulSoup_urltitle_xls.py使用范围略广,除无法获取非JS生成的url和网页内容外,其他类型的基本可以,因代码中加入了http/https,因此只需提供简单的url即可。如:www.baidu.com或x.x.x.x:443

4.selenium_urltitle_xls.py 使用selenium+PhantomJS实现的批量抓取url对应的title内容,同时将结果写入excel表中,此方法仅适用于可正常访问的url,如:https://www.baidu.com/ 无法抓取访问超时的url。另外,此方法虽为批量,但应需要调用PhantomJS,所以耗费资源,效率低,仅供参考学习,不建议批量使用

5.getiptitle.py 实现批量ip地址指定相应的端口实现web的title内容抓取

6.phantomjs.exe为浏览器,下载后放入Python的Scripts目录下,并添加到系统环境变量

About

Python 学习笔记,工作中一些杂事,刚好趁学习顺便编写,仅供学习。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

0