8000 GitHub - joeyxy/Common_Spider: 一个还算通用的爬虫脚本,可自己设定爬取的深度,可以把动态页面和外链单独分出来~
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

一个还算通用的爬虫脚本,可自己设定爬取的深度,可以把动态页面和外链单独分出来~

Notifications You must be signed in to change notification settings

joeyxy/Common_Spider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Common_Spider

一个还算通用的爬虫脚本,可自己设定爬取的深度,可以把网站的动态链接地址和外链单独分出来,做安全测试时可以提前爬一下页面,避免测试时会有遗漏。

Change Log

  • [2018-07-05] 对爬取时遇到的一些异常进行了优化
  • [2018-04-03] 对域名的处理进行了完善

Usage

使用比较简单:

安装requests依赖

pip install requests

运行爬虫

 python2 spider_v3.py  url  5   --> url为待爬取的网站地址,5为爬取深度,可以不设,默认为5。

Screenshot

  • 扫描过程

screenshot

  • 扫描结果

screenshot

  • 外链和动态链接

screenshot

About

一个还算通用的爬虫脚本,可自己设定爬取的深度,可以把动态页面和外链单独分出来~

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%
0