install

Requirements

nodejs
npm
yarn
mysql

Node

npm install @types/puppeteer
npm install -g socket.io
yran isntall

Headless chromium

https://gist.githubusercontent.com/ipepe/94389528e2263486e53645fa0e65578b/raw/9c5e0e3bc529d8717d38c589be112505f1604710/install-chrome-headless.sh

Servers

http server

yarn start-http-server
// Post request to: http://localhost:3000/url { url: 'https://the.url' }
// Check the test-http-server.html for the sample usage.

sockets server

yarn start-socket-server

comamnd line usage

yran shell --headless=false --instances=1 --sites=8 --waitfor=3000 --timeout=60000

"--headless": Boolean,
"--instances": Integer (number of chrome intsances)
"--tabs": Integer, (number of tabs per instance)
"--sites": Integer, (number of sites to crawl)
"--waitfor": Integer (ms after puppeteer page.goto())
"--timeout": Integer (ms puppeteer page.goto() timeout)

Web client

To be able to test the extractor api:

Run the servers above (http, socket)
Load the test-http-server.html or test-socket-server.html from the clients folder

Name		Name	Last commit message	Last commit date
Latest commit History 135 Commits
client		client
data		data
db/split		db/split
extension		extension
extract-dir		extract-dir
plugins		plugins
pptr-utils		pptr-utils
stats		stats
.gitignore		.gitignore
.package.json.swp		.package.json.swp
.pm2-apps.json.swp		.pm2-apps.json.swp
Browser.ts		Browser.ts
BrowserHandler.ts		BrowserHandler.ts
README.md		README.md
build.ts		build.ts
canvas-fingerprinting.ts		canvas-fingerprinting.ts
client-server.ts		client-server.ts
constants.ts		constants.ts
cookie-collector.ts		cookie-collector.ts
core.ts		core.ts
db-pixel-lookup.ts		db-pixel-lookup.ts
db-sql.ts		db-sql.ts
engine.bin		engine.bin
fb-pixel-lookup.ts		fb-pixel-lookup.ts
http.ts		http.ts
inspector.ts		inspector.ts
key-logging.ts		key-logging.ts
logger.ts		logger.ts
notes.txt		notes.txt
package-lock.json		package-lock.json
package.json		package.json
parser.ts		parser.ts
pm2-apps.json		pm2-apps.json
readability.ts		readability.ts
resetCrawler.sh		resetCrawler.sh
session-recording.ts		session-recording.ts
shell.ts		shell.ts
socket.ts		socket.ts
third-party-trackers.ts		third-party-trackers.ts
tsconfig.json		tsconfig.json
types.ts		types.ts
utils.ts		utils.ts
yarn-error.log		yarn-error.log
yarn.lock		yarn.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

install

Requirements

Node

Headless chromium

Servers

http server

sockets server

comamnd line usage

Web client

About

Uh oh!

Releases

Packages

Languages

dud3/headless-crawler

Folders and files

Latest commit

History

Repository files navigation

install

Requirements

Node

Headless chromium

Servers

http server

sockets server

comamnd line usage

Web client

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages