8000 GitHub - vctrl/ParseUrls
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

vctrl/ParseUrls

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Есть семпл выгрузки из хадупа в 500 строк. Пример:

{"url": "http://ura-povara.ru/journal/6-produktov-kotorye-mogut-navredit-zhelchnomu-puzyrju", "state": "checked", "categories": ["good_site"], "category_another": "", "for_main_page": false, "ctime": 1567713280}

В поле categories указано например, good_site Надо его распарсить и обкачать урлы из этого семпла. И сделать для каждой категории текстовый файл, в формате tsv, в котором должен лежать url\ttitle\tdescription

Пример, файл good_site.tsv

http://ura-povara.ru/journal/6-produktov-kotorye-mogut-navredit-zhelchnomu-puzyrju  6 продуктов, которые могут навредить желчному пузырю - Ура! Повара  И что есть, чтобы снизить риск воспалений в желчном?

Парсить надо максимально быстро, с минимумом ресурсов, но так, чтобы не забить канал/не положить сервер. Будет плюсом решение, не используещее внешних библиотек.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

0