GitHub

Есть семпл выгрузки из хадупа в 500 строк. Пример:

{"url": "http://ura-povara.ru/journal/6-produktov-kotorye-mogut-navredit-zhelchnomu-puzyrju", "state": "checked", "categories": ["good_site"], "category_another": "", "for_main_page": false, "ctime": 1567713280}

В поле categories указано например, good_site Надо его распарсить и обкачать урлы из этого семпла. И сделать для каждой категории текстовый файл, в формате tsv, в котором должен лежать url\ttitle\tdescription

Пример, файл good_site.tsv

http://ura-povara.ru/journal/6-produktov-kotorye-mogut-navredit-zhelchnomu-puzyrju  6 продуктов, которые могут навредить желчному пузырю - Ура! Повара  И что есть, чтобы снизить риск воспалений в желчном?

Парсить надо максимально быстро, с минимумом ресурсов, но так, чтобы не забить канал/не положить сервер. Будет плюсом решение, не используещее внешних библиотек.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
500.jsonl		500.jsonl
README.md		README.md
main.go		main.go
workerPool.go		workerPool.go

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

About

Uh oh!

Releases

Packages

Uh oh!

Languages

vctrl/ParseUrls

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages