Skip to content

Scraper desenvolvido para capturar informações de candidatos de várias fontes de dados

Notifications You must be signed in to change notification settings

meucandidato/scraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

b4a2cf2 · Feb 2, 2019

History

3 Commits
Feb 2, 2019
Oct 18, 2017
Feb 2, 2019
Oct 18, 2017
Feb 2, 2019

Repository files navigation

Meu Candidato Scraper

Projeto voltado para raspagem de várias fontes de dados dos candidatos registrados no TSE

Instalação

  1. Faça o checkout do projeto:
$ git clone https://github.com/meucandidato/scraper.git meucandidato-scraper
  1. Crie o ambiente virtual e instale as dependências:
$ cd meucandidato-scraper
$ python3 -m venv .venv
$ source .venv/bin/activate
$ pip install -r requirements.txt
  1. Rode o spider desejado. Nesse exemplo irei buscar notícias do Michel Temer no portal do G1.
$ scrapy crawl g1_news -a keywords="Michel Temer"

Ele irá captura o título da notícia, link para o conteúdo da notícia, entre outros. Segue um exemplo de como é salvo no MongoDB:

{
  "_id": ObjectId("59e7e862d5cb43c2b970eafe"),
  "url": "http://g1.globo.com/globo-news/jornal-globo-news/videos/v/rodrigo-maia-cancela-viagem-para-evitar-novo-atrito-com-michel-temer/6227466/",
  "posted_at": ISODate("2017-10-18T21:20:50.748Z"),
  "title": "Rodrigo Maia cancela viagem para evitar novo atrito com Michel Temer",
  "image": "http://s03.video.glbimg.com/160x100/6227466.jpg",
  "summary": "...Com a proximidade da votação, no plenário da Câmara, da segunda denúncia contra    , o presidente da Ca...",
  "portal_name": "Jornal GloboNews edição das 18h",
  "search_origin": "G1"
}

About

Scraper desenvolvido para capturar informações de candidatos de várias fontes de dados

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages