Meu Candidato Scraper

Projeto voltado para raspagem de várias fontes de dados dos candidatos registrados no TSE

Instalação

Faça o checkout do projeto:

$ git clone https://github.com/meucandidato/scraper.git meucandidato-scraper

Crie o ambiente virtual e instale as dependências:

$ cd meucandidato-scraper
$ python3 -m venv .venv

$ source .venv/bin/activate
$ pip install -r requirements.txt

Rode o spider desejado. Nesse exemplo irei buscar notícias do Michel Temer no portal do G1.

$ scrapy crawl g1_news -a keywords="Michel Temer"

Ele irá captura o título da notícia, link para o conteúdo da notícia, entre outros. Segue um exemplo de como é salvo no MongoDB:

{
  "_id": ObjectId("59e7e862d5cb43c2b970eafe"),
  "url": "http://g1.globo.com/globo-news/jornal-globo-news/videos/v/rodrigo-maia-cancela-viagem-para-evitar-novo-atrito-com-michel-temer/6227466/",
  "posted_at": ISODate("2017-10-18T21:20:50.748Z"),
  "title": "Rodrigo Maia cancela viagem para evitar novo atrito com Michel Temer",
  "image": "http://s03.video.glbimg.com/160x100/6227466.jpg",
  "summary": "...Com a proximidade da votação, no plenário da Câmara, da segunda denúncia contra    , o presidente da Ca...",
  "portal_name": "Jornal GloboNews edição das 18h",
  "search_origin": "G1"
}

Name	Name	Last commit message	Last commit date
Latest commit gilsondev Change project name Feb 2, 2019 b4a2cf2 · Feb 2, 2019 History 3 Commits
meucandidato	meucandidato	Change project name	Feb 2, 2019
.gitignore	.gitignore	First commit of project	Oct 18, 2017
README.md	README.md	Update README.md	Feb 2, 2019
requirements.txt	requirements.txt	First commit of project	Oct 18, 2017
scrapy.cfg	scrapy.cfg	Change project name	Feb 2, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Meu Candidato Scraper

Instalação

About

Releases

Packages

Languages

meucandidato/scraper

Folders and files

Latest commit

History

Repository files navigation

Meu Candidato Scraper

Instalação

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages