重要提示:由于数据接口方停止停止服务,本项目已于7.14日正式停止维护。愿未来各位安好
这个仓库存放的是爬取互联网上关于肺炎病毒疫情实时信息的代码
爬取的内容包括全国确诊人数、疑似人数、相关研究进展(传染源、传播途径等)、全国各省感染人数以及最新的3条实时新闻
如果在各省情况中没有看到您所在的省,说明还没有发现病例,但并不代表可以放松警惕,还请多多注意
国内用户通过这个链接下载EXE文件可能更快
切记,不要频繁使用,由于接口有反爬机制,可能会导致您的IP被列入黑名单。如果被列入黑名单,您就获取不到信息了。注:频繁使用是指一秒钟内使用程序超过两次
- 更换了数据接口
- 重构了代码,现在看起来更整洁了
2019-nCoV-timer.py程序功能是每天定时凌晨0点0分爬取数据并保存到Excel,并且以当天日期作为sheet名,保存在当前sheet中。写这个程序的目的是方便一些科研人员进行数据分析
请仔细阅读以下注意事项
- 需要确保程序运行时,2019-nCoV.xlsx这个Excel文件是关闭状态
- 需要在每天的凌晨0点以前运行,确保程序处于一直运行状态,直到提示"文件写入成功"
- 直接运行即可,生成的Excel目录与程序运行的目录相同
Excel的部分数据如下所示:
- 修复了一些由于网页源码的改变而产生的bug
- 添加了国外的疫情情况
- 对丁香医生网站源码的修改进行了适配
- 更新了爬虫的定位元素
- 移除了关于我的个人信息
- 更新了爬虫的定位元素
- 更新了省份信息显示,现在是以表格的形式展示
- 支持查询某个省内的相关信息
- 使用了丁香医生数据接口
这个项目是由我一人花了晚上2小时熬夜写出来的,目的仅仅只是希望能呼吁大家发挥所长,运用自己所学的知识,为疫情的防控做一些力所能及的事(量力而行)
我的力量是有限的,您可以帮忙优化代码使其变得更简洁,也可以做一些更高大上的项目,比方说疫情传播的数据可视化之类的。我也会持续想一些点子来完善这个项目,欢迎多多提出问题。谢谢
很快我会将我所爬取的数据以json的形式部署到服务器,方便大家调用