【用爬虫爬取能得到很有价值的数据的网站有哪些?】

Python与机器学习 徐 自远 882℃

【用爬虫爬取能得到很有价值的数据的网站有哪些?】

我是一个苦逼的程序员,最近要做数据分析,先练习的爬虫的各种爬取技巧以及多网站爬取等已经掌握, 现在有些迷茫,哪些网站的数据抓取下来能获得有分析价值的数据,或者前辈的经验。

1、微信好友的爬虫,了解一下你的好友全国分布,男女比例,听起来似乎是一个不错的想法,当然你还可以识别一下你的好友有多少人是用自己照片作为头像的等等。

2、拉钩网:(https://www.lagou.com/)

拉勾网的数据那么多的招聘信息有用吗?当然有用,你想了解一下你所在城市的各种主流语言(Java、PHP、JavaScript、Python、C++)的薪资水平吗?这或许对你的学习决策是一个很大的帮助:

  • Java/Python/PHP/C#/C++各大城市招聘状况分析
  • web前端开发各大城市招聘状况分析

3、豆瓣:(https://book.douban.com/)

豆瓣的图书、电影信息有用吗?当然有,你想了解一下哪位小说作家的作品质量最高吗?是否想了解豆瓣上最热门的书记都有哪些,有没有你错过的好书籍呢?豆瓣的电影评论有水军吗?

  • 爬取6.6w+豆瓣电影之后的分析故事
  • 豆瓣5.6分的《西游伏妖篇》评论有水军吗?
  • 豆瓣读书分析报告——读书爱好者

4、大众点评:(http://www.dianping.com/)

美团和大众点评的数据有用吗?有呀,你真的了解周黑鸭和绝味吗?你知道在哪些城市周黑鸭比绝味火,哪些城市绝味比周黑鸭火呢?如果你都不知道,你就不算是鸭脖控!

5、伯乐在线:(http://www.jobbole.com/)

伯乐在线的文章数据有用吗?有啊,作为技术人员如何写一篇受欢迎的技术文章,作为一名Python初学者如何快速找到Python全面的学习资料,一个爬虫就够了:抓取1400篇Python文章后的故事

6、腾讯体育

腾讯NBA的用户评论数据有用吗?你用会员看一场NBA,我用爬虫也能看完一场精彩的NBA:用弹幕看一场NBA(公牛 – 老鹰),甚至我还能看到很多你看不到的东西。

7、链家:(https://bj.lianjia.com/)

链家网的数据有用吗?当然有啦,我能快速地找到我想租的房子,当然我还有一项特殊的技能,我还能用这些数据画出城市的地铁交通路线,是否很想知道如何做:如何拿链家网的租房数据做些有意思的事情?

8、知乎:(https://www.zhihu.com/)

知乎的数据如何用呢?如何判断一场知乎live的质量,如何发现知乎中有趣的东西,知乎中最厉害的粉丝最多的都有哪些人?你想知道吗?

  • 如何判断一场知乎live的质量?

  • 爬取知乎60万用户信息之后的简单分析(性别分布、粉丝最多的用户top10、员工最多的公司top10、校友最多的学校top10、人数最多的地方top10、top10行业分布、top10职业分布)

这以上都是我去年做过的分析。其实只要是真实的数据、数据量够大的网站,都是非常有价值的网站。主要看你用这些数据做什么,证明什么,同时发现数据的异常点。思路才是最重要的。

接下来我还会具体的整理今年我做的其他一些网站的数据分析的思路并分享出来给大家!如果这篇文章对你有帮助,欢迎关注我以示支持噢~也以防错过下一波干货!

https://www.wukong.com/answer/6492729674722984206/?iid=18053631823&app=news_article&share_ansid=6492729674722984206&tt_from=android_share&utm_medium=toutiao_android&utm_campaign=client_share

 

转载请注明:徐自远的乱七八糟小站 » 【用爬虫爬取能得到很有价值的数据的网站有哪些?】

喜欢 (0)

苏ICP备18041234号-1 bei_an 苏公网安备 32021402001397号