【学习数据分析时,有哪些获取海量数据源的网站?】
数据分析,数据是根本。首先,我们要保证拿到的是可靠、真实的数据,然后再把这些数据分析基础运用到实际的工作业务中,好好理解业务逻辑,真正用数据分析驱动网站运营、业务管理,发挥数据的价值。那么,到底在哪里才能获取到可靠的数据呢?拿到以后又怎样去展示他们?
一、公开数据集
1.GitHub—Awesome Public Datasets
(https://github.com/caesar0301/awesome-public-datasets)
这个我一定要放第一个,太惊艳了。一个大神整理的非常全面的数据获取渠道,包含各个细分领域的数据库资源。领域科研研究,从这里开始。
涉及的领域包括:农业、生物学、气候、计算机网络、数据科学、地球科学、经济学、教育、能源、金融学、GIS、图像处理、机器学习、自然语言、神经科学、物理学、心理学、社会科学….
oh,看到英语不用害怕。谷歌浏览器,你值得拥有。
2. 亚马逊AWS
(https://aws.amazon.com/cn/datasets/?nc1=h_ls)
来自亚马逊的跨科学云数据平台,包含化学、生物学、经济学、天文学等多个领域的数据集。同样是公开数据集,涉及领域较少但是非常权威。
3.UCI
(http://archive.ics.uci.edu/ml/datasets.html)
加州大学欧文分校开放的经典数据集,可以说非常经典了,被很多机器学习实验室采用。机器学习必选数据。
二、国内公开数据
1.国家数据
(http://data.stats.gov.cn/)
这个数据库信息内容涵盖范围全面、详实,并且有些数据已经做好了可视化,所以具有很高的实用性;基本只要和国情相关的信息都会在里边发布;比如地区房价、工业、能源、居民消费总额、房地产投资甚至食品的平均价格。
国家统计数据库包括历年月、季、年度数据,可通过数据库“搜索”、选择“指标”等方式,方便快捷地查询到历年、分地区、分专业的数据。
2.中华人民共和国国家统计局
(http://www.stats.gov.cn/)
这个网站的信息是比较宏观的,国家统计局一般只发布全国和分省的宏观统计数据。但如果想获取市级、地级信息,也可以底部的友情链接中获取。
三、数据采集
网络爬虫,做数据分析的,相信大家都听说过。但很多人就说,我不会写Python,也没时间学。很多公司需要数据的时候常常也会将要爬取的网站外包出去。但其实还有一种方式,就是采集器采集。
1.八爪鱼采集器
(http://www.bazhuayu.com/)
这是一款免费的数据采集工具,而且没有功能限制,几乎所有网站都能采集,最大的特点是上手快,免费采集几万条数据没压力,当然也有付费增值服务可选。
四、地图数据源
不得不承认,做数据分析的时候,我最喜欢的就是地图了。因为可以自己选择、编辑、绘制地图。而地图的美观程度直接影响了我的心情。当然最重要的还是里面的开源数据。
1.OSGeo中国中心
(http://www.osgeo.cn/)
2.ArcGIS
(https://hub.arcgis.com/pages/open-data)
3.OSM
(openstreetmap.org/)
OpenStreetMap 是一个世界地图,可依据开放许可协议自由使用、编辑、绘制。目标是创造一个内容自由且能让所有人编辑的世界地图。设计属于自己的地图,从这里开始。
数据源的获取我知道的都已经分享给大家了。但拿到数据以后还需要用可视化工具展示出来。接下来我会整理关于如何展示数据的内容。
希望这些免费的资源对学习数据分析的你有帮助。如果有帮助,欢迎关注我以示支持,也以防错过下一波干货!~
转载请注明:徐自远的乱七八糟小站 » 【学习数据分析时,有哪些获取海量数据源的网站?】