用于机器学习的开放数据集有哪些呢?Lionbridge 团队为高质量的数据集创建了一份最终备忘单。这些高质量的数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。
首先,在搜索数据集时要记住几点。Dataquest 是这么说的:
- 数据集不应脏乱,这样就无需花太多时间来清洗数据。
- 数据集不应包含太多的行或者列,这样更易于使用。
- 数据越干净越好 —— 清洗大型数据集相当耗时。
- 这些数据可以用来回答一些有趣的问题。
我们一起来看看吧!
数据集查找器
Kaggle :这是一个数据科学网站,内有各种有趣的数据集。在网站的主列表中有各种各样的利基数据集,有拉面评级、有篮球数据 ,甚至还有西雅图的宠物许可证的数据。
UCI机器学习库 (UCI Machine Learning Repository):这是网络上最早的数据集来源之一,如果想要寻找有趣的数据集,这个站点值得优先访问。虽然用户提供的数据集的清洁度不太一样,但绝大多数都是干净的。我们可以从 UCI 机器学习库直接下载数据,无需注册。
一般数据集
公共政府数据集
Data.gov:在这里可以下载到多个美国政府机构的数据,数据范围从政府预算到学校的绩效分数都有。但要注意的是,很多数据还有待进一步研究。
食品环境地图集 (Food Environment Atlas):内有当地的食物选择如何影响美国饮食的数据。
学校系统财务状况 (School system finances):美国学校系统财务状况的调查报告。
慢性病数据 (Chronic disease data):关于美国各地区慢性病指标的数据。
美国国家教育统计中心 (The US National Center for Education Statistics):来自美国和世界各地的关于教育机构和教育人口统计的数据。
英国数据服务 (The UK Data Service):英国最大的社会、经济和人口数据集。
数据美国 (Data USA):全面的、可视化的美国公共数据。
金融与经济
Quandl:经济和金融数据的良好来源 —— 对于建立预测经济指标或股票价格的模型很有用。
世界银行开放数据 (World Bank Open Data):该数据集涵盖了世界各地的人口统计数据和大量的经济和发展指标。
国际货币基金组织数据 (IMF Data):国际货币基金组织在这里发布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。
金融时报市场数据 (Financial Times Market Data):关于世界各地金融市场的最新信息,包括股票价格指数、商品和外汇。
Google 趋势 (Google Trend):检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。
美国经济协会 (AEA):这是查找美国宏观经济数据的良好来源。
机器学习数据集
图像
Labelme:注释图像的大型数据集。
ImageNet:新算法的实例图像数据集。按 WordNet 层次结构进行组织,层次结构中的每个节点都有成千上万张图像。
LSUN:场景理解以及许多辅助任务(比如房间布局估算、图像显著性预测等)。
MS COCO:通用图像的理解和文字描述。
COIL100:在 360 度旋转中以各个角度成像的 100 个不同的物体。
Visual Genome:非常详细的视觉知识库,约有 10 万张带有文字描述的图像。
Google’s Open Images:“知识共享”(Creative Commons)下的“使用 6,000 多个类别的标签进行注释”的 900 万张图像的 URL 数据集。
Labelled Faces in the Wild:13,000 个人脸标记图像,用于开发涉及面部识别的应用程序。
斯坦福犬类数据集 (Stanford Dogs Dataset):内有 20,580 张图像和 120 个不同的犬种类别。
室内场景识别 (Indoor Scene Recognition):这是一个非常细化的数据集,由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳,因而这个数据集非常有用。内有 67 个室内类别,共 15,620 张图像。
情绪分析
多域情绪分析数据集 (Multidomain sentiment analysis dataset):这是一个稍微早期一点的数据集,内有来自亚马逊的产品评论。
IMDB 影评:用于二元情绪分类的较早的、相对也较小的数据集,内有 25,000 条电影评论。
斯坦福情绪树数据集 (Stanford Sentiment Treebank):带情绪注释的标准情绪数据集。
情绪140 (Sentiment140):这是一个流行数据集,内有 16 万条预先清除表情符号的推文。
Twitter 美国航空公司情绪数据集 (Twitter US Airline Sentiment):自 2015 年 2 月以来美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。
自然语言处理
安然数据集 (Enron Dataset):来自安然高层的电子邮件数据,按文件夹分组。
亚马逊评论 (Amazon Reviews):内有亚马逊 18 年来约 3,500 万条的评论。数据包括产品和用户信息、评级和纯文本评论。
Google Books Ngrams:来自 Google 图书的词汇集。
博客语料库 (Blogger Corpus):从 blogger.com 收集的 681,288 篇博客文章,每篇博客至少包含 200 个常用的英语单词。
维基百科链接数据 (Wikipedia Links data):维基百科的全文。该数据集包含来自 400 多万篇文章的近 19 亿个单词。可以按单词、段落或段落的一部分进行搜索。
古腾堡电子书列表 (Gutenberg eBooks List) :来自古腾堡项目 (Project Gutenberg) 的电子书注释列表。
Hansards 加拿大国会文本块(Hansards text chunks of Canadian Parliament:来自第 36 届加拿大国会记录的 130 万对文本。
危险边缘 (Jeopardy):来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档。
英文垃圾短信集 (SMS Spam Collection in English):由 5,574 条英语垃圾短信组成的数据集。
Yelp 评论 (Yelp Reviews):Yelp 发布的开放数据集,内有超过 500 万条评论。
UCI 垃圾邮件数据集 (UCI’s Spambase):大型的垃圾邮件数据集,对于过滤垃圾邮件很有用。
自动驾驶
Berkeley DeepDrive BDD100k: 这是目前最大的自动驾驶 AI 数据集。内有超过 10 万个在一天中不同时段以及在不同天气条件下共 1,100 多个小时的驾驶体验的视频。这些带注释的图像来自纽约和旧金山地区。
百度 Apolloscapes: 定义了 26 种不同的语义项(如汽车、自行车、行人、建筑物、路灯等)的大型数据集。
Comma.ai: 7 个多小时的公路驾驶数据,细节包括汽车的速度、加速度、转向角和 GPS 坐标。
牛津的机器人车 (Oxford’s Robotic Car):在一年的时间里,在英国牛津重复 100 多次同样的路线所捕获的数据。该数据集记录了天气、交通和行人的不同组合,以及建筑和道路工程等的长期变化等。
城市景观数据集 (Cityscape Dataset):这是一个大型数据集,内有 50 个不同城市的街景记录。
CSSAD数据集 (CSSAD Dataset):该数据集对于自动驾驶车辆的感知和导航非常有用,但着重于发达国家的道路。
KUL 比利时交通标志数据集 (KUL Belgium Traffic Sign Dataset):以比利时佛兰德斯地区数千个不同的交通标志为基础的 10,000 多条交通标志注释。
麻省理工 AGE 实验室 (MIT AGE Lab):在 AgeLab 收集的 1,000 多小时的多传感器驾驶数据集的样本。
加州大学圣地亚哥分校智能与安全汽车实验室数据集(LISA):该数据集内有交通标志、车辆检测、交通信号灯和轨迹模式。