这个匿名数据集是从 Tagged.com 社交网络网站收集。
免费
CS 数据集由 1,693,531 名计算机科学家和 3,194,405 篇论文组成,来自 3,883 个计算机科学场所——包括会议和期刊——截至 2016 年。我们构建了一个异构协作网络,其中有是三种类型的节点:作者、论文和地点。
免费
语音识别数据集,一个公共领域的语音数据集,由13,100个简短的音频片段组成。
免费
CCPD2019车牌全量数据(不包括新能源车牌)。CCPD图像比以前更具挑战性,有超过300k的图像和精细的注释。
免费
一个简单的音频/语音数据集,由 8kHz 文件中的语音数字记录组成。
免费
数据集由AI for Humany与HPWREN合作发布,用于探测到森林火灾中烟雾的最初迹象,并在火势加大前发现并扑灭。
免费
DocRED 是一个比较新的大规模的众包数据集。其原始语料主要基于维基百科,包含了 3053 份文章,其中大约存在 7% 的实体,**DocRED** 还提供了公开的 leaderboard,用户可将模型预测的结果上传,评估文档级关系抽取的各种性能。160MB 2019
免费
该数据集是代码注释自动生成任务的相关数据集,含有448512条Java程序片段以及相应的注释。
免费
CiteSeer(又名ResearchIndex),是NEC研究院在自动引文索引(Autonomous Citation Indexing, ACI)机制的基础上建设的一个学术论文数字图书馆。这个引文索引系统提供了一种通过引文链接的检索文献的方式,目标是从多个方面促进学术文献的传播和反馈。
免费
Cora 数据集包含 2708 份科学出版物,分为七类之一。引文网络由 5429 个链接组成。数据集中的每个出版物都由一个 0/1 值的词向量描述,表示字典中相应词的缺失/存在。该词典包含 1433 个独特的单词
免费
油浸式变压器通常采用油浸自冷式、油浸风冷式和强迫油循环三种冷却方式。该数据集采集于油浸式变压器的设备漏油情况,一般用于变电站的无人巡检,代替传统的人工巡检,与绝缘子的破损检测来源于同一课题。
免费
英语-西班牙语翻译语料库,该数据集共含有118964对(english,spanish)语句对,可用于神经机器翻译任务。
免费
包括train、dev、test、infer,其中train分为pointwise和pairwise两种训练模式。 包含4份自建测试集,分别为zhidao、unicom、ecom、qqsim
免费
该数据集用于汽车大师问答摘要与推理常规赛;该数据集内含训练集和测试集两个文件. 文件均为CSV格式. 验证集稍后会补充.
免费
肝脏/肝肿瘤分割,包含131组训练数据和70组测试数据(无标签,在线测试)
免费
包含八千余张各类国家一级保护动物的图像数据,标签提供了每张图像的所属类别和保护等级。
免费
该数据集来源于环境检测设备的数显屏,大多采用手机拍摄,工业相机固定拍摄,人工合成。经标注软件PPOCRLabel进行标注后产生的裁剪图片。可以实现对计量设备数显屏的字符识别。
免费
1970-2019年中国人口以及众多因素逐年变化数据。
免费
开源的对联数据集couplet-clean-dataset处理后的对联,去掉敏感词汇,并删掉14条中文编码错误的对联,共744915条对联。
免费
PCB_Dataset,印刷电路板(PCB)瑕疵数据集。
免费
该数据集部分来源于无人机真实拍摄,部分来自图片合成,高压输电线路绝缘子的缺陷检测是线路巡检的重要组成部分。
免费
这个匿名数据集是从 Tagged.com 社交网络网站收集。
免费
CS 数据集由 1,693,531 名计算机科学家和 3,194,405 篇论文组成,来自 3,883 个计算机科学场所——包括会议和期刊——截至 2016 年。我们构建了一个异构协作网络,其中有是三种类型的节点:作者、论文和地点。
免费
语音识别数据集,一个公共领域的语音数据集,由13,100个简短的音频片段组成。
免费
CCPD2019车牌全量数据(不包括新能源车牌)。CCPD图像比以前更具挑战性,有超过300k的图像和精细的注释。
免费
一个简单的音频/语音数据集,由 8kHz 文件中的语音数字记录组成。
免费
数据集由AI for Humany与HPWREN合作发布,用于探测到森林火灾中烟雾的最初迹象,并在火势加大前发现并扑灭。
免费
DocRED 是一个比较新的大规模的众包数据集。其原始语料主要基于维基百科,包含了 3053 份文章,其中大约存在 7% 的实体,**DocRED** 还提供了公开的 leaderboard,用户可将模型预测的结果上传,评估文档级关系抽取的各种性能。160MB 2019
免费
该数据集是代码注释自动生成任务的相关数据集,含有448512条Java程序片段以及相应的注释。
免费
CiteSeer(又名ResearchIndex),是NEC研究院在自动引文索引(Autonomous Citation Indexing, ACI)机制的基础上建设的一个学术论文数字图书馆。这个引文索引系统提供了一种通过引文链接的检索文献的方式,目标是从多个方面促进学术文献的传播和反馈。
免费
Cora 数据集包含 2708 份科学出版物,分为七类之一。引文网络由 5429 个链接组成。数据集中的每个出版物都由一个 0/1 值的词向量描述,表示字典中相应词的缺失/存在。该词典包含 1433 个独特的单词
免费
油浸式变压器通常采用油浸自冷式、油浸风冷式和强迫油循环三种冷却方式。该数据集采集于油浸式变压器的设备漏油情况,一般用于变电站的无人巡检,代替传统的人工巡检,与绝缘子的破损检测来源于同一课题。
免费
英语-西班牙语翻译语料库,该数据集共含有118964对(english,spanish)语句对,可用于神经机器翻译任务。
免费
包括train、dev、test、infer,其中train分为pointwise和pairwise两种训练模式。 包含4份自建测试集,分别为zhidao、unicom、ecom、qqsim
免费
该数据集用于汽车大师问答摘要与推理常规赛;该数据集内含训练集和测试集两个文件. 文件均为CSV格式. 验证集稍后会补充.
免费
肝脏/肝肿瘤分割,包含131组训练数据和70组测试数据(无标签,在线测试)
免费
包含八千余张各类国家一级保护动物的图像数据,标签提供了每张图像的所属类别和保护等级。
免费
该数据集来源于环境检测设备的数显屏,大多采用手机拍摄,工业相机固定拍摄,人工合成。经标注软件PPOCRLabel进行标注后产生的裁剪图片。可以实现对计量设备数显屏的字符识别。
免费
1970-2019年中国人口以及众多因素逐年变化数据。
免费
开源的对联数据集couplet-clean-dataset处理后的对联,去掉敏感词汇,并删掉14条中文编码错误的对联,共744915条对联。
免费
PCB_Dataset,印刷电路板(PCB)瑕疵数据集。
免费
该数据集部分来源于无人机真实拍摄,部分来自图片合成,高压输电线路绝缘子的缺陷检测是线路巡检的重要组成部分。
免费