欢迎大家关注我的微信公众号,未来上面会推送python
机器学习
算法学习
深度学习
论文阅读
以及偶尔的小鸡汤
等内容。ようこそいらっしゃい!
计算机硬件:相关 CPU 运行数据,采用它的时间周期、内存大小来描述。
混凝土抗压强度 DataSet :混凝土是土木工程中最重要的材料。 抗压强度是混凝土年龄与组成非线性特征。
混凝土塌方度试验: 混凝土是一种非常复杂的材料。 它的塌落度流量不仅取决于含水量,也受其他具体成分的影响。
国会投票记录 DataSet :1984 年美国国会投票记录;按照共和党与民主党分类。
连接 4:包含了连接 4 的位置。
连接工作台( Nettalk 资料库):文件“ nettalk.data ”包含了一个有 20008 个 英语单词的列表,还有一个每个单词的 phonetic 副本。任务是训练一个网络,用来产生适当的 phonemes 。
连接工作台(声纳、矿产和岩石):目标是训练一个网络,用来区别在金属圆柱体的反弹声纳信号,和在基本为圆柱体的岩石上的反弹信号。
连接工作台(元音识别— Detering 数据):使用一个来源于一个比率的指定训练集的 11 个英式英语的稳定元音字母的独立识别扬声器。
避孕方法的选择: 该数据集是 1997 年印度尼西亚全国的避孕患病率调查的的一个子集。
Corel 图像特征:该数据集包含了提取自一个 Corel 图像集合的图片特征。基于颜色直方图、颜色直方图布局、颜色的时机和调和,可得到四个特征集合。
覆盖类型:森林覆盖类型数据集。
信贷审批:该数据集与信用卡的使用相关;是各种属性的集合。
气缸带:使用判定树来归纳,减缓气缸带的凸版打印。
皮肤科:该数据集用于判定 Eryhemato 鳞状疾病的类型。
DETEX 是一个用一个文字包来表现的文本分类问题。这是一个通过不断的输入参数的两层的分类问题。 该数据集是 NIPS2003 年特征提取邀请赛的五个数据集中的一个。
DGP2 —第二个数据生成程序:基于具体的参数、特征的数量、和正面到负面例子的比率,产生应用域。
糖尿病:该糖尿病数据集来自 AIM94 。
文件理解:要学习的五个概念,作为谓词来表现。
Dodgers 回路传感器: 回路传感器数据集来自 Gledale 的斜坡(在洛杉矶的 101 个北高速公路)。
Dorothea 是一个药物发现数据集。以结构分析特征来表现的化合物必须分类为活性的(绑定到凝血酶) 或者非活性的。 这是五个 NIPS2003 特征选择挑战赛数据集中的一个。
大肠杆菌基因: 每个在 E.coli 基因组里面 ORD( 潜在基因 )的特征数据集。 提供序列、同源性(与其他基因的相似形)和结构信息。还有功能(如果知道的话)。
EBL 域理论:各种小规模的域理论。
超声心动图:该数据集用来分类是否病人在一次心脏病后,至少可以存活一年。
该数据集包含了蛋白质本地化地址。
经济制裁:经济制裁方面的域理论,无记录文档。
EEG 数据库: 该数据集来源于一个检查 EEG 的、与易患酒精中毒的基因体质相关的大型研究、包含了放在头皮上的、为 256HZ 的、来自 64 个电极的度量。
厄尔尼诺:该数据集包含了从整个赤道太平洋的一系列浮标的海洋与地面气象读数。
标志:从柯林斯宝石指南的标志, 1986
森林火灾: 这是一个艰难的回归的任务, 其目的是在葡萄牙东北部地区, 利用气象数据和其 他数据, 预测森林火灾的过火面积, (详见: PT / pcortez / forestfires )。
寻找功能:收集的情况下,大多是从在物理科学的调查 ;意图是评价函数发现算法
玻璃鉴定:从美国法医科学服务 ; 6 种玻璃 ;在他们的氧化物含量定义(即钠,铁,钾等)
哈伯曼的生存: DataSet 包含谁经历了乳腺癌手术患者的生存所进行的研究情况
海斯 - 罗斯:主题:人类受试者的研究
心脏病: 4 个数据库:克利夫兰,匈牙利,瑞士,和弗吉尼亚州的长滩
肝炎:从 G.龚:债务工具中央结算系统 ;大多是布尔值或数字值的属性类型,包括成本数据 (彼得特尼捐赠)
希尔谷:每个记录代表一个二维图形上 100 点。当策划,以统筹的 Y (从 1 到 100),积分将创建一个山(在凹凸的地形)或谷(浸在地形)。
马绞痛:有据可查的属性 ; 368 28 属性(连续,离散的,标称值)的实例 ; 30%的缺失值
ICU 的数据集,为 1994 年 AAAI 春季研讨会的与会者在医学上使用人工智能准备。
图像分割:由高层次的数字值属性描述的图像数据, 7 类
保险公司的基准 (线圈 2000 年) :使用该数据集在线圈 2000 挑战包含保险公司对客户的信息。该数据由 86 变数,包括产品使用的数据和社会人口数据
互联网广告:这个 DataSet 表示一组可能在互联网上的网页广告。
互联网应用的数据:该数据包含一般的互联网用户在 1997 年的人口统计信息。
电离层:从电离层雷达回波分类
IPUMS 普查数据库:该数据集包含未加权 PUMS 普查从洛杉矶和长滩地区 1970 年, 1980 年和 1990 年的数据。
光圈:著名的数据库 ;从 1936 年费舍尔,
ISOLET :目标:预测字母名称是口语 - 一个简单的分类任务。
日本信用筛选:包括域理论(日本领域的专家交谈生成) ;在 Lisp 中的数据
日本元音:该数据集的记录 640 12 的 LPC 倒谱系系数从九男扬声器的时间序列。
KDD 杯 1998 年的数据: 这是数据集的第二届国际知识发现和数据挖掘工具的竞争, 这是在同时举行的 KDD - 98
KDD 杯 1999 年的数据: 这是数据集使用的第三次国际知识发现和数据挖掘工具的竞争, 这是在同时举行的 KDD - 99
劳动关系:从集体谈判检讨
LED 显示域:从分类和回归树书,我们在这里提供 2 C 程序生成示例数据库
镜头:装修隐形眼镜数据库
信承认:人物形象特征的数据库 ; 试图找出信
天秤座的运动: 该数据集包含了 15 类 24 个实例。 每个类的引用, 在天秤座的人的手部动作类型(葡萄牙名“ Lngua BRAsileira Sinais ”,公报巴西信号语言)。
肝脏疾病:保柏医疗研究公司数据库由理查德福塞斯捐赠
人活动的本地化数据: 数据包含五个执行不同的活动的人的录音。 每个人穿的 4 个传感器(标签),同时执行相同的情况下的五倍。
逻辑理论家:逻辑理论家的所有代码
低分辨率光谱仪:从红外天文卫星数据 - 美国国家航空航天局艾姆斯研究中心
肺癌:肺癌数据 ;没有属性定义
淋巴造影:从大学医学中心,肿瘤研究所,南斯拉夫卢布尔雅那的这淋巴域。 (限制访问)
结核分枝杆菌基因:给每个 ORF 在结核分枝杆菌的细菌特性(潜在的基因)的数据。序列, 同源性(其他基因的相似性)和结构信息,和功能(如果已知)
Madelon :MADELON 是一个人造的数据集, 这是对 2003 年的 NIPS 的特征选择挑战的一部分。这是一个连续的输入变量的两个类的分类问题。 困难的是, 问题是多元的和高度非线性。
魔伽马望远镜:数据生成高能量的伽玛粒子来模拟大气切伦科夫望远镜登记 MC
乳腺质量:良性和恶性乳腺群众基于 BI - RADS 的属性和病人的年龄歧视。
力学分析:机电设备的故障诊断问题 ;水泵数据集与域的理论和成果是较新的版本
元数据:元数据使用的分类方法是适合于一个特定的数据集( Statlog 项目的结果),以提供意见。
MiniBooNE 的粒子鉴别:该数据集是从 MiniBooNE 的实验是使用电子中微子(信号),以区别于 μ 子中微子(背景)。
移动机器人:从移动机器人的传感器数据学习观念 ;组数据集
分子生物学(启动子序列):大肠杆菌启动子的基因序列( DNA )的部分域理论
分子生物学(蛋白质二级结构):从债务工具中央结算系统联结板凳资源库 ;某些球状蛋白质的二级结构进行分类
分子生物学 (拼接交界的基因序列) :灵长类动物的基因序列拼接结与相关的不完善域理论 (脱氧核糖核酸)
和尚的问题:三个以上相同的属性空间的人工域 ;用于测试一个广泛的归纳算法
道德推理:霍恩子句模型定性模拟道德推理理论包括否定的文字
电影:该数据集包含一个 10000 多部电影,包括许多年纪大了,奇怪,和邪教的电影列表。有上的演员,演员,董事,制片人,制片公司等信息
匿名 Web 数据:这个数据描述了用户的页面访问参观, 1999 年 9 月 28 日 。记录访问的 URL 类别的水平(见说明),在时间顺序记录。
多种功能:这个数据集,包括从荷兰实用地图的集合中提取的手写体数字( 0'结束 -
9 “) 功能
蘑菇:从 Audobon 社会领域指南“ ;蘑菇描述的物理特性 ;分类:有毒或食用
麝香(版本 1):我们的目标是要学会预测是否有新的分子,将麝香或非麝香
麝香(第 2 版):我们的目标是要学会预测是否有新的分子,将麝香或非麝香
NSF 研究奖论文摘要 1990 年至 2003 年:(一) 129000 摘要描述 NSF 的奖项,用于基础研究(二)字袋从抽象的数据中提取的文件, (三)为索引使用的单词列表,该数据集组成字 袋
苗圃:苗圃数据库是从最初开发托儿所排名应用分层决策模型派生。
在线手写阿萨姆字符数据集:这是一个 8235 联机手写阿萨姆字符的数据集。 “在线”的过程包括数据采集,数字化仪上用电子笔的书面文本。
Opinosis 意见/评论:此数据集包含一个给定的主题从用户评论中提取的句子。示例主题是“表现的丰田佳美”和“音质”的 iPod nano。
OpinRank 审查数据集: 该数据集包含车和酒店收集到到网 ( 259000 评语)和埃德蒙兹(?42230 条评论)的用户评论。
光学识别手写体数字:这个数据库提供的两个版本,请参阅文件夹
奥赛罗域理论:在研究中使用生成归纳学习系统的功能
臭氧浓度检测:两个地面臭氧浓度的数据集都包含在此集合。之一,是 8 个小时的高峰集 (eighthr.data ),另一种是一个小时的高峰集 ( onehr.data)。这些数据收集从 1998 年 至 2004 年在休斯敦,加尔维斯顿和 Brazoria 区域。
p53 基因突变体: 我们的目标是到模型的基础上从生物物理模拟提取数据的突变型 p53 的转录活性(有源 VS 无效)。
页块分类:问题进行分类的一个已被分割过程中检测到的文件的页面布局的所有块组成。
PEMS - SF: 15 个月,每天的数据( 440 每日记录)描述的入住率, 0 和 1 之间,不同的汽车车道,旧金山湾地区的高速公路,跨越时间的价值。
基于笔的手写数字识别:来自 44 个作家的 250 个样本的数字数据库
皮马印第安人糖尿病:国立糖尿病,消化道和肾脏疾病研究所 ;包括成本数据(彼得特尼捐赠)
先锋 - 1 移动机器人数据:该数据集包含了时间序列的先锋 - 1 移动机器人的传感器读数。数据分解成“经验”中,机器人需要一段时间的行动和经验的控制
匹兹堡桥梁:桥梁数据库,具有原始和数值离散数据集
植物: 数据已经从美国农业部植物数据库中提取。 它包含在数据库中, 美国和加拿大发生的所有植物(种属)。
牌手:目的是预测扑克牌
手术后的病人:病人的特征数据集
原发肿瘤:肿瘤研究所从卢布尔雅那
伪定期的合成时间系列: 该数据集是测试时间序列数据库中的索引计划的设计。 的数据显示高度周期性的,但永远不会完全重演。
PubChem 数据库生物测定数据:这些高度不平衡的生物测定数据集的筛选不同类型可以使
用高温超导技术。 21 数据集创建了来自 12 个生物测定。
四足哺乳动物:该文件 animals.c 是一个代表四足动物的结构实例的数据发生器
定性结构活性关系:给出两套数据集:嘧啶和三嗪
记录链接比较模式: 元素比较明智的, 从创纪录的联动设置的个人资料记录。 任务是从一个比较模式,决定是否属于一个人的基本纪录。
CT 片的轴向轴的相对位置:数据集包括从 CT 图像中提取的 384 功能。类变量是数值表示的 CT 片对人体的轴向轴的相对位置。
路透社转录子集:创建该数据集是通过读出最大路透社从 10 类 200 个文件,并使用自动语音识别系统,建立相应的改编。
路透 - 21578 文本分类收集:这是出现于 1987 年,路透通讯社的文件的集合。组装和类别索引文件。
机器人执行失败: 此数据集包含后故障检测机器人的力和力矩测量。 每次失败的特点是在固定的时间间隔采集的样品 15 力/力矩
世强:从半导体制造过程中的数据
Semeion 手写体数字: 1593 从 80 人左右的手写数字进行扫描,伸一个矩形框,在 256 个值的灰度的 16x16。
伺服:数据从一个伺服系统的仿真
航天飞机着陆控制:微型数据库 ; 所有标称值
太阳耀斑:每个类的属性一定的阶级,在 24 小时内发生的太阳耀斑的数量进行计数
大豆(大): MICHALSKI 著名的大豆疾病数据库
大豆(小): MICHALSKI 著名的大豆疾病数据库
Spambase:归类为“垃圾邮件”或“非垃圾邮件的电子邮件
SPECT 的心脏:心脏单个质子发射计算机断层显像( SPECT)的图像数据。每个病人分为
两类:正常和不正常的。
SPECTF 心脏:心脏单个质子发射计算机断层显像( SPECT)的图像数据。每个病人分为两类:正常和不正常的。
口语阿拉伯语位:该数据集包含 MEL 频率倒谱系数( MFCCs )讲阿拉伯语数字对应的时间序列。包括 44 男 44 女的母语讲阿拉伯语的数据。
海绵:海绵上的数据,在西班牙语中的属性
Statlog(澳大利亚授信审批):这个文件是关于信用卡申请。该数据库存在于其他地方略有不同形式的资源库(授信数据库)
Statlog(德国信用数据):这个数据集划分好坏信贷风险的属性所描述的人。来自于两种格式(所有数字)。还带有一个成本矩阵
Statlog(心) :这个数据集是一个心脏疾病数据库, 数据库已经在库 (心脏病数据库) 类似, 但略有不同的形式
Statlog(图像分割):该数据集是一个图像分割数据库,数据库中已存在的资源库(图像分割数据库),但在一个稍微不同的的形式类似。
Statlog(地球资源卫星多光谱):在 3x3 的街区在卫星图像的像素值,并与中央像素在每个居委会相关的分类
Statlog(班车):穿梭集包含 20 个属性,所有这一切都是数字。大约 80%的数据属于 1 级
Statlog(车剪影):在一个物体的二维轮廓的形状特征提取的合奏中的应用 2D 图像的三维对象。
Statlog 项目:各种数据库:车辆 silhouttes,地球资源卫星,航天飞机,澳大利亚信贷审批, 心脏病,图像分割,德国信用
钢板缺陷: 一个数据集钢板断裂,分为 7 个不同的类型。 我们的目标是培养学习机,自动模式识别。
。助学贷款的关系:助学贷款的关系域
合成控制图的时间序列数据的综合生成的控制图组成。
Syskill 和 Webert 网页评价: 该数据库包含网页的 HTML 源代码再加上这些网页上的一个单用户的收视率。网页是在四个不同科目(乐队的录音艺术家 ;山羊 ;绵羊;和生物医学)
助教评价:数据包括教学绩效评价 ;分数“低”,“中等”,或“高”
甲状腺疾病: 10 个单独的数据库 Garavan 研究所
井字脚趾残局:可能的配置的 tic - tac - toe 游戏的二元分类任务
火车: 2 数据格式(结构化,每行一个实例)
第二十新闻组:该数据集由来自 20 个新闻组采取的 20000 消息。
宇治笔特点:数据包括在 UNIPEN 样的格式写入的字符
宇治钢笔字(第 2 版):一个孤立的手写字符超过 11K 的钢笔型数据库
无证:没有证件的各种数据集(自由探索!)
大学:原( Lisp 的可读形式)中的数据
UNIX 用户数据:该文件包含 9 套消毒的用户在长达 2 年的,当然从 8 UNIX 计算机用户的命令历史数据绘制在普渡大学。
美国人口普查数据 ( 1990 年):USCensus1990raw 数据集包含一成市民使用微观数据 ( PUMS ) 人记录完整的 1990 年人口普查抽样抽样样品。
金星上的火山 - JARtool 实验: JARtool 项目是一项开创性的努力开发一个自动化系统编目在大麦哲伦飞船返回的金星图像设置的小火山。
以下壁挂式机器人的导航数据:数据收集的 SCITOS G5 机器人的导航,通过房间下面的墙壁以顺时针方向, 4 轮,使用圆周围的“腰”,安排了 24 超声传感器。
水处理厂:多类预测植物状态
波形数据库生成器(版本 1):订购书的波形域
波形数据库生成(第 2 版):订购书的波形域
葡萄酒:使用化学分析器判定葡萄酒的来源。
葡萄酒的质量: 包括两个数据集, 与来自葡萄牙北部的红与白葡萄酒样本样品相关。目标是通过物理化学检验,设计出葡萄酒的质量模型。
年度预测 MSD :从声音的特征里,预测一首歌曲的发行年份、歌曲大部来自西部的、从 1922 至 2011 年的商业性的音轨,在 2000 年到达顶峰。
酵母 DataSet :预测蛋白质的细胞定位点。
动物园 DataSet :人工,其中类别的动物。
南京工业大学视觉形象识别系统手册 更多:
最新翻译: ,,,,,,, , ,,, ,,,,
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。