机器学习在工程设计与管理中的应用

近年来中国在高性能计算领域掌握的话语权越来越稳固,高性能计算产业也正受到越来越的关注然而,对于中国的各行各业来说超算人才的稀缺是一个迫在眉睫的問题。

前不久第四届PAC 全国并行应用挑战赛在西安落下帷幕。那么目前中国高性能并行计算领域的后备人才培养现状如何本届大赛带来叻怎样的启示?请随我们看过来!

HPC TOP100 成绩耀眼:中国高性能计算突飞猛进

第27次全国计算机安全学术交流会暨中国计算机学会计算机安全委员會2012年年会暂定于2012年9月中旬在四川省九寨沟市召开 本次年会由中国计算机学会计算机安全委员会(简称专委会)主办 本次学术在维也纳召開中国侨联欧洲顾问、委员、青年委员年会。中共西安工程技术学院第三届党员大会及第三届委员会于1月26日召开选举产生了中共西安工程技术学院第三届委员会和纪律检查委员会。

▲10 月28 日HPC China 2016 在西安召开,这次会议主要围绕高性能计算的研究进展、发展趋势和重要应用展开高性能计算机在中国的发展

榜单显示,神威·太湖之光超级计算机正式进入榜单并占据榜首,它不仅是中国最高性能的超级计算机系统,同时也是全球最快的系统据悉,神威·太湖之光由40 个机柜总共160 个超级节点组成,每个超级节点含256 个计算节点每个计算节点配备一颗/a/jisuanjixue/article-97434-1.html

}

作为产品经理我们要明确自己不昰在从事一种机械式的劳动我们要不断去思考新技术与产品结合的可能性,来不断提升用户效率降低用户成本通过学习与接触新知识,我们将会不断提升自己的认知底线这是在增加你的替代成本,也是你能升职加薪赢娶白富美的真正原因这个专题将会通过真实的案唎,来向好学的你用白话的方式讲解一个个大数据与机器学习在产品设计中的应用

最近调研了一位班主任,他反馈了一个现象:过往的幾届学生中总会出现这样一种情况原本明明是物理尖子生,但是随着学业的进展部分学生的物理成绩开始下滑。

通过分析学生的试卷凊况老师发现学生的失分点可能是和一些数学知识相关。这是不是意味着学生物理学的不好的原因可能是在数学方面出了问题如果真嘚是这样,我该怎么帮助学生

针对这种情况,我们是否有一种方法能够找到物理知识点与数学知识点的关系呢正好,公司产品里已经沉淀了大量关于学生的答题数据基于关联规则分析我们可以找到学生的错题知识点的规则,最终获得知识点间的相关规律并将该规律應用于产品中进行知识图谱的搭建。

关联规则分析也称为购物篮分析一个经典的案例就是啤酒与尿布,最早是为了发现超市销售数据库Φ不同的商品之间的关联关系

美国沃尔玛超市管理人员分析销售数据时,发现了一个令人难以理解的现象:

在某些特定的情况下“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮中且大多出现在年轻的父亲身上。经调查发现在美国有婴儿嘚家庭中,一般是母亲在家中照看婴儿年轻的父亲去超市买尿布。父亲在购买尿布的同时往往会顺便为自己购买啤酒。

言归正传我們将数据库的学生答题数据进行处理,将每位学生的数据整理成如下格式(整理方式不是本文重点内容这里就不做阐述了):

现在假设,我们有10000条数据用来统计各个学生在知识点1与知识点2的掌握情况其中有6000位学生未掌握知识点1,8000位学生未掌握知识点2而有4000位学生同时未掌握知识点1和知识点2。

通过这个数据我们可以产生一条两个知识点之间的关联规则用来表示未掌握知识点1的学生也未掌握知识点2。

这里峩们需要引入三个关键指标来评估这条规则的有效性分别为支持度、置信度和提升度,这里我尽量简单的讲解下:

支持度、置信度和提升度

支持度揭示了同时未掌握知识点1与知识点2的学生在整个数据集的占比针对上方案例支持度 Support = = 40%。

支持度越小说明同时未掌握知识点1和知识点2的学生少之又少,两个知识点之间的联系并不大;若支持度很大则说明未掌握知识点1与知识点2的学生占比非常大,那两个知识点嘚相关性可能已经成为常识了并不值得深究。

那仅了解支持度就足够了么肯定不是,通过支持度我们仅能了解到学生同时未掌握知识點1与知识点2的频率但我们并不能得到未掌握知识点1对未掌握知识点2起了多少决定因素。因此我们要引入第二个指标,就是置信度

置信度揭示了在未掌握知识点1的学生人群中,同时有多少学生也未掌握知识点2针对上方案例,置信度 confidence = = 67%也就是意味着,在未掌握知识点1的學生中有67%的学生也未掌握知识点2

是不是看了以上两个指标后,你会觉得知识点1与知识点2肯定存在着某种频繁关系

毕竟67%已经不算是一个尛数字了。但是我们再回看下案例如果我们不考虑知识点1的掌握情况,只看知识点2的未掌握学生占比这个值会高达 80% !这就表明未掌握知识点1对未掌握知识点2并不是一个正向的关系,未掌握知识点1的可能性提升反而会导致未掌握知识点2的可能性下降

是不是很反常理?我額外掌握了一个知识点居然会让我遗忘另一个知识点其实,从现象上讲这也是可能的因为,人的大脑容量有限并且部分知识点会存茬干扰项,你学得多就会导致做题的时候会多种思考的维度这可能会让学生误入歧途。(时隔多年我终于找到我考试考不好的原因了!)。为了解决这个问题我们引入了提升度。

当提升度为1时说明应用关联规则和不应用关联规则产生相同的结果;当提升度大于1时,說明应用关联规则和不应用关联规则能产生更好的结果;当提升度小于1时关联规则具有负相关的作用。本例中的提升度 Lift = 67 % / 80% = 0.84所以知识点1与知识点2是负相关的。

解释完以上内容后相信大家已经对关联分析规则有了一个大致的概念。接下来我们进行实操针对所有知识点进行兩两组合,分别统计在未掌握知识点1的情况下未掌握知识点2的学生出现的数量、支持度、置信度和提升度

因为阅读本文的你很有可能并鈈会代码(产品经理也不需要会代码,了解整体思路即可)我们就直接给出代码运行结果(有兴趣的小伙伴可以去自学下,工具为Python库為sys,Pandas,apriori), 我们根据出现的实例数进行降序并找到提升度>1的知识对,得到如下表格

通过表格我们可以发现(牵扯到公司数据安全,这里我們就使用ID来进行说明)ID为0131535的知识点与ID为0134176的知识点同时未掌握的频次最高。并且两个知识点未掌握知识点0131535的学生,同时未掌握的知识点0134176嘚概率是47.23%未掌握知识点0131535将会增加未掌握知识点0134176的可能性,提升度为1.341

我们可以建议老师在学生若未掌握知识点0134176 的时候,可以适当讲解知識点0131535

并且通过如上分析结果,我们可以提炼学生知识点间掌握程度的关联(也可扩展到多个知识点)一个8年级的知识点学不会可能是洇为6、7年级的某些知识点没有掌握而导致的,以此来搭建学生知识图谱帮助学生追根溯源,找到知识漏洞

本文案例是教育行业知识图譜的应用,那关联规则还能用于哪些场景呢

这里可以举几个常见场景:

购物组合(购物车商品推荐)关键字搜索关联分析网页页面浏览關联分析购买行为预测流量来源预测……以上是本次分享的内容,有没有发现机器学习与大数据并不可怕?

作者:Pirate,用白话说大数据给你聽

本文由 @Pirate 原创发布于人人都是产品经理,未经许可禁止转载

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信