移动徐家汇观象台台简介?

登录以解锁更多InfoQ新功能
获取更新并接收通知
给您喜爱的内容点赞
关注您喜爱的编辑与同行
966,690 九月 独立访问用户
语言 & 开发
架构 & 设计
文化 & 方法
您目前处于:
TalkingData 肖文峰:移动大数据技术团队的高效敏捷进化之旅
TalkingData 肖文峰:移动大数据技术团队的高效敏捷进化之旅
0&他的粉丝
6&他的粉丝
硅谷人工智能、机器学习、互联网金融、未来移动技术架构 ,
个人简介 肖文峰,TalkingData CTO,1978年生,清华大学硕士,曾就职于朗讯、BEA/甲骨文和微软,担任软件研发和研发管理工作。后经过一段时间创业,于2013年加入奇虎360负责无线端产品线。2014年加入TalkingData任CTO,负责全业务线的研发工作。
肖文峰:TalkingData 创建于 2011 年,它的核心团队来自于甲骨文、微软、IBM、BAT 还有 360,所以 TalkingData 的基因既有传统 IT 行业的严谨务实的风格,也有新型互联网公司的开放精神。TalkingData 在创立之初就赶上了移动互联网的浪潮,最开始是提供统计分析平台,2012 年研发了网络监测平台,从 2013 年开始,随着移动游戏的发展,TalkingData 提供了游戏运营分析平台。随后,TalkingData 决定不只做开发服务平台工具,而是面向数据提供更多的产品线,包括数据中心,移动观象台等数据产品。经过这几年的发展,TalkingData 已经提供了开发者服务平台、数据服务平台和数据商业化平台等产品,这三种平台集合成一个强大的数据生态系统。
肖文峰:TalkingData 是一个相对比较务实的团队,所以不会为了追新而盲目追求新技术。最开始做统计分析平台的时候,我们是用 Hadoop 加 Hive 的方式做离线分析,离线计算。有些用户因为需要一些实时的分析支持商业决策,所以我们就增加了实时计算的部分,同时支持实时计算和离线计算。这个和 Storm的作者 Nathan Marz 提出的 Lambda 架构非常类似。在 2013 年左右,移动数据量开始呈爆发性的增长,这时候平台的一些不足之处逐渐体现出来。以前用的 Hive 和 MR,随着数据量和数据复杂度和计算量指数级的增加,计算资源的消耗越来越多。以前 1 分钟出的结果后来就变得 1 小时才能出,以前 1 天出的结果可能最后就已经算不出来了。这时候我们必须要引入新技术去改变它,所以引入了 Spark 的架构,当时Spark是属于比较新的一个架构。
另外,我们在计算和算法方面也面临同样的挑战,以前我们用的是 ML-Learning 那个方式,但后来发现这个库对计算资源造成非常大的一个消耗,所以也对它进行了改进,把里面的一些算法重新改写,降低了迭代次数,把算法复杂度压了下来,数据计算结果才能很快出来。还有,我们之前用的是 Kestrel,但随着数据量的增长,它的平行扩展能力变得非常差,而且多消费者支持也不是特别灵活,这时候就引进 Kafka,当时 Kafka 也比较新的,也遇到和克服了很多坑,现在我们整个后台的数据中心都是架构在 Kafka 0.8.2 消息通道上面。
然后,在统计分析平台里面会大量的用到多维交叉计算。比如说我要知道三天之内小米手机本机用户在三天之内登陆过两次以上的数据有多少。这个时候就需要跨很多纬度的多维数据交叉计算。以前的交叉计算效率非常低,那我们必须引进 BitMap 的那种计算方式,自己写了计算引擎,指数级的改善了效率,相当于一百倍的提升。所以,TalkingData 是基于问题才考虑新的技术去解决它。这方面,其实对很多年轻人来说,他们也经常有误解,过分追求一门新工具或技术。这是非常错误的,大数据和新技术的关系是它必须基于特定的业务场景才有意义。
肖文峰:这个问题问的蛮好的。在公司整个发展过程中呢,研发团队架构确实经过受到业务的影响而产生的几个阶段的变化。最开始从 2011 到 2013 年,我们做得都是针对移动开发者和社区提供一些工具与平台,如项目统计分析,通用统计分析,像移动运营分析平台等。这些平台都是烟囱型的方式,以产品部门来垂直化运作。每一个产品线,它后面都跟随着一个垂直化的一个部门,从 BD 到产品,到研发部门,都是垂直性的比较全。对研发工程师来说,从前端JS,到Java逻辑,到后端的 Kafka 再到 Hadoop,到计算和运维人员,这有一套专门的人来配合。在前期做新业务的时候,它比较灵活,资源可以自由配置,很快就能出产品,能出效果,而且相对来说风险隔离在一个小的团队里面。但是,慢慢的随着公司发展,当 TalkingData 决定从以工具为核心转到以数据为核心这个变化过程中,我们发现各个产品线收集出来的数据都需要进行融合,所以这时候就专门开辟了一个团队叫数据中心,针对所有平台的数据进行统一规范化,统一的通道进来,然后统一清洗、加工和处理,然后放到格式统一的数据中心里边,就可以进行打标签和对用户分区。
随着我们数据加工处理能力的稳定提升,与传统行业结合的越来越多,量级在爆发式长,比如说广告行业有一个产品线,那接下来针对房地产、银行、保险公司、奢侈品行业、餐饮、汽车等,每个行业都要有相应的平台,而每个行业需求都不太一样。所以,TalkingData 团队急需要一个更加灵活的架构来应对这种挑战,相当于又把这些团队又重新打散,然后形成一些比如前端可视化团队,专门的运维团队,然后有统一的存储管理团队,还有计算,和数据挖掘团队。然后再把业务层,数据业务相关的东西薄薄的抽出来,每个业务单独的抽一个或者两个人去负责,其他的全部由公司统一来提供服务支持。基于现在的架构,未来我们依然是以数据为核心,但希望围绕 TalkingData 有更多的合作方,形成一种网状的结构,这个结构里的数据都可以自由流通,这个是我们对未来的一个期望。
肖文峰:我个人的经历也比较复杂,之前在传统行业,在朗讯、甲骨文、微软都呆过,后来也自己创业,也在新型的互联网公司呆过,包括在 360 做无线安全方面的一些东西,包括清理大师和手机卫视的一些模块。在我看来,研发团队其实对不同公司和行业都是一样的,它都是为了提供交付服务而存在。具体到 TalkingData ,公司同时有传统行业的人,包括从甲骨文,IBM,微软过来的,也有新型的互联网公司,BAT,360等。这些人碰撞会发生什么样的问题?
其实有几点比较关键,第一个就是平等。TalkingData 职级非常扁平化,从上到下不会超过三级,所有员工都可参与月会知道整个公司的真实发展状况。不仅是公司级别的会议,也有研发团队的周会,对所有的员工敞开,大家在一个宽松的环境里可以提出各种置疑。因为 TalkingData 相信数据是平等的,数据和信息也必须能够在我们内部进行自由流通。甚至前一段时间一个刚入职的研发人员就对我提出一些疑问,这在我看来是非常好的!我对这个事情是比较自豪的,因为他只有感觉到平等,他才敢质疑。
第二点就是开放。TalkingData 觉得数据是开放的,我们公司的文化也具有非常强的开放性。内部鼓励各种分享,我们给大家提供各种“生育费”—— 学生教育费用。所有的人只要参与分享,那怕是一分钟,五分钟,我们都会给到相应的奖励。对外 TalkingData 也积极参加像 InfoQ 社区举办的交流活动,把自己的技术上的踩得一些坑,把它分享出来,避免更多的开发者遇到这样的问题。我们在产品上也要求必须具备很强的开放性,移动观象台就是基于开放数据的考虑而开发的产品,比如过去经常有人问说滴滴,或者快滴,他们的用户量,覆盖范围以及活跃度有什么不一样等。由于经常会遇到类似问题,TalkingData 就觉得需要把这些数据开放出来,给业界提供更多的一些参考,移动观象台就应运而生。它会把所有的应用排名,内部所有的相关数据公开出来,给业界提供一个比较公正,公平,公开的大数据环境。
第三就是聚焦。TalkingData 团队在产品研发过程中遇到很多次“诱惑”。比如,最开始做广告监测平台的时候,很多人就说,“TalkingData 接入了国内这么多家的 DSP 和 CSP,还有网盟,那为什么不去做广告业务?广告业务是非常大的一个行业,可以快速挣很多钱”。但我们当时就决定要以数据为核心的,我们对数据更有兴趣。虽然切入到某个行业,可能短期能挣钱,但是这跟团队初始目标和长期愿景是不相符的。我们还是决定基于大数据,把数据加工处理这件基础的事情给做好。类似的,TalkingData 做游戏分析平台以及银行业务数据平台的时候,也抵制住了做游戏上市公司和金融征信公司,去赚风口上快钱的诱惑,我们会非常的聚焦在自己的方向上面,这对我们团队建设也有很重要的影响。
肖文峰:TalkingData 是以数据为核心的,我们的企业愿景是,通过数据去改变企业做决定的方式,同时,要用数据去帮助人们了解周围的环境。所以对 TalkingData 来说呢,基础数据的加工处理是非常重要的一件事情。我觉得未来存在两个很重要的挑战也可以叫愿景。
第一,怎么更加丰富的去刻画人。比如现在手机本身就是一个传感器集合体,它可以搜集像湿度信息、温度信息、光感信息、声音信息,位置信息等,但还有很多信息我们现在都没有搜集或用到。就拿走路这个简单的事情来说,在不同的地方,不同的时段走路的场景是不一样的,你在公园走路可能是在健身,你在大街上走路可能是在上班的路上,你在会议室走路可能是在做演示。如果想做一个信息推送,那针对不同场景,推送的内容可能是不一样的。我们接下来想要做的一件事情就是更加精细化的去刻画人,更加实时和全面的刻画他当时的状态,把这个基础设施整理出来以后,就能够给开发者去使用。举个简单例子,一个桌面软件,在家和在公司它给你显示出来的应用和内容都是不一样的。
第二,TalkingData 有大量的数据资源和数据加工处理能力,那怎么把这些数据包装出来,能够让传统行业和新型的互联网企业,让合作伙伴能更加快速高效的利用这些数据是很重要的愿景。打个比方,我们把自己看作一个水库,水库的水源是来自于各个不同的合作方,各种不同的水源会聚到水库里面,TalkingData 会把这些水经过各种加工处理提供给各个行业去使用。比如对数据质量要求高的行业提供的是西藏银川5100,对普通行业来说,我们可以提供像娃哈哈,农夫山泉这种普通的水,也可以提供桶装水,生活用水。那这个过程中,需要解决很多技术问题,就是数据怎么去提纯、加工、清洗,怎么去合规、做交易,做股指,怎么去保证数据的安全等等。这些都是 TalkingData 要面临的技术挑战!我觉得能把这两点做好就已经是非常了不起。
至于对人才的要求,从我们这么多年来看,第一,要对数据有好奇心。对于理解数据的价值有很强的自驱力,这是非常重要的一点;第二,要有足够的热情和精力投入到数据的分析实战里面。有这两个就足够了,至于其他的技术知识,我真不觉得技术是个很高的门槛。所以只要符合这两点的年轻人,都可以来 TalkingData 试一试。
InfoQ:感谢肖总接受我们的采访,也祝愿 TalkingData 作为移动大数据处理的先行者和开拓者能够发展的越来越好,谢谢。
语言 & 开发
25 他的粉丝
架构 & 设计
176 他的粉丝
37 他的粉丝
61 他的粉丝
105 他的粉丝
7 他的粉丝
移动信息化
0 他的粉丝
0 他的粉丝
0 他的粉丝
相关厂商内容
相关赞助商
告诉我们您的想法
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
赞助商链接
架构 & 设计
文化 & 方法
<及所有内容,版权所有 &#169;
C4Media Inc.
服务器由 提供, 我们最信赖的ISP伙伴。
北京创新网媒广告有限公司
京ICP备号-7
找回密码....
InfoQ账号使用的E-mail
关注你最喜爱的话题和作者
快速浏览网站内你所感兴趣话题的精选内容。
内容自由定制
选择想要阅读的主题和喜爱的作者定制自己的新闻源。
设置通知机制以获取内容更新对您而言是否重要
注意:如果要修改您的邮箱,我们将会发送确认邮件到您原来的邮箱。
使用现有的公司名称
修改公司名称为:
公司性质:
使用现有的公司性质
修改公司性质为:
使用现有的公司规模
修改公司规模为:
使用现在的国家
使用现在的省份
Subscribe to our newsletter?
Subscribe to our industry email notices?
我们发现您在使用ad blocker。
我们理解您使用ad blocker的初衷,但为了保证InfoQ能够继续以免费方式为您服务,我们需要您的支持。InfoQ绝不会在未经您许可的情况下将您的数据提供给第三方。我们仅将其用于向读者发送相关广告内容。请您将InfoQ添加至白名单,感谢您的理解与支持。通讯社交--社区社交
榜单排名说明:
覆盖率:安装此应用的活跃设备量/监测活跃设备总量。
行业均值:提供应用所属行业的平均值,以便清晰衡量APP运营是否达到正常水平。算法去除长尾等不稳定的应用,以保证数据的稳定性。
榜单排名说明:
活跃率:开启此应用的活跃设备量/监测活跃设备总量。
行业均值:提供应用所属行业的平均值,以便清晰衡量APP运营是否达到正常水平。算法去除长尾等不稳定的应用,以保证数据的稳定性。
人均使用时长
榜单排名说明:
所选周期内,使用此应用的时长总和/活跃用户(设备)。
即将上线,敬请期待!
人均启动次数
榜单排名说明:
所选周期内,使用此应用的启动次数总和/活跃用户(设备)。
即将上线,敬请期待!
vs 淘宝覆盖率
行业基准值
提供应用所属行业的基准值,以便看清APP运营情况是否达到优秀。算法取头部活跃应用,以保证数据的稳定性。
行业平均值
提供应用所属行业的平均值,以便清晰衡量APP运营是否达到正常水平。算法去除长尾等不稳定的应用,以保证数据的稳定性。
相关应用推荐
数据来源自TalkingData行业数据研究中心
请告诉我们您对应用排名的意见!
满意 . 点赞
不满意 . 吐槽
感谢您的肯定,我们会继续努力哒~
请告诉我们您对应用排名的意见!
邮箱格式不正确
感谢纠错,我们会在3个工作日内回复 到您预留的邮箱~
如遇到紧急情况可拨打企业热线 400-870-1230
名称内容格式不正确
一级分类内容格式不正确
二级分类内容格式不正确
名称内容格式不正确
一级分类内容格式不正确
二级分类内容格式不正确
应用排名数据偏低?趋势不稳?
内容未做修改
感谢您的反馈,我们会在3个工作日内对您修改的内容进行审核
对不起,系统异常...我们正在抓紧修复!
可直接发送反馈至
或直接拨打客服热线400-870-1230
分享到微信朋友圈
打开微信,点击底部的“发现”,使用“扫一扫” 即可将网页分享到我的朋友圈。
400-870-1230分辨率排行
分辨率排行说明:
分辨率排行:&此分辨率下活跃设备量/监测活跃设备总量。
分辨率排名
数据来源自TalkingData行业数据研究中心
分享到微信朋友圈
打开微信,点击底部的“发现”,使用“扫一扫” 即可将网页分享到我的朋友圈。
400-870-1230TalkingData 送福利!邀您进入T11数据峰会交流群获取打包PPT
百份行业大咖演讲PPT免费获取。PPT来自京东 / 万达 / 微软 / 小米 / 国泰君安等公司涉及金融 / 房产 / 券商 / Ai等领域,满满干货分享,打包赠送!
1打开微信,扫一扫上方二维码关注移动观象台服务号
2获取神秘入群方式
3邀请入群并发送T11峰会演讲嘉宾PPT干货资料
分享到微信朋友圈
打开微信,点击底部的“发现”,使用“扫一扫” 即可将网页分享到我的朋友圈。
400-870-1230游戏--角色扮演游戏
榜单排名说明:
覆盖率:安装此应用的活跃设备量/监测活跃设备总量。
行业均值:提供应用所属行业的平均值,以便清晰衡量APP运营是否达到正常水平。算法去除长尾等不稳定的应用,以保证数据的稳定性。
榜单排名说明:
活跃率:开启此应用的活跃设备量/监测活跃设备总量。
行业均值:提供应用所属行业的平均值,以便清晰衡量APP运营是否达到正常水平。算法去除长尾等不稳定的应用,以保证数据的稳定性。
人均使用时长
榜单排名说明:
所选周期内,使用此应用的时长总和/活跃用户(设备)。
即将上线,敬请期待!
人均启动次数
榜单排名说明:
所选周期内,使用此应用的启动次数总和/活跃用户(设备)。
即将上线,敬请期待!
vs 淘宝覆盖率
行业基准值
提供应用所属行业的基准值,以便看清APP运营情况是否达到优秀。算法取头部活跃应用,以保证数据的稳定性。
行业平均值
提供应用所属行业的平均值,以便清晰衡量APP运营是否达到正常水平。算法去除长尾等不稳定的应用,以保证数据的稳定性。
相关应用推荐
数据来源自TalkingData行业数据研究中心
请告诉我们您对应用排名的意见!
满意 . 点赞
不满意 . 吐槽
感谢您的肯定,我们会继续努力哒~
请告诉我们您对应用排名的意见!
邮箱格式不正确
感谢纠错,我们会在3个工作日内回复 到您预留的邮箱~
如遇到紧急情况可拨打企业热线 400-870-1230
名称内容格式不正确
一级分类内容格式不正确
二级分类内容格式不正确
名称内容格式不正确
一级分类内容格式不正确
二级分类内容格式不正确
应用排名数据偏低?趋势不稳?
内容未做修改
感谢您的反馈,我们会在3个工作日内对您修改的内容进行审核
对不起,系统异常...我们正在抓紧修复!
可直接发送反馈至
或直接拨打客服热线400-870-1230
分享到微信朋友圈
打开微信,点击底部的“发现”,使用“扫一扫” 即可将网页分享到我的朋友圈。
400-870-1230}

我要回帖

更多关于 古观象台 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信