唔哩头条官网的推荐内容怎么区分智能推送和人工推送?

梁汝波:今日头条在消息推送逻辑详解 - 推酷
梁汝波:今日头条在消息推送逻辑详解
这篇文章是来自&日&今日头条的梁汝波在一次分享会上讲解的。
欢迎各位!我是今日头条的梁汝波。首先简单介绍一下今日头条。今日头条是一个资讯APP,是根据用户兴趣给用户推荐感兴趣的内容,用户用得时间越长,我们对用户兴趣了解也就越多,推荐也就更准确。对于内容创作者而言,我们是一个内容分发平台,帮助他们将好的内容更好地到达合适的用户。今日头条现在用户超过1.2亿,DAU超过1300万。
下面谈谈推送。推送有两个特点,一个是“异步”,可以在用户没有使用APP的时候,将消息推送给他,所以可以作为用户召回的一种手段;另一个是“快”且“实时”,因此它也是提高用户活跃度的一种方式。
对于资讯产品而言,非常重要的一点是推送的信息要对用户有用,另一点是及时,当出现重大的新闻资讯的时候,能够非常及时的到达用户。我后面会讲一下今日头条是如何实践这两点的。
推送对今日头条的效果,召回方面大概有20%的用户影响DAU。如果要让推送更好的提升用户活跃度,就需要关注一些指标。我们关注的指标第一个是点击率,这个有关用户体验,一条消息如果点击率越高,越是用户需要的,如果点击率较低,说明消息对更多用户是打扰。其实点击率还不是特别准确,最准确的应该是召回率,因为用户不一定是通过点击进入APP的。如果做得更精细一点,你可以查看消息推送以后的15-30分钟之内阅读的用户,这是通过召回获取到的。另外是点击量,点击量是跟推送频率和范围相关的,这是我们真正对产品而言,对用户活跃度,我们到底有多大的影响。另外我们要关心的是卸载和推送禁用量,如果你频繁推送用户,这也是提示用户卸载不错的方式。
我们推送的内容主要是突发、热点资讯,除此之外还有少部分结合产品功能的内容,比如你的评论被回复,你有好友要加入等等。推送方面我们一定不能过犹不及,一定要控制好频率,不能让推送打扰到用户。
我们在早期打算做推送的时候,做了一些调研,有些用户反馈说我们推得太多,也有一些用户反馈说我们推得太少,我们发现这其实是重口难调的事情,所以我们一直在做个性化推送,这方便我们比较拿手。
在个性化推送方面,我们作了一些尝试,一个是频率个性化。我们统计发现,对于不同的人,他们在点击率上是有明显差别的,而同一个人在一天中的不同时段点击也有差别,所以我们将时间作为一个维度,人作为一个维度,除此之外,我们将内容也作为一个维度,我们会统计在每个维度上每个人的接收频率,对于接收度高的用户,我们会推送的比较频繁,这样就可以把推送做得更好一些。
另外是内容个性化,内容个性化主要有两个方面,一个是基于地域,在地域方面我们做得比较深入,不仅仅是当前的提示,更重要的是用户关心什么事情,比如对于我来说,我还关心我老家的内容;另一个是信息,也就是对你感兴趣的内容和时效性的内容,这些方面用户有强烈需求。
下面我举几个个性化例子,这个是按城市推送的例子。宜春的一个高三的学生和歹徒搏斗,夺刀受伤了,因此未能参加高考,这个事情发生的时间是5月31日,我是6月1日11点左右收到这个推送的,这条信息只推给了宜春的人,像这样的新闻,很好地满足了我刚才说的两个条件:第一个,我对它感兴趣,因为这是我老家一个镇的,非常亲切;第二个,它很好地满足了我对这个新闻实时性的要求,可能连我妈在家都不知道这个消息的时候,我已经知道了,我后来去百度新闻查了一下,最早的一篇是6月2日,也就是说,比我们推送还晚一点。这个新闻后来比较火,因为有比较多的后续,比如专门安排他单独考试,有学校希望保送,包括出国,这个是后续的新闻了,当然那个已经是在7、8、9号开始,到11、12号才到高峰,可是我是提前十天就了解这个消息了。
另外是一个基于兴趣推送的例子,6月11日UC并入阿里这条新闻,我们当时是个性化推送给互联网人群的,这个事情推送给我妈是没有任何意义的,因为她不关心。从这些例子来看,推送是你要在满足用户需求和防止打扰用户之间取得平衡的事情。
下面是我们所做的一些工具,一个系统的结构,最上面是用户,用户如果要接收到消息,那我们跟用户之间就要有一个推送通道,在通道之前我们要有一个推送的逻辑层,逻辑层会实现频率控制、个性化的逻辑。因为通道这一层,iOS和安卓是不一样的,iOS苹果已经提供了,安卓就需要用其它方式,但逻辑层是通用的。还有是我们的运营人员所依赖的工具,因为我们最终是从运营人员到达用户的。如果从时间线来说,事件发生后,我们要求用最短时间推送给用户,我们的消息到达用户的时间在几分钟之内,不管我们用户量有多少,希望都要这么快。
我们所用的一些工具,第一个是通道,因为我们的工具是分层的,所以每一块都要非常快,但也要可控,特别是在我们早期,服务器采购跟不上用户增长速度,如果做大量推送,召回大量用户,就容易影响服务的稳定性。因为通道有各种方式,推送也有各种方式,长连接的方式是可以做到足够快的,但是在可靠性上要做一些考虑。另外,不能只让在线用户收到消息,离线用户也需要收到,所以必须有离线消息,但离线消息要尽量避免用户一打开手机,消息全拥过来的情况。另外你需要在长连接网络不稳定的情况下实现可靠的推送消息,消息要避免重复,不能让用户看到两条重复性的消息。
另外一方面就是要节省资源,从用户角度,要节省流量,节省电量,而对于我们而言,是要节省带宽,所以通道这边还要做一个可扩展,不管是一千万用户还是一亿用户,我们都要保证这个速度。
在推送逻辑这一层,还是要快!怎么把人群选出来,这个也是要非常快。策略支持就是说我们要支持灵活的策略,我们要能够方便的把各种策略扩展或者插拔,我要支持一些个性推送的维度,比如跟机型、跟操作相关的,我们的策略要做出一些扩展或者可插拔的。因为推送是异步的事情,对用户的影响也非常大,我们要对这个系统非常可控,因为我们这个系统整个推送做到后面是很复杂的,会有很多逻辑,比如个性化频率推送,有人能收到,有人收不到,我可能在这个时间段收到这个内容。而且消息推送最好是可跟踪的,也就是我们做troubleshooting的时候,可以还原当时推送的情况,比如说我是哪种策略,有没有推出去,没有推出去是什么原因等等。另外我们很多地方都要用到我们系统推送的接口,接口方便使用也很重要。
然后是我们的运营平台,运营平台也是要快。当有新的热点新闻、突发新闻的时候,要非常快速地把它抓到,要能够识别出它的时效性,很快识别出它的热度,把它放到可推送的侯选列表里面,我们要能够自动建立它跟人群的关系,我们不能让人来判断这条消息应该推送到互联网人群,这件事情机器是可以做出来的。我们会提供非常方面的操作工具,比如我们有一个页面,三五秒钟刷新一次,当有可推送的新的侯选者出来以后,它后面要做的事情就非常简单了,比如第一是不是要推送,第二是文案可以优化一下,我们运营的同事,只要区别一下是否要优化,不要优化点推送就可以了。
下面讲一下运营分析。我们有一些指标,并且需要不断优化这些指标,有些是技术、工具上可做的,有些是运营本身的办法,比如说是高大上的,还是更吸引眼球的,这时候就需要我们提供一些运营的工具,我们现在有完整的数据后台,可以看到我们的推送时间、推送人群,有多少用户点击,点击率怎么样。资讯后台应该是全面的,历史上所有推送都是有记录的。第二,我们还可以提供一些非常细致的分析,从中可以得出一些结论,比如文案很重要;把“图”放上去,可能推送点击率更高;安卓用户的点击率是早上高,晚上低,但iOS用户正好相反。
还有是A/B Test的测试,把人群区分开推送才有意义,通过测试的结果,可以更好的让运营同事优化运营策略。
最后说一下我们做的这些决策上的成本考虑,我们服务端主要是考虑带宽,因为我们IDC是按照带宽收费的,如果到了一个量,就按峰值带宽收费,因为推送会非常强的拉动整个IDC流量,所以我们把推送系统部署到云端上面,云端是按照流量收费,而不是按照带宽收费。
我要分享的内容就是这些,谢谢大家!
提问:一个新的用户,需要通过多长时间对用户行为的轨迹分析,才能判断出他的兴趣,从而推送出他所感兴趣的内容,也就是个性化的问题。
梁汝波:个性化是有程度的,对不同用户也不一样。如果你授权给我们的话,我们会非常快的判断出来,在第一次请求、第二次请求时就能够获取到。比如按地域推送,我们第一次用的时候就可以用上。还有一些人际关系,比如你授权了,我们可以知道你关注了谁,谁关注了你,或者你发布了什么微博,也可以分析出你的兴趣。另外与时间相关的,其实只有用户的历史行为,我们现在用户历史行为可以是准实时的,就是这次的行为在下一次请求中就能够体现出它的效果。但是因为这不是离散的关系,是连续的,我们对你的信息探索了解,可能不能基于一两次的行为,是基于历史的持续过程,城市的获取是实时的。
提问:您大概会通过多长时间可以非常精准锁定到用户所感兴趣的内容。
梁汝波:如果你的微博帐号可以很好地反馈你的信息的话,你授权我们就可以知道了,我们可以了解你的信息是有一些途径的,这些途径我们能否到达, 以及质量的高低,都有关系。
提问:您刚刚说到推送个性化方面,可以根据频率的个性化,今日头条有针对用户活跃度或者行为,对用户分层次进行不同的推送吗?你能举一两个例子吗?
梁汝波:因为对于推送受众比较多的用户,他点得多我们就推得多,点得少我们就推得少。频率在时间上是有分布的,比如你早上喜欢一点,另外一个人可能晚上喜欢这一点,那我们推送给你的可能就是早上,对于晚上点击率更高的,就晚上推送概率更高,是否推送是动态值,会有一个概率的判断。
提问:你刚才举例举了一个宜春的新闻,但是这个新闻第一时间你们拿到这个新闻之后,你怎么判定它是重要还是不重要的?比如你关心宜春,宜春有一个地方开了一家饭馆,这个重要程度怎么判断?
梁汝波:这个事情我没法在这里解释清楚,因为这是比较复杂的过程,我们公司最擅长的就是判断新闻的热度、质量以及它的一些特征。当一个新闻出来的时候,我们有很多方法去判断它,首先它是不是具有时效性的,第二它是不是热门的。我们现在做的工作,因为对于推荐而言,对准确性是有要求的,对于推送而言,我们有运营人员把关要不要推,我们的推送并不是全自动的,在技术上也会帮助运营人员做判断,比如它的热门程度、时效性,以及哪些用户可能对它感兴趣。
分享到:新浪微博微信有道云笔记QQ好友QQ空间FacebookTwitter人人网腾讯微博
的聊天界面回复数字9可以获得可以用的axure8.0 激活码一枚。
交互设计讨论群,邀请码是:”iamue”。交互设计学堂Ⅲ群: [交互设计学习]
关于转载声明:不得修改标题,需要标注清楚本站站名,文章链接的超链接出处,不得去掉我站的超链接。
著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
链接:/12601
来源:交互学堂
本文所属分类:
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致一列列车行驶在北京居庸关长城附近盛开的山桃花海中。
上了年纪的大爷大妈准点前来,早出晚归,堪比上下班。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  作者:天善智能社区用户 宿痕(支付宝张斌,又名面包君,数据侠)
  今日头条作为一种新型的新闻阅读方式,已经将传统的新浪、腾讯、网易、搜狐这些新闻媒体以一种大数据+新闻内容的方式呈现给用户。上线没几年,用户量已经发展到3亿累计用户,日活奔着3000万去。看到这样的数据,小编还是比较震撼。这几乎是目前APP Top10的水平,所以有必要对今日头条好好研究下。
  个性化推荐大概思路简单来看下今日头条这类的个性化推荐要实现大概是什么样的流程:
  (1)今日头条服务器1000台左右,通过代码实现的爬虫功能,在其他传媒的网站和门户上抓取各种信息。如果在网站上抓取到纸媒的内容,优先从纸媒门户上抓取信息
  (2)抓取信息后,对有价值的信息通过算法进行分析归类。
  (3)推送到有感兴趣的今日头条客户端。
  (4)用户注册或登录(新浪微博、QQ、人人网)时,通过数据挖掘分析,对用户进行分析,推荐感兴趣的信息。
  (5)推送后,根据用户的体验(阅读时间、评论)判断信息是否符合客户需求,再进一步调整推送信息内容。
  (6)敏感信息审查。
  (7)网页转码,手机信息打开纸媒或网站信息,因附带有大量广告或样式信息,下载速度很慢,影响用户体验,转码后保留内容资源,格式更适合阅读。
  而我们在实际使用产品的过程中:
  1. 可以订阅自己关注的频道;
  2. 可以给自己不感兴趣的内容打上标签;
  3. 内容有些少,推来推去还是那些;
  4. 泛阅读,推荐的新闻都是即时性很高,阅后即焚,没有太多的精选文章;
  5. 评论没有高质量的用户,都是比较短浅的评论;
  6. 热点文章排序还有待提升。
  在今日头条技术实现层面,重点包含两个环节:网络爬虫,算法推荐。
  网络爬虫以今日头条为例说明一下网络爬虫在新闻抓取中的工作流程:
  STEP 1:工作人员先要在后台设置新闻来源的字典,比如“网易新闻”、“新浪新闻”、“凤凰新闻”、“浙江新闻”等等;
  STEP 2:通过这些字典,网络爬虫将会锁定到这些网站的超链接,从中抓取新闻。
  补充说明:
  如果这条新闻是在这些新闻平台相关的博客当中的内容,而不是新闻平台本身的新闻,网络爬虫就抓不到了。
  聚合媒体的概念并非如此简单,除了汇聚来自不同媒体的内容之外,聚合媒体更重要的特征是对不同信息进行分类并排序,得到一个信息汇总界面(aggregator),这种信息汇总往往表现为某种排行榜。这种排行榜在传播机制上满足网络科学中所说的“优先链接机制”,即用户的注意力更倾向于投向那些排名靠前的信息,这个过程可以被经典的传播学发现:“乐队花车效应”。这个发现起源于美国的选举过程。候选人会站在乐队花车上拉选票,赞同者会站到他的车上。研究发现,人们倾向于登上那些站满了人的花车,而非那些只有很少人的花车。
  算法推荐
  据了解,今日头条在实现个性化推荐上,重点引入了几个机制:算法排序+人工运营,还有重点介绍的A/B test+投票机制。
  今日头条的用户登录非常人性化。作为一个后起之秀,今日头条非常具有策略性地允许用户使用微博、QQ等社交账号登录。这个过程实际上授权今日头条挖掘个人社交网络的基本信息。因而,便于获取用户的个性化信息,比如用户的兴趣、用户属性。越用越懂用户,从而进行精准的阅读内容推荐。
  个性化推荐的基础是构建推荐系统推荐系统广泛地应用于用户没有明确需求的场景。推荐系统就算法而言,可以分为:
  社会化推荐(Social recommendation, 比如向朋友咨询);
  基于内容的推荐(content-based filtering, 例如根据用户观看过的电影推荐其他与之相似的电影);
  基于协同过滤的推荐(collaborative filtering,例如查看排行榜,或者找到和自己兴趣相似的用户,看看他们最近看什么电影)。
  所以,可以用于构建推荐系统的信息也分为三类:好友、历史兴趣、注册信息。
  推荐系统就是可以关联用户和物品的一种自动化工具。除了这些信息之外,时间、地点等信息均可加入到推荐系统的构建中来。现在,推荐系统已经广泛地应用于新闻推荐、图书推荐、音乐推荐、电影推荐、朋友推荐等领域,作为人工智能的一种形式,极大地方便了人们的生活和交往。
  推荐系统算法的基础就是要构造相似性矩阵
  这种相似性矩阵可以是物与物的相似性,例如书籍之间的相似性、音乐之间的相似性。以下以基于物品的协同过滤算法(item-based collaborative filtering, ItemCF)为例。基于物品的协同过滤算法可以利用用户的历史行为,因而可以使得推荐结果具有很强解释性。比如,可以给喜欢读足球新闻的用户推荐其它相似的新闻。基于物品的协同过滤算法主要分为两步:
  STEP 1:计算物品之间的相似度。
  STEP 2: 根据用户的历史行为生成用户的推荐列表。
  假设有四个用户:
  用户1在今日头条的浏览记录是[a、b、d],
  用户2的浏览记录是[b、c],
  用户3的浏览记录是[c、d],
  用户4的浏览记录是[b、c、d];
  可将这四个人的浏览行为表达为以下四个物品矩阵:
  将个体用户的物品矩阵相加,可以汇总为所有的新闻矩阵M,M[i][j]表示新闻i和新闻j被多个人同时阅读的次数。如下所示:
  矩阵逻辑
  如果两个新闻被多个人同时浏览,那么可以说它们之间的相似度更高。
  将以上矩阵归一化就可以对矩阵进行操作并计算新闻之间的相似度,比如相关相似度或者余弦相似度。
  基于物品间的相似性度,如果有一个新用户进入系统,并且他阅读了新闻c,那么ItemCF算法可以很快给出与新闻c相似度最高的新闻(b和d),并推荐给这个新用户。
  在推荐过程中,推荐系统可以根据用户的行为不断优化相似矩阵,使得推荐越来越准确。
  或者,如果用户可以手动对每个新闻的兴趣(如喜欢或讨厌)标出,就可以使得推荐更准确。
  本质上来说,上面两个图是热点新闻、以及个人定制新闻的基础原理。它分为两步完成:
  STEP 1:先找出新闻之间的热点与相似度
  STEP 2:将热点与相似度高的新闻推送给用户。
  举个栗子――
  假设在抗战胜利70周年当天,有4个人同时浏览今日头条的新闻,
  A是女读者,她点击了秋季糖水制作方法、育儿应注意的五个事项、阅兵式、新型武器等新闻,
  B是中年上班族,他点击了阅兵式、中国最新兵器谱等新闻,
  C是一位年长者,他点击了养生、阅兵式、新型武器等新闻,
  D是一位刚毕业的男大学生,他点击了英雄联盟攻略、好莱坞旅行攻略、阅兵式、新型武器等新闻。
  热点和相似度的产生过程:
  STEP 1:这四个人同时点击阅兵式和新型武器,系统算法就会通过点击和停留的时间计算出阅兵式和新型武器是当天的热点。
  STEP 2:阅兵式和新型武器同时被多人点击,代表他们之间具有相似性。
  STEP 3:当新进用户点击新闻时,今日头条会以最快速度分析他点击的内容,并在已经排查出的热点新闻当中寻找他所感兴趣的相关内容匹配给他,引导他阅读热点。
  这一系列的行为都由计算机自动完成。
  今日头条的个性推荐算法公式
  推荐最难的不是划分人群,也不是判断用户人群归属,更不是文章属性判断,一个人可以属于多个人群,也有多个文章候选,选哪个推荐才是最难的。而今日头条的推荐内容是怎么算出来的呢?
  通过上图的计算公式:W1*候选1的投票率+W2*候选2的投票率+W3候选3的投票率+……=最高分,最后能计算出一个得分,按得分的高低来排序,就可以得到推荐文章的一个侯选,这个过程实际上是一个比较简单的算法,而这在今日头条内部叫逻辑回归。
  机制的缺陷
  上面的例子说明了定制新闻以泛热点新闻为基础数据来完成的事实,这就出现一个问题,即当一个人关注的新闻不是热点时,系统得不到相关的热点,就会在该新闻当中寻找其他信息进行再匹配,这样匹配出的新闻在现有信息的基础上最大程度吻合了用户的兴趣,但未必会推送当天最热点的新闻。
  要想达到这种长尾理论所设想的定制服务,关键是对新闻的细分。只有将不同主题细分成各种子主题,再细分下设内容,才能达到真正的私人定制。要做到这一点,实际已经脱离了机械,而在于人对于事物性质的认知与把握。正如法国社会学家福柯在《知识考古学》当中的观点,分类,是一事物区别于其他事物的根本。而分类,归根结底是人的主观能动性的体现;当系统中累计的用户行为越 多,这种分类越准确,自动化的私人定制也会越贴近用户需求。
  A/B测试、双盲交叉验证
  怎么做A/B测试,第一步线上流量进行分流,正常用户还是走正常的流量,一部分流量我们要保证样本无偏(不要样本全是女的或者全是90后),通过科学方法去划分出一些流量做实验,还要进行分组,分出对照组和实践组,对照组和线上的策略完全一样,实验组我们做一些小小的改变。
  比如头条网页版的首页,新版加了一个链接,老版加了一个任务评论。我们看哪个好呢?通过A/B测试的方式,一部分人看到新版的结果,一部分是老版效果。事后统计分析,看到底哪个版本效果好。
  还有在验证过程介入双盲交叉验证。它是说在评估一项数据的时候,我可以把一部分样本抽样,让其他人再评估一下。根据抽样数据评估的一致性来判断该评估的可靠性怎么样,比如你审一些黄色反动的文章,机器做得再好,必须有人来把关。
  这个事本身判断特别复杂,机器也不能做好,我们要保证评估的有效性,要引入争议复评机制。
  人工运营
  在头条刚才提到有些业务需要人工的评估。因为你文章如果分类分不准的话,可能就会影响你的推荐。有很多东西要人去审的,审核和评估都有一个问题,什么问题呢?它依赖人。
  大家印象中人比机器靠谱的,从大的面上来说,机器比人更靠谱,机器不求回报。在互联网公司,审核和评估投入这块肯定比工程师低很多,这就造成两个后果,第一个就是审核人员敬业或者他的能力上可能跟工程师相比,他会有一定的差距,这是客观存在的。因为我们的人力成本也比较低。
  第二个就是他的流动性可能比较大,另外标准经常变来变去。我们一定要用机器去监控人的工作怎么样,需要有一个预警。这块我们需要引入一个双盲的交叉验证,帮助我们去看这些运营同学他们工作的稳定性怎么样,同时去激励不断提升自己的判断力,得到机器更好的评估。
  个性化推荐技术本身并不神秘,归根到底推荐算法关键是还在于对海量用户行为的数据分析与挖掘,也许各家算法略有不同,但最终目的都是殊途同归,为实现最精准的内容推荐而努力中。
  本文出自天善智能社区 宿痕,转载必须完整保留此段信息。
  原作者@
  欢迎订阅引爆点微信公众号(引爆点)、引爆点新浪微博(微博搜索“引爆点网”)文章由 发布,原文地址:
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
搜狐公众平台官方账号
生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者
搜狐网教育频道官方账号
全球最大华文占星网站-专业研究星座命理及测算服务机构
引爆点()互联网产品运营知...
主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓
主演:尚格?云顿/乔?弗拉尼甘/Bianca Bree
主演:艾斯?库珀/ 查宁?塔图姆/ 乔纳?希尔
baby14岁写真曝光
李冰冰向成龙撒娇争宠
李湘遭闺蜜曝光旧爱
美女模特教老板走秀
曝搬砖男神奇葩择偶观
柳岩被迫成赚钱工具
大屁小P虐心恋
匆匆那年大结局
乔杉遭粉丝骚扰
男闺蜜的尴尬初夜
客服热线:86-10-
客服邮箱:今日头条是怎么做新闻推荐的?这篇文章告诉你
刚刚与王石开完会的张一鸣,也许想不到,今日头条的用户量又往上涨了 2000 万。&&上周,MindStore&与这款数亿用户的新闻聚合阅读器合作第 119 期&MindTalk 线场&时,被告知他们的用户量已经从 4.5 亿成长到 4.7 亿。
从 2012 年到 2016 年这几年间,平均算下来,今日头条平均一年新增 1 亿多用户,平均每月新增 1000 多万用户。每个月的成长,几乎相当于别人努力一年甚至几年的结果。
随手一翻 2013 年、2014 年关于今日头条的消息,夹杂着许多对产品的疑问:今日头条称自己使用&大数据算法&为用户精准推荐内容,真的是用机器算法推荐,还是用人工推荐呢?而且效果确实好吗?
回头来看,2012 年到 2016 年,新闻客户端一直是国内各个科技大公司的争夺之地,网易、搜狐、新浪、百度、腾讯,一直在力推旗下新闻阅读类的产品。而且,几年前在各个移动互联网的 app 都还没钱打线下广告的时候,首先开始进驻飞机场、地铁站、公交站等广告牌的,正是这些财大气粗的新闻门户。而今日头条,从这些巨头当中突围而出,如果仅仅是按照传统的新闻采编方式&&在资源不对称的情况下,很难成为一匹黑马。
有人说,今日头条的用户量大多是靠预装带起来的。然而,预装对于各家门户的新闻客户端来说,是一个带来用户量的常用手段。如果大家都用了同样的手段,但最终留下来的是今日头条,这说明了什么?
市场是检验一款产品到底成功与否的唯一标准。今日头条推荐的新闻,更符合用户群体的口味。
然而,在拥有数亿用户的情况下,今日头条若依然坚持人工推荐的话,人力成本巨大不说,效率也不会高。通过技术手段,自动化整个服务链条,从来是应对业务规模化的路径。假如你以前不相信今日头条自己有做个性化内容推荐算法,那么现在,你必须相信今日头条它已经这么做了。因为没有一份报纸,可以每天出版数亿份不同内容的读物。
那么,今日头条如何做到内容精准化的推荐,它对今日头条的商业模式带来怎么样的影响?通过机器的方式对信息的分拣,以及推送,真的可以触动到读者的心吗?
4 月 20 日,今日头条核心算法负责人杨震原,在 MindStore 分享时提到,一开始今日头条的推荐算法,首先入手的是&非个性化推荐&&&解决的热门文章推荐,以及新文章冷启动的问题。
杨震原在&MindTalk 线场&说,&单纯的热门(文章),会让一些新文章没有机会。单纯的随机(推荐),(文章)质量当然不好,所以考虑一些简单方法,比如算一下威尔逊置信区间,来平衡热与新的问题。&
之后,今日头条开始逐步引入个性化推荐的策略。他们所采用的,是协同过滤(Collaborative Filtering)** +&基于内容推荐,直到今天依然构成今日头条推荐算法的基础。
关于协同过滤,参考 IBM developerWorks 中文社区的专业解释,&协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。&
杨震原在 MindStore 分享,&(协同过滤)是一个很好的方法,直到今天我们还一直使用。但缺点也很明显,对于没有行为(记录)的文章,没办法推荐,所以没办法用于文章的冷启动。所以我们引入了基于内容推荐的策略。比如计算文章的分类、文章的关键词,然后根据用户对文章的阅读、浏览等信息,细化用户的个人资料。&&这样子,如果文章是和科技相关的,而用户的个人资料也显示科技相关,那么就算匹配。&
&在之后的工作,是把特征、模型做得更加细化。比如,文章实体词的抽取。我们最近对文章的分析,已经做得很细,可以精确地提取实体词。我们近期引入了&词嵌入&(word embedding)方法,做向量化的分析,还引入 LDA 的方法,进行 topic 分析等等。&
除此之外,今日头条还通过用户对内容的&正负反馈&来判断内容匹配是否精准。正反馈,包括用户点击了、看了很长时间、分享了、收藏了、评论了,都是正反馈。负反馈反而是比较难获取的,现在今日头条在内容上设置了一个小叉,点击之后,会咨询用户不感兴趣的理由,这种做法则会获取比较强的负反馈。但是通过这种方式收集到的数据还不多。
那么,我们知道现在的个性化推荐算法还未尽善尽美。在&MindTalk 线场&上,有用户提问,&今日头条如何平衡传统意义上的头条新闻和用户感兴趣的头条新闻?&对此,杨震原的回答是,&我们目前是增加非常少的运营干预一天只有零星几条,来增强传统头条新闻的推荐,避免机器推荐对这类内容推荐的不足。&但是,拿捏新闻推荐的平衡点,是整个业界都在钻研的问题。
通过杨震原的解释,我们基本知道了今日头条推荐算法的原理:通过算法,一边提取内容的特征,一边提取用户兴趣的特征,然后让内容与用户的兴趣匹配。不过,除了对文本进行分析外,今日头条如何对用户进行分析呢?
杨震原说,&新用户能够得到的信息(历史行为)非常有限。我们尽量通过一下其它途径想办法获取信息,比如说,如果通过微博登录,那么就可以拿到很多信息,解决冷启动的难题。再比如,手机机型、手机在什么城市等信息,基本也可以知道。当用户积累了一定的行为数据之后,就可以算出他们的兴趣特征。总之,尽量通过有限的信息,来猜测用户的兴趣。&
今日头条通过机器匹配用户阅读兴趣,与内容本身的特征之后,这对他们的商业有怎样的影响?
广告界有一句名言,&企业所投放的广告费总有一半是浪费掉的,但是却没有办法知道被浪费掉的是哪一部分。&今日头条目前的商业模式也是以广告为主,因此在产品上所产生的巨大流量,可否与广告内容精确匹配,进而进行更加精准的转化。
根据今日头条所提供的案例,此前海尔旗下卡萨帝选择在今日头条的动态开屏和信息流中投放广告,最后开屏广告的转化率打 11.93%。
看过本文的人还看过
最新图文推荐
最新专栏文章
大家感兴趣的内容
网友热评的文章}

我要回帖

更多关于 唔哩头条一岁生日 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信