相关系数在多少范围内是相关性系数计算公式很强的

实验数据分析中的相关系数与相关性
已有 2383 次阅读
|个人分类:|系统分类:|关键词:相关系数 相关性 实验数据 分析 随机变量 平行 X轴
导言:前不久参加所里的本科毕设中期汇报会,期间一位学生提出:“一张XY二维图,如果我画在图上的是一条平行于X轴的横线,那说明Y值是不依赖于X的。不管X取什么值,Y都是这个值,怎么能说X和Y之间有关系呢?就算X轴取不同的参数,Y也是一样的值。只能说Y这个量自己的取值有规律,和X这个量一点关系都没有。” & 当时略微做了一些评论,可能并没有阐述清楚,故在这里专门讨论一下这个问题。摘要:相关系数可用来衡量两个观测量之间的线性相关程度。相关系数本身也是一个随机变量,有一定的分布特征。当数据点位于一条平行于X轴的横线上时,相关系数没有意义。但具有这种特征的数据分布本身或许蕴含着一些重要的物理规律。 & & & 在数据分析工作中,会碰到各种各样的观测量:电压、电流、气压、体积、亮度、质量等等。观测量自身往往有一定的分布规律,还混杂着随机测量误差,在数学上可以当做一个随机变量。获得观测(实验)数据后,便要对其进行分析,一个简单实用的方法是将对应两个观测量的一系列数据点画在二维平面上,看看其分布有什么规律。一些分布是确定且相当有规律,背后通常隐藏着深刻的物理原理,例如黑体辐射谱,对其进行分析直接导致了量子概念的产生。由于物理现象的复杂性,再加上随机的测量误差,导致更多的分布较为弥散,没有很强的确定性,但对其运用相关分析同样能得出一些重要的结论。例如,哈勃对星系的距离和红移(退行速度)进行分析,发现距离越远,红移越大,纵使误差很大,也还是能够明确得出宇宙在膨胀的结论(哈勃定律)。 & & & &我们普遍使用由Pearson引入的相关系数[1]来定量判断两个观测量(随机变量)之间的线性相关程度。相关系数的具体计算公式为, & & & & & & & & & & & & & & & & & & & & & & (公式1)其中和为两个不同的观测量,是它们的平均值,为各自的方差,为两个观测量之间的相关系数。图1:数据点的分布形状和对应的相关系数。(图片来源
& & & &相关系数的一些特性可以从图1所列的示例看出来。第一排图形体现了数据点分布的弥散程度和相关系数大小的关系。数据的弥散度越小,线性度越高,相关系数的绝对值就越大;反之,数据的弥散度越大,相关系数就越接近于0。第二排图形表明完全线性的数据分布对应的相关系数的绝对值为1,与斜率无关。但是当数据点平行于X轴时,其相关系数是没有意义的(下面我们还会展开讨论。)。第三排图形说明即使数据点对应的相关系数为0,也不能说两个观测量之间没有关系,因为相关系数仅仅反映两个观测量之间的线性相关程度,而在现实世界中观测量之间更有可能是一种非线性关系。 & & & &利用公式1不难验证,对变量或作线性变换,相关系数的大小维持不变。同样一批数据,选择不同的显示比例尺,会有不同的视觉效果。例如Y方向的比例尺大,数据在这个方向就会被压缩,看起来相对集中些;选择小的比例尺,数据就被扩散开来,给人感觉数据似乎更加弥散,更加不相关了。实际上,不管选用什么样的比例尺,数据背后的相关系数没有发生变化。因此,我们在寻找数据的相关性时,不能过分依赖自己的直觉,还是要通过计算相关系数来判断。 & & & &相关系数本身也是一个随机变量。我们假定有两个相互独立的观测量。理论上,这两个观测量对应的相关系数的期望值为0。然而对于实际测量据来说,由于数据量有限,相关系数在区间[-1,1]之间有一个分布。蒙卡模拟表明这些分布近似为高斯型函数。数据量越大,分布函数越倾向于向0集中(见图2)。当数据量比较小时(例如样本量),即使是高的相关系数(例如0.8)也不见得观测量之间存在很强的相关性;而数据量比较大时(例如样本量),很小的相关系数(例如0.2)也可能说明观测量之间存在着显著的相关性。严谨的做法是用假设检验来定量判断相关的显著性。图2:相关系数的分布。两个互相独立的随机变量都满足泊松分布()。在不同样本量(N=10/100/1000)条件下,通过10万次蒙卡模拟,获得对应的相关系数分布图。 & & & &最后我们试着来回答那位学生的提问。当数据聚集于一条平行X轴的横线时(类似图1正中央示例的情形),变量的标准差为0,此时计算相关系数已经没有意义。由于测量误差的存在,实测数据不会严格分布在一条直线上,而是在该直线上下波动,因而相关系数会接近于0。但在该情形下,我们能说变量和没有关系没有吗?不见得! & & & &我们用理想气体的物理特性来说明。理想气体的状态方程为: & & & & & & & & & & & & & & & & & (公式2)其中为压强,为体积,为质量,为温度,为一个常数。若固定质量和温度,那么气体的压强和体积成反比。此时,我们去画压强(X轴)和温度(Y轴)数据的散点图,就会发现其分布近似平行X轴,压强和温度似乎毫无关系。让我们改变实验条件,将质量和体积限定在某一个固定值,再去画压强和温度的散点图时,将会发现他们之间存在明显的线性关系。 & & & &当出现数据分布平行于X轴(或Y轴)的情况时,我们首先要想一想:在实验中是不是由于设置的原因(在天文观测中对应的是仪器的选择效应),使得某个观测量被限定在一个特别小的区间内?正如上面所提到的理想气体实验。若不是,那么恭喜你,你的这批观测数据或许具有重要的科学价值!因为这样的现象意味着该观测量存在一个特殊状态:例如,当温度下降到某一水平时,一些物体可以进入超导状态,电阻恒定为0,并且不再随温度的继续下降而变化;天文中,当白矮星吸积质量达到钱德拉塞卡极限时,可以引发Ia型超新星爆发,这个质量也是一个恒定的量。这些特殊状态背后的物理原理值得去深究!参考文献:[1] &[2] 谢明文,《关于协方差、相关系数与相关性的关系》,数理统计与管理,23卷第3期,2004年5月
转载本文请联系原作者获取授权,同时请注明本文来自周建锋科学网博客。链接地址:
上一篇:下一篇:
当前推荐数:1
评论 ( 个评论)
当前只显示与你操作相关的单个评论,
扫一扫,分享此博文
作者的精选博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &复相关系数_百度百科
复相关系数
复相关系数是测量一个变量与其他多个变量之间程度的指标。它不能直接测算,只能采取一定的方法进行间接测算。是度量复相关程度的指标,它可利用单相关系数和系数求得。复相关系数越大,表明要素或变量之间的线性相关程度越密切。
复相关系数定义
一个要素或变量同时与几个要素或变量之间的相关关系。
复相关系数是度量复相关程度的指标,它可利用单相关系数和系数求得。复相关系数越大,表明要素或变量之间的程度越密切。
复相关系数(多重相关系数):多重相关的实质就是Y的实际观察值与由p个自变量预测的值的相关。
前面计算的确定系数是Y与相关系数的平方,那么复相关系数就是确定系数的平方根。
复相关系数计算方法
复相关系数是测量一个变量与其他多个变量之间程度的指标。它不能直接测算,只能采取一定的方法进行间接测算。
为了测定一个变量y与其他多个变量X1,X2,...,Xk之间的相关系数,可以考虑构造一个关于X1,X2,...,Xk的,通过计算该线性组合与y之间的作为变量y与X1,X2,...,Xk之间的复相关系数。具体计算过程如下:
第一步,用y对X1,X2,...,Xk作回归,得:
第二步,计算即为y与X1,X2,...,Xk之间的复相关系数。复相关系数的计算公式为:
之所以用R表示复相关系数,是因为R的平方恰好就是的。这种关系的简单推导如下:在上面的式子中,分子可化为:
复相关系数与的区别是简单相关系数的是[-1,1],而复相关系数的取值范围是[0,1]。这是因为,在两个变量的情况下,有正负之分,所以在研究相关时,也有和之分;但在多个变量时,有两个或两个以上,其符号有正有负,不能按正负来区别,所以复相关系数也就只取正值。
企业信用信息查看: 12679|回复: 3
在线时间107 小时最后登录注册时间听众数收听数能力0 分体力1088 点威望0 点阅读权限40积分405相册日志记录帖子主题精华0分享好友
, 积分 405, 距离下一级还需 195 积分
升级&&35%当前用户组为 高中生当前积分为 405, 升到下一级还需要 195 点。TA的每日心情奋斗 00:51签到天数: 120 天[LV.7]常住居民III
自我介绍认证字段为空,请立即补全!
用户Flyingpig-sally已经进行了数学中国认证
填写您的邮件地址
数据分析师高端实地培训世界五百强就业选择数学中国专家顾问团金牌教练国赛经典模型全覆盖网络赛(小国赛)专家评阅组及命题人交流指导。RT
百度知道说大概0.8以上0 y( ^2 N9 R) u! A' R- M8 r% z, j
那要是所有的因素相关性都在0.9以上呢?
还怎么判断相关性?
踩过的脚印
啦啦啦~~~我是默认签名(*^__^*)
在线时间15 小时最后登录注册时间听众数收听数能力0 分体力178 点威望0 点阅读权限20积分74相册日志记录帖子主题精华0分享好友
, 积分 74, 距离下一级还需 26 积分
升级&&72.63%当前用户组为 小学生当前积分为 74, 升到下一级还需要 26 点。TA的每日心情奋斗 14:06签到天数: 16 天[LV.4]偶尔看看III自我介绍统计专业学生一枚
相关系数取值一般在-1~1之间。绝对值越接近1说明变量之间的线性关系越强,绝对值越接近0说明变量间线性关系越弱。≥0.8高度相关,0.5~0.8中度相关,0.3~0.5低度相关,<0.3相关关系极弱可视为不相关。
啦啦啦~~~我是默认签名(*^__^*)
在线时间15 小时最后登录注册时间听众数收听数能力0 分体力178 点威望0 点阅读权限20积分74相册日志记录帖子主题精华0分享好友
, 积分 74, 距离下一级还需 26 积分
升级&&72.63%当前用户组为 小学生当前积分为 74, 升到下一级还需要 26 点。TA的每日心情奋斗 14:06签到天数: 16 天[LV.4]偶尔看看III自我介绍统计专业学生一枚
LZ说因素相关性都在0.9以上,那么线性相关性很强了
啦啦啦~~~我是默认签名(*^__^*)
在线时间107 小时最后登录注册时间听众数收听数能力0 分体力1088 点威望0 点阅读权限40积分405相册日志记录帖子主题精华0分享好友
, 积分 405, 距离下一级还需 195 积分
升级&&35%当前用户组为 高中生当前积分为 405, 升到下一级还需要 195 点。TA的每日心情奋斗 00:51签到天数: 120 天[LV.7]常住居民III
自我介绍认证字段为空,请立即补全!
用户Flyingpig-sally已经进行了数学中国认证
ryosi 发表于
LZ说因素相关性都在0.9以上,那么线性相关性很强了7 R2 f4 F( i" V- A2 T6 u3 y# M" \
是的~不过都是0.9以上,所以就纠结了……
啦啦啦~~~我是默认签名(*^__^*)
能够进入顶尖金融和医药企业就业的最好机会!月薪不低于8000元,有意向的同学赶快报名!
Powered by
& &论坛法律顾问:王兆丰君,已阅读到文档的结尾了呢~~
相关系数的正确理解和表达,协方差和相关系数,相关系数和决定系数,可决系数和相关系数,相关系数,pearson相关系数,皮尔逊相关系数,相关系数公式,spearman相关系数,皮尔森相关系数
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
相关系数的正确理解和表达
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口2119人阅读
机器学习-推荐-广告(2)
一 Pearson 相关系数介绍
& & & &pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的趋势。
& & 当两个变量的线性关系增强时,相关系数趋于1或-1;
& & &当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;
& & &如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;
& & &如果相关系数等于0,表明它们之间不存在线性相关关系。
用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。(标准差 就是方差的开方)
协方差(Covariance):在概率论和统计学中用于衡量两个变量的总体误差。如果两个变量的变化趋于一致,也就是说如果其中一个大于自身的期望值,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,则协方差为负值。
其中u表示X的期望E(X), v表示Y的期望E(Y)
由于pearson描述的是两组数据变化移动的趋势,所以在中,经常使用。描述用户购买或评分变化的趋势,若趋势相近则pearson系数趋近于1,也就是我们认为相似的用户。
Pearson 相关系数的缺陷
直观的可以看出,pearson不适用于文本的相似性分析。
pearson存在以下3个问题: 以下图的数据作为测试用例
1. 未考虑重叠记录项的数量对相似度的影响
&&&&上表中,行表示用户(1~5)对项目(101~103)的一些评分值。直观来看,User1和User5用3个共同的评分项,并且给出的评分趋势相
同,User1与User4只有2个相同评分项,虽然他们的趋势也相似,但是由于102的未知,可能是User2对102未发生行为,或者对102很讨厌,所以我们更希望User1和User5更相似,但结果是User1与User4有着更高的结果。
&&&& 同样的场景在现实生活中也经常发生,比如两个用户共同观看了200部电影,虽然不一定给出相同或完全相近的评分,但只要他们之间的趋势相似也应该比另一位只观看了2部相同电影的相似度高!但事实并不如此,如果对这两部电影,两个用户给出的相似度相同或很相近,通过Pearson相关性计算出的相似度会明显大于观看了相同的200部电影的用户之间的相似度。
2.如果只有一个重叠项则无法计算相关性
&&&&从数学上讲,若只有一个重叠的记录,那么至少有一组记录的标准差为0,导致分母为0
从这一点也可以看出,pearson系数不适用与小的或者非常稀疏的数据集。当然,这一特性也有它的好处,无法计算pearson系数可以认为这两组数据没有任何相关性。
3.如果一组记录的所有评分都一样则无法计算相关性
&&&&理由同2.
4.Pearson系数对绝对数值不敏感
&&&&考虑这三组数据,1:(1.0,2.0,3.0,4.0),2:(40.0,50.0,70.0,80.0),3:(50.0,60.0,70.0,80.0),我们可以直观的认为2和3更为相似,它们的重叠评分数目一致,趋势也相同,记录1虽然也满足上述的条件,但是它整体数值很低。在现实中,有人习惯于给出更高的评分,而有人则恰恰相反。
&&&&利用pearson计算它们之间的相似度为:
&&&&&1&2: 0.1665
&&&&&2&3: 0.1665
&&&&&1&3: 0.9999
&&&&可以看出pearson系数对绝对数值并不敏感,它确实只是描述了两组数据变化的趋势。
二 浅述协同过滤之基于用户的最近邻推荐【结合pearson系数】
&&& & & &协同过滤的推荐方法有很多,其主要思想是利用已有的大量用user
set的历史行为数据
来预测当前user的对哪些东西最感兴趣或是最喜欢哪些东西。&
& & 【 user对各Item的评分构成特征向量矩阵】
& & 纯粹的协同方法的输入数据只有给定的user-item的评分矩阵,输出数据通常有下列类型:
& & & &1)标识当前user对于item喜欢或是不喜欢程度的预测数据
& & & &2)n项推荐item的列表,这是topN的列表,当前user购买过的item不会在此列表内
下面说说user-based nearest neighbor recommendation.
基于user的最近邻推荐的基本思想是:
1)给定一个user-item构成的评分矩阵,找出与当前user在过去有相似偏好的其他用户,也就是找近邻的过程
2)对于当前user没有见过的item,利用user的近邻对item的历史评分来计算user对item的偏好程度的预测值
上述思想的隐含假设是:
1)假如user间过去有相似的偏好,那么这些user将来也会有相似的偏好
2)user对item的偏好不会随时间而变化
至于如何确定相似user set,推荐系统中常用的方法是Pearson相关系数。
& & & & Pearson相关系数取值从强正相关(+1)到强负相关(-1)。&
& & & &Pearson方法充分考虑到了user对item的评分标准并不相同,有些user喜欢只给item高分,而另一些user从不任何item满分。同时,Pearson相关系数在计算中未考虑user对item偏好评分的平均值的差异使得user可比,也就是说即使两个user对item偏好的绝对评分值完全不同,但仍然可以发现user对item的评分值之间相当明显的线性相关性,进而得出两个user相似的结论。【Pearson系数对绝对数值不敏感】
& & & &在实际应用中,评分数据集通常非常大,而且包括了成千上万甚至百万级的user和item,这就要求必须考虑时间复杂度。此外,评分矩阵通常非常稀疏,每个user只对所有有效item的非常小的一个子集评分。还需要考虑给新的user推荐什么item,该如何处理没有评分的新item。
& & & & &除了Pearson相关系数衡量user间的相似度,改进的余弦相似度、Spearman秩相关系数、均方差等也能用于计算user间的相似度。
& & & & 但是实验分析显示,对于user-based推荐系统来说,Pearson相关系数比其它对比方法更胜一筹。但是Pearson方法发现近邻以及为这些近邻的评分赋权可能还不是最好的选择。
& && & 比如,很多领域会有一些所有user都会喜欢的item,让两个user对有争议的item达成共识会比对广受欢迎的item达成共识更有价值,但Pearson这样的相似度方法无法将这种情况考虑在内。当然IUF和方差权重因子等可以解决这样的问题。
& & &另外,对于近邻评分的预测方法在遇到当前user只为非常少的共同item评分时会出错,导致不准确的预测。重要性赋权和样本扩展等方法都在探索此类问题的解决。
在user近邻选择时不用考虑use的所有近邻。为了减少计算与测试时的时间复杂度,只包括了那些与当前user有正向关联的user。降低近邻集合规模的通常方法是为user相似度定义一个具体的最小阈值,或者将规模大小限制为一个固定值,而且只考虑k近邻。当然相似度阈值过高,近邻规模就会很少,也就降低了覆盖率。如果太低,近邻规模就不会显著降低。对于k近邻,k太高,太多只有有限相似度的近邻会给预测带来额外的“噪声”;k太小,预测质量会受到负面影响。对MovieLens数据集的分析发现:在大多数情况下,20-50个近邻比较合理。
三 &浅述协同过滤之基于物品的最近邻推荐
& & & & &在很多领域都使用了user-based CF的方法。但是user-based CF的方法也存在问题。
首先,基于user的最近邻算法的计算量会随着item和user的数量的增加而增加,在数据量非常大的时候,要求实时地计算预测 & & & & &值难以做到。
另外,在一些大型的电商网站上,都拥有数以百万计的用户和物品,由于用户实际购买的物品非常少,且不同用户之间购买的物品的重叠性非常低,就是导致算法找不到有相似偏好的用户。在计算用户的最近邻时,难以实时地计算预测值。
& & & &然而,基于item-based CF却非常适合在线下进行处理。而且,在评分矩阵非常大的情况下也能做到实时推荐。
& & & &item-based CF的主要思想是基于用户的历史数据来计算物品的相似度,利用物品间的相似度取代用户间的相似度进行推荐,然后把和用户偏好的物品非常相似的物品推荐给用户。
& & & &首先需要制定相似度度量标准,用以计算物品间的相似度。在信息检索和文本挖掘中广泛使用的余弦相似度,在基于物品的推荐方法中,效果也非常好,已经被当作标准的度量体系。一般的计算方法有:
& & & &1)基于余弦的相似度计算,通过计算两个向量之间的夹角余弦值来计算物品之间的相似度,计算公式如下:&
& & & & & & & & & & & & & & & & & & & & & & & & & &
其中,分子为两个向量的内积,即两个向量相同位置的数字相乘。分母是两个向量的欧式长度的乘积,即向量自身点积的平方根的乘积。计算得到的相似度取值介于0和1之间,越接近于1表示两个物品越相似。这种基本的余弦相似度的计算方法并没有考虑用户评分平均值的差异,用户打分起点有差异。
2)基于关联的相似度计算,计算两个向量之间的Pearson-r关联度,计算公式如下:
& & & & & & & & & & & & & & & & & & & & & &
其中表示用户u对物品i的打分,表示第i个物品打分的平均值。。
<span style="color:#)调整的余弦相&#20284;度计算,以为基于余弦的相&#20284;度计算方法未考虑用户的差异性打分情况,有些用户偏倾向于打高分,而有些用户倾向于打低分,在计算相&#20284;度时通过减去用户各种打分的均&#20540;以消除不同用户打分起点的影响,公式如下:
& & & & & & & & & & & & & & & & & & & & & & & &&
& & & & & & & &其中表示用户u打分的均&#20540;。相应地,改进的余弦方法的取&#20540;在-1和&#43;1之间,就像pearson方法一样。
&其次,确定了物品和其它物品的相&#20284;度之后,基于这个数据就可以预测用户对物品的评分。在计算时,对近邻集合的规模会进行限制。一般地对用户未打分的物品进行预测的方法有:
& & & &1)加权求和。该方法的过程是:对用户u打分过的物品的分数进行加权求和,权&#20540;为用户u打分过的物品与物品i的相&#20284;度,然后对所有物品相&#20284;度的和求平均,计算得到用户u对物品i打分,公式如下:
& & & & & & & & & & & & & & & & & & & & & & & & & & & &
& & & &&其中为物品i与物品N的相&#20284;度,为用户u对物品N的打分。这种方法会有一个问题:不同用户的打分习惯会有差异,有的倾向于打高分,有的倾向于打低分,这就导致不同用户对喜欢的相同物品给分不会相同。使用余弦相&#20284;度计算时,欧式距离就会很大,但事实是相&#20284;度本应很高。在这种情况下使用用户原始的相&#20284;物品打分&#20540;进行计算会严重影响实际的预测结果。
& & & &2)回归。为了解决加权求和中提到的问题,回归的方法不直接使用相&#20284;物品N的打分&#20540;,而是通过线性回归的方式重新估算新的&#20540;,然后依然使用上面的方法进行预测。重新计算的方法如下:&
& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & & &
& & & & & & & & & & & & & & & & & & & & & & & & & & & & & & &
& & & &&其中物品N是物品i的相&#20284;物品,和通过对物品N和i的打分向量进行线性回归计算得到,为回归模型的误差。
传统基于用户协同过滤的问题是,算法不能很好的适应大规模用户和物品的数据。给定M个用户和N个物品,在最坏的情况下,必须评估最多包含这N个物品的所有M个用户的记录。在实际情况下,由于大多数用户只评分或购买了非常少量的物品,实际复杂度非常低。尽管如此,当用户的数据M打到几百万是,线上环境要求必须在极端事件内返回结果时,实时计算预测&#20540;仍不可行。
& & & & 为了在不牺牲推荐精度的情况下,在大规模的电子商务网站上应用基于物品的推荐算法,通过离线计算预测数据。其想法是事先构建一个物品相&#20284;度矩阵,描述所有物品两两之间的相&#20284;度。在运行时,通过确定与p最相&#20284;的物品并计算u对这些近邻物品评分的加权总和来得到用户u对物品p的预测评分。近邻数量受限于用户当前评过分的物品数。由于这样的物品数量一般都比较少,一次计算预测&#20540;可以在线上交互应用允许的时间内完成。
& & & &考虑到内存要求,N个物品的相&#20284;度矩阵理论上有N2项,但时间项数会极低,而且还可以采取进一步的方法降低复杂度。可选的方案是,仅仅考虑哪些月其它物品同事评分数最小的物品,或者对每个物品只记录有限的近邻。然而这种方法会增加无法预测某个特定物品的风险。
原则上,这种离线预计算近邻的方法对基于用户的方法也适用。但在实际情况下,两个用户评分重叠的情况非常少见,这就意味着一些其他的评分&#20540;可能影响到用户间的相&#20284;度。相对用户相&#20284;度而言,物品相&#20284;度更稳定,这种预处理计算不会过于影响预测准确度。
& & & & 除了这些所谓基于模型的方法中采用的不同预处理计算之外,还可以仅仅利用评分矩阵中的某一部分以降低计算复杂度。一种基本技术是二次采样,这种技术可以随机选取数据的子集,或者忽略哪些仅有非常少量评分活仅包含非常热门物品的用户记录。Yu et al.(2003)也提出过一种更加高级且基于信息论的技术过滤最“相关”的用户。一般来说,可以用这些技术加速计算,但由于推荐用到的信息少了,系统做出精确预测的能力肯能会下降。
& & & &对于上述问题的解决方案,有兴趣的可以进一步研究研究。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:232382次
积分:3622
积分:3622
排名:第6204名
原创:168篇
转载:107篇
评论:33条}

我要回帖

更多关于 天线相关性系数 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信