为什么随着分类阈值从大到小变化,查准率减小,查全率与查准率增加

医学会议频道
MedSci梅斯医学APP下载
大家还在关注:
如何提高文献检索的查全率
作者:唐凌峰&&&来源:科学网
查准率指的是是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。查准率 = 检出的相关文献篇数/检出的全部文献篇数× 100%。查全率与查准率在一定程度上是成反比关系的,为了提高查全率就要以牺牲部分查准率为代价,反之亦然。在不同的情况下,对二者的要求也不同,有时文献的全面更为重要,这时就要以提高查全率为重点,有时希望找到的文献准确率更高,就以提高查准率为重点。本文讨论的是怎样提高文献的查全率。1 检索词的转换。常见的转换是同义词、近义词、相关词、单复数及缩写形式,如果是动词还有可能有不同的时态。每一个检索词都有可能有多种表达形式,如果是由英文翻译过来的还有可能有多种翻译方法,所以应该尽可能找全检索词的所有同义词、近义词。相关词指的是与检索词不是同一个意思但是有关联的词。如,META分析的同义词包括元分析、荟萃分析、meta-analysis,近义词包括系统综述,相关词为循证医学。前列腺癌的缩写可能是Pca等等。值得注意的是,在检索中文文献的时候,有必要把英文的全称和缩写也作为检索词,因为有些中文文章中是直接用英文词汇表示的。2 使用截词符。虽然从理论上来说我们找到所有的同义词和近义词可以扩大检索结果,但是要想做到这一点是相当困难的。这时可以利用截词符来帮忙。一般用的截词符是“?”和“*”,在不同的数据库中表示的意思有所不同,常见的意思是“?”表示0-1个字符,而“*”表示多个字符。3 使用上位词,即指代范围更广的词。有些检索系统有主题词途径,则可以选用上位主题词。例如水果是苹果的上位词,prostatic neoplasm的上位主题词是prostatic disease。4 改变布尔运算符,即将连接两个或多个检索词的AND改为OR,即可提高检出数量。5 改变检索项。如要求检索词位于标题中或为关键词或主题,检出记录数太少,则可改为要求位于摘要或全文中,检出记录数即可增加。6 减少限制条件,增加副主题词。如果前面的检索中有限制条件,放宽或去掉限制条件;如果采用的是主题词和副主题词搭配的形式,看是否漏掉可能的副主题词。以上说的是在同一个数据库中进行检索。但是,每一个数据库所收录的文献都是有限的,而不同的数据库可能存在一定的互补关系。所以为了提高查全率,应该多检索几个数据库,将结果综合起来。当然前提条件是要了解每一个数据库收录期刊的范围、起止年代等,因为不排除有些小的数据库完全是另外一个大数据库的子集的情况,这时当然完全没有必要再检索那个小的数据库了。即使是将目前所有的数据库加起来,也不能囊括所有的文献。例如,有一些年代比较久远的,或者是期刊知名度不高的。所以,除了在数据库中进行检索,还要辅以手工检索。包括对一些重要的而数据库中没有收录的期刊进行手工检索,在已经查到的文献的“参考文献”中或有些数据库提供的“相关文献”中进行查找,看有无“漏网之鱼”,还有,可以请教相关 领域的专家,看看是否有重要的文献没有检索到。一般我们检索文献不是英文的就是中文的,对于其它语种的则不做要求。如果是要求查全率很高,则可以检索一些不常用的语种的文献,如日文、法文、德文等等。当然如果自己不会那门语言,即使查到了,阅读也是一个问题。如果真是非常重要,不妨请人翻译过来。PUBMED的查全率问题&PUBMED是最常用的医学网络数据库,它收录的期刊范围最广,更新速度快,有部分(大约5%)能够获得免费的全文,95%以上有英文摘要,而且可以知道查到的某一篇文献是收录在哪个全文数据库中,因而深受医学科研工作者欢迎。PUBMED有自动转换功能,在检索框输入一个检索词,它会自动将其转化为对应的主题词,同时进行主题词检索和自由词检索,并把二者的检索结果用“OR”连接起来。所以,在PUBMED中,要提高查准率首选主题词加副主题词的形式,而要提高查全率则首选默认的检索形式,即打开PUBMED主页后直接在检索框输入检索词。如果采用主题词加副主题词的形式,由于最新的部分文献还没有进行主题标引,因此不能检索到最新的文献。PUBMED的查全率问题与上面所说的大同小异。值得注意的是,如果使用截词符,其自动转换功能即停止。可以采取的办法是第一次用默认检索,第二次用截词符,再把两次检索的结果合并起来。例如,检索词的所有同义词近义词缩写相关词等分别为A、B、C、D、E,则第一次以默认的检索方式检索,检索式为 A OR B OR C OR D OR E,第二次用截词符检索,如A? OR B* OR C? OR D OR E*, 再把两次检索的结果合并,检索式为#1 OR #2。此外,PUBMED还可以提供related articles, 点击这里即可以看到与你检索到的文献相关的文献,也许这其中就有需要而自己没有查到的。META分析的检索问题META分析是对文献的查全率要求最高的一种研究。严格的说,要求获得“所有发表的和未发表的所有形式的信息”,也就是说,包括各国语言的期刊论文、会议论文、学位论文、书籍、Cochrone图书馆的文献及正在研究尚未发表的资料。其实目前发表的META分析能够达到这一要求的几乎没有,即使是发表在柳叶刀、BMJ这样顶级医学期刊上的META分析也不例外。关于META分析的文献检索,以后如有时间我再详细讨论。
小提示:78%用户已下载,更方便阅读和交流,请扫描二维码直接下载APP
这个一定要掌握!
文献查全的确很重要,特别对于META来说
相关资讯:
猜你感兴趣
资讯分类阅读
关注Medsci
声明:MedSci(梅斯医学)登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供专业医生参考,具体诊断和治疗请咨询专科医生。
MedSci备案号
扫码领取IF曲线
IF连续增长的期刊文献检索A卷及答案_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
文献检索A卷及答案
上传于||暂无简介
阅读已结束,如果下载本文需要使用2下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩3页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢兰大信息检索与利用13春在线作业1答案_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
兰大信息检索与利用13春在线作业1答案
上传于||暂无简介
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩3页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢信息检索种查全率和查准率为什么 查全率高,查准率就低?查全率低,查准率就高?为什么有这样的关系啊?
胖子_g0508
比如两个关键词之间用空格隔开,就表示检索结果里有两者之一即可,这样提高查全率.比如“”引起来的关键字就是说检索结果必须要一字不差的有这样一个关键字,这样提高查准率.很好理解,准了就是范围小,不能泛泛地显示,全了就不能准确地定位到一个结果.希望我说清楚了.
为您推荐:
其他类似问题
扫描下载二维码在论文的结果分析中,ROC和PR曲线是经常用到的两个有力的展示图。
ROC曲线(receiver operating characteristic)是一种对于灵敏度进行描述的功能图像。ROC曲线可以通过描述真阳性率(TPR)和假阳性率(FPR)来实现。由于是通过比较两个操作特征(TPR和FPR)作为标准,ROC曲线也叫做相关操作特征曲线。
ROC分析给选择最好的模型和在上下文或者类分布中抛弃一些较差的模型提供了工具。ROC曲线首先是由二战中的电子工程师和雷达工程师发明的,他们是用来检测战场中的敌军的,也就是信号检测理论。ROC分析现在已经在相关的领域得到了很好的发展,特别是在医学,无线电领域中,而且最近在机器学习和数据挖掘领域也得到了很好的发展。
一个分类模型(分类器)是一个将一个实例映射到一个特定类的过程。让我们来考虑一个两类预测问题(双分类器),其结果要么是真(p)要么是假(n)。在双分类器中有4类可能的输出。如果输出的预测是p而真实的结果也是p,那么这就叫做真阳性(TP);然而如果真实的结果是n,则这就叫做假阳性(FP)。相反的来说,一个真阴性发生在预测结果和实际结果都为n的时候,而假阴性是当预测输出是n而实际值是p的时候。其多种情况可由以下矩阵表示:
行是实际的类,列是分类器得到的类别。常用的术语如下:
真阳性(TP)&&正确的肯定 真阴性(TN)&&正确的否定
假阳性(FP)&&错误的肯定,假报警,第一类错误
假阴性(FN)&&错误的否定,未命中,第二类错误
真阳性率(TPR)
TPR = TP / P = TP / (TP+FN)
假阳性率(FPR)
FPR = FP / N = FP / (FP + TN)
准确度(ACC)
ACC = (TP + TN) / (P + N)
即:(猜对为阳性+猜对为阴性) / 总样本数
特征 (SPC) 或者真阴性率
SPC = TN / N = TN / (FP + TN) = 1 - FPR
阳性预测值(PPV)
PPV = TP / (TP + FP)
阴性预测值(NPV)
NPV = TN / (TN + FN)
假发现率 (FDR)
FDR = FP / (FP + TP)
Matthews相关系数 (MCC)
MCC = (TP*TN - FP*FN) / sqrt(PNP'N')
F1 = 2TP/(P+P')
下面介绍ROC空间的概念:要生成一个ROC曲线,只需要真阳性率(TPR)和假阳性率(FPR)。ROC空间将FPR定义为x轴,TPR定义为y轴。而由于TPR即为灵敏度(sensitivity),FPR即为(1-特异度)(specificity),因此ROC曲线图有时候也叫做"灵敏度 vs. 1-特异度" 曲线图。每一个预测结果在ROC空间中以一个点代表。
最好的预测方式是一个在左上角的点,在ROC空间坐标轴(0,1)点,这个代表着100%灵敏(没有假阴性)和100%特异(没有假阳性)。而(0,1)点被称为&完美分类器&。一个完全随机的预测会得到一条从左下到右上对角线(也叫无识别率线)上的一个点,这条线上的任一点对应的准确度(ACC)都是50%。
离散分类器,如决策树,产生的是离散的数值或者一个二元标签。应用到实例中,这样的分类器最后只会在ROC空间产生单一的点。而一些其他的分类器,如朴素贝叶斯分类器,逻辑回归或者人工神经网络,产生的是实例属于某一类的可能性,对于这些方法,一个阈值就决定了ROC空间中点的位置。举例来说,如果可能值低于或者等于0.8这个阈值就将其认为是阳性的类,而其他的值被认为是阴性类。这样就可以通过画每一个阈值的ROC点来生成一个生成一条曲线。MedCalc是较好的ROC曲线分析软件。
PR曲线指的是Precision Recall曲线,中文为查准率-查全率曲线。PR曲线在分类、检索等领域有着广泛的使用,来表现分类/检索的性能。
如上矩阵图所示:
查准率(Precision Ratio)= TP/P
查全率(Recall Ratio)= TP/ P'
注:查准率又名精度,查全率又名召回率。这些表达式在ROC中有不同的名称而已。
如果是分类器的话,通过调整分类阈值,可以得到不同的P-R值,从而可以得到一条曲线(纵坐标为P,横坐标为R)。通常随着分类阈值从大到小变化(大于阈值认为P),查准率减小,查全率增加。比较两个分类器好坏时,显然是查得又准又全的比较好,也就是的PR曲线越往坐标(1,1)的位置靠近越好。
阅读(...) 评论()}

我要回帖

更多关于 查全率与查准率公式 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信