以往那写的287ri页面html个人信息页面,如今却wwW287riCoM怎么一点搜不到了

赞助商链接
当前位置: >>
《计算机信息检索》教案
《计算机信息检索》教案 计算机信息检索》 ――信息管理与信息系统专业 第一章 导 论 ....................................................................................................................................................... 5 第一节 信息检索概述 ........................................................................................................................................ 5一、概念 .......................................................................................................................................................... 5 二、简史 .......................................................................................................................................................... 5第二节 信息检索研究内容 ................................................................................................................................ 6一、信息检索理论 .......................................................................................................................................... 6 二、信息处理与组织 ...................................................................................................................................... 7 三、信息检索技术与方法 .............................................................................................................................. 7 四、信息可视化技术 ...................................................................................................................................... 7第三节 信息检索系统分类 ................................................................................................................................ 8一、按资源形式划分 ...................................................................................................................................... 8 二、按服务功能划分 ...................................................................................................................................... 8 三、按服务区域划分 ...................................................................................................................................... 8 四、按系统逻辑能力分 .................................................................................................................................. 8第四节 信息检索的未来趋势 ............................................................................................................................ 9 第二章 信息检索的数学模型 .............................................................................................................................. 10 第一节 信息检索系统的形式化表示 .............................................................................................................. 10一、信息检索数学模型分类 ........................................................................................................................ 10 二、信息检索系统的四元组表示法............................................................................................................. 10第二节 集合论检索模型 .................................................................................................................................. 11一、单项检索模型 ........................................................................................................................................ 11 二、布尔逻辑模型 ........................................................................................................................................ 11第三节 代数论检索模型 .................................................................................................................................. 12一、向量空间模型 ........................................................................................................................................ 12 二、文献语词矩阵 ........................................................................................................................................ 13 三、神经网络模型 ........................................................................................................................................ 13第四节 概率论检索模型 .................................................................................................................................. 15一、经典概率模型 ........................................................................................................................................ 15 二、基于 Bayesian 网络的检索模型 ............................................................................................................ 17第五节 其它信息检索模型 .............................................................................................................................. 18一、扩展布尔逻辑模型 ................................................................................................................................ 18 二、基于信息结构的模型――浏览方式检索模型 ..................................................................................... 20文本信息检索.......................................................................................................................................... 21 第三章 文本信息检索 第一节 顺排文档与倒排文档检索 .................................................................................................................. 21一、文本信息在计算机中的组织方式 ......................................................................................................... 21 二、顺排文档检索 ........................................................................................................................................ 21 三、倒排文档检索 ........................................................................................................................................ 22 四、在数据库中的实现 ................................................................................................................................ 23第二节 加权检索 .............................................................................................................................................. 23一、概念 ........................................................................................................................................................ 23 二、检索加权――检索词赋权检索(词加权检索) ................................................................................. 23 三、标引加权――词频加权 ........................................................................................................................ 24 四、标引加权的检索过程 ............................................................................................................................ 24第三节 辅助捡索技术 ...................................................................................................................................... 25一、截词检索 ................................................................................................................................................ 25 二、限制检索 ................................................................................................................................................ 25第四节 全文检索 .............................................................................................................................................. 25一、全文检索的技术指标 ............................................................................................................................ 26 二、全文检索的实现 .................................................................................................................................... 26 三、全文检索效率的提高 ............................................................................................................................ 28第四章 多媒体信息检索........................................................................................................................................ 29 第一节 多媒体技术概述 .................................................................................................................................. 29一、多媒体基本概念 .................................................................................................................................... 29 二、多媒体技术的特征与特性..................................................................................................................... 29 三、多媒体技术的产生与发展..................................................................................................................... 30 四、多媒体数据压缩技术 ............................................................................................................................ 31第二节 多媒体信息检索原理 .......................................................................................................................... 31一、基于文本的检索 .................................................................................................................................... 31 二、基于内容的检索 .................................................................................................................................... 32第三节 多媒体信息检索方法 .......................................................................................................................... 33一、图像信息检索 ........................................................................................................................................ 33 二、视频信息检索 ........................................................................................................................................ 34 三、音频信息检索 ........................................................................................................................................ 34信息检索评价.......................................................................................................................................... 35 第五章 信息检索评价 第一节 信息检索性能评价指标 ...................................................................................................................... 35一、性能指标 ................................................................................................................................................ 35 二、效益指标? ............................................................................................................................................ 37 三、费用指标 ................................................................................................................................................ 37第二节 信息检索评价试验平台 TREC ........................................................................................................... 37一、TREC 的诞生与发展.............................................................................................................................. 38 二、TREC 的组织形式.................................................................................................................................. 38 三、TREC 的试验数据集合(或语料库) .................................................................................................. 39 四、TREC 的局限性...................................................................................................................................... 40第六章 信息标引方法与技术................................................................................................................................ 42 第一节 自动标引的基本原理 .......................................................................................................................... 42一、自动标引的类型 .................................................................................................................................... 42 二、自动标引的一般步骤 ............................................................................................................................ 42 三、自动抽词标引原理 ................................................................................................................................ 42 四、自动赋词标引原理 ................................................................................................................................ 43 五、自动标引的早期实验与评价................................................................................................................. 43第二节 自动标引算法 ...................................................................................................................................... 44一、Zipf 定律................................................................................................................................................. 442 二、统计标引法 ............................................................................................................................................ 44 三、统计学习标引法 .................................................................................................................................... 47 四、概率标引方法 ........................................................................................................................................ 48第三节 汉语文献自动标引 .............................................................................................................................. 48一、汉语分词算法 ........................................................................................................................................ 48 二、分词算法举例 ........................................................................................................................................ 49 三、汉语文献自动标引 ................................................................................................................................ 50 四、单汉字标引法 ........................................................................................................................................ 51文本分类与聚类 第七章 文本分类与聚类...................................................................................................................................... 53 第一节 文本分类与聚类的基本知识 .............................................................................................................. 53一、类的基本概念及其特征描述................................................................................................................. 53 二、文档间距离与相似系数 ........................................................................................................................ 54 三、类间距离与相似系数 ............................................................................................................................ 54 四、情报学中的自动分类的概念与要求 ..................................................................................................... 55第二节 常用文本分类技术方法 ...................................................................................................................... 55一、文本分类的一般性描述 ........................................................................................................................ 56 二、kNN 分类方法 ........................................................................................................................................ 56 三、Na?ve Bayes 分类方法............................................................................................................................ 57 四、分类效果的评测方法与指标................................................................................................................. 58第三节 常用文本聚类技术方法 ...................................................................................................................... 60一、等级聚类法 ............................................................................................................................................ 60 二、动态聚类法 ............................................................................................................................................ 61 三、实用的文本聚类方法介绍..................................................................................................................... 63 四、聚类效果的评测方法与指标................................................................................................................. 64第八章 信息摘要技术与方法 .............................................................................................................................. 66 第一节 文本信息摘要的生成与实现 .............................................................................................................. 66一、基于统计的自动摘要原理..................................................................................................................... 66 二、基于理解的自动摘要原理..................................................................................................................... 67 三、汉语文献自动摘要的技术难点............................................................................................................. 68 四、文本信息自动摘要的评估方法............................................................................................................. 68 五、文本信息摘要技术实用系统................................................................................................................. 69第二节 网页信息摘要的生成与实现 .............................................................................................................. 70一、搜索引擎中的自动摘要 ........................................................................................................................ 70 二、Web 页面的清洗..................................................................................................................................... 70 三、基于篇章结构的中文网页自动摘要 ..................................................................................................... 72第三节 数值信息摘要的生成与实现 .............................................................................................................. 73一、数值信息自动摘要的特点与流程 ......................................................................................................... 73 二、医疗诊断系统中的数值摘要................................................................................................................. 75 三、石油开采系统中的数值摘要................................................................................................................. 75 四、天气预报系统中的数值摘要................................................................................................................. 76 五、股票行情系统中的数值摘要................................................................................................................. 76第五节 视频信息摘要的生成与实现 .............................................................................................................. 77一、视频信息概述 ........................................................................................................................................ 773 二、视频结构分析 ........................................................................................................................................ 78 三、视频信息摘要的类别 ............................................................................................................................ 78 四、静态视频信息摘要 ................................................................................................................................ 79 五、动态视频摘要 ........................................................................................................................................ 80 六、全景拼接图 ............................................................................................................................................ 80 七、基于文字描述的视频信息摘要............................................................................................................. 80 八、多媒体视频摘要 .................................................................................................................................... 81第九章 搜索引擎 ................................................................................................................................................. 82 第一节 搜索引擎的发展与分类 ...................................................................................................................... 82一、搜索引擎的三个发展阶段..................................................................................................................... 82 二、搜索引擎的分类 .................................................................................................................................... 82第二节 搜索引擎技术原理 .............................................................................................................................. 83一、搜索器 .................................................................................................................................................... 83 二、索引器 .................................................................................................................................................... 83 三、检索器 .................................................................................................................................................... 84 四、用户接口 ................................................................................................................................................ 84 五、搜索引擎中的其他技术 ........................................................................................................................ 844 第一章 导 论第一节 信息检索概述一、概念 1、信息检索的定义 信息检索是指:利用一定的检索算法,借助于特定的检索工具,并针对用户的检索需求,从结构化或 非结构化的数据中获取有用信息的过程。 数据检索:1)检索对象是结构化的;2)可以看着是信息检索的一种(本课程体系如此) ,也可以认 为信息检索不含数据检索。 但,不特别指明时,信息检索的通常不包括数据检索。 信息检索过程包括三个方面:信息的存储与组织;信息的检索;信息的展示。 信息检索实施 结果输出 数据库 信息集合 匹配运算 结果 检索模式 处理 检索结果展示信息存储 信息加工 信息处理者 信息采集特征组配 需求特征 信息检索原理示意图 检索需求 结果展示 信息检索者外部信息2、信息检索与情报检索 过去,信息检索一直被人们称为“情报检索” ,这是因为情报检索这一术语产生于图书情报领域,检 索的主要目的也是为了获取有价值的情报或对自己科学研究有帮助的资料。随着相关技术的发展,应用领 域的扩大,检索的内涵的丰富, “信息”这个词在使用上比“情报”更加自然和普及。因此, “信息检索” 逐步流行起来,并正在取代“情报检索” 。当然,我们完全可以将“信息检索”和“情报检索”视为同义词。 二、简史 1、 手工检索 产生于 20 世纪中期以前。检索工具主要为书本式或卡片式的索引和目录。检索的功能和效率都受到很 大限制,查找方式也完全采用人工(手翻、眼看、大脑判断)来进行的。 2、穿孔卡片检索(机械检索) 产生于二战时期的英国军事情报局。不需要人工判断,卡片也不需进行排序,机械式。 在描述文献资料的卡片边缘,为每一个文献标识对应一个固定的孔位,如果某文献确定了它的文献 5 标识,就将相应的孔扎为豁口。检索时,根据检索策略进行相应的穿孔操作,提起穿孔棒落下的卡片即为 命中文献。 多个穿孔棒同时插入便实现了元词检索的逻辑“与”运算。非常精巧的设计。 3、计算机信息检索的探索与试验(20 世纪 50 年代) 1951 年,IBM 公司与美国海军兵器中心,IBM701 机器的元词检索系统。 1959 年,以 KWIC 在 IBM 上实现为标记,代表 SDI(定题情报服务)诞生,脱机信息检索达到实用 阶段。 4、脱机检索(20 世纪 60 年代) 脱机检索实用期,联机检索试验期。 1960 年,美国国家医学图书馆,MEDLARS(医学文献分析与检索系统)。 以后有近百种脱机检索数据库上市。生产机读版的二次文献,发行二次文献数据库的机读磁带,这时 的情报检索主要采用批处理检索方式,大多使用的是顺排档检索技术。 1960 年,麻省理工学院开始研制联机检索系统。 1964 年,洛克希德公司开始研制 CONVERSE,1966 年改名为 DIALOG。 5、联机检索(20 世纪 70、80 年代) 70 年代:联机市场化和网络化 几项计算机技术得到发展:分时操作系统;带终端的远程处理系统;廉价的大容量随机存贮器;分组 交换网。 DIALOG、MEDLINE、ORBIT、BRS、JOIS 等系统投入商业运行。联机检索逐渐取代脱机方式。国 际联机检索系统大行其道。 80 年代中后期出现了光盘检索,个人计算机普及。 数据库已由书目型为主扩大到商情、产品、专利、标准以及全文数据库等,检索手段已广泛使用倒 排检索,检索技术已向数据检索、全文检索和图形检索发展。可以说,这一时期是信息检索发展最快的时 期,早期绝大多数信息检索理论技术的研究文章出自于这一时期,我们今天学习的许多信息检索理论仍然 是那一时期的研究成果。 6、网络检索(20 世纪 90 年代) 检索对象更加复杂,检索的需求更加强烈,能够获得的情报(信息、数据)类型也是丰富多彩。 “信 息检索”更能被人们所接受, “情报检索”一词逐渐被人们淡化。 搜索引擎的兴起。 网络检索的两大特点:1)用户的普及性与不确定性;2)信息源的广泛性与时效性。 目前,计算机检索实际上只剩两种实现方式(不是说没有其他技术上可实现的方式) :1)本地(硬盘或 光盘) ;2)网络。 国内的发展进程。第二节 信息检索研究内容信息检索的研究涉及领域非常广泛,具体研究内容包括:信息检索理论、信息的组织、信息自动处理、 检索算法以及检索结果的展示等。 一、信息检索理论 信息检索理论主要来自于数学模型,运用数学方法不仅能够对信息对象及概念做细致、深入地刻画, 构筑检索模型表达查询提问,还能够预见检索结果和进行科学的分析。如:标引理论、检索模型、信息可 视化等。6 二、信息处理与组织 确保信息能够被用户快速地检索和方便地获取,并能够为数据挖掘和信息分析提供良好的数据结构。 数据处理与组织研究的内容主要包括:信息的自动标引、自动分类与聚类、自动摘要以及数据的描述等。 1、自动标引 2、自动分类与聚类 3、自动摘要 4、信息的组织 三、信息检索技术与方法 信息检索技术与方法是保证检索系统实现高效的检索过程、准确的检索结果的手段。检索技术与方法 由检索算法确定,检索算法主要来自于数学理论和方法,采用的数学模型不同,其相应的实现技术与方法 也不同。目前,常用的检索技术有:布尔检索、加权检索、全文检索、超文本检索、多媒体检索、智能检 索、跨语言跨平台检索等。 四、信息可视化技术 1、可视化的概念 可视化向人们提供一种方法和手段,利用这种方法和手段人们可以观察人们所不能观察到事务或概 念。 可视化基本上可以划分为两个大类:科学(计算)的可视化(医学信息的可视化、气象信息的可视化) 和信息的可视化(软件工程的可视化、信息检索的可视化、因特网的可视化) 。这两者的根本区别在于科学 的可视化在显示和展示事务和概念时,继承事务和概念在它本体中的固有结构。 2、信息可视化的类型 根据信息资源的特征,信息可视化表示可划分为几种不同类型。 1) 一维信息可视化 文本信息的可视化。文本信息一般不需要可视化,因为它本身就可以很容易的被阅读,但有时候可视 化技术可使文本信息增加信息含量,提高阅读的有效性。 2)二维信息可视化 二维信息可视化表达的是平面信息。 地理信息系统(GIS) ;调查、统计、分析数据。 3)三维信息可视化 三维信息可视化表达的信息是立体的。 物体的三维数据;虚拟现实技术。 4)多维信息可视化 多维信息可视化是指在可视化环境中,那些具有超过 3 个属性的信息。 每一项指标都也可以创建一个测度进行可视化排序。 5)其他 另外,还有一些可视化的类型,如时间序列信息可视化、层次信息可视化、网络信息可视化,等等, 它们都将在信息检索系统中得到应用。 3、可视化信息检索系统的常见功能 允许用户在可视化空间中观察文献与文献之间,可能的话文献与提问之间的语义关系,浏览可视化空 间中任意特定领域。 根据用户的需求,在可视化空间中动态地调整文献分布。7 根据用户的需求,在可视化空间中扩大/缩小一个特定的局部空间领域。 根据用户的需求,在可视化空间中任意地选择一个文献并且阅读它的有关详细信息。 提供信息查询手段。 展示并且解释标准的情报检索模型以及其他信息检索机制。 4、信息检索可视化面临的问题 怎样在有限的显示空间内展示海量信息? 怎样有效地定义和建立信息可视化空间? 怎样有效地评价信息检索可视化系统? 信息检索可视化系统空间维数的争论。 5、一个示例 http://renlifang.msra.cn/GuanxiMap.aspx第三节 信息检索系统分类一、按资源形式划分 信息检索系统的数据资源类型有多种多样,这些数据资源大体上有:题录型数据、全文型数据、多媒 体数据以及产品信息,等等。因此,对应的信息检索系统可分为:书目检索系统、全文检索系统、多媒体 检索系统等。 二、按服务功能划分 建立信息检索系统的目的是为了利用与服务,从服务角度划分,信息检索系统可以划分为:单纯检索 服务系统、统计分析系统、决策支持系统、专家信息系统等。 三、按服务区域划分 信息检索系统的服务区域大至全球,小则只能在单机(用户当前正在使用的计算机)上检索,而信息 检索系统的主流发展也是经过了单机检索系统、联机(近程、远程)检索系统、网络检索系统这样三个阶 段。 四、按系统逻辑能力分 1、文献检索 以文献为查找对象。狭义的信息检索就是文献检索。 2、数据检索 以具体的数据、电话号码、人名、统计数字等为查找对象。 参见第一节对数据检索的解释。 3、事实检索 所需要的结果数据库中本身没有,需要对数据库中的数据作一些逻辑推理才能给出答案。 例:2003 年 7 月某日,南京出现的一次大的降雨,是否“千年一遇”? 1)查到一篇或几篇谈南京降雨的文章即可。2003 年是否“千年一遇” ,自己去看文章。 2)查到的是 1003 年后历年的南京日降水量。是否“千年一遇”结论自己下。 3)对 2003 年是否“千年一遇”回答是、否。8 第四节 信息检索的未来趋势网络时代,信息检索技术将得到普通人的重视,它的发展也是非常迅速的,主要朝着更加灵活、实用、 界面友好、智能化和可视化等方面发展。具体可归纳为如下几个方面: 其一,统一的检索界面。未来的信息检索提倡一站式服务,强调界面友好,保证用户使用方便。在技 术上全面实现分布式、跨语言、跨平台检索,可以说,统一的检索界面将成为未来网络信息服务的主流; 其二,主动的信息推送服务。过去情报服务中的 SDI(定题情报提供)技术将被普遍用于网络信息服 务,信息服务部门将利用信息推送技术把用户所需要的信息,作为电子邮件直接发送到用户信箱中; 第三,多种检索模型将融为一体。未来的检索系统采用的检索模型更趋向于多种模型的融合,各种模 型代表的检索技术交融一起,相互取长补短,检索策略、检索效率将会获得全面改善和提升; 第四,可视化技术实用化。可视化技术将走出“实验室”进入实用系统,信息检索的可视化将表现在: 可视化信息的存储、多媒体检索技术的采用、信息可视化的展示。这些技术的实用化,确保人们能够获得 更加形象的信息; 第五, 检索的智能化。 未来的信息检索智能化水平将得到极大提高, 用自然语言进行检索不再是梦想。 智能化的信息抓取、智能信息处理、智能检索将成为未来信息检索系统的重要组成部分。 总之,未来的信息检索将在理念、技术、人性化、智能化等方面取得全面突破,当然,这些突破也需 要计算机软硬件技术、通信技术、人工智能技术、可视化技术等相关技术的支持,但无论如何,未来的信 息检索一定会以一个崭新的面貌出现在人们的面前。9 第二章 信息检索的数学模型信息检索系统的形式化表示 第一节 信息检索系统的形式化表示一、信息检索数学模型分类检索型数学模型 (Retrieval) 基于内容的检索模型 布尔模型 集合论模型 模糊集合模型 扩展布尔模型 向量空间模型 代数模型 广义向量空间模 型 潜在语义索引 神经网络 (经典) 概率模型 概率论模型 推理网络 信念网络 基于结构的数学模型 (结构化模型)浏览型数学模型 (Browsing)非重叠列表 (Non-Overlapping Lists) 邻近节点 (Proximal Nodes)平面(Flat) 结构导航 (Structure Guided) 超文本(Hypertext)1)表中的检索模型以文本信息检索处理为基本出发点; 2)布尔模型、向量空间模型和(经典)概率模型常被统称为“经典模型” (Classical Models) 。 二、信息检索系统的四元组表示法一般地,一个信息检索系统可以形式化地表示为如下的四元组(quadruple)形式,即:System=(D,Q,F,R(dj,q) )其中,D、Q、F 和 R(dj,q)分别表示检索系统的信息资源集合、用户信息需求集合、信息资源与信 息需求的匹配处理框架及匹配计算函数。 1、 信息资源集合(D) 检索系统中一般存储着大量的(有时甚至是海量的) 、经过搜集与筛选的信息资源,为了便于用户的 查询与访问,通常对这些资源进行某种组织化处理。用集合论的观点,可以把 D 表示为:D={ d1,d2,……dn }2、用户信息需求集合(Q)(n≥0)从理论上讲,用户的信息需求有潜在真实需求(Real Information Need,简称 RIN) 、意识到或感知 到的需求(Perception Information Need,简称 PIN) 、表达出的需求(Request) 、提问(Query)等不同 存在状态。 信息检索中处理的是用户已表达出来的信息需求,即提问。现实中,用户信息需求集合(Q)可以简 化为用户的提问集合,表示为: Q={ q1,q2,……qm } 10 集合中的每一个元素 qi(i=1,2,……m)表示一个具体的用户提问。 3、信息资源与信息需求的匹配处理框架(F) 信息集合(D)与需求集合(Q)之间进行模型化处理的框架与规则。 例如,对布尔模型而言,匹配规则为二值相关性判断(binary relevance judgement) ,匹配运算主 要基于集合论的集合基本运算。 4、匹配计算函数(R(dj,q) ) 匹配函数 R(dj,q)用于计算任一信息 dj(dj∈D)与任一提问 q(q∈Q)形成的信息― ―提问对(dj, q)之间的相似度大小。一般地,R(dj,q)的函数值为一实数,其取值区间为[0,1]。从数学上来讲,匹 配函数的选取,要求能够具备以下特点: (1) (2) (3) 计算方法简单,计算量小; 函数值在取值区间均匀分布; 针对某一提问所获取的相关文档集合,能够实现合理的排序输出。第二节 集合论检索模型一、单项检索模型 每篇文献用一个或多个主题词标引,提问用单个主题词构成。若提问中主题词属于某文献主题词集 合中的成员,则匹配成功。 其实是布尔逻辑模型的一种极端简化形式。重点看下面的布尔逻辑模型即可。 二、布尔逻辑模型 采用布尔代数方法,用布尔逻辑式表达用户提问,用一组标引词表示信息单元,通过对信息标识与提 问式的逻辑比较来检索文献。 1、 布尔逻辑式 1)运算符 ①逻辑或: ②逻辑与: ③逻辑非: ④异或运算: OR AND NOT XOR A XOR B = (A + B) - (A * B)? 2)运算规则 满足结合律和分配律。 从左至右,先括号里头,后括号外头。 在不同的检索系统中,各运算符的优先级有所不同。? ①NOT→AND→OR ? DIALOG 取此顺序。? ②AND、NOT→OR ? STAIRS、ORIBT 取此顺序。? ③AND→NOT→OR ? ④OR→AND→NOT ? ⑤自然顺序:AND、OR、NOT ? 对同一检索式,采用不同的运算顺序,得到的检索结果不同。 11 + * C或?或ˉ 2、 布尔模型的基本原理 布尔模型在解释信息检索处理过程时,主要遵循以下两条基本规则: (1) 系统索引词集合中的每一个索引词在一篇文档中只有两种状态:出现或者不出现。相应地,每 个索引词的权值 wij∈{0,1}; (2) 检索提问式 q 由三种布尔逻辑运算符“and”、“or”、“not”连接索引词来构成。 根据布尔逻辑的运算规定,提问式 q 可以被表示成由合取子项(conjunctive components)组成的析 取范式(disjunctive normal form,简称 dnf 或 DNF)形式。例如,布尔提问式 q = k1 and(k2 or not k3) 可以写成如下等价的析取范式形式: qdnf =(k1 and k2 and k3)or(k1 and k2 and not k3)or(k1 and not k2 and not k3) 这里,qdnf 为提问式 q 的主析取范式。进一步地,可以用如下简化形式来表示 qdnf: qdnf =(1,1,1) or (1,1,0) or (1,0,0) 其中,(1,1,1)、(1,1,0)和(1,0,0)是 qdnf 的 3 个合取子项(合取子项可用符号 qcc 表示),它 们是一组向量,由对应三元组(k1,k2,k3)的每一分量取 0 或 1 值而得到。 2、布尔模型的分析与评价 1957 年,巴-希列尔(Y. Bar-Hille)提出,60 年代末期,被大型文献检索系统所采用,70 年代成 为各种商业检索系统的标准检索模式。目前,基于布尔检索框架的各类检索系统仍具有顽强的生命力,并 在信息服务领域占据重要地位。 (1) 布尔模型具有简单(simplicity) 、容易理解(easy understanding) 、简洁的形式(clean formalism)等突出优点。 (2) 准确匹配(exact matching)策略问题。 “非此即彼” ,二值逻辑,严重影响到检索系统的性能改 善,并带来其他一些相关问题。例如:检索结果无法预先估计,容易造成零输出或过量输出,等等。 (3) 布尔逻辑表达用户需求的能力问题。布尔表达式本身简单,但把用户需求转换成布尔表达式时并 不简单、不友善性。不区分各组配元的重要程度,组配原则生硬。 (4) 检索结果不能按用户定义的重要性排序输出。第三节 代数论检索模型代数论检索模型是以线性代数、矩阵计算等数学理论为基础,利用代数论知识揭示信息间关系的检索 模型,它在信息检索的发展中发挥着重要作用。代数论检索模型主要包括向量空间模型、隐含语义索引模 型、神经网络模型等。 一、向量空间模型 鉴于布尔模型“准确匹配”策略所造成的检索缺陷,20 世纪 60 年代末期,信息处理专家、美国著名 学者萨尔顿(G. Salton)基于“部分匹配” (partial matching)策略的信息检索思想,在其开发的试验 性检索系统 SMART(System for Mechanical Analysis and Retrieval of Texts)中最早提出并采用线性 代数的理论和方法构建出一种新型的检索模型, 这就是后来广为人知的向量空间模型 (Vector Space Model, 简称 VSM) 。 1、向量空间模型的基本原理 每篇文献和提问用等长向量表示,向量元素个数即为主题词表中词数,第 i 个向量元素即为第 i 个词与 文献或提问的相关程度,一般在 0 至 1 之间。 1)文档向量的构造 对于任一文档 dj∈D,我们可以把它表示为如下 t-维向量的形式:12 dj =(w1j,w2j,……,wtj) 其中,向量分量 wij 代表第 i 个索引词 ki 在文档 dj 中所具有的权重,t 为系统中索引词的个数。在布 尔模型中,wij 的取值范围是{0,1};在向量空间模型中,由于采用“部分匹配”策略,wij 的取值范围则是 一个连续的实数区间[0,1]。 2)提问向量的构造 在向量空间模型中,用户的信息需求被加工、转换为提问向量,并用与文档向量类似的形式表示,即 q =(w1q,w2q,……,wtq) 这里,t 为系统索引词的总数,向量分量 wiq 表示第 i 个索引词 ki 在提问 q 中的权值,且有 wiq≥0,一 般情况下,还有 wiq≤1。 3)匹配函数的选择及相似度阈值的确定 在文档与提问向量化表示的基础之上,文档与查询提问之间的相关程度(即相似度,或称向量相关程 度)就可以由它们各自向量在 t-维空间的相对位置来决定。 相似度计算函数 sim(dj,q)可以有多种,其中余弦函数法最常用。 需要指定一个相关度的阈值(threshold)λ,凡与提问向量的相关度值大于λ的文档,都将作为检 索结果提供给用户。如此,向量空间模型的检索匹配便在一种“部分匹配”策略的指导思想下完成了。 2、向量空间模型的技术特征分析 成功地将非结构化的文本信息表示成向量形式,为随后的各种操作奠定了数学计算的基础。向量空间 模型在检索处理中所具有的先进技术特征主要表现在: (1) 采用部分匹配 部分匹配策略,使得在算法层面上基于多值相关性的判断处理得以实现; 部分匹配 (2) 采用基于统计学方法的词加权处理 词加权处理模式,使检索效果大大得到改善; 词加权处理 (3) 采用对检索结果排序输出 检索结果排序输出的策略,使对检索结果数量的控制与调整具有相当的弹性与自由度。 检索结果排序输出 (4) 最大的缺陷:对从文档中抽取出的各索引词之间的关系做了相互独立的基本假定(两两正交假 设) 。这一正交假设在实际的文本信息处理环境中一般是很难满足的。 3、向量空间模型的应用 VSM 对文档的量化处理思想充分发挥了计算机的计算特长, VSM 理论具有文本语种无关性。 VSM 理论在 文本信息处理中具有广泛适应性的应用基础。 当前, 典型的基于 VSM 理论的文本信息处理主要包括以下几个分支领域: 文本检索 (Text Retrieval) 、 文本分类(Text Categorization/Classification ) 、文本过滤(Text Filtering ) 、文本聚类(Text Clustering) 、文本浏览与可视化(Text Browsing and Visualization)等。 二、文献语词矩阵 向量空间模式的一种直观性扩展。也就是说,本质上仍属于向量空间模型。 所有表示文献的向量构成文献语词矩阵。矩阵中每一行代表一篇文献,每一列代表词表中的一个语词。 对每一文献数据库,形成一文献语词矩阵。 提问用向量表示。 三、神经网络模型 20 世纪 80 年代的研究成果。 1、生物神经组织的基本结构及其特征 神经网络是指由大量神经元互连在一起所组成的神经结构,把神经元之间相互作用的关系进行数学模 型化就可以得到神经网络模型。 在一个神经元中,有信号的输入通道(即树突)和信号的输出通道(即轴突) 。当信号从一个神经元 经过连接通道(即突触)传递到另一个神经元时,可能产生两种不同的效果:接受信号的神经元或者被激13 发,或者被抑制。处于激发态的神经元又会产生新的脉冲信号,传向处于下游的每一个与之相连的神经元; 而处于抑制态的神经元则不产生任何脉冲输出。 不同神经元之间的连接强度是不同的,而且连接强度也不是一成不变的。通常,连接或作用强度会随 其激发与抑制行为相关性的时间平均值正比变化。 2、信息检索中的神经网络模型 神经网络信息检索模型示例: 提问词语 文档词语 k1 文 档……ka kad1……djkb 一个信息检索的 型 三层结构: 户提问词语节点; 档词语节点; 第三 的权值则用来模拟神经元的连接强度。 kckb kc dj+1 神经网络模 第一层为用 第二层为文 层为文档节……kt……dN点。图中的每一个节点表示一个处理单元(相当于神经元) ,节点间的连线起到神经元突触的作用,而连线 首先假设提问词语节点的初始激活水平值为 1 (最大值) 提问节点向文档词语节点发送信号的作用强 , 度分量 w iq 和文档词语节点向文档节点传递信号的作用强度分量 w ij 的计算公式可以是:, ,w,iq = wiq /(∑ti=1 wiq2)1/2 w,ij = wij /(∑ti=1 wij2)1/2式中,i 为提问 q 中的第 i 个词语,t 为文档词语的总个数,j 为文档中的第 j 篇。相应地,Wiq 为提 问式向量中第 i 个元素的值,Wij 为第 j 篇文档的向量中第 i 个元素的值。 最后,一个文档节点接收到的所有信号被累加起来。以文档节点 dj 为例,经一轮信号传播后,其激活 水平值可以通过下面的公式计算出来:∑ i=1 wt, iqw, ij=∑t i=1wiq wij(∑ti=1 wiq2)1/2(∑ti=1 wij2)1/2指定一个激活水平阈值,并规定:凡低于该阈值的文档节点不再参与下一轮次的信号传递,只有高于 阈值的文档节点才能够继续后面的信号传递。经过若干轮次的信号传递后,一些文档节点的最终激活水平 值如果符合检索阈值的要求,便可以把这些文档节点的内容以降序方式输出。 神经网络模型后续轮次的信号传播与交互过程,非常类似于用户的相关反馈循环。 3、神经网络模型的应用 神经网络应用于信息检索,只是该模型的一个具体应用领域。目前,对于大规模的文档集合,运用神 经网络模型能否取得良好的检索性能,还有待于验证及相关试验数据的支持。不过,作为一类数学模型, 神经网络已经在非常广泛的领域获得了惊人的成功应用。例如:手写体邮政编码判读、自动驾驶、组合优 化、自动分类、生物神经活动过程模拟、声纳信号与蛋白质二级结构的识别,等等。14 概率论检索模型 第四节 概率论检索模型一、经典概率模型 1976 年由英国城市大学的罗伯逊(S.E.Robertson)和斯帕克-琼斯(K.Sparck-Jones)提出。也叫“二 值独立检索模型” (Binary Independent Retrieval)或“二值独立概率模型” (Binary Independent Relevance) ,简称 BIR。 基本指导思想是:给定一个用户提问,则检索系统中存在着一个与该提问相关的理想命中结果集合, 用 R 表示。若 R 已知,则用户的检索要求不难实现。 问题:R 的特性未知 解决方法:在检索伊始就对 R 的特性进行某种猜测。根据初始的猜测,系统将检索到一个初步的命中 结果集合。在此基础上,用户对初始检索结果集合中的文档进行相关性判断,或由系统对检索结果的相关 性进行自动判别。根据反馈信息,系统便可以在后续的检索处理中不断作出优化与改进,从而在多次交互 操作之后使检索结果逐步接近该提问的理想命中结果集合 R。 1、经典概率模型的基本原理 文档和用户检索提问仍用向量表示,索引词的权值为二值的,即 wij∈{0,1},wiq∈{0,1}。 给定一个用户检索提问 q,则存在一个相关文档集合 R。令 RC 为 R 的补集,即非相关文档集合,同时令 P(ROdj)表示文档 dj 与提问 q 相关的概率,P(RCOdj)表示文档 dj 与提问 q 不相关的概率,则 dj 和 q 之 间的相似度 sim(dj,q)可以定义为:sim(dj,q)= P(ROdj)/ P(RCOdj)利用贝叶斯(Bayes)公式,则有sim(dj,q)=(P(djOR)* P(R) )/(P(djORC)* P(RC) )式中,P(djOR)表示从相关文档集合 R 中随机选择文档 dj 的概率,或者说文档 dj 属于相关文档集合 R 的概率;P(djORC)表示从非相关文档集合 RC 中随机选择文档 dj 的概率,也即文档 dj 属于非相关文档集 合 RC 的概率;P(R)和 P(RC)则分别表示在整个文档集合中随机选择一篇文档是相关和不相关时的先验概 率。 对于给定的检索式 dj,由于 P(R)和 P(RC)的值对于所有文档来说都是一样的,因此sim(dj,q) ∽ P(djOR)/ P(djORC)假定索引词之间是相互独立的,求 P(djOR)就是用 dj =(w1j,w2j,……,wtj)中的每个词到 R 中去 抽样,计算标引词出现与非标引词出现的概率的乘积就得到 P(djOR) 。同理,可得到 P(djORC) 。因此:sim(dj,q) ∽i( wij=1P(kiOR)*(∏wij=0P(NonkiOR) (∏ ) ) ( wij=1P(kiORC)*(∏wij=0P(NonkiORC) (∏ 式中,P(k OR)和 P(Nonk OR)分别表示从文档集合 R 中随机选择一篇文档,其中含有索引词 kii和不含有索引词 ki 时的概率;类似地,P(kiORC)和 P(NonkiORC)分别表示从非相关文档集合 RC 中随机 选择一篇文档,其中含有索引词 ki 和不含有索引词 ki 时的概率。 对上式取对数,同时考虑到有 P(kiOR)+ P(NonkiOR)= 1 和 P(kiORC)+ P(NonkiORC)= 1,再 忽略掉一些常数因子,经过推导最终得到:sim j, ∽∑it=1 wiq * wij *( log (d q)+log) 1-P(kiORC) P(kiORC)15P(kiOR) 1-P(kiOR) 2、概率值估计 如前所述,由于 R 一开始时并不是已知的,因此,要计算 sim(dj,q) ,首先需要提供对概率值 P(ki OR)和 P(kiORC)的计算方法。 在开始检索前,一般作如下的简单初始假定,以启动检索进程: (1) 对于所有索引词 ki(i=1,2,……t) ,P(kiOR)的值都是常数,并且通常情况下规定为: P(kiOR)=0.5; (2) 索引词在非相关文档集合中的概率分布近似于索引词在全体文档集合中的概率分布,即: P(kiORC)= ni/N 这里,ni 和 N 的含义同前,分别表示含索引词 ki 的文档数和系统拥有的全体文档数。 根据上述初始假定,针对用户提问q的检索操作就可以获得一批相关文档。这里不妨用 V 来表示这批 排序输出文档最靠前的r个文档(r是一个预先指定的阈值) 。进一步地,用 Vi 表示集合V中含有索引词 ki 而形成的文档集合,Vi 中的文档数量为ri 个。为改善检索结果,经典概率模型需要考虑对上述 P(kiOR) 和 P(kiORC)的初始计算方法加以改进。基于相关反馈原理,常用的改进方案主要有: (1) 直接用出现频率计算概率: P(kiOR)= ri / r P(kiORC)=(ni C ri)/(N - r) (2) 为避免出现 ri =0、r=1,可改进为: P(kiOR)=(ri + 0.5)/ (r + 1) P(kiORC)=(ni C ri + 0.5)/(N C r + 1) (3) 用 0.5 这个恒常数做调整,并不总是令人满意,可调整为 ni / N: P(kiOR)=( ri + ni/N) /(r + 1) P(kiORC)=(ni C ri + ni/N)/(N C r + 1) 采用以上任何一组 P(kiOR)和 P(kiORC)的计算公式,并多次重复检索操作及反馈调整过程,如此, 概率模型系统便可有效完成各种信息检索任务。 3、经典概率模型的分析与评价 从本质上来讲,信息检索是一种具有不确定性的决策判断过程。经典概率模型清楚地认识到了这种不 确定性(或相关性) ,利用概率论原理,通过赋予索引词某种概率值来表示这些词在相关文档集合和非相关 文档集合中的出现概率,然后计算某一给定文档与某一给定用户提问相关的概率并作出检索决策。不同于 布尔模型和向量空间模型,概率模型具有一种内在的相关反馈机制,它把检索处理过程看作是一个不断逼 近并最终确认命中文档集合特征的过程,并通过运用某种归纳式学习方法实现系统对检索结果的优化与完 善。因此,概率模型对信息检索的主要理论贡献就在于:吸收了相关反馈原理,并在理论上采用了一种更 严密的决策方式。 经典概率模型虽然是一种基于贝叶斯决策的自适应模型,具有较坚实的理论基础,但就其自身来说, 仍然存在着一些局限性。例如:①各种参数估计难度较大;②索引词权值的计算方法为 0/1 式,没有考虑 到词频等加权因素;③沿用了索引词之间相互独立的基本假定;等等。正是因为这些因素,经典概率模型 又被后来的学者称为“二值独立检索模型” (即 BIR) 。在实际应用中,经典概率模型有时会招致一些批评。 概率模型与向量空间模型的优劣至偏乃存在争论。有关检索试验研究表明,该模型在多数情况下不如 向量空间模型的检索效果,应用范围也不如向量空间模型来得普及、广泛。Croft 做了一些实验,指出概 率模型优向向量空间模型;但,Salton 与 Buckley 的实验反驳了这种说法。Salton 与 Buckley 指出:对于 一般集合,向量空间模型预期比概率模型的检索效果更佳。后一种观点在研究者、开发人员及 WEB 检索中 占主流。16 二、基于 Bayesian 网络的检索模型 有推理网络与信念网络。此处仅概要介绍推理网络模型。 Bayesian 网络是概率理论的一个主要研究分支。通常,Byesian 网络可以看作是一个有向无环图 (Directed Acyclic Graph,简称 DAG) 。图中的节点一般用来表示随机变量,有向边用于描述随机变量之 间的因果关系,它由表示原因的随机变量(父节点)指向代表结果的随机变量(子节点) ,而因果关系影响 力的大小(或权值)则用条件概率来表示。图中没有父节点的节点称为根(root) 。 下图描述了一个含有 5 个随机变量节点的 Bayesian 网络。 rootX1 X2X3X4一个 Bayesian 网络的简单示例X5Bayesian 网络可以用联合概率分布的方式表达节点之间的依赖关系。例如,对于上图,具体的表示如 下: P(x1,x2,x3,x4,x5)= P(x1)P(x2Ox1)P(x3Ox1)P(x4Ox2,x3)P(x5Ox3) 上式中,P(x1)称为是网络的先验概率(prior probability) ,它由具体应用系统的已有知识和语义 来定义或决定;其余各项则称为条件概率(conditional probability) ;而联合概率分布 P(x1,x2,x3, x4,x5)就描述了该 Bayesian 网络。 下面介绍的是推理网络模型。最早是由托特(H.R.Turtle)和克罗夫特(W.B.Croft)于 1990 年提出。 推理网络模型首先把文档、索引词和用户提问等信息项都看作是随机变量,并分别对应到网络中的不 同节点,其中,所有的文档节点都是根节点。两个节点之间的概率相依性通过节点之间的有向边来描述。 为简单起见,网络中的所有随机变量都定义为二元的。 下图给出了一个推理网络模型的简单例子。d1d2……djk1k2……ki……ktq 一个推理网络模型示例 在上图中,d 表示文档类节点,k 表示索引词节点,q 表示用户提问节点;图中各有向边表示了各节点 之间的关联关系。 首先,以文档观察事件(即文档节点)作为推理的起点,当检索系统检索到某一文档时,可以认为有 一个文档观察事件发生;随后,文档观察事件作为索引词出现事件(即索引词节点)的条件,索引词出现 17 事件作为用户提问被满足事件(即用户提问节点)发生的条件。 如此,文档观察事件、索引词出现事件和用户提问被满足事件之间就构成了一个推理链。给定文档观 察事件发生的先验概率和索引词出现事件的条件概率, 便可以得出索引词出现事件的后验概率 (或称为 “可 信度”。同样,将索引词出现事件的可信度作为先验概率,给定用户提问被满足的条件概率,即可计算出 ) 用户提问被满足的后验概率,而这个后验概率,就可以认为是某个文档满足用户提问要求的概率。 经过复杂推导,最后得到的计算公式是:P(q∧dj)= ∑P(q∧djOk)×P(k) = ∑P(q∧dj∧k) = ∑P(qOdj×k)×P(dj×k) = ∑P(qOk)×P(kOdj)×P(dj) = ∑ P(qOk)×(∏wij=1P(kiOdj)×∏wij=0 P(NonkiOdj) )×P(dj)d、k、q 向量都用二值向量表示(向量元素值取 0 或 1) 。先验概率 P(dj)及各条件概率的计算方法可 以有多种不同的选择。 推理网络模型的计算的复杂度与向量空间模型大致相当。其它信息检索模型 第五节 其它信息检索模型一、扩展布尔逻辑模型 布尔检索模型简单而优雅,但无法对检索结果进行排序,从而经常导致检索结果的零输出或者过量输 出。另一方面,向量空间模型简单、快速,并且具有较好的检索性能。能否在布尔模型框架的基础上,将 向量空间模型的局部匹配、索引词加权等思想结合进去,形成一种兼具二者优点的、新型的信息检索模式 呢? 1983 年,信息检索专家萨尔顿(G.Salton)及其博士生福克斯(E.A.Fox) 、吴(Wu Harry)等人对上 述问题进行了研究,并提出一种基于布尔逻辑框架的、混合有布尔、向量特性的检索模型,即扩展布尔模 型。 1、扩展布尔模型的基本原理 考虑只有两个索引词 kX 和 kY 的情况,以便在二维平面中分析、表示检索处理中涉及的提问式和文档。 在下图中,分别显示有提问式 qor= kX or kY 和 qand= kX and kY,此外还标有文档 dj 和 dj+1。 (0,1) kY (1,1) kX or kY (0,1) kY (1,1)djdj+1djdj+1kX and kY(0,0)kX (1,0)(0,0)kX (1,0)含两个索引词的扩展布尔逻辑 再看看文档的表示。采用向量方法,文档 dj 可以表示为: dj=(wxj,wyj) 为方便起见,我们用 x 来代替 wxj,用 y 来代替 wyj,文档向量 dj=(wxj,wyj)则可表示为平面上的一 点,形如 dj=(x,y) 。x、y 的值域为[0,1]。 观察上图,对于析取提问式 qor = kX or kY 来说,可以使用点(0,0)到点(x,y)之间的距离作为 任一文档 d 和提问 qor 的相似性度量;而对于合取提问式 qand=k X and kY 来说,它和文档 d 的相似性则可以 18 通过点(1,1)和点(x,y)之间的距离来测度。因此,适用于析取提问式和合取提问式的一种正规化相 似度计算公式分别如下所示: sim(qor,d)=( 2+y2)/ 2)1/2 (x sim(qand,d)= 1-((1-x)2 +(1-y)2)/ 2)1/2 ( 很显然,如果权值 wxj∈{0,1}的话,则在图中,文档 d 总是处于(0,0)(0,1)(1,0)(1,1) 、 、 、 d) 1/2 而 (q d) 1-1/21/2 四个角点位置中的一个, (qor, 的取值仅限于 0, 1/2 和 1, sim and, 的取值则限于 0, sim 和 1。 已知文档集合 D 中全部索引词的个数为 t 个,这样,可以很方便地把上述二维情形下的讨论推广到 t维空间中,利用欧氏距离和向量范数(vector norms)理论,就可以很自然地得到一个扩展的、更加概括的 检索模型――扩展布尔模型,或称为 p 范数模型(1≤p≤∞) 。用户在检索时,通过具体指定提问式中参数 p 的值,可以形成如下表示的广义析取提问式和广义合取提问式: qor = k1 ∨p k2 ∨p k3 ∨p…… ∨p km qand = k1 ∧p k2 ∧p k3 ∧p…… ∧p km 提问式 qor 和 qand 与文档 d 的相似度计算公式则分别为: sim(qor,d)=((x1p+x2p+……+xmp)/ m)1/ p sim(qand,d)= 1 C(((1-x1)p +(1-x2)p +……+(1-xm)p)/ m)1/ p 在上面的计算公式中,p 范数扮演了一个非常有意思的角色,由于其值可在 1 到∞之间灵活选取,通 过调节 p 的值,该扩展布尔模型便可在不同的检索模型之间转换。例如: p=1: p=∞: sim(qor,d)= sim(qand ,d)=(x1+x2+……xm)/ m sim(qor,d)= max(xi) sim(qand,d)= min(xi) 这种结果表明,当 p=1 时,布尔逻辑算符“or”和“and”之间的差别消失,就像向量空间模型相似度 计算公式中的求内积,模型类似于向量空间模型;当 p=∞时,提问式中的逻辑算符又符合模糊逻辑的形式, 可以看作是布尔逻辑的一种泛化,相对应的模型是布尔模型/模糊模型;而当 p 取 1 到∞之间的值时,布尔 算符“or”可解释为提问式中多出现几个提问词总比少出现好, “and”可解释为提问式中所有词都出现总 比仅出现几个词更有价值,但同时又不苛求所有提问词都出现。 在萨尔顿等人的原始实验报告中,曾给出了 p 值为 1,2,5,9 和∞时的实验数据。结果显示,以 p 值 为 1,2 时系统的平均查准率最高(Salton 等,1983) 值的大小,实际上表达了对布尔逻辑算符的约束 。p 强度。考虑到 p=1 和 p=∞是两种极端情形,p 的实际值通常可在 1.5―9 之间选择。 更一般的情形,q 可以由 and 和 or 混合组成,如(k1∧p k2)∨p k3、 1∧2 k2)∨∞k3,等等。相似度 (k 计算公式,也由上面的过程重复多次组成。 P 还可以在同一查询中取不同的值。 2、扩展布尔模型的主要特点分析 扩展布尔模型是常规布尔检索精确匹配的严格性和向量处理模式提问的无结构性的折中,它用代数距 离的方式来解释并放松了布尔操作的要求,因而有效融合了传统的布尔、向量等检索模型的处理思想。虽 然自 1983 年被提出后,还没有得到广泛应用,但是,该模型本身固有的一些特性,有可能使其在未来的发 展中,具有相当的实践价值与发展前景。 扩展布尔模型的主要特点分析如下: (1) (2) (3) 与传统布尔检索中的倒排档技术相兼容,支持使用标准布尔逻辑表达的提问式结构; 允许在文档和提问式中进行词加权处理; 支持按相似度的大小排序输出检索结果;通过调整参数 p 的取值,可以灵活选择并得到不同的检索结果。19 二、基于信息结构的模型――浏览方式检索模型 与上述所有检索模型不同,浏览方式与信息内容特征无关。 检索和浏览是用户查找和发现信息资源的两种基本手段。浏览方式,本质上是一种用户信息反馈机制。 只在联机系统中才会出现,在网络时代最为有效。 目前对信息浏览模型的研究主要集中在用户界面层次,所提出的浏览模型一般比较简单,形式化程度 也比较低。这些模型的基本思想是:强调通过用户界面的人机交互,引入并强化某种信息浏览机制。目前 较有代表性的“浏览模型” (或称“浏览方式” )有三种。 1、平面式浏览 平面式浏览是指用户对平面化组织的文档结构进行探寻。 文档被表示成平面示意图中的一些点(二维) ,或者被表示为一个线性列表(一维) 。目前,这种浏览 模式在信息检索系统的结果处理界面是最为流行的, 平面式浏览实现方法简单,并且只能线性地按顺序进行或随机进行,效率较低。 如,各种网络搜索引擎所提供的庞大检索结果集合。 2、层次结构式导航 把众多文档或信息资源组织到一个树状的类目等级体系中。 如,对于一部电子图书,就可以根据其目录结构,按照章、节、小节等层次进行有关的浏览与阅读导 航。如,在很多检索系统(搜索引擎)中的信息资源等级分类目录。 通常情况下, 层次式浏览还提供一个用户访问信息的历史地图, 以辅助用户确认浏览过的内容和次序。 层次结构式导航由于对信息集合进行了合理的分类,浏览层次与路径清晰,因而效率较高,是一种有 效的浏览机制。但是,针对大规模资源集合,如何以自动方式构建其层次组织结构,目前还是一个没有完 全解决的问题。 3、网状结构式浏览 主要指基于超文本技术的交互性浏览模式。 超文本被看作是一种由节点相互链接而形成的有向图结构。这里,节点(nodes)表示信息内容或知 识单元,节点之间具有的某种语义关系,用“链” (links)来表达,整个信息集合因包含了众多信息单元 而最终通过“链”形成了一个网络(network) 。 超文本式的导航与浏览,对于小型信息资源集合来说,无疑是一种理想的组织方式,但当集合规模较 大时,超文本结构会变得非常复杂,而基于复杂的超文本结构,用户浏览时往往会出现严重的“迷路” (disorientation)现象。20 第三章 文本信息检索文本信息检索是所有信息检索中最基本的检索方式。第一节 顺排文档与倒排文档检索一、文本信息在计算机中的组织方式 1、文件系统 顺序文件、倒排文件(索引文件)、索引顺序文件、随机文件? 2、逻辑记录 字段(属性)、字段名(属性名)、字段值(属性值)、子字段、子字段名、子字段值? 3、物理记录――数据记录在计算机中的存贮 定长记录 物理存贮 变长记录 目录―标识结合法 二、顺排文档检索 顺排文档检索最早是由日本人菊池敏典提出的,就是用文档中记录一条一条去匹配提问的,是按顺序 对文档记录检索的方法,所以称为顺排文档检索。 常用的顺排文档检索方法主要有:表展开法、逻辑树法。 1、表展开法 由菊池敏典 1968 年提出,又称“菊池敏典算法” 。主要思想是:将代表用户提问的逻辑提问式转换成 表的形式,该表规定了表的内容走向和是否命中的判断,检索时根据表的走向及其他相关信息来判断每条 记录是否命中。 (A+B)*(C+D) 的展开表形式 ) ) 地址 1 2 3 4 2、逻辑树展开法 将逻辑提问式展开成树型结构,运算符构成树的节点,检索词被视为树叶。检索时,采取爬树原则,分 析提问是否命中。 主逻辑树表结构 运算种类 子项个数 父项地址 处理标志 检索处理 检索词 A B C D 条件满足指向 3 3 命中 命中 条件不满足指向 2 落选 4 落选 级位 比较条件 省 略 检索标识 标识分隔法运算种类:用来表示逻辑提问式中的运算符类型。 运算种类 子项个数: 子项个数:指该运算符直接下属项的个数。21 父项地址: 父项地址:指本项的直接上属项(父项)在本表中的地址。 处理标志: ,已处理“1” 。 处理标志:检索项处理与否标记。未处理“0” 检索处理: 。 检索处理:检索项命中与否标记。满足为“1”,反之为“0” 三、倒排文档检索 倒排文档相对顺排文档而言,它是将顺排文档中可检索字段(如,作者名、关键词、分类号等)取出, 按一定规则排序,归并相同词汇(或姓名、类号等) ,并把在顺排文档中相关记录的记录号集合赋予其后, 以保证通过某一特征词能够快速、方便地获取相关记录。 1、倒排文档的结构示例 倒排文档可视为是主文档的辅助索引,它从不同的角度提供了对主文档的快速查询,一般来说,不同 属性的数据构成不同的倒排索引文档,如下给出了 10 篇文献的作者倒排文档和标引词倒排文档。 文献及其部分属性举例 记录号 1 2 3 4 5 6 7 8 9 10 篇名 知识管理与企业管理信息系统建设 论知识链与知识管理 刍议知识管理及其体系框架 知识管理的组织基础 论技术创新的知识空间 建立企业竞争性的信息结构 知识管理在企业竞争情报研究中的应用 管理信息系统中的文化行为研究 企业竞争情报管理系统的构建研究 企业知识管理主体研究 作者 A B C A C A B B C C 标引词 知识管理,管理信息系统,企业信息化 知识管理,知识链,学习型组织,知识创新 知识管理,知识创新,知识共享 知识管理,学习型组织 技术创新,知识空间,知识创新 企业信息化,信息结构,竞争情报 知识管理,竞争情报,知识创新 管理信息系统,企业文化 管理信息系统,竞争情报 知识管理,企业文化,管理创新作者索引 作者 A B C 目长 3 3 4 记录号集合 1;4;6 2;7;8 3;5;9;10关键词索引 标引词 管理创新 管理信息系统 技术创新 竞争情报 企业文化 企业信息化 信息结构 学习型组织 知识创新 知识共享 知识管理 知识空间 知识链 目长 1 3 1 3 2 2 1 2 4 1 6 1 1 10 1;8;9 5 6;7;9 8;10 1;6 6 2;4 2;3;5;7; 3 1;2;3;4;7;10 5 2 记录号集合可以看出,倒排文档主要有三个字段,作者或标引词字段主要为快速检索提供索引,记录号集合主要 作用是为了在检索中进行集合运算和对命中结果的直接调用,目长在检索中起辅助作用,指记录号集合字 段中的记录号个数。 2、逻辑提问式的转换22 逻辑提问式类似于算术表达式,对于检索而言,这种表达式并不是最优和最简洁的形式,更主要的是 不适合计算机的运算。需要进行必要的转换。1929 年波兰的逻辑学家卢卡西维兹(Jan Lucasiewicz)提出 了将运算符放在运算项后面逻辑表达式,又称“逆波兰表达式” 。采用这种表达式组织逻辑提问式非常方便 检索运算,是日本的福岛最早将逆波兰表达式应用于情报检索,故又称为福岛方法。 逆波兰表达式是一种没有括号,并严格遵循“从左到右”运算的后缀式表达方法。例如,逻辑提问式 “A*(B+C)+D”转换为逆波兰表达式就为“ABC+*D+” 。这样的表达式应用于检索将使之更加方便。因 此,实现福岛方法首先要进行提问式的转换。 四、在数据库中的实现 在 DBMS 系统中,无论数据组织,还是顺排文档与倒排文档的检索方式,都已可以真接调用 DBMS 的 SQL 语句简单实现。 我们不再需要关心上面的逻辑结构、物理结构、表展开、逻辑树、逆波兰变换这样的具体实现细节, 只要知道原理就行了。第二节 加权检索一、概念 根据用户的检索需求来确定检索词,并根据每个词在检索要求中的重要程度不同,分别给予一定的数 值(权值)加以区别,同时利用给出的检索命中界限值(阈值,Threshold)限定检索结果的输出。 有标引加权和检索加权两大类型。 加权检索是对布尔逻辑检索的一种扩充,它把量化思想引入到定性检索之中,是改善和提高检索效果 的一种重要手段。 一般系统不提供加权检索方式。各种加权检索系统的权定义、加权方式、权值计算和检索结果判定等不 一定相同。 二、检索加权――检索词赋权检索(词加权检索) 介绍检索加权中的检索词赋权法。 1、原理 最简单、最易实现的加权检索系统。 对每一检索词给定一权值,代表其重要性。检索时,先看看各检索词在数据库记录中是否存在,对存 在的检索词计算其权值总和。当权值总和大于阈值时,则认为命中。 例如,一个企业管理者为了改进企业管理模式,接受新的管理理念,提高企业的竞争力,希望获取知 识管理、竞争情报、企业文化方面的文献资料,用加权法列出的提问式如下: W = 知识管理(4)竞争情报(2)企业文化(1) 上式中括号内的数字即为提问词的权数。计算机检索时,首先在所有存贮的记录中找到满足上述检索 词的文献,然后对检索词加权,文献按匹配的检索词权数之和从大到小排列,加权检索的全部输出如下表: 加权检索结果表 组合号 1 2 知识管理 √ √ 包含的提问词 竞争情报 √ √ 23 企业文化 √ 权和 7 6 3 4 5 6 7 文献。 2、与布尔逻辑式的比较√ √ √ √√ √ √5 4 3 2 1表中“√”表示相应检索词与文献中主题词匹配,若设定阈值为 4,由上表可知,组合 1 至 4 为命中词加权检索都可以用等价的布尔检索式表示。上表中的例子,根据阈值不同,可转换成相应的等价布 尔逻辑式。 词加权检索的命中文献可按权值总和的大小排出重要性次序。等价的布尔检索式做不到。 3、优缺点 检索词赋权检索的优点是:明确了各检索词(概念)在检索中的重要程度;可以方便地提高或降低阈 值来扩大和缩小检索输出的范围;检索结果按符合检索需求的重要程度顺序排列,表达式简捷。其缺点是 加权法提问式表达不如逻辑式直观,而且权值的确定较为困难,增加了检索者的负担。 三、标引加权――词频加权 介绍标引加权中的词频加权法。 标引加权(也称加权标引)是指,在对文献进行标引时,根据每个标引词在文献中的重要程度不同, 为它们附上不同的权值,检索时通过对检索词的标引权值相加来筛选命中记录。 在进行加权标引时,对反映文献主要内容的标引词给予高权值,反映文献次要内容的标引词给予较低 的权值。 同一个检索词在不同的记录中,其权值可能不相同。词频加权检索方法应建立在对全文数据库和文摘 数据库基础之上,否则词频加权将失去意义。 1、简单词频加权 用词频决定权值的方法很多,最简单的方法即为:直接以词在文献中的词频为权值,权值总和即为检 索词的词频总和。 简单词频加权检索:指检索时累计检索词在记录中出现的次数来决定记录的权值,然后累计该记录每 个检索词权值之和来决定该记录是否为命中记录。 这种方法存在一个缺陷:就是不论文章长短、词频高低都采用的是统一的词频标准。 2、相对词频加权检索 将每一个检索词在本文中频率和在整个数据库中的频率综合考虑,进行加权检索的方法。相对词频加 权可采用两种统计方式: 文内频率=指定词在本文中的频次/该文本词汇总频次文外频率=指定词在本文中的频次/该词在整个数据库(所有文献)中总次数由此可以看出,文内频率解决了短文章中词频过低的问题,文外频率解决了新词、专用词的低频问题。 但这两种方法均要求数据库预先对其中的每一篇文献的词汇总频次、每一个词汇在数据库中出现的次数作 统计并记载,否则,在检索过程中很难获得这些数据。 四、标引加权的检索过程 加权标引检索的具体实现原则和过程为:检索时通过对检索词的标引权值相加来筛选命中记录。具体 24 做法是,给出检索词和检索阈值,对满足检索阈值的检索结果按其权值之和从大到小输出。 在检索中,阈值有两种设置方法: 1)为每个检索词制定一个阈值,文献中该标引词权重大于其阈值者才被作为命中,这样避免了次要内 容被检出; 2)给总的检索结果指定一个阈值,要求被检索出的文献,其与检索词相关的标引词权之和大于阈值者 才被作为命中文献,这样保证了命中文献的综合相关度。 加权标引使标引的难度加大。要求制定一个统一的赋权标准和规则,还要求标引者对加权标引的规则 较为熟悉。 在实际的人工标引中尚未见有加权标引的系统。 在计算机自动标引的系统中,则可以方便而有效的采用加权标引技术。例如,对全文数据库而言,可 根据词在文献中的不同位置、出现频率来综合给予标引词词权。第三节 辅助捡索技术不单独运用的检索技术。与布尔检索、加权检索或其他检索技术并行使用,起辅助作用。 一、截词检索 前截断、中截断和后截断三种截词检索方式。 1、概念 又称词干检索法。用一个词的局部进行检索,凡满足这个词的局部的字符串(或字符),均为命中文献。 按截词位置可分为前截断、中截断和后截断。 按截断的字符数可分为有限截断(说明截去字符的数量)和无限截断(不说明截去字符的数量)。 2、前截断 截词符号放在一个字符串左方,代表其左为有限或无限个字符的任意字符串。前截断为后方一致检索。 3、中截断 又称“通用字符法”或“内嵌字符截断” 。 截词符号放在二个字符串之间,代表其间为有限个字符的任意字符串。中截断一般只允许有限截断。 单词中英、美拼写方式不一致的现象。 4、后截断 截词符号放在一个字符串右方,代表其右为有限或无限个字符的任意字符串。后截断为前方一致检索。 二、限制检索 检索系统中用于缩小或约束检索结果的方法,称之为限制检索。限制字段或限制文献外部特征的检索。 一般用“/”表示。 1、字段限制 限制检索词在数据库记录中出现的字段范围。 2、外部特征限制 从命中文献的文种、文献类型、出版时间等外部特征方面限制检索结果。第四节 全文检索全文检索,即检索的数据源、检索的对象、检索匹配技术、检索结果都是全文信息的检索。25 全文检索有两种实现方式:1)对全文编索引;2)不对全文进行任何加工处理,只是从前至后的逐字 匹配。 第二种方式简单,无须讨论。重点要讲的是对全文编制索引的方式。 一、全文检索的技术指标 1、索引膨胀系数 索引的膨胀系数是指针对全文所建的索引文件大小与全文文件大小之比,例如,没有为全文创建索引 的全文检索系统,其膨胀系数为 0;若索引文件与全文文件一样大,其膨胀系数等于 1。即: 索引膨胀系数 =索引文件的大小/全文数据库的大小全文索引需要以最小的标引单位作为索引主键字,英语一般为单词,中文则为单汉字。如,较为完全 的全文索引结构如下(以中文为例) : 单汉字(主键字) 记录号 段落号 位置号索引文件少占用空间的改进方法:1)舍去段落号字段,索引空间缩小 1/4,位置号全文统一编排;2) 固定字数循环编号,例如,每到 512 个字以后重新从 1 开始编号。索引倒排结构如下: 单汉字(主键字) 记录数 记录号 1 该记录位置集合 记录号 2 该记录位置集合 ……还有其他改进方式。 2、检索速度 一个优秀的全文检索算法,在百兆级的数据库中,检索速度应该能够在一两秒内反应,否则,不能算 是一个好的全文检索算法。 二、全文检索的实现 在实际的全文检索系统中,全文检索往往不是简单的考察一个词是否在全文中出现,还要考察多个词 在全文中的相对位置等。西文的全文检索多数采用位置检索技术,这样可以提高全文检索的查准率。目前, 绝大多数中文全文检索系统并不注重词相互间的位置检索,只是简单的把布尔逻辑检索引入全文检索。 随着对中文全文检索查准率的要求,位置检索将会逐步进入中文全文检索系统中。 以下是 Dialog 系统的词位置检索运算符。 1、词位置级检索 又称邻接检索。检索词在全文中的相互位置应满足某些特定条件的检索。具体检索运算如下: 1) 词位置顺序相邻(W) 检索时要求(W)两边的词在原文中不能有其他单词(两词之间可以有标点符号) ,并且次序不能颠倒。 也就是说,采用(W)算符连接的多元词可视为是一个固定的词组,与布尔逻辑运算符“and”比较, (W) 算符能够防止词汇的错误组配,检索较为严密。 例如:?select information (W) retrieval 可检得含有固定词组“information retrieval”的文献全文。 2) 位置顺序隔词(nW) 表示由算符(nW)所连接的检索词之间最多只能含有 n(n 可以为 0)个单词,并且两词的顺序不能 颠倒。在实际检索中,可以连续使用(nW) 。 例如:? select computer (1W) communication 其检索式表示含有下述词组的文献都可作为检索命中结果:computer communication;computer and26 communication;computer for communication。 3) 词位置相邻(N) 若文献满足由算符(N)构成的检索式,这些文献中必须包含算符(N)两侧的词,并且它们是紧连的, 但两词的顺序可以颠倒。 例如:? select computer (N) television 其检索结果是所有含有词组“computer television”或“television computer”的文献。 4) 隔词运算(nN) 在(nN)两侧的检索词间不能多于 n 个单词,且两个检索词的次序可以任意。满足以上条件的文献可 视为是隔词运算的检索结果。 例如:?select econom?? (2N) recovery 凡含有下列词组文献可视为上式的检索结果:economic recovery, recovery of the economy, recovery from economic。 5)其他两个不常用的运算符 (X) (nX) 要求所连接的两个词词形完全一致,其它同(W)。 要求所连接的两个词词形完全一致,其它同(nW)。2、子字段级检索 使用(S)运算,要求参加运算的检索词必须出现在同一子字段中,两词词序不受限制,词间可以含有 任意个单词。子字段由数据结构确定,可以是句子也可以是自然段落。 例如:? select data (S) process* 该检索结果只要求在同一子字段中拥有下述单词即可: data 和 process 或 processing 或 processor 等。 3、字段级检索 1) 字段内词间“与”运算(F) 运算符(F)要求在其两侧的检索词出现在同一字段中,词序可变,字段类型可用字段标识作后缀。 例如:?select online (F) retrieval/DE,TI 上式检索结果为:检索词“online”“retrieval”同在叙词字段或同在标题字段的文献均为命中文献。 、 2) 叙词字段词间“}

我要回帖

更多关于 ios 信息填写页面 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信