数据加工处理的描述核心关键点

《信息检索》考试重点_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
《信息检索》考试重点
上传于||文档简介
&&安​徽​图​书​资​料​系​列​职​称​考​试​ ​
​
​《​信​息​检​索​》​复​习​大​纲
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩4页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢当前位置: >
关于大数据四大方面的十五大关键技术详解 11:05:55&|&编辑:hely&|&查看:&|&评论:
大数据关键技术涵盖从数据存储、处理、应用等多方面的技术,根据大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘等环节。
近年来,大数据来势汹汹,渗透到各行各业,带来了一场翻天覆地的变革。让人们越发认识到,比掌握庞大的数据信息更重要的是掌握对含有意义的数据进行专业化处理的技术。如果将大数据比作一种产业,那么这产业盈利的关键点在于,提高对数据的&加工能力&,通过&加工&实现数据的&增值&,这便是大数据关键技术发挥的能力。
大数据关键技术涵盖从数据存储、处理、应用等多方面的技术,根据,可将其分为、等环节。
本文针对大数据的关键技术进行梳理,以飨读者。
Part 1. 大数据采集
数据采集是大数据生命周期的第一个环节,它通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于可能有成千上万的用户同时进行并发访问和操作,因此,必须采用专门针对大数据的采集方法,其主要包括以下三种:
A.数据库采集
一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。谈到比较多的工具有Sqoop和结构化数据库间的ETL工具,当然当前对于开源的Kettle和Talend本身也集成了大数据集成内容,可以实现和hdfs,hbase和主流Nosq数据库之间的数据同步和集成。
B.网络数据采集
网络数据采集主要是借助网络爬虫或网站公开API等方式,从网站上获取数据信息的过程。通过这种途径可将网络上非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式将其存储为统一的本地数据文件。
C.文件采集
对于文件的采集,谈的比较多的还是flume进行实时的文件采集和处理,当然对于ELK(Elasticsearch、Logstash、Kibana三者的组合)虽然是处理日志,但是也有基于模板配置的完整增量实时文件采集实现。如果是仅仅是做日志的采集和分析,那么用ELK解决方案就完全够用的。
Part 2. 大数据预处理
数据的世界是庞大而复杂的,也会有残缺的,有虚假的,有过时的。想要获得高质量的分析挖掘结果,就必须在数据准备阶段提高数据的质量。大数据预处理可以对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等,将那些杂乱无章的数据转化为相对单一且便于处理的构型,为后期的数据分析奠定基础。数据预处理主要包括:数据清理、数据集成、数据转换以及数据规约四大部分。
A.数据清理
数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在着错误、或偏离期望值的数据)、不一致数据处理。主要的清洗工具是ETL(Extraction/Transformation/Loading)和Potter&s Wheel。
遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理;噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音;对于不一致数据则可进行手动更正。
B.数据集成
数据集成是指将多个数据源中的数据合并存放到一个一致的数据存储库中。这一过程着重要解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。
来自多个数据集合的数据会因为命名的差异导致对应的实体名称不同,通常涉及实体识别需要利用元数据来进行区分,对来源不同的实体进行匹配。数据冗余可能来源于数据属性命名的不一致,在解决过程中对于数值属性可以利用皮尔逊积矩Ra,b来衡量,绝对值越大表明两者之间相关性越强。数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。
C.数据变换
数据转换就是处理抽取上来的数据中存在的不一致的过程。数据转换一般包括两类:
第一类,数据名称及格式的统一,即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等;第二类,数据仓库中存在源数据库中可能不存在的数据,因此需要进行字段的组合、分割或计算。数据转换实际上还包含了数据清洗的工作,需要根据业务规则对异常数据进行清洗,保证后续分析结果的准确性。
D. 数据规约
数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量,主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等。数据规约技术可以用来得到数据集的规约表示,使得数据集变小,但同时仍然近于保持原数据的完整性。也就是说,在规约后的数据集上进行挖掘,依然能够得到与使用原数据集近乎相同的分析结果。
相关阅读:
搜索"raincent"或扫描下面的二维码更多公众号:jacky_lemon技术改变世界!思想改变技术!最新文章相关推荐搜狗:感谢您阅读一篇文章帮你梳理清楚API设计时需要考虑的几个关键点,本文可能来自网络,如果侵犯了您的相关权益,请联系管理员。QQ:寻找数据处理的关键点--《数据》2012年09期
寻找数据处理的关键点
【摘要】:正人口抽样调查中的数据处理,主要是指将调查采集获得的原始数据,经过深加工和精加工,形成权威可靠的电子数据成果,一定程度上可以说,数据处理是人口抽样调查中最为严密的一道防线。或者说作为人口抽样调查关键一环的数据处理工作,其质量的好坏,直接关乎着人口抽样调查成果的真实性和准确性,甚至决定着此次调查的成败。
【关键词】:
【分类号】:C924.25【正文快照】:
人口抽样调查中的数据处理,主要是指将调查采集获得的原始数据,经过深加工和精加工,形成权威可靠的电子数据成果,一定程度上可以说,数据处理是人口抽样调查中最为严密的一道防线。或者说作为人口抽样调查关键一环的数据处理工作,其质量的好坏,直接关乎着人口抽样调查成果的真
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【相似文献】
中国期刊全文数据库
;[J];中国经济景气月报;2008年S1期
张立;;[J];统计与信息论坛;2011年07期
张丽;吕康银;王文静;;[J];税务与经济;2011年04期
史毅;;[J];数据;2011年08期
胡桂华;;[J];广西财经学院学报;2011年04期
刘日;;[J];安徽行政学院学报;2011年03期
石人炳;熊波;;[J];人口与发展;2011年03期
;[J];;年期
;[J];;年期
;[J];;年期
中国重要会议论文全文数据库
仇立平;;[A];社会主义与中国现代化 政治·法律与社会:上海市社会科学界第七届学术年会文集(2009年度)政治·法律·社会学科卷[C];2009年
陈卫;;[A];和谐社会自主创新与文化交融——2006学术前沿论坛论文集(上卷)[C];2006年
;[A];和谐社会:自主创新与文化交融——2006学术前沿论坛论文摘要汇编[C];2006年
王燕;;[A];青海省统计系统年优秀统计论文选编[C];2000年
朱庆芳;;[A];中国老年学学会2006年老年学学术高峰论坛论文集[C];2006年
关淑芳;;[A];’96全国优生科学大会大会学术讲演与大会论文摘要汇编[C];1996年
顾嘉禾;;[A];江苏老年学研究论文选集()[C];2008年
李思名;;[A];海峡两岸地理学术研讨会暨2001年学术年会论文摘要集[C];2001年
中国重要报纸全文数据库
杨茜;[N];第一财经日报;2005年
星子;[N];青海日报;2005年
马凤霞;[N];固原日报;2008年
肖升初;[N];中国信息报;2005年
张阿鹏;[N];辽源日报;2005年
徐超;[N];中国信息报;2005年
齐欣;[N];新乡日报;2005年
刘艳;[N];厦门日报;2008年
竭丽红 吕新;[N];盘锦日报;2009年
刘萍;[N];楚雄日报(汉);2005年
中国博士学位论文全文数据库
乔晓春;[D];中国人民大学;1994年
中国硕士学位论文全文数据库
郑可可;[D];天津财经大学;2006年
何云法;[D];国防科学技术大学;2005年
肖利群;[D];厦门大学;2008年
胡巧娅;[D];西南财经大学;2006年
李文慧;[D];江西师范大学;2006年
毛俊杰;[D];西南大学;2008年
仲雷;[D];上海交通大学;2007年
马乐娟;[D];中国人民大学;2008年
徐上知;[D];石河子大学;2008年
程琳;[D];同济大学;2006年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备75号}

我要回帖

更多关于 人脸关键点数据 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信