当前位置:首页 >> 能源/化工 >>

大数据的典型应用场景及展望


大数据的典型应用场景及展望
2015 年 1 月 24 号,2015 China Hadoop Summit 技术峰会在北京如期 举行。本次大会作为国内大数据行业最具影响力的 IT 大会,吸引了 众多从事 Hadoop 研究与推广的权威技术专家、Hadoop 技术爱好者 和 IT 厂商前往参加。 现任星环信息科技(上海)有限公司联合创始人兼首席技术官,曾任英 特尔数据中

心软件部亚太区 CTO 的孙元浩老师在本次大会上带来了 主题为《2014 年大数据的典型应用场景及展望》的分享,本文主要 针对目前 Hadoop 主流应用场景,实时流数据的处理以及大数据技术 给未来生活的设想等内容进行了整理。

四年前的硅谷,风投埃里森拿出一亿美金来投资大数据公司,他认为 Hadoop 技术在未来的若干年中会从底层的数据平台,从传统的关系 型数据库进行迁移。数据的分析层会被全新的数据分析工具所替代, 可视化层和应用分析会有更多的新工具出现, 并认为这个市场将达到 几百亿美金的规模。 过去几年,Hadoop 的发展非常迅猛。我们常讲大数据的四 V 特征, Hadoop 在大数据处理上表现出的处理量、性能、挖掘能力的提升和 碎片化处理能力,使其得到越来越广泛的应用。 一、Hadoop 的主流应用场景:数据仓库的主要组成部分 传统的企业有若干个主机,用于销售、运营管理等等,产生的数据首 先经过 ODS 层,将数据从多个业务系统中集中起来,进行清洗、转

换等集成操作,然后将过加工的数据进入企业 IT 架构的核心——数 据仓库进行统计、挖掘和分析。最后用可视化工具进行展现。这是传 统的企业数据仓库的架构, 经常采用主流的甲骨文等数据库技术来实 现。 Hadoop 作为数据仓库组成部分的四个驱动力 互联网公司早年的时候,是把 Hadoop 做在数据仓库的核心,比如 Facebook 早期的时候是从服务器采集是通过实时的日志的采集工具, 经过 Hadoop 把 Hadoop 作为数据分析工具,呈现把结果放在甲骨文 中做展现。 互联网公司之所以这么做, 是因为互联网数据量大到在传统的数据库 不能处理。现在传统的企业也面临同样的问题,将 Hadoop 作为数据 仓库主要组成部分有四个驱动力: 效率:传统的数据仓库技术已经面临非常繁重的数据分析任务,处理 的延迟从一天到了一周。 成本:传统的数据架构成本动辄几千万。Hadoop 可以实现成本若干 倍的降低。 数据来源多样: 视频、 音频等企业非结构化数据来源增多。 MapReduce 对于非结构化或半结构化数据的读取非常有效。 数据分析需求的演进: 数据分析不再只满足于统计。使用 Hadoop 的技术,能够对数据进行深度的挖掘和分析,实现对未来的预测。 Hadoop 改变企业数据仓库架构的线路图 第一步:数据仓库的补充

2011、2012 年的时候 Hadoop 主要是作为数据仓库的补充在做数据 的清洗。这一层 Hadoop 很擅长。Hadoop 的优势是能够把计算任务 对全要素进行统计分析, 这是方式非常适合简单的场景, 早年 Hadoop 的最佳用途是作为 ETL 的平台, 第二步:逐渐进入核心 随着 Hadoop 生态系统逐渐完善, 有更多的数字化工具支持 Hadoop, Hadoop 开始进入数据仓库的核心领域。有些企业开使用 Hadoop 来 直接做数据可视化,在有些行业中已经开始用 Hadoop 逐渐取代传统 的关系数据库来建立数据仓库。从整个的数据仓库的架构来看,有一 半的架构已经开始被 Hadoop 覆盖了。 第三步:Hadoop 使资源管理变为可能,最终将取代企业完整的整据 仓库 在一两年之内有些企业完整的数据仓库架构都可能会被 Hadoop 取代 掉。 过去企业数据仓库的时候任务很繁重,系统效率低下。造成这种状况 的重要原因是,客户把过多的负载放在数据仓库上面,数据仓库本身 又没有资源配合的方式。 Hadoop2.0 推出了管理框架,使得资源管理变成了可能,使得数据仓 库支撑多个部门的数据分析和访问更加高效。举例来说,每个部门的 业务都是动态创建虚拟集群实现的,每个集群都有一定的资源配额, 这样的配额用时不会超过这个配额, 使得用户任何的负载不会影响其 他的用户,这成为数据仓库里一个重要的实现,数据仓库完全平滑,

24 小时不间断运行的保障。过去上千人在访问 Hadoop 的时候,也是 通过调度机制实现的, 随着 Hadoop2.0 的出现和资源管理能力的提升, 通过资源管理层可以方便的配置资源。 我们可以设定 CPU 的内存和存储资源,每个部门使用的时候有配额 的最低保障。当另外一个部门的用户上线使用的时候,比如创建了一 个集群,这时会把你的部分资源还给后面的第二个用户,原来第一个 用户的资源被收缩了,更多的用户进来的时候,第一个用户的资源被 进一步收缩,收缩到一个最低的指标。一方面充分保障了每个用户最 低资源的配额, 第二也保证系统整体运行的情况下可以充分有效利用 整体的计算资源。 二、 随着云计算和物联网的逐渐兴起, 实时流数据的处理将成为关注 重点 云计算和物联网使得数据呈现两个主要特点。首先,数据在没有人工 干预的情况下 24 小时不间断的产生;第二数据并发量高,使得单一 的统计已经不能满足用户要求, 对数据模式的分析和深度挖掘的要求 增强 现在的大数据处理不光需要做统计,而是需要做机器学习,快速地检 测出异常的状态。 比如在交通行业部署的实时监控平台, 这是一个发展得比较成熟的案 例,在全国已经得到了广泛部署。其主要用途是把路面上装的摄像机 的照片和分析出来的车牌等信息,实时的传送到中心的大集群中,然 后把所有的车流信息实时汇总至省级集群部署, 通过流处理形成实时

的应用,比如说区间测速、实时路况、公安部实时布控的应用等。相 关数据也会进入到数据库,对外提供车辆轨迹的查询,实时路况的检 索,比如行车分析和交通管理的应用等。 过去在常见的部署架构中由数据集群做实时的处理时, 包括应用和查 询的功能,数据会经过蜂窝队列,分布量是非常高的,单节点的服务 器可以支撑一秒钟十万条结果的插入,基本上是满负荷。 传统的流处理加上 Hadoop,可以解耦前端应用和后端的分析应用。 由于分布队列的吞吐量很高,可以在几百万个地方写入,可以基本满 足上千万传感器同时传送峰值的压力, 后端的是流处理的引擎做数据 分析。 我们把数据流按时间切片,每个小切片一百毫秒左右。我们需要在数 据经过这个流的时候在流上直接做异常检测,包括多种算法,最基本 的是希望将这些算法直接移植到流上,实现流式的异常检测。这里面 有一个挑战是,刚开始出现的异常可能并不准确,尽量要避免误报的 情况,通常会用 SQL 来做聚合和预先的数据处理,而 Spark 可以实现 小片的批处理流程, 我们在小的批量上能够实现延迟是一秒钟内可以 发出告警。 这种方式的好处是可以对实时数据和历史数据实现综合的分析, 都同 在一个数据库中,可以在上面用完整的统计分析的挖掘,包括可以做 计算和预测,这些分析超出了以前统计的范畴,而且需要历史数据和 实时数据进行统一的分析。这个领域今年可能会是比较热门的领域, 预计这个模式在物联网实时处理上得到更加广泛的应用。

三、大数据技术能给我们的生活带来什么 我们把数据源分两大类: 1.人的行为产生的数据:包括网上购物、通过运营商通话、发微信都 会留下数据,这些分析无外乎是给客户提供更好的服务,或者是帮助 商家更准确的找到客户进行精准营销; 2.机器产生的数据:帮助发现一些客观规律,比如说交通的模式是怎 样的,用电的消耗量和气侯和电网的关系是怎样的,也对数据进行分 析和能够做实时报警和诊断优化生产线的流程提供依据。 数据分析和挖掘开始出现,目前还不是主流。大数据描绘的场景是能 够进行预测,这逐渐开始成为事实。 人流密度实时预警 比如通过对基站的数据基本上可以比较粗的定位人的大致位置。 通过 对数据进行密度的统计,可以非常迅速的找出区域内部密度的值,基 础值是每个基站每英里多少个用户数,这是基站可以提供的数据,利 用这个数据可以非常快的知道人群的密度。 也可以利用银联的数据, 我们的合作伙伴用银联的数据把上海的商圈 都找出来了,商圈是根据过去三个月银联的刷卡记录,根据消费额、 消费地点以及消费商户的类别进行统计的,上海 14 个商圈是比较密 集的,有些商圈我们也没去过,比较偏远的反而是商圈。上海的架构 看基础是卫星城的架构,和北京不同,周围有很多密集的商圈。 这个数据也可以做人群的预测,商圈是人群密集的地方,随着踩踏事 件的出现,公安的客户也来找到我们,发现这个数据对他们很有用,

因为我们可以统计节日间实时的刷卡记录, 可以判断晚七点到九点消 费集中的区域,这些区域是人 垃圾短信分类 利用流式的机器学习做垃圾短信的分类,在流上做实时的检测,速度 是非常快的,可以流上实时的实现。运营商所有的短信经过流式系统 可以迅速的判断出哪些消息是垃圾短信, 来净化现在运营商的垃圾短 信泛滥局面。 消费者行为预测 机器学习类:协同过滤、相似度主要是比较商品间的相似程度进行推 荐,一些新的应用也比较有趣,像是基于时序关系的预测。每次消费 行为和时间是有关的,一个人经常跑到陆家嘴有一个明显的地方,带 着小孩会去海洋公园玩一下,有时看东方明珠看一下,然后去正大广 场吃个午饭,这是统计出一个模式,这是时序相关性,我们可以对客 户推送一些比较精准的广告。 总结 我们看到 Hadoop 主要的用途是数据仓库中,未来会逐渐的开始把更 多的负载牵到上面来;第二物联网逐渐的兴起,针对一些挑战我们需 要在流上做更强的分析和机器学习,这种新的架构也层出不穷;第三 是全新的集群的应用。可以预见的是,随着云计算和物联网等技术的 不断发展, 利用大数据的分析能力实现对未来的洞察将逐渐成为现实。 【编辑推荐】 大数据时代之 hadoop:了解 hadoop 数据流(生命周期)

惠普携手青岛打造大数据应用及产业示范基地 Apache Hadoop 2.6.0 发布——异构存储, 长时间运行的服务与滚动升 级支持 Hadoop RPC 通信 Client 客户端的流程分析 Spark 1.2:向 MapReduce 在 Hadoop 中的统治地位发起挑战


相关文章:
大数据的应用现状与展望
大数据的应用现状与展望 大数据的应用现状与展望 (说明:此文为 WORD 文档,...分析、 多媒体分析、社交网络分析和移动分析,并列举了若干大数据的典型 应用。最后...
大数据的经典应用案例_图文
大数据的经典应用案例_互联网_IT/计算机_专业资料。大数据(Big Data)是指“...检查借款人的发展趋势跟经 常违约、随意透支、甚至申请破产等各种陷入财务困境的...
中国大数据的未来应用和十大发展方向
中国大数据的未来应用和十大发展方向日期:2014-8-7 作者: 来源:CCIT 点击:552 大数据无疑是目前 IT 领域的最受关注的热词之一。几乎凡事都要挂上点大数据, ...
大数据的应用及发展
大数据的应用及发展_互联网_IT/计算机_专业资料。大数据大数据的应用及发展 北京时代远景信息技术研究院 夏乐 近几年来,随着互联网、物联网和云计算等信息技术的...
大数据在未来发展中的应用
大数据在未来发展的应用_计算机软件及应用_IT/计算机_专业资料。大数据在未来发展的应用 第一方面:客户分析。客户分析主要分为个人客户分析和企业...
大数据技术的发展现状和应用前景
龙源期刊网 http://www.qikan.com.cn 大数据技术的发展现状和应用前景 作者:邵玮,欧宜鹏,丁逸峰,杨婷婷 来源:《科学与财富》2014 年第 09 期 摘要:随着科学...
大数据的发展和应用
大数据的发展应用_互联网_IT/计算机_专业资料。大数据知识的简介 ...2011 年, McKinsey 公司的研究报告 中将大数据定义为 “超过了典型数据库软件...
大数据在it方面的应用
4、价值密度低(value),单条数据并无太多价值,但庞大的 数据量蕴含巨大的财富。 谈及大数据就不得不谈谈他的孪生兄弟--云计算。 大数据应用需求驱动发展的,...
关于加快大数据发展应用的
关于加快大数据产业发展应用若干政策的意见来源:本站 作者:佚名 时间:2014-12-12 加快推动大数据产业发展应用, 是培育和壮大我省战略性新兴产业的有效途 径,是...
医疗行业大数据应用场景
医疗行业大数据应用场景_计算机软件及应用_IT/计算机_专业资料。1.医疗行业大数据的 15 各应用场景 商业推动了 IT 不断向前发展,云计算就是一个有趣的例子。甲骨...
更多相关标签:
大数据典型应用场景 | tm7的典型应用场景 | session典型应用场景 | 典型应用场景 | 5g典型应用场景 | redis 典型应用场景 | 图数据库 典型场景 | 数据倾斜的典型场景 |