当前位置:首页 >> 能源/化工 >>

大数据的典型应用场景及展望


大数据的典型应用场景及展望
2015 年 1 月 24 号,2015 China Hadoop Summit 技术峰会在北京如期 举行。本次大会作为国内大数据行业最具影响力的 IT 大会,吸引了 众多从事 Hadoop 研究与推广的权威技术专家、Hadoop 技术爱好者 和 IT 厂商前往参加。 现任星环信息科技(上海)有限公司联合创始人兼首席技术官,曾任英 特尔数据中心软件部亚太区 CTO 的孙元浩老师在本次大会上带来了 主题为《2014 年大数据的典型应用场景及展望》的分享,本文主要 针对目前 Hadoop 主流应用场景,实时流数据的处理以及大数据技术 给未来生活的设想等内容进行了整理。

四年前的硅谷,风投埃里森拿出一亿美金来投资大数据公司,他认为 Hadoop 技术在未来的若干年中会从底层的数据平台,从传统的关系 型数据库进行迁移。数据的分析层会被全新的数据分析工具所替代, 可视化层和应用分析会有更多的新工具出现, 并认为这个市场将达到 几百亿美金的规模。 过去几年,Hadoop 的发展非常迅猛。我们常讲大数据的四 V 特征, Hadoop 在大数据处理上表现出的处理量、性能、挖掘能力的提升和 碎片化处理能力,使其得到越来越广泛的应用。 一、Hadoop 的主流应用场景:数据仓库的主要组成部分 传统的企业有若干个主机,用于销售、运营管理等等,产生的数据首 先经过 ODS 层,将数据从多个业务系统中集中起来,进行清洗、转

换等集成操作,然后将过加工的数据进入企业 IT 架构的核心——数 据仓库进行统计、挖掘和分析。最后用可视化工具进行展现。这是传 统的企业数据仓库的架构, 经常采用主流的甲骨文等数据库技术来实 现。 Hadoop 作为数据仓库组成部分的四个驱动力 互联网公司早年的时候,是把 Hadoop 做在数据仓库的核心,比如 Facebook 早期的时候是从服务器采集是通过实时的日志的采集工具, 经过 Hadoop 把 Hadoop 作为数据分析工具,呈现把结果放在甲骨文 中做展现。 互联网公司之所以这么做, 是因为互联网数据量大到在传统的数据库 不能处理。现在传统的企业也面临同样的问题,将 Hadoop 作为数据 仓库主要组成部分有四个驱动力: 效率:传统的数据仓库技术已经面临非常繁重的数据分析任务,处理 的延迟从一天到了一周。 成本:传统的数据架构成本动辄几千万。Hadoop 可以实现成本若干 倍的降低。 数据来源多样: 视频、 音频等企业非结构化数据来源增多。 MapReduce 对于非结构化或半结构化数据的读取非常有效。 数据分析需求的演进: 数据分析不再只满足于统计。使用 Hadoop 的技术,能够对数据进行深度的挖掘和分析,实现对未来的预测。 Hadoop 改变企业数据仓库架构的线路图 第一步:数据仓库的补充

2011、2012 年的时候 Hadoop 主要是作为数据仓库的补充在做数据 的清洗。这一层 Hadoop 很擅长。Hadoop 的优势是能够把计算任务 对全要素进行统计分析, 这是方式非常适合简单的场景, 早年 Hadoop 的最佳用途是作为 ETL 的平台, 第二步:逐渐进入核心 随着 Hadoop 生态系统逐渐完善, 有更多的数字化工具支持 Hadoop, Hadoop 开始进入数据仓库的核心领域。有些企业开使用 Hadoop 来 直接做数据可视化,在有些行业中已经开始用 Hadoop 逐渐取代传统 的关系数据库来建立数据仓库。从整个的数据仓库的架构来看,有一 半的架构已经开始被 Hadoop 覆盖了。 第三步:Hadoop 使资源管理变为可能,最终将取代企业完整的整据 仓库 在一两年之内有些企业完整的数据仓库架构都可能会被 Hadoop 取代 掉。 过去企业数据仓库的时候任务很繁重,系统效率低下。造成这种状况 的重要原因是,客户把过多的负载放在数据仓库上面,数据仓库本身 又没有资源配合的方式。 Hadoop2.0 推出了管理框架,使得资源管理变成了可能,使得数据仓 库支撑多个部门的数据分析和访问更加高效。举例来说,每个部门的 业务都是动态创建虚拟集群实现的,每个集群都有一定的资源配额, 这样的配额用时不会超过这个配额, 使得用户任何的负载不会影响其 他的用户,这成为数据仓库里一个重要的实现,数据仓库完全平滑,

24 小时不间断运行的保障。过去上千人在访问 Hadoop 的时候,也是 通过调度机制实现的, 随着 Hadoop2.0 的出现和资源管理能力的提升, 通过资源管理层可以方便的配置资源。 我们可以设定 CPU 的内存和存储资源,每个部门使用的时候有配额 的最低保障。当另外一个部门的用户上线使用的时候,比如创建了一 个集群,这时会把你的部分资源还给后面的第二个用户,原来第一个 用户的资源被收缩了,更多的用户进来的时候,第一个用户的资源被 进一步收缩,收缩到一个最低的指标。一方面充分保障了每个用户最 低资源的配额, 第二也保证系统整体运行的情况下可以充分有效利用 整体的计算资源。 二、 随着云计算和物联网的逐渐兴起, 实时流数据的处理将成为关注 重点 云计算和物联网使得数据呈现两个主要特点。首先,数据在没有人工 干预的情况下 24 小时不间断的产生;第二数据并发量高,使得单一 的统计已经不能满足用户要求, 对数据模式的分析和深度挖掘的要求 增强 现在的大数据处理不光需要做统计,而是需要做机器学习,快速地检 测出异常的状态。 比如在交通行业部署的实时监控平台, 这是一个发展得比较成熟的案 例,在全国已经得到了广泛部署。其主要用途是把路面上装的摄像机 的照片和分析出来的车牌等信息,实时的传送到中心的大集群中,然 后把所有的车流信息实时汇总至省级集群部署, 通过流处理形成实时

的应用,比如说区间测速、实时路况、公安部实时布控的应用等。相 关数据也会进入到数据库,对外提供车辆轨迹的查询,实时路况的检 索,比如行车分析和交通管理的应用等。 过去在常见的部署架构中由数据集群做实时的处理时, 包括应用和查 询的功能,数据会经过蜂窝队列,分布量是非常高的,单节点的服务 器可以支撑一秒钟十万条结果的插入,基本上是满负荷。 传统的流处理加上 Hadoop,可以解耦前端应用和后端的分析应用。 由于分布队列的吞吐量很高,可以在几百万个地方写入,可以基本满 足上千万传感器同时传送峰值的压力, 后端的是流处理的引擎做数据 分析。 我们把数据流按时间切片,每个小切片一百毫秒左右。我们需要在数 据经过这个流的时候在流上直接做异常检测,包括多种算法,最基本 的是希望将这些算法直接移植到流上,实现流式的异常检测。这里面 有一个挑战是,刚开始出现的异常可能并不准确,尽量要避免误报的 情况,通常会用 SQL 来做聚合和预先的数据处理,而 Spark 可以实现 小片的批处理流程, 我们在小的批量上能够实现延迟是一秒钟内可以 发出告警。 这种方式的好处是可以对实时数据和历史数据实现综合的分析, 都同 在一个数据库中,可以在上面用完整的统计分析的挖掘,包括可以做 计算和预测,这些分析超出了以前统计的范畴,而且需要历史数据和 实时数据进行统一的分析。这个领域今年可能会是比较热门的领域, 预计这个模式在物联网实时处理上得到更加广泛的应用。

三、大数据技术能给我们的生活带来什么 我们把数据源分两大类: 1.人的行为产生的数据:包括网上购物、通过运营商通话、发微信都 会留下数据,这些分析无外乎是给客户提供更好的服务,或者是帮助 商家更准确的找到客户进行精准营销; 2.机器产生的数据:帮助发现一些客观规律,比如说交通的模式是怎 样的,用电的消耗量和气侯和电网的关系是怎样的,也对数据进行分 析和能够做实时报警和诊断优化生产线的流程提供依据。 数据分析和挖掘开始出现,目前还不是主流。大数据描绘的场景是能 够进行预测,这逐渐开始成为事实。 人流密度实时预警 比如通过对基站的数据基本上可以比较粗的定位人的大致位置。 通过 对数据进行密度的统计,可以非常迅速的找出区域内部密度的值,基 础值是每个基站每英里多少个用户数,这是基站可以提供的数据,利 用这个数据可以非常快的知道人群的密度。 也可以利用银联的数据, 我们的合作伙伴用银联的数据把上海的商圈 都找出来了,商圈是根据过去三个月银联的刷卡记录,根据消费额、 消费地点以及消费商户的类别进行统计的,上海 14 个商圈是比较密 集的,有些商圈我们也没去过,比较偏远的反而是商圈。上海的架构 看基础是卫星城的架构,和北京不同,周围有很多密集的商圈。 这个数据也可以做人群的预测,商圈是人群密集的地方,随着踩踏事 件的出现,公安的客户也来找到我们,发现这个数据对他们很有用,

因为我们可以统计节日间实时的刷卡记录, 可以判断晚七点到九点消 费集中的区域,这些区域是人 垃圾短信分类 利用流式的机器学习做垃圾短信的分类,在流上做实时的检测,速度 是非常快的,可以流上实时的实现。运营商所有的短信经过流式系统 可以迅速的判断出哪些消息是垃圾短信, 来净化现在运营商的垃圾短 信泛滥局面。 消费者行为预测 机器学习类:协同过滤、相似度主要是比较商品间的相似程度进行推 荐,一些新的应用也比较有趣,像是基于时序关系的预测。每次消费 行为和时间是有关的,一个人经常跑到陆家嘴有一个明显的地方,带 着小孩会去海洋公园玩一下,有时看东方明珠看一下,然后去正大广 场吃个午饭,这是统计出一个模式,这是时序相关性,我们可以对客 户推送一些比较精准的广告。 总结 我们看到 Hadoop 主要的用途是数据仓库中,未来会逐渐的开始把更 多的负载牵到上面来;第二物联网逐渐的兴起,针对一些挑战我们需 要在流上做更强的分析和机器学习,这种新的架构也层出不穷;第三 是全新的集群的应用。可以预见的是,随着云计算和物联网等技术的 不断发展, 利用大数据的分析能力实现对未来的洞察将逐渐成为现实。 【编辑推荐】 大数据时代之 hadoop:了解 hadoop 数据流(生命周期)

惠普携手青岛打造大数据应用及产业示范基地 Apache Hadoop 2.6.0 发布——异构存储, 长时间运行的服务与滚动升 级支持 Hadoop RPC 通信 Client 客户端的流程分析 Spark 1.2:向 MapReduce 在 Hadoop 中的统治地位发起挑战


相关文章:
51CTO学院-2014年大数据的典型应用场景及展望—孙元浩
QQ/电话:400-851-9651 网址:edu.51CTO.com 2014 年大数据的典型应用场景及展望—孙元浩课程目标 2015 中国 hadoop 技术峰会大会数十位演讲嘉宾及专家案例都已...
大数据的经典应用案例_图文
大数据的经典应用案例_互联网_IT/计算机_专业资料。大数据(Big Data)是指“...检查借款人的发展趋势跟经 常违约、随意透支、甚至申请破产等各种陷入财务困境的...
工业大数据在工业企业中的典型应用介绍
4.1 研发设计环节工业大数据的应用场景 在研发设计环节, 工业大数据应用主要有...帮助企业根据现有数据预测未来的 发展趋势,给企业带来了更快的速度、更高的效率...
大数据行业发展现状与未来前景分析
我们 都知道效率提升是人类社会进步的典型标志, 可以推断大数据技术将带领人类...二、大数据的企业应用场景 大数据时代的最大意义就是利用大数据及大数据技术...
大数据发展前景
在国防、反恐、安全等领 域应用大数据技术,能够对...NoSQL 数据库适合于以下场景, 即庞大的数据量、 ...大数据的特征与发展趋势 7页 3下载券 大数据的发展...
大数据的大价值:大数据五大成功案例深度解析
关于运输的数据场景到底有多重要呢?将自己定位成“大自然搬运工”的农夫山泉,在...目前这个市场上主要有三款应用产品,分别是航班管家、飞常准和航旅纵横,飞常准正...
细数阿里云服务器的十二种典型应用场景
阿里云湖北授权服务 中心武汉捷讯结合阿里云官网的资料, 针对建站相关的内容为大家整理一些阿里 云典型的应用场景 免费开通大数据服务:https://www.aliyun.com/...
基于大数据的推荐系统介绍_图文
从 Twitter 数据中 挖掘热门话题发展趋势的规律因为用户的状态和评论中包含了大众...本文主要针对基于电子商务 网站的应用场景来设计出一个基于大数据技术的电子商务...
2017年大数据研究分析及发展趋势预测 (目录)
2017年大数据研究分析及发展趋势预测 (目录)_商业...国外推行大数据战略的主要做法 二、国外大数据应用...政府大数据应用场景 四、政府大数据应用价值分析 五...
云计算应用场景
云计算应用场景_互联网_IT/计算机_专业资料。高性能计算提供海量计算资源池,只需...大数据使用海量的计算和存储资源,为大数据的挖掘和分析提供专业稳定的 IT 基础...
更多相关标签: