欢迎来到中国物联网智库-中国通信工业协会物联网应用分会!

WOT干货大放送:大数据架构发展趋势及探索实践分享

来源:中国通信工业协会物联网分会   | 发表时间:2018 年 6 月 1 日

2018年5月18-19日,由51CTO主办的全球软件与运维技术峰会在北京召开。来自全球企业的技术精英汇聚北京,畅谈软件技术前沿,共同探索运维技术的新边界。而在本次大会上,除了众星云集的主论坛环节,12场分论坛更是各具特色,分别聚焦了时下最受关注的容器、AI、区块链、大数据、物联网等技术领域,是一次围绕软件与运维方向的技术干货与实践经验分享的高端技术盛宴。

18日下午的大数据处理技术分会场,PingCAP CTO黄东旭、易观智库CTO郭炜、Mob开发者服务平台技术副总监林荣波、宜信技术研发中心高级架构师王东及商助科技(99Click)顾问总监郑泉五位讲师,分别针对时下热门的HTAP数据库TiDB、去ETL化的IOTA架构、数据工厂架构、实时敏捷大数据理念实践、基于场景的大数据营销等话题,展开实践分享。

PingCAP CTO 黄东旭

如何运用HTAP数据库帮到你? TiDB的故事

TiDB是一套开源分布式HTAP数据库,同时提供MySQL与Spark SQL接口。PingCAP CTO黄东旭在演讲中介绍,TiDB旨在以HTAP(Hybrid Transactional/Analytical Processing)数据库的形式支持基于实时交易数据的实时业务分析需求,他分享了TiDB的设计思路,以及TiDB集群在部署与运营方面的最佳实践。

黄东旭提到,当前数据库领域面临很多问题,数据库解决方案和大数据分析引擎解决方案处于割裂的状态,由于Oracle、MySQL数据库并不是面向分布式环境而设计,因此即使勉强通过分库、分表或中间件的方式,在数据库层面做了分片,从本质上看也只是复制了相同的堆栈,而非针对分布式系统进行存储和计算优化,这正是进行跨业务查询或跨物理机查询和写入十分繁琐的本质原因。

为了解决这一问题,TiDB在架构上将计算和存储层进行高度的抽象和分离,对混合负载的场景通过IO优先级队列,智能副本调度,行列混合存储等技术使其变为可能。TiDB产品的整体架构是分层的,由分布式SQL层(TiDB)、分布式KV存储引擎(TiKV)以及管理整个集群的PD模块组成。无限水平扩展是TiDB的一大特点,这里所说的水平扩展包括两方面:计算能力和存储能力。

HTAP给开发者提供了一个实时数据分析方面的新思路,不需要再去维护另一个离线的数据仓库,既减轻了ETL的工作,又能节省很大一部分建立数据仓库所用到的存储和计算成本,HTAP将是未来的重要趋势。黄东旭介绍了HTAP数据库的三类主要应用场景,一是大中台[鸢玮1] 的场景;二是为微服务提供强一致的持久化数据层(the source of truth);三是MySQL分库分表的完美替代品。

易观 CTO 郭炜

Lambda架构已死,新一代去ETL化的IOTA架构

易观CTO郭炜表示, 在大数据3.0时代,Lambda大数据架构已经无法满足企业用户日常大数据分析和精益运营的需要,去ETL化的IOTA大数据架构才是未来。郭炜从Lambda与Kappa架构的发展及优缺点展开,阐述了IOTA大数据架构的思路及优缺点,以及易观在IOTA架构领域的实践经验。

在过去Lambda数据架构是每一个公司大数据平台必备的架构,Lambda架构经历多年的发展,其优点是稳定,对于实时计算部分的计算成本可控。然而在大数据3.0时代,其致命缺点逐渐显现:一是实时与批量计算结果不一致引起的数据口径问题;二是批量计算在计算窗口内无法完成;三是数据源变化要重新开发,开发周期长;四是服务器存储压力大。

针对Lambda的部分缺陷,Kappa架构被提出来,其核心思想是通过改进流计算系统来解决数据全量处理的问题,使得实时计算和批处理过程使用同一套代码。然而Kappa架构的缺点也十分明显,那就是流式处理对于历史数据的高吞吐量力不从心,开发周期长以及服务器成本浪费严重。

为解决上述问题,郭炜针对IoT时代的特点提出了新一代的大数据IOTA架构,整体思路是设定标准数据模型,通过边缘计算技术把所有的计算过程分散在数据产生、计算和查询过程当中,以统一的数据模型贯穿始终,从而提高整体的预算效率,同时满足即时计算的需要,可以使用各种Ad-hoc Query来查询底层数据。

IOTA整体技术结构分为以下几部分:

  • Common Data Model
  • Edge SDKs & Edge Servers
  • Real Time Data
  • Historical Data
  • Dumper
  • Query Engine
  • Realtime model feedback

IOTA大数据架构主要有如下几个特点:一是去ETL化,解决了大数据处理中ETL和相关开发的痛点;二是不用等待ETL或Streaming的数据研发和处理,实现了Ad-hoc即时查询;三是将过去统一到中央进行整体计算,分散到数据产生、存储和查询端,实现边缘计算。

Mob开发者服务平台技术副总监 林荣波

数据工厂架构升级分享

Mob是全球领先第三方全景数据服务平台,其SDK产品现已累计服务23万开发者,36万个App。Mob在数据工厂的构成以及运作方面,有着全球领先的技术实力。Mob开发者服务平台技术副总监林荣波分享了数据工厂整体架构设计实践与变革历程,从数据源、数据关系以及商业化产品产出效能这三大领域,阐述数据工厂的运作模式,以及结构升级对原有问题的优化和解决方案。

林荣波总结了公司创建以来在数据采集和处理方面的三大问题:一是数据源的问题,主要包括地域和应用市场政策问题,硬件和系统兼容问题,SDK业务团队与商业化团队碰撞问题等;二是数据关系问题,数据源到成品数据链杂乱,团队学习成本加剧,开发人员进行数据加工越来越累;三是商业化产品产出效能问题,产品迭代与新品的产出效能低,大数据开发和产品服务端的耦合度高,服务稳定性、隔离性较差。

Mob针对数据源问题提出了这样的解决思路,采用公有云+私有云的方案确保数据正常,运用智能DNS+本地服务干预的方式将服务流量分发,增加服务开关设置解决数据项的政策问题,成立通用组件团队解决团队之间问题。

林荣波用“数据即血液”比喻数据关系,Mob通过表定义规划、文档规范,制定一些标准的工作流程,开发血缘管理系统,QC系统(监控数据流健康状态&容错处理),解决了数据关系的问题。

在商业化产出效能方面,Mob采用搭建中间件的方式来解决,形象的比喻就是数据库的客户端,它包括三大组件:3A系统,进行统一计费以及权限管理;商业化查询网关服务,实现负载均衡、请求监控、过载保护和故障定位等功能;最后是单独的微服务集群。目前大多数商业化项目都可以由中间件的这三大组件搭建和拼接出来。针对那些新的或临时性的商业需求,则交给HDP(个性化数据提供商)处理。

宜信技术研发中心高级架构师 王东

实时敏捷大数据在宜信的实践

自去年9月宜信开源了AIOps三大利器(UAVStack,Wormhole,DBus)之后,这几款开源软件受到业界广泛关注,不少企业已经试用,甚至部署到生产中。宜信技术研发中心高级架构师王东介绍了实时敏捷大数据在宜信的实践过程,包括过去几年宜信在实时大数据方面的需求、痛点和挑战,以及实时敏捷大数据的基本概念和设计思路。此外,王东还介绍了宜信实时敏捷大数据的基石DBus+Wormhole两个平台的总体架构、主要功能、关键技术原理和优化方案,以及使用这两个平台构建和解决的各种实时场景的应用:包括实时营销、实时运营、实时报表和数据同步等。

他总结并分析了大数据应用项目面临的一些痛点,包括:数据孤岛、数据时效性差、一致性差、无法快速响应业务开发数据产品等问题,并向与会者解读了实时大数据应用中面临的几项技术挑战:如何解决大数据中来源多样化、实时性差的问题;如何降低大数据使用的技术门槛;如何快速迭代响应用户需求,让用户参与进来,自助完成数据应用等。

宜信基于对实时敏捷大数据的理念,构建了DBus实时数据总线平台 + Wormhole实时流式处理平台。其中,DBus作为实时数据总线平台,关注数据的抓取和结构化;Wormhole作为实时流式处理平台,提供基于配置SQL的方式进行各种流式计算,并支持落库到各种常见数据目标中。

王东从技术层面具体介绍这两个平台的内部架构,重点介绍了DBus和Wormhole两个平台的关键实现原理,例如:DBus 数据增量数据如何生成,全量数据如何切片;Wormhole平台中数据如何进行流式计算优化,如何高效落库等,并结合应用场景,对这两个平台解决的一些实际问题进行介绍,包括:实时营销、实时运营和数仓同步等。

商助科技(99Click)顾问总监郑泉

场景化大数据分析与营销

商助科技(99Click)顾问总监郑泉介绍,99Click是第一家获得互联网营销数据分析专利的服务提供商,对大部分互联网企业而言,大数据的价值已经超越了单纯的积累数据或比拼运算效率,场景化是一个越来越热的话题,他在本次演讲中重点分享了场景化大数据营销的实践经验。

企业的数据来源于产品、销售、推广、会员、供应链、财务以及管理等方方面面,这些数据在内部管理和对外营销两方面凸显其价值。随着大数据技术的快速发展,用户数据、用户画像不断完善,精准营销乃大势所趋。当今的互联网市场,用户增长放缓,用户平均使用时长已近饱和状态,增长空间十分狭小。因此,对互联网企业来说,如何拉新、促活、召回和留存用户,提升用户粘性,并实现商业变现,是企业挖掘互联网财富的工作重点。

99click 营销数据模型

郑泉认为,互联网商业变现的能力涉及到场景入口和场景转化能力。从客户的时间、地点、事件等信息判断客户所属的场景,站在客户的角度去分析其需求,是提升转化率的关键。用户在不同场景间的行为产生了用户数据,触发、期望、接近、知晓、联系、行动、响应以及评价,是用户体验生命周期的一个循环过程,企业可以通过数据分析出哪个环节出了问题,从而进行有针对性的营销。

99click “一站式”解决方案

99click提供场景化大数据分析与营销的一站式解决方案,99click为刚刚成立不久、业务模式还在探索及调整阶段的企业,提供两项服务:一是系统服务,包括站点运营、推广触达、商品分析、用户分析及数据整合等;二是人工服务,涵盖初始化与全周期服务,数据分析与优化服务,从需求沟通与确认,定制方案,实施支持,数据校对与分析,到给出优化建议,是一个完整的人工服务流程。

大数据架构正悄然转变

从五位讲师的分享中不难看出,现阶段数据库技术、大数据架构和应用还存在诸多难题,然而技术发展从未止步,正因有这些勇于探索、创新实践、乐于分享的有志之士,才让技术不断迭代、快速演进。本次大数据专场上,听众爆满,互动问答环节,与会嘉宾追问频频,讲师均做出耐心解答。讲师们带来的全方位企业级大数据处理技术,以及前瞻性的实践经验分享,让与会嘉宾受益颇多。

处为:51CTO.com

COPYRIGHT (©) 2017 中国通信工业协会物联网应用分会