多模数据处理破茧成蝶 大数据“卡脖子”成为过去!
在这场出人意料的新冠疫情之下,中国的大数据技术展现了惊人的威力:
追踪流动人口,极速公布各地疫情报告,覆盖所有人群的健康码大数据服务,电商数据调动医疗资源,AI+大数据助力医药研发······
不管是传统的结构化数据,如人员信息、医院等医疗资源信息等,还是复杂的非结构化数据,如地理位置数据、图像数据、文本数据、语音数据等,各个层面的海量数据在客观、透明的基础上,以不同的技术进行处理、分析,助力全民战疫。
这些应用的背后是中国大数据技术与应用的进步,大数据基础软件自主研发成果不断,大数据软件国产化替代加速,大数据上云向用户提供按需服务,金融、航空航天、新零售等行业大数据应用卓有成效。
而在数字化商业世界中,新的时代会产生新的机会,新的技术会创造更广阔的空间。
随着数据量和数据种类的不断增多,由单一一个数据平台处理一类数据的应用虽然能力不断完善,但是还是难以满足用户用一个平台处理不同类型数据模型的需求。
人们也期望用一个统一的平台,处理不同类型的数据,提高数据处理和分析的效率,降低成本。
01
用户呼唤多模型数据处理平台
大数据平台是囊括大数据存储、处理和数据应用分析的集成化数据开发平台。建设这样一个大数据平台必然会面临很多问题:如何管理一个单体大集群;多源数据如何录入;当数据接入之后,如何高效的存储和查询这些数据,如何管理这些数据,避免形成数据沼泽;如何保障数据安全,如何将数据展现给用户等。这些基本上就是一个企业级大数据平台需要具备的能力。
IDC公布的2016~2020年生产的数据量与增长率
从2008年诞生起,大数据平台从落地上看就是一组技术或者工具的组合,是以海量数据存储、计算及不间断流数据实时计算等场景为主的基础设施。
而开源社区其实已经发展出了多种组件,可以供市场组合一套大数据平台.但是由于涉及到公司内部的业务场景以及模式,以及很难有非常全面掌握这些工具的人才,所以这些工具组合可能不完全适用。
开源的大数据平台工具
到目前为止,对于一些单一的典型场景,市场上出现不同的产品,有了知名的解决方案,解决数据的多样性。
例如,结构化数据使用Hive,动态列模型使用Bigtable、Hbase,应用于数据存储的文档数据库MongDB,专注于满足各类复杂搜索需求的ElasticSearch,常被应用于会话缓存的高速NoSQL数据库Redis,图数据库Neo4J,以及由实时计算引擎正成为通用大数据引擎的Flink等。
但是这些产品都是孤立的,每一个或者类只能解决一类问题。当用户的数据有很多类型,就不得不采用不同种类的数据库,并把它混在一起使用。
接受记者采访的一位不愿署名的专家认为,新的数据类型,传统关系结构数据、半结构化、非结构化数据,以及新的业态(如IOT)、新的数据来源(外部爬虫数据)、新的数据格式(如社交、游戏、地理)等多元化的数据出现,都对多模异构数据处理产生诉求。
接受记者采访的星环研发总监吕程认为,由于各个数据库各自为政,应用开发商或客户不得不自己架设一层,来解决数据在不同库间的导入导出、数据在不同库中的一致性、综合集群整体运维等一系列问题。因此,混合使用的方式操作不便、运维复杂的问题会日益凸显。
今天,客户对这种架构越来越难容忍,希望能用一套大数据平台,解决各种复杂的数据结构问题。
星环科技创始人、CEO孙元浩接受中国软件网记者采访时认为,目前,大数据行业一个明显的发展趋势就是推出一个统一的大数据平台,能够处理多种数据模型,能够提供统一的编程语言、统一的计算引擎,使用统一的存储管理系统、统一的资源调度系统,能够支持多种不同的数据模型。
孙元浩说:“星环科技把这个统一的大数据平台,称为多模型异构的数据处理平台。”
02
两条发展路径,两种不同结果
在大数据软件发展中,技术路线发展演绎精彩纷呈,令人目不暇接。毕竟这是一个巨大的市场机会,创造天量的市场机会,也会诞生像微软、谷歌、AWS一样的行业巨人。
虽然专家们将大数据的技术路线大体上分为Hadoop路线、Spark路线、自主研发路线、以及上一代MPP架构沿用路线等,但是记者认为,在发展多模型大数据平台方面,几本上可以分为两大技术路线,一是开源路线,另一个是自主研发路线。
不管是那种技术路线,一些数据库或大数据厂商在多模型数据处理上都提出自己的“行业解决方案”,一些则推出自己的“数据云平台”等。虽然各种描述五花八门,但其解决的核心问题和其核心架构,还是解决异构数据库间的数据同步等底层问题,使客户从这些底层问题中解放出来,像使用单一数据平台一样简便易用,从而为客户创造价值。
开源路线的代表就是Hadoop和Spark。
提起大数据,依然不能不提Hadoop。因为Hadoop让海量的数据能分布存储,并能分布的存取与处理。过去Hadoop几乎成了大数据的代名词。
专家认为,作为大数据基础软件的一大技术路线,基于开源Hadoop发展的最大优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下,运行速度虽然不占优势,但却十分稳定。既是优势也是劣势,Hadoop在批处理方面的强大无法掩盖其在交互式分析和流处理方面的缺憾。
在大数据发展中,开源大数据平台Hadoop占据至关重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三驾马车。
2018年,Cloudera和Hortonworks因为连连亏损,两大巨头公司宣布平等合并,Cloudera以股票方式收购Hortonworks。但合并后公司股价继续下跌。
2019年6月,MapR就预告公司营收遇到困难,正在寻求解困的措施。随后的8月6日,惠普企业HPE宣布收购MapR的资产,包括MapR的技术、知识产权、人工智能以及数据管理方面的专业经验。
Spark技术的代表企业是Databricks。Databricks公司是由加州大学伯克利分校负责开发流行的开源Apache Spark数据处理框架的团队创建的。该公司帮助大企业快速处理、整合和分析大量数据。它的统一分析平台旨在孤立的数据存储系统之间建立数字管道,并帮助工程师和数据科学家更好地沟通。
Databricks公司业务方向已经转移到“大数据分析和人工智能解决方案”。现在行业内更多的将其看成一家AI公司。
针对多模型数据处理,开源路线方面的举措是推出多模型数据库,当然这些数据库也是开源的。
ArangoDB是一个开源的、原生的多模型NoSQL数据库,同时支持Doc、Graph、K/V三种存储,它有适用于全部三种数据模型的统一内核和统一数据库查询语言—AQL (ArangoDB Query Language),非常适用于搭建高性能的应用和服务。
ArangoDB还允许在单个查询中混合使用三种数据模型。因此,用户可以在单次查询过程中混合使用多种数据模型,而无需在不同数据模型间相互“切换”,也不需要执行数据传输过程,并且这三种数据模型均支持水平扩展。
2018年初,ArangoDB完成1156万美元融资,深受投资人追捧。2020年初,ArangoDB 3.6 发布。
多模数据库ArangoDB的优势
不过ArangoDB的优势是一个内核、一个查询语言、支持三种数据模型。其缺点也是仅支持三种数据模型,应用受到了限制。
对于一些单一的典型场景,市场上出现的不同产品和知名的解决方案大都是开源系统,所以对多模型数据支持的产品很难放弃自身优势的开源项目,而是在原数据模型支持基础上的扩充,而更多的是新的开源项目。
另一条技术路线就是以星环科技为代表的自主开发。
中国用户需要处理的数据量远超过之前在其他国家的需求。同时中国用户在应用场景方面有着非常强的创新意识,需要处理的场景复杂度也超过了其他国家用户。
星环科技就是专注解决用户的这些难点,走出了一条独特的自主研发技术创新之路。星环的产品体系已经从最早的分析型数据库扩展至闪存加速分析型数据库、实时计算、全文检索数据库、图数据库、Bigtable数据库、交易数据库、基于容器技术的数据云等,从底层资源调度到上面的计算引擎,形成了一条有别于Hadoop或Spark、而具有星环特色的技术路线,实现了多个领域的技术突破。
Transwarp Data Hub(TDH)是星环科技推出的企业级大数据平台,经过7年的快速演进,不断发展成熟,在邮政、交通、金融、政府等行业获得了大量的部署实施经验,同时向新生的大数据技术领域进行的拓展和探索。
5月15日,星环科技推出一站式大数据平台TDH 7.0版本,主打一站式多模异构数据处理,打破了行业内普遍存在的不同数据库产品切换的不便利,通过一个平台处理多种数据模型,让用户无需维护多种数据库成为现实。
吕程告诉中国软件网记者,作为一个多模型的数据处理平台,TDH 7.0可以提供统一的数据操作/查询语言SQL、统一的数据计算引擎、统一的分布式存储管理系统、统一的资源管理框架,满足利用一个多模异构平台,处理多种数据的需求。
星环的一站式多模处理平台示意
同时,TDH 7.0版本一站式多模异构数据处理性能亮眼,彻底解决大数据发展的一大瓶颈。据介绍,TDH从上而下划分为五个层次:
最上层是SQL层,开发了统一的SQL引擎,兼容各种不同的SQL“方言”;
计算层,开发了统一的计算引擎,进行统一的计算任务优化和分发;
其下的存储模型层,TDH一个平台支持七种不同的存储模型,适用于不同的应用场景,包括图存储Graph Storage、文档存储Document Storage、全文检索 Full-text Search、键值存储 Key-Value Storage、行列混合存储 Row-Columnar Storage、时空地理存储 Sequential Geospatial Storage、非结构化对象存储 Unstructured Object Storage。
存储管理层,开发了统一的存储管理引擎,提供数据块分布管理、数据多副本一致性管理、文件服务管理等功能。
最底层资源调度层,开发了统一的资源调度框架,通过容器化编排,统一调度计算、存储、网络资源。
统一的数据处理平台几大的优势:
多模型的数据处理平台的核心是对外提供统一的SQL编程接口、统一的计算引擎,以及统一的综合式的存储管理系统和统一的销售框架。因此,星环TDH 7.0的优势体现在这几大特性的统一和融合上。
TDH 7.0统一的数据处理平台支持超过7种不同的数据模型,支持结构化的数据和非结构化数据,支持KeyValue介质存储、全行搜索、排索引、图存储、图数据库、存储文档,也能够存储时空数据。这是TDH 7.0的第一大优势。
星环科技第一家提供了一个能够横跨多种数据模型的统一的计算引擎。虽然有不少公司也在尝试提供一个标准的数据接口,但是由于底层是不同的数据库,没用统一的计算引擎,虽然有统一的SQL接口,但是很难把不同的接口静态的路由到功能数据库上。因此,需要一个动态的计算引擎来动态地进行接口的调度,进行执行计划的统一的管理。
同时在星环科技的TDH 7.0也提出了一个统一的分布式管理系统,是实现数据分布管理以及数据一致性的数据管理系统,比过往使用HTVS效率更高、一致性更强。
在同一个平台上可以将一份数据存储成多种模型,用户在应用发生变化时能够自行地采用最佳的仓储模型来响应查询需求,运行效率会更高。同时因为一个平台处理多种数据模型,整运维成本、管理成本都会降低。
孙元浩说,未来的数据平台都应该是多模型的,但是用户使用起来更应该是像使用一个数据库一样使用。
匿名的受访专家认为,星环的方案,不再沿用传统的数据汇聚方式,而是使用更为轻量化的模式,利用分布式的存储管理系统,达到逻辑上的统一存储,再其上构建统一的计算能力。这一变革,无疑对多模异构数据的使用带来更大的便捷性。
采用TDH 7.0 多模型数据处理平台的某个用户表示,应用常常需要对一份数据进行多种不同模型分析,如分析查询、模糊匹配查询、关系推理查询等。TDH可以针对不同需求采用多种最优存储模型,如分析查询采用行列混合存储,模糊匹配查询采用全文检索,关系推理查询采用图数据存储。多种模式的存储,可以使各场景下的查询分析性能都得到极大优化。
在传统混合模型中,不同模型数据间做关联分析,需要进行跨数据库的数据导入导出,十分复杂。而采用了统一的数据管理,一个简单的SQL语句就可以直接进行关联查询,如同操作同一个数据库一般,使应用开发变得十分便捷。
在传统混合模型中,不同模型需要运维不同数据库。特别当同一份数据存储于多数据库时,数据一致性成为极大挑战。此外,数据总体情况的运维,需要各个运维子系统汇总并二次开发,运维成本巨大。而采用了统一的数据管理,在产品底层服务中直接保障数据一致性,同时对多模型的数据进行整体运维,是天然的一体化系统。
03
大数据替代即将来临
“卡脖子”会成为过去?
多模型数据处理平台的进步只是大数据技术发展的一个缩影。
吕程认为,多模异构数据平台未来的发展方向之一是积极推动主要服务、组件、模块的标准化。由于数据相关技术异常复杂,技术日新月异,各类基础服务、组件、模块要做到面面俱到,是异常困难的。而通过建设一定的标准,设立一定的规范,让更多的企业参与其中,无论是开源社区,还是闭源厂商,都能贡献自己的力量,创造自己的价值。
第二,构建一个良性的生态。除了最基本的作用以外,平台还应当能支撑更多的上层应用,在不同行业、不同企业、不同业务中创造更高价值。这就对基础数据平台的生态提出了巨大的挑战,越来越多的应用,越来越多的厂商适配的接入,就会创造一个更加良性循环的生态,从而促进整个产品和平台的繁荣。
第三,坚持新技术探索。面对现在日益复杂场景,不能停留在解决的单点问题。在日益凸显的复杂场景面前,不同技术的组合是否能创造出新价值呢?是否需要新技术来解决复杂场景呢?这些地方是很值得深入研究和发展探索的,如现在讨论比较多的批流一体,又如检索和分析同时使用等。
开源路线与自主研发路线正在演绎另一场大数据领域的国产化技术替代。
近年来,大数据产业飞速发展,应用层和基础层软件不断进步,但是实施复杂、技术进步步伐迟滞的Hadoop却不断遭遇挑战,各种替代技术不断涌现。
因此,大数据领域因为开源技术的复杂性日益增加,用户采用商用系统或者云服务商的技术方案成为一大方向。
Hadoop技术上碰到了难以逾越的挑战。Hadoop是基于15年前的技术环境设计的,如今的硬件技术环境发生根本性变化,网络普及万兆,存储每秒钟能够做上百万次操作,当时的架构已经完全跟不上现在硬件的发展。
另一个原因,Hadoop软件是仿造谷歌的系统来构建的,最初的目标是用于互联网公司的日志处理和营销推广等场景。当这个技术应用到各行各业时,就发现它在功能缺失、一致性和可靠性、高性能并发等问题上的局限性,无法突破,甚至有分析机构说Hadoop已死。
以前因为有开源软件,大家常常有一种感觉,既然有免费的,就用免费的就好了。但是后面慢慢逐渐认识到这种模式的问题,想使用开源Hadoop,就需要大量专业技术人员,要知道Hadoop是个软件栈,里面有上百款的组件,如何建成大数据平台,并维护平台成为一大挑战。
很多云服务商会推出自己研发的产品。目前,大数据上云,很多云服务商会基于开源软件和自己研发的系统,为用户建立大数据平台,支持用户大数据应用开发与维护。目前,它正成为一大方向。
很多大数据专业企业坚持自主研发路线。星环科技CEO孙元浩表示,星环科技坚持大数据基础软件的完全自主研发,原创了一条完全自研的技术路线。
大数据领域另一个替换则是国产大数据基础软件产品在不同领域开始替换甲骨文、IBM等国外软件。国内众多大数据平台已经在众多行业开始替代包括甲骨文、IBM,甚至一些国外Hadoop供应商的产品。
记者获悉,近日中兴通讯签约国内大数据企业永洪科技,利用后者提供的拥有自主知识产权的一站式大数据平台与可视化分析方案,实现从企业管理到客户经营的精细化运营,提升企业运营效率,打造合作共赢的产业生态环境。
接受记者采访的永洪科技市场总监刘东旭说,国产化替代已经从软硬件国产化的“去IOE”(IBM、Oracle、EMC)延伸到顶层设计咨询国产化的“去SOA”(SAP、Oracle、Accenture),保证全方位的信息安全。大数据领域的国产化替代会快得多。
孙元浩表示,替代国外产品主要还是技术革命造成的,不光在中国发生,在美国创新型的大数据基础软件也开始替代传统企业的数据库等产品,面对日益增加的数据量,传统软件的处理性能已经无法满足用户需求,分布式技术带来的性能飞跃是客户进行替换的一个重要动力。在新的技术领域,星环科技走得会更快一点,替代成功的项目更多一点。
另外,国外的大数据软件在中国“水土不服”。因为国内的数据体量通常比国外大一到两个数量级,数据应用也更为复杂。1TB和100TB在数据分析是完全不同的两件事,而由于国外并没有这样的应用场景,所以国外的大数据软件在处理这类的问题时天生不足。国产软件在设计时就会充分的考虑这些情况。
帆软市场经理丁明浩告诉记者,大数据国产化替代最直接的效果是降低采购成本和运营维护成本,同时国内公司能定制化地为企业解决运营管理线上化进程中遇到的各种问题。
工业和信息化部新闻发言人、信息技术发展司司长谢少锋介绍,基础软硬件方面,将实施国家软件重大工程,集中力量解决关键软件的“卡脖子”问题,着力推动工业技术的软件化,加快推广软件定义网络的应用。
而大数据领域的替代,正在从软件、应用等不同领域开展,大数据领域的“卡脖子”就成为过去。