您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息
三六零分类信息网 > 吐鲁番分类信息网,免费分类信息发布

从Spark2.0版的推出,看开源大数据技术的商业化发展

2022/7/9 5:49:20发布75次查看
本文为天云大数据原创
hadoop商业版的发展方向 hadoop生态开源技术的成长已逐步朝企业级应用能力方向发展,兑现了他们当初的承诺。hadoop商业版的技术发展方向正在围绕着界面友好、架构灵活、操作易用等方面来发展,形成一个对hadoop技术管理统一完备的大数据平台,不再将关注点聚焦在开源技术底层的改造上,通俗点来讲底层技术应该交给社区去发展,商业版应该从商业化应用角度去考虑。开源社区就是一个孕育无穷的生命海洋 最近的开源社区非常的活跃,spark发布了2.0版,hive也发布了2.1.0版本,两个产品在新的功能中都提到了tpc-ds(tpc-ds是目前业界公认的评测大数据分析决策系统的重要参考标准之一),其中spark2.0在我们的评测中100%兼容tpc-ds的99个sql;hive2.1.0则直接把tpc-ds的测试工具包装到其发行版中,这让我们进一步看到开源力量的强大性,任何对于源码上的修改都会被这种开源产品不断更新的潮水所淹没,甚至造成很多不确定性,导致产品和项目的流产。这就对架构在大数据之上的商业产品提出了更高的挑战,如何能够持续的跟进开源社区的变革,如何能够在开源社区的变革之后做最小代价的升级呢? 开源世界服务于企业 我们不是要改变开源世界,而是要更好的让开源世界服务于企业,由此天云大数据中间件的概念悠然而生。要做到中间件必须要实现: a 开源的新特性要能够不断在产品中所体现; b 开源的特性要以更为友好的方式提供给企业用户; 天云大数据中间件紧密的跟踪开源社区的新特性,并在开源的基础上做了非侵入式的封装,友好的提供给企业用户。 在开源大数据场景下通常都是olap,是对大量数据的批量处理和分析,但对于oltp的处理场景的支持确相对较弱,在这方面开源社区也有相应的产品,如“phoenix”;在其官网上也可以看到它的描述: 但是对于实时在线系统20秒钟的响应时间还是太长了,是不是真的要点击一个按钮之后喝喝茶,然后结果才出来?我想这个只是我们脑海里幻想中非常惬意的场景,实际上对查询的人等待是一种煎熬。针对于oltp的场景天云提供了自己的中间件产品bdtq,对于tb级的数据查询响应毫秒级,并且它的适用场景广泛,像下列场景皆可适用:需要从海量的历史、实时数据中快速获取有用信息;数据量不断增大,需要高速的在线读写,更需要count/group by等复杂应用;用户使用频率非常高,重要程度接近核心应用,对数据丢失以及服务中断是零容忍;帮助开发者简化使用搜索服务的复杂度,降低开发成本,加快产品迭代速度。 如下是bdtq应用的某真实案例: 天云大数据bdtq是一款满足一定事务能力的高性能查询引擎,能够快读低延迟的访问数据;能够保证数据的一致性;针对开发人员可简化使用的复杂度,降低开发成本;针对olap工作负载,则是种能够对数据对象中大部分数据进行批处理的处理引擎。 bdtq这款的商业版产品,不只是具有一种技术框架的能力单一性(如hbase),而是与hadoop生态圈紧密结合,有效的整合hbase与solr,通过solr实现hbase二级索引,实现了强大的一致性支持、线性扩展能力、达到读写严格一致,并且支持hbase表的mapreduce作业,同时实现高并发、事务支持、模糊查询等多方面综合能力。 系统架构说明 • hdfs集群提供安全性,以及服务于海量数据的能力,并具有横向可扩展性。 • 数据库采用分布式数据库,提供对海量数据的高效插入和读取的支持。 • 数据检索是由solr提供索引服务,利用solr提供的交集、联集、排除、通配符、范围、分页、排序、group 的特性,提供个性化搜索服务,来作为分布式数据库的一个有效补充。在保证存储数据量的情况下,又能保证数据的检索速度。 • 通过bdtq读写接口层给存储索引层发送访问数据的指令,控制对数据的读写操作,并将结果返回给应用。 • 通过bdtq存储索引层对数据索引进行操作,提供一次性创建索引、增量创建索引等索引方式,有效保障索引质量和速度。 •通过bdtq事务控制层保持分布式系统数据事务一致性,对cap( consistent 、 available 、 partition tolerant )的支持。 技术时代的发展=开源+商业 开源技术虽然在技术创新以及技术能力上具有得天独厚的优势,但由于其本身没有商业性的驱动,因此为企业所用会有很高的技术门槛,完全闭源的技术以己之力则又无法实现所有要求,会逐步被市场所孤立,两个极端无论走向哪边都不是很好的方式,只有通过开源+商业的形态才是一个平衡点,技术是可以分享的,但服务却是私有的,只有将开源以商业化服务的方式提供给用户,这样才能更好的推动技术时代发展。天云大数据 天云大数据是专注于大数据分布式计算平台软件、ai算法的国家高新科技企业。孵化并成长于北京云基地的天云大数据是北京祥云工程代表企业,作为秘书长或理事成员参与了中国云产业联盟,中关村大数据产业联盟,国家统计局大数据战略合作企业,中关村-滨海大数据产业技术创新战略联盟,上海大数据产业技术创新战略联盟的筹建。被硅谷gigaom大数据先锋评论冠以改变中国云计算最有影响力的企业;帮助某全国性股份制商业银行获得了国际化组织idc的“2014年度中国金融行业最佳创新项目”大奖;2016年荣选由毕马威评选的中国领先金融科技公司50强企业。
吐鲁番分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录