1. 首页
  2. 大数据

【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活

【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活

红象云腾(RedHadoop)公司创始人童小军认为创业是一个从0到1的过程。每个创业者都只能靠自己去经历从0到1的转变,才有资格通过和别人合作完成1到100,即使失败我们还能回归到1从新出发。期望通过别人的1来完成的100往往多是空中楼阁。这个1有很多了,比如养活自己、独立的品牌产品等。

从2012年8月出来创业的时候他通过培训来养家,有大量时间来做自己想做的事情又能解决生存问题。坚持了一年左右积累客户和一定的品牌资源。“我比较幸运,很多客户都是我之前听过我的Hadoop课程,研发的产品和服务率先让客户应用。创业两年多,将创业比作下海,最关键的就是自己能养活自己”,红象云腾创始人童小军表示。

据了解,红象云腾(RedHadoop)公司八月底发布了两个产品,基于Linux平台的RedHadoop Enterprise CRH3以及基于Windows平台的 RedHadoop CRH Studio。本文来自对该公司创始人童小军的采访实录。

首先请你介绍一下自己、公司及技术团队?

童小军:大家好,我是童小军,我是红象云腾创始人,我们致力于将大数据(Hadoop、Spark、Storm等)分布式技术带入更多中国企业,开展有大数据相关的基础软件平台、应用、解决方案、大数据培训等业务。公司在业界有广泛的渠道和合作渠道,服务客户有石油、电力、银行、保险、互联网、游戏等拥有大数据的企业,客户主要分布于北京、上海、广州、深圳等地区。

目前公司团队有在IT行业工作超过十年以上的软件研发工程师、销售老兵,有图像处理算法背景的工程师、也有在知名发型版本软件公司负责Hadoop培训业务的讲师,还有一批朝气蓬勃的年轻小伙程序员,大量支持我们的兼职销售朋友,帮助我们带来各种市场机会。

【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活

RedHadoop的技术团队

能否和大家分享一下你们最新产品的战略定位、技术架构以及用到的关键技术?

童小军:RedHadoop Enterprise CRH3:战略定位是一体化大数据平台,以此为基础软件平台层,我们持续开发应用层软件。Hadoop平台已经成为大数据分析的水和空气,重要且开源免费,红象云腾公司的战略是夯实底层软件产品的稳定性,重点在应用软件的开发,已开发了RedDisk 网盘、SeasBase非结构化数据库等应用软件。 最新的CRH3版本软件中整合了三个计算框架:MapReduce批处理框架、Spark 内存计算框架、Storm 流计算框架。囊获了主流计算模型,集成了Mahout、R引擎等数据挖掘组件,集成ETL,调度系统等管理系统。

【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活

CRH studio(windows版):RedHadoop CRH Studio 是一键部署Windows Hadoop 开发环境的软件包。 CRH Studio软件包集成了 Hadoop/Hive 等基础组件,通过Windows界面快速启动和配置。提供 HDFS 工具等方面用户导入数据,集成Eclipse plug-in 快速开发 MapReduce应用程序,现在我们已经实现了基于 Windows 平台的图像检索功能等应用软件(SeasBase 非结构化数据库),可以快速将视频运动目标提取并转化成可以检索的元素,比如运动物体大小,颜色等,集成基础的人脸识别功能,未来希望能集成 图像识别能力,现在开放出基础软件,图像处理应用软件没有开放。视频计算的需求未来会越到越密集,新闻上经常出现的刑事案件,都需要通过大数据技术来快速 定位,缩短侦破案件排查,获得宝贵营救时间。

【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活

刚才你提到CRH,这让我想到中国的高铁,这二者有什么联系?近几年来大数据云计算都很火,你们CRH3区别与同类产品,有哪些特点?你们目前只做大数据(Hadoop)吗?

童小军:是的,其实我们的CRH名称是China RedHadoop的缩写,我经常做培训,讲述hadoop、HDFS、MapReduce等概念,很难深刻理解,想到了类比高铁的基本原理。传统铁路是集中动力火车头,高铁是动力分布式列车(Multiple Units,MU),每节车厢都有动力,是城市间纽带连接的重要交通工具。相比原来计算机的集中式架构(IOE),现在分布式处理架构Hadoop和动车原理有神似之处。Hadoop也是每个节点有存储又有计算,提供充沛动力和功能模块带动客户的大数据应用环境。而不是之前一个小型机拖一个存储机柜。我坚信Hadoop会像高铁改变我们生活一样改变数据的存储和处理方式。

【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活

RedHadoop Enterprise CRH3主要有一下几个特点:

  1. 简易的安装过程。CRH3分布式集群的安装部署非常简单,我们提供全程化的安装部署界面,管理员或程序人员不需要修改任何hadoop配置文件,只需简单地前期准备工作即可。安装界面极大的简化了集群安装的复杂度,降低了误操作录的几率,提高了成功的百分比。

  2. 快速数据导入导出。Hadoop目前仍属于新技术架构,传统的数据处理模式向hadoop做迁移势必涉及数据迁移。RedHadoop Enterprise CRH3提供了快速的数据迁移功能,无论是从传统的数据库向hadoop平台迁移还是在hadoop平台向传统的关系型数据库迁移CRH3都能够以并行的方式快速的完成数据同步。

  3. 智能化集群监控平台。CRH3提供智能、专业的集群资源监控管理平台,这个平台将集群资源图形化,以简单易懂的形式将集群的总体状况展现给管理人员。

  4. 集成了更过更全面的计算框架。CRH3集成内存计算(spark)、流式计算(storm)等业界主流的计算框架。内存计算spark能够极大的提高部分业务的处理速度。CRH3同时集成了sparkR,这意味着R语言程序也可以运行在CRH3的spark上。

另外,云计算作为基础架构已经广泛应用,比如阿里巴巴的ODPS,腾讯云平台,百度最新工具(Query Engine)等。红象云(RedCloud)也在开发中,通过集成OpenStack+Hadoop平台对外提供快速构建Hadoop的基础服务,很快会和大家见面。

您是怎样看待开源Hadoop与商业版Hadoop的?你们的RedHadoop Enterprise CRH3 会考虑开源吗?

童小军:我认为既然选择了做如Hadoop这样的开源软件,就得抱着回馈开源的思想去研发。而且不能急于求成,我们开发的组件和 更新也会回馈到Apache社区,从开源中来,融化到开源中去。只有这样,产品和团队才能焕发活力。现在我们人力有限,开源贡献较少。长远角度看,做基础 软件就像基础科学,很多时候我们是传道者,贡献一点算一点吧。

其次Hadoop已经是大数据的基本标准,通过开源就像大数据生存的水和空气一样重要、免费。Hadoop和大数据事业驱动力首先是兴趣和热爱,Hadoop大数据生意的本质是服务。水是免费的,依然有矿泉水,桶装水的需求。Hadoop大数据基础平台之上的应用软件层,就像手机(Android)操作系统那样还有很大的扩展空间,本质是开源和免费的,通过增值产品和服务实现公司盈利。

就目前来讲很难以公司有限的人力去开发太多基础产品,所以在基础软件部分我们更多的是保证基础软件的稳定和易用。我们开放有 RedHadoop Windows这个产品线。 同时我们提供基于RedHadoop的培训和认证服务。

能和我们分享一下你们的一体化软硬件产品吗?可不可以给我们具体介绍一下它的CPU计算能力、内存资源以及存储能力?

童小军:基于经验、结合几家互联网公司部署节点,红象云腾配置设计了RedHadoop BigDataCluster一体机产品,提供一整套软硬件一体机环境。默认三个数据节点,提供3*12个核心CPU计算能力,64*3G内存资源,108TB的存储能力,通过高速网络连接,系统同时还提供Linux操作系 统,RedHadoop Enterprise CRH3软件,并导入上千万图片和一亿多非结构化网页数据。软硬件一体化的设计,让用户购买开箱即用的效果。不断优化效果方便用户从 Oracle,SQLserver等系统导出数据到RedHadoop CRH3中。

产品目前的应用场景有哪些,有无一些重量级的客户?

童小军:我们主要客户主要需求特征是:

以为大数据生产环境典型需求:

海量:数据量在TB到PB级别用户,用户群体都过亿、历史数据约万亿条,各省、各功能系统的历史二级数据存储结构,有海量数据集中、统一运营的需求。—这正是Hadoop大数据体系平台的强项,可以海量、高速、分布式、并行、廉价硬件集群的处理海量数据集中地问题。

高速:平均每小时产生百亿级数据,需要在分钟级别同步,数据在10分钟内要求可处理、可显示、可统计等。加上各种流程采集设备 和实时的采集时间,都要求具备高速的收集加载数据、高速存储、高速处理的需求。—– Hadoop的mapreduce+Spark+Storm等计算框架,能够把海量任务并行、分性质的加载、处理、再合并,可以用低廉的PC服务器集群架构,满足高速批量和流处理的需求。

高效:面对终端用户迅速变化、复杂的需求,要求企业必须提供高质量的BI平台、数据仓库系统、统一管理的系统日志、云平台 等可以二次开发的各种复杂平台。—–Hadoop大数据体系平台提供了高级数据采集、数据清洗ETL、数据分析,最终是要产生智能化数据,提供洞见,更好 的满足用户的需求。这是大数据处理平台能迅猛发展的原因所在。

现在主要客户的需求各异,一般都需要结合Hadoop给各行各业去做对应的定制开发,现在需求第一梯队来自电信行业,第二梯队来自金融 电力等行业。我们总结了各行各业的案例场景,可以到我们官方网站查阅。

你们的稳定性怎么样?目前客户关心最多的问题是什么?有什么针对的解决措施?

童小军:现在客户最关心的还是稳定性问题,Hadoop系统承载了存储和计算等核心职能,好比一个软件系统的核心发动机。因为Hadoop系统组件繁多,安装配置和维护都有一定难度,开源组件彼此有一定兼容性问题,同时服务有彼此依赖关系,往往一个底层问题爆发出来会影响整个系统,对应维护管理需要简化工作。

我们开发的CRH3产品通过一体化软件包的方式解决组件安装配置等问题。通过自建集群做大规模的软件压力全自动化测试。在运维管理方面提供完整的监控管理界面。

通过CRH3 Studio 来简化在Windows平台上的Hadoop部署安装难度。未来基于Windows平台 CRH3 Server 版本会简化Windows平台上的Hadoop配置,集群管理等问题。

打造这款产品一定遇到不少的挑战吧,你们如何处理和解决?

童小军:Hadoop基础软件产品的开发过程中需要大量基础测试,如何能模拟几百个节点并长期运行是一个难题,我们已经在公司内网搭建了一个生产环境,并导入10TB级别数据进行分析和处理,通过运行大量基础测试测试软件问题。

同时客户环境和需求根据不同行业特性会有较大差异。需要我们长期深入各行业内部去深度定制。

能否总结一下创业的一些体会?相应RedHadoop产品的未来有什么规划?

童小军:创业是一个从0到1的过程。每个创业者都只能靠自己去经历从0到1的转变,才有资格通过和别人合作完成1到100,即使失败我们还能回归到1从新出发。期望通过别人的1来完成的100往往多是空中楼阁。这个1有很多了,比如自己造血、独立的品牌产品等。

Hadoop可以分成基础软件、应用软件、服务租用、培训服务等服务模式。在我看来Hadoop生态圈还是缺乏重量级应用程序,如何能将各行各业的应用迁移到Hadoop中,丰富整个大数据的处理和分析应用能力会是我们下一步的重点。

原文始发于微信公众号(PPV课数据科学社区):【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/29001

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息