- 第5节 阿里云ODPS1:降低应用门槛,人人都可以成为BAT
-
2014年7月8日,阿里云ODPS团队在一封题为“人人都可以成为BAT(百度、阿里巴巴、腾讯)”的公开信里宣布:阿里云计算最重要的一款产品—ODPS,正式开放商用。以下是公开信全文:
阿里云计算最重要的一款产品—ODPS,正式开放商用。从今天起,花个几百块钱,人人都能来玩大数据。
简单来说,ODPS(Open Data Processing Service)是一项Web服务,大家不用花大钱建数据中心,就能分析海量数据。我们测过,100PB的数据任务可在6小时内跑完。这个数据量相当于1亿部高清电影。
工业革命后的200多年里,人类对物理资源的利用登峰造极。第一次信息革命过去70年了,我们对数据资源的利用却只是刚开了头。Google、Facebook、阿里巴巴等先行一步,摸到了大数据的冰山一角。然而,人类拥有的大部分数据,还无法产生价值。
如何让数据产生价值?先得拥有大规模处理能力,然后才是挖掘、算法和分析。传统的做法是这样的:租个机房,买一堆昂贵的设备搭建数据仓库,再请一帮技术人员来维护运转。一旦触发bug,或者当数据总量超过100TB时,你的工程师们可能会被这些麻烦搞崩溃。
Hadoop开源系统很伟大,大大降低了成本。阿里是中国玩Hadoop玩得最好的几家公司之一,Hadoop支撑了淘宝、支付宝早期业务的快速发展。不过,自建
1 ODPS,开放数据处理服务(Open Data Processing Service)是“飞天”平台上的大规模分布式数据处理服务,它以RESTfulAPI 的形式支持基于描述性查询语言SQL 的数据处理,并提供MapReduce的并行计算框架。一个像样的Hadoop集群,得百万元起步资金,专业的Hadoop人才更是稀缺。门槛还是太高。
有没有更好的方案?从2009年年初,写下“飞天”第一行代码时,我们就坚信这一方案存在。我们用了5年时间,写下250万行代码,终于在自主研发的“飞天”平台上成功搭建ODPS。我们把数据海洋里的“水”灌进ODPS,设定好一套参数,拧开“水龙头”,出来的就是“鲜榨果汁”!
100年前,福特推出了全球第一条流水生产线。一个个零部件扔进流水线,90分钟后,一辆崭新的汽车摆在面前。不知道福特工程师们当时是怎样的心情。当我们拧开ODPS的“水龙头”时,感受大抵如此。这个比喻还不完全恰当,福特生产线只为福特服务,一条生产线也只能生产一种车型。而ODPS任何人都可以来用,“水龙头”里流出来的“果汁”,随着原始数据和算法的改变可以千变万化。
我们来看看ODPS都可以榨哪些“果汁”吧。
ODPS之前一直在阿里内部试用。第一只“小白鼠”是阿里小贷。你见过敢贷1块钱给你的银行吗?如今,超过36万人从阿里小贷借款,最小贷款额1块钱,并实现3分钟申请、1秒放款、0人工干预。要做到这一点,阿里小贷每天得处理30PB数据,包括店铺等级、收藏、评价等800亿个信息项,运算100多个数据模型,甚至还得测评小企业主对假设情景的掩饰和撒谎程度。另外,阿里小贷每笔贷款成本3毛钱。什么?你问普通银行的贷款成本?先乘个1000再说。
华大基因,是2003年国内抗SARS研究的主力军。去年,我们邀请华大在ODPS上试了下基因测序,耗时不到传统方式的十分之一。2010年,欧洲E.coli污染危机,测序和组装耗时两天以上。如果用ODPS,只要几小时甚至几十分钟。一旦未来真有生物危机爆发,人类可以赢得宝贵的破译时间。
这么高精尖的领域你可能觉得太遥远。说说当前最火的世界杯吧。Google拿英国体育数据提供商Opta Sports的数据,在BigQuery上跑了跑,成功预测了本届世界杯8强名单。ODPS是一款跟Google BigQuery类似的产品,如果哪位有数据,也可以来算一算接下来的比赛。
公共领域的数据挖掘,可以用ODPS吗?当然!结合中国气象局的精准预报数据,高德地图不久后就能告诉你:“前方道路已严重积水,您的车辆驶入可能会遭水淹,建议绕道行驶。”如今,每盒药品上都有一张电子身份证,从生产、流通、储存、配送、销售到使用,全过程的数据都跑在ODPS上。一旦发现问题药品,监管部门可以立即采取措施。我们期待未来每一桶油、每一道菜的数据都跑在ODPS上,食品安全问题需要通过创新的方式来解决。
生产电饭煲的工厂,应该跟ODPS没什么关系吧?别说,未来还真可能有关系。手机、电视、手表、汽车、空调……这些工业时代的经典产品,现在都变成了互联网终端。谁说电饭煲、鞋子、衣服不会呢?如果未来的制造工厂都变成互联网公司,数据将成为最基本的生产要素。你即使不懂算法、不会建模、不会分析,也没有关系,那些有数据分析能力的公司会帮你做。
眼下,阿里巴巴的各项数据业务都在用ODPS“榨果汁”,比如,淘宝在算你最中意哪个淘女郎,天猫在算你什么时候想吃车厘子,菜鸟在算卡车走哪条路可能会被雷劈,支付宝在算你何时会从屌丝变成高富帅。如果大家也想“榨果汁”,欢迎来试。ODPS的“水龙头”就装在阿里云官网aliyun.com上,一个月内免费。
The World Is Flat. 从某种意义上而言,人人都可以成为BAT,哪怕你的公司只有几号人。我们希望,在技术这件事情上,大家变得更加平等!
阿里云ODPS团队
2014年7月8日
ODPS是基于阿里巴巴自主知识产权的云计算平台构建的数据存储与分析系统,以云计算服务的方式实现海量数据的存储、分享与离线处理,通过控制集权来控制包括几千台服务器大集群的管理而实现规模扩展,是大规模分布式计算平台“飞天”的核心组成部分。
云计算与大数据之间的关系,就如同一枚硬币的正反两面一样,二者之间的结合能够为用户提供云服务,使传统的硬件与软件相结合的IT模式发生翻天覆地的变化。
2014年1月,阿里云ODPS开始公测;2014年3月开始的阿里巴巴大数据竞赛中,阿里首次将ODPS和阿里的天池平台开放给参赛的大学生;2014年7月,阿里云ODSP正式开放商用。阿里云将ODPS从内部使用的工具变成面向社会开放的大数据平台,降低了大数据在资金、人才和应用方面的门槛。此举如同其在公开信中所说的一样:“在技术这件事情上,大家变得更加平等!”
◆大数据平台即开即用
阿里云ODPS如同流水线一般,使得人们对IT资源的取用更加自由,能够得到想要的各类数据分析结果。而且,这条流水线除使用方便外,速度也相当惊人,它能够在6小时内处理100PB数据。如果你觉得这种描述过于抽象的话,我们可以进行一下换算:100PB 大约相当于1亿部高清电影。目前,在全球范围内能够掌握这种技术的公司屈指可数。
过去,如果一个公司需要进行大数据方面的处理,不仅需要花费大量资金建立数据中心,还需要聘请专业的技术人员,即便如此,这种方式能够处理的数据总量也是有界限的。而Apache基金会开发的Hadoop,虽然更加可靠、高效、可伸缩,但是建立一个Hadoop集群仍然离不开高昂的花费和专业的技术人员。
阿里云ODPS,不仅让企业和个人能够以更低的成本使用大数据平台和工具,还大大降低了大数据的应用门槛。目前,阿里云ODPS采用按使用量收费的模式,0.3元1GB,即开即用,一个月内免费。也就是说,一般用户平均每月只需花费数百元就可以享受到阿里云ODPS服务。
阿里云ODPS在对外商用之前,是阿里集团自用的一个大数据平台,其第一只“小白鼠”是阿里小贷。在ODPS平台的协助下,目前阿里小贷已经为超过36万的人提供了借款,最小贷款额1块钱,并能够实现3分钟申请、1秒放款、0人工干预。
而在这个过程中,ODPS每天需要处理30PB数据,包括店铺等级、收藏、评价等800亿个信息项,涉及100多个数据模型的运算,甚至还得测评小企业主对假设情景的掩饰和撒谎程度……
在阿里小贷试用成功后,淘宝、支付宝等阿里巴巴最核心的数据业务也纷纷开始尝试ODPS。现在,阿里云ODPS已经更加成熟和完善,除阿里集团外,华大基因以及一些公共领域也已经在ODPS平台上进行测试。未来,也许电饭煲等制造企业都需要ODPS的一臂之力了。
◆“云”与大数据相辅相成
为了寻找数据处理和应用的更佳解决方案,2009年年初开始,阿里云ODPS的团队便开始了探索。阿里的工程师们经过5年的磨合,贡献了250万行代码后,终于在自主研发的“飞天”平台上成功搭建了ODPS。“飞天”是阿里云计算2009年研发的一款分布式系统软件,ODSP开始作为“飞天”平台的一个重要组成模块,开始主要被用于阿里集团内部的海量结构化数据的处理和分析。
随着技术不断成熟和发展,目前,阿里云ODPS的优势已经愈来愈明显:
(1)高速海量运算唾手可得
以往的数据处理,尽管需耗费大量的资金和人才成本,但在数据的处理过程中,当数据持续增加时,依然会不可避免地需要面对存储规模、计算延迟等方面的问题。而阿里云ODPS可以根据用户输入的数据自动扩展集群的存储和计算能力,使数据的处理和分析更为顺畅,让数据的价值得到最大限度的发挥。
(2)ODPS服务即开即用
与以往的数据处理服务相比,阿里云ODPS的门槛更低,需要的资金和技术成本也更低,用户使用ODPS时,不用额外担心集群配置等问题,通过比较简单的操作,便能够得到数据的处理和分析结果。
(3)数据存储安全有保障
为了保证用户数据的安全性,阿里云ODPS采用了三重备份、读写请求鉴权、应用沙箱、系统沙箱等不同层次的数据存储和访问安全机制,最大限度地保证了用户的数据不会丢失、泄露或被他人窃取。
(4)实现多用户协作
为了便于同一企业的多名数据分析师协同工作,阿里云ODPS设置了不同的数据访问策略。在其访问策略中,每位用户只能根据个人被授予的权限访问数据,在保证效率的前提下尽可能地保障数据的安全。
(5)按使用量付费
阿里云ODPS采用按使用量收费的模式,比以往的数据处理服务,更能够有效地降低数据使用成本。
◆ODSP需要一个生态系统
虽然我们已经进入了大数据时代,但国内的大数据服务还非常欠缺。然而,不管是企业还是个人,都有数据处理的需要,所以,大数据公共服务是大数据发展历程中的一个里程碑。目前,阿里云在北京、杭州、青岛、香港等多地都拥有数据中心节点,能够为阿里的大数据公共服务提供有力支撑。
阿里云ODPS虽然尽可能地降低了传统大数据处理的资金和人才门槛,但是ODPS并不是每个人都可以使用的。一方面,用户需要对数据具有一定的敏感度,具备基本的数据处理和分析能力,并具备业务洞察力;另一方面,ODPS是一个计算平台,需要一定的使用成本,而且需要不同的合作伙伴进来提供不同的工具,将其效果慢慢叠加。所以,把大数据变得“可用”和“平民化”是阿里云ODPS眼下迫切需要解决的问题。
目前,阿里云ODPS不仅为阿里集团的大部分数据业务提供服务,而且投入商用后,还为第三方软件服务商和品牌商提供大数据计算、挖掘、存储等云环境开发服务。但是,要建设一个具有一定规模的生态体系,启动整个大数据生态圈还要花费一段时间,需要吸引更多的合作伙伴。
由于阿里云ODPS的定位是云计算基础数据服务提供商,其拥有的是平台服务和大数据计算服务,而不拥有数据,所以,建立一个由数据生产者、消费者、加工者和服务应用供应商组成的整个生态系统,或许才是阿里云长期以来的终极战略目标。
与传统的IT厂商相比,阿里云打造大数据生态圈的优势主要体现在以下几个方面:
(1)传统厂商提供的是虚拟化加SAAS的服务,阿里云单纯提供服务,而且其服务是弹性的、扩容的、价格更低。世界范围内,能够提供这样服务的只有亚马逊、阿里巴巴和谷歌。
(2)在互联网技术革命的推动下,如今互联网的架构和软件搭建的方式更加高效、实用,阿里云具有明显的时代背景优势。
(3)虽然阿里巴巴的硬件并不如IDC的运营商和电信运营商那样强大,但是阿里巴巴提高了技术门槛,将上千乃至上万台机器协同联结在了一起。
◆有没有免费的可能?
虽然阿里云ODPS已经大大降低了数据处理的成本,但如同杀毒软件发展到一定阶段后开启了免费的大门一样,人们对云计算也有同样的期待。
事实上,从2013年开始,云计算服务已经开始了固定的降价。这主要是因为随着市场的发展,具有了规模效应后,硬件的成本便降低了,而软件变得更为高效。
阿里巴巴方面,阿里云ODPS为新用户提供了一定免费的额度,但目前并不能做到整体免费,因为其服务的提供会涉及上百万台或者几百万台的机器,所以并不具有免费的条件。但是,从垂直方向来看,如果通过其他服务来收费的话,云计算可以作为增值服务免费送给客户。
大数据时代的到来,使阿里云ODPS应运而生。虽然最初在技术的突破方面遭遇了重重难关,但ODPS最终还是成功地投入了商用,这不仅是阿里集团的重要战略部署,更对整个大数据时代具有里程碑式的意义。
不过,接下来,阿里云ODPS面对的挑战也依然不少。首当其冲的便是对非结构数据的支持。ODPS更擅长处理结构化数据或半结构化数据,不能处理非结构化数据,但目前需要处理的数据主要是交易数据和用户行为数据,大多数都是结构化、半结构化的数据,所以ODPS需要在非结构化数据的处理方面做更深层次的探索。另外,ODPS虽然已经可以把各个不同的计算模型放到“飞天”平台上,但具体到实践当中,还有很多的问题需要思考和解决。
- 最新书评 查看所有书评
-
- 发表书评 查看所有书评
-