gis
gis
管理员
管理员
  • 注册日期2003-07-16
  • 发帖数15945
  • QQ554730525
  • 铜币25337枚
  • 威望15352点
  • 贡献值0点
  • 银元0个
  • GIS帝国居民
  • 帝国沙发管家
  • GIS帝国明星
  • GIS帝国铁杆
阅读:1146回复:0

Hadoop之父与英特尔研究院院长分享大数据心得

楼主#
更多 发布于:2015-05-07 20:34
 “数据铸就价值,激情源于碰撞”来自英特尔中国研究院院长吴甘沙与Hadoop之父Doug Cutting在12月11日分享了大数据的一系列心得体会。
首先进行分享的是英特尔中国研究院院长吴甘沙先生。


“大数据不是一个人在战斗!”这是吴院长分享的开始。大数据有没有摩尔定律?指数过滤的滚滚铁轮下,会如何发展?更多精彩内容,不要走开,道长马上更新~


“大家可以看到这条曲线,前面经过长时间的缓慢增长,一旦过了临界点以后,大家可以看到爆发式的增长,如果在这么一个时间点T,它是X的话,下
一个时间点就是X的平方,如果X是一个大数的话,这样一个指数规律使得在任何一个周期里面,它的新的值将远远把前一个周期的值抛在后面。”
"大家经常听说在我们IT这个产业有这样一种指数的规律,而这样一种规律如果应用到传统的产业来说是不得了的事情。比尔盖茨曾经有一个比喻,如果汽车产业像IT产业这么发展的话,到现在我们一辆汽车是25美金,一加仑汽油能够跑一千英里,这就是指数带来的威力。"


“这张泛黄的纸片来自英特尔的创始人之一摩尔曾经写就的这么一个规律,在这个规律下面,每18个月晶体管数会翻番,带来一系列指数式的连锁反应。”
“我们的处理器性能会翻番,内存的容量会翻番,成本折半,而功耗也是折半,而且这样一种指数的效应同样影响了IT的其他领域,比如说以氧化铁为
主要技术的存储,每18个月翻番,成本减半,带宽甚至是每8个月能够翻番,甚至是我们数字影像的芯片每美元的像素数也是每18个月翻番,所有的聚合效应放
在一起就带来数据的摩尔定律,带来数据的极大增长。”
"大数据要说人话,它要提取人能够理解的价值,怎么能够让数据的工具跟我们的人,跟数据科学家,跟领域专家,跟我们的终端用户天人合一,降低数据分析的门槛,这又是一个挑战。"
"基于这些挑战,英特尔推出了大数据的分析框架,在最底层是基础设施,计算存储互联成为软件可定义,我们把它做成开放式、模块化的这些标准的模块,使得我们行业能够降低门槛,更多的创新者能够进来。"


上面一层是数据平台,我们跟Cloudera一起推动基于Apache
Hadoop开放、可信的数据处理平台,推动整个生态基础创新,上面是分析应用,我们希望能够把高级的分析功能平民化,使得它能够迈入主流的应用,使得它
能够实现规模的经济。最上面是解决方案,我们跟生态系统伙伴一起构建示范性的解决方案,把它变成可扩展的参考架构,使得在示范的领域成功能够被复制到每一
个行业、每一个企业上面去。
同时英特尔的产品部门和研究院一起跟生态系统的伙伴进行合作的研发,这是我们传统的一个研发布局。但是针对大数据的话,我们认为这样一条时间线未必合理。


大家可以想像,从现在往前推五年的话,“大数据”这个名词还没有火起来,在这样高度变化,不可预测的环境里面,我们把这个研发周期进一步的缩短,我们跟大学的合作研究也希望尽快的能够把这个技术推向市场。
在我们开放式的协作创新框架下,我们也加入数据的安全流通以及定价的这样一种研究。这就是我们一个研究平台,我们把它叫做“数据咖啡馆”,正如
咖啡馆是让不同领域的人聚在一起,让他们的思想进行碰撞,产生新的想法,我们的数据咖啡馆就是希望能够让不同领域、不同公司的数据能够凑在一起产生新的价
值。
比如说两个电商,他们对于客户的画像是非常片面的,如果我们能够把他们的数据在数据咖啡馆里进行融合,他们能够获得对客户完整的刻画,这里面很重要的一点是叫做'相逢但不相识'。


这两家电商愿意把数据融合,但是不愿意对方能够看到自己的数据,如何能够在不相识的这样一种前提下让他们相逢,让他们能够做数据的分析,这一定程度上解决了刚才讲到的数据隐私安全的问题。


就在昨天,Cloudera中国也成立了,这意味着我们跟Cloudera的合作可以从世界范围来到中国。
我们希望能够携手一起去为我们中国的用户提供满足他们需求的大数据的技术和解决方案。我们也期待能够一起为推动大数据的黄金时代在中国发生尽绵薄之力。
接过吴院长话筒的是Cloudera 公司副总裁苗凯翔先生。


Cloudera来中国了! Cloudera2008年成立,是由四个非常重要的互联网公司和搞数据公司,到现在有六年时间。
虽然公司人数只有800多人,但它在全球有1200个合作伙伴,由于它的技术领先地位,有1200个合作伙伴,已经带头形成全球最大的大数据的生态链
每天,
美国70%智能手机的数据后端处理都从Cloudera平台有一定的处理,每天都有数百亿的事件在后端处理,对美国经济也好、商业也好,还是很重要的一个
公司。不光是产品的领先,从服务来讲、培训来讲也是非常领先的,在全球已经培训了很多的Hadoop专家,都成为Hadoop方面很有能力的人。


中国是一个很天然的大数据环境,人口众多。因为这个,它的终端也好、网络数据也好、交易数据也好,都是非常多的。 因为大数据不光是技术创新,也是应用创新的环节,在中国搞大数据前景巨大。
大数据的概念在中国虽然已经不陌生,但是它的部署和应用状态,真正能应用起来,可能要比美国滞后两年的时间。其中原因之一就是在中国本土还没有
一个公司能够把大数据去普及,真正架起来和跑起来,应用案例能够真正搞清楚。中国对于Cloudera来讲是非常重要的一个环境,我们要帮助中国在大数据
上面去发展,要借助于Cloudera在全球,特别是在美国的应用案例,一些技术拿过来帮助中国的企业在这个领域去发展。
Cloudera在解决方案上,在软件上,在应用场景上是最领先的,而英特尔在全球它的服务器的占有率是90%多,这样大数据底层架构和英特尔一起能够合力,帮助中国的产业去发展。
我们是今年3月份公布了英特尔和Cloudera的合作。合作之后,两家合作非常紧密,第一是把英特尔过去的经验,特别是在中国的经验,通过
Cloudera的合作,把IDH的功能和Cloudera的CDH和EDH功能融合在一块去研发更强的产品。很高兴的讲,当时在3月份开始的想法,在5
月份开始的计划已经全部实现,充分把IDH所有的功能和CDH功能结合在一起。Cloudera5.3会在本月推出。
Doug Cutting来啦~(看见真身道长也是很激动>,<)


很高兴能够到这里来和大家分享。
英特尔的同事刚刚已经提到了,中国市场的机会不仅仅是来自硬件,我们看到了指数级的增长已经持续了大概15年,这也就是说,我们现在的数据和计算能力比过去15年的能力超越了已经是成数百万倍,我们的内存、联网的带宽和各种数据的级数都已经出现了指数性的增长。
这些增长持续了这么长的时间,给我们所有的事情带来了根本性的变化。在其他的领域我们没有看到如此剧烈的变化,比如说刚刚提到的汽车、航空和房地产业,他们都没有如此巨大的变化。
我们所做的事情是在根本上改变了这个社会,可以称之为革命性的、阶段性的变化。我们现在不能够再看到这些单独的数据,而是把所有的数据放在一起来考虑。这后面的驱动因素是什么呢?


现在使用计算机的人和正在使用这些设备的人,还有像英特尔的这些用户们,他们都正在推进整个进程的发展。我们可以稍微想一想现在使用电脑的人,
不光是我们的台式计算机,还包括所使用的手腕上的设备、我们的汽车、各种传感器、摄像头等等,使用计算能力的这些设备无处不在。
而且这个趋势会持续继续下去,我们会看到越来越多的设备他们需要去使用计算能力,他们也会同时产生更多的数据,我们知道数据是有价值的,能够让
我们了解到底这些设备让我们处理什么样的业务,能够帮助我们完成什么工作,如果把数据收集起来,我们可以把数据进行整合,然后就可以创造出来一个高清晰度
的图像,就是关于各种设备它们运作的情况,而且也会了解到我们在这一块,我们的企业、我们的业务到底是怎么样进行的,这可以帮助我们的企业进一步改善和优
化流程,扩展发展。我们可以不断地去创造一些人们能够负担得起的、性价比较高的设备,而这些设备会不断产生新的数据。
我们看到越来越多的行业,它们已经通过利用分析数据的方式进行业绩的提升,不光是在高科技产业,包括在一些其他的行业,比如说采矿业、交通行业
等等,这些行业它们都开始使用数据。因为他们认识到通过使用数据可以获得更快的提升。因为数据的收集可以帮助他们更好的进行业绩的评估和衡量。
我们需要有软件来支撑,我们要找到一种可以更好的创造软件的方式。在过去的20多年当中,我们看到现在有越来越大的趋势,就是开源的趋势。我们
第一个非常成功的社区开源的项目就是Linux,Linux可以说在全球使用率最高的操作系统,是在手机、服务器等各种设备上都得到了使用。
其实在它刚刚开始发明和使用的时候,Linux可能并不是最好的选择。但是因为在开源的平台之上,越来越多的开发者们参与进来,让Linux不
断地完善,不断地提升。人们也非常喜欢开源平台,因为在平台之上,他们互相信任,他们不用担心要付费,他们可以进行一些修改,根据自己的需求来进行修改。
英特尔给我们提供了一些其他的技术,经过我们不断地尝试,不断地试验,我们发现在这一块,这个平台有了一些颠覆式或者重大的突破。
我们可以在这个平台上一起做事情,所以看到这样的一个行业的趋势得到了大家的认可。我们把它叫做企业的数据中心,企业数据中心可以支持不同的,刚刚提到的这些风格,而且现在使用的人数也越来越多,他们可以在上面使用自己新的应用程序,可以把它作为默认的平台。
我的同事,他用智能手机来做了比喻,我们的智能手机既是手机,也是计算器,是摄像机,也可以帮我们来追踪活动,可以帮我们记录日历,有很多种功
能,而且所有的功能都不一定是最佳的功能,肯定不是你能买到最好的照相机,但是我们今天90%的照片都是用智能手机拍摄的,因为智能手机在那儿,你知道怎
么样来用它,而且它里面也集成了所有的生活当中用到的工具,可以发送照片、可以分享照片、可以用手机来做很多的事情。
相似的事情是当我们提到企业数据中心的时候,它的作用也是类似的。我们并不是使用独立的系统。大家会越来越多的使用数据中心的,因为我们所有的
工具都是集成在一起的,这样的话我们就可以通过Cloudera和英特尔的合作,为大家来集成更多的工具,实现这些功能,弥补我们各个项目之间的空缺,可
以把20个社区之间的差距弥补起来。这样的话就可以让人们来把所有的数据整合在一个地方,从中盈利。这就是我今天想跟大家分享的内容。


倡导开放架构的英特尔+ 倡导开放社区的Hadoop的Cloudera, 传说中的强强联合大概就是上面呈现的这个样子。这次的直播也就到此为止啦~
喜欢0 评分0
游客

返回顶部