炼数成金 门户 商业智能 机器学习 查看内容

重新思考机器学习:大数据消耗已无必要

2017-8-24 18:03| 发布者: 炼数成金_小数| 查看: 19422| 评论: 0|来自: AI科技大本营
摘要: 从很多方面看,机器学习可以说是大数据革命的一个延伸,但它比大数据更难攻克。虽然希望常在,但是正如Gartner分析师Nick Heudecker指出的那样:“只有15%的机构能在生产中成功应用大数据”。那么,机器学习呢?Nick ...
工具 大数据 架构 机器学习 培训
导读
机器学习炒了这么这么多年,为什么我们还没看到企业有开发出任何这方面应用?本文会告诉你它难在哪里,并带你了解机器学习工程师这个神秘的职业。

你以为你有了大数据,就能在机器学习界高枕无忧?简直NAIVE

近几年,机器学习在人工智能界迅速走红,几乎随处可见它的身影,人们甚至开始神化这一技术:基于大数据的机器学习无所不能。

但是,机器学习炒了这么多年,为什么我们仍未看到企业开发出任何这方面应用?

本文告诉我们应该重新思考机器学习:大数据消耗已无必要

文章分析到,即使拥有大数据,也无法随心所欲应用机器学习。机器学习是大数据的一个延伸,非常难攻克。

为什么?到底有哪些因素制约着它的发展?我们一起来看看作者是怎样解释的。


虽然机器学习(ML)很可能是“下一项伟大技术”,但是主流企业仍未开发出任何ML应用。一些激进的预言家断言,50%的机构和组织会在2017年利用机器学习实现转型,而谨慎的观察家则将这个数字缩小在近15%。即使这样,还是有所夸大。

机器学习(及与其关系密切的AI)最终会变革企业计算,但是现在还有许多障碍因素需要克服。当中较大的障碍是什么?技能。

大数据难,在这之上的机器学习更是难上加难
多年来,市场上关于大数据的炒作不绝于耳,人们大肆鼓吹这项技术拥有改变一切的能力。虽然一项接一项的调查表明应用机器学习的公司的数量即将越过一半,但是Hadoop、Kafka和Spark等名称古怪的大数据项目进行了这么多年,我们离“一半”还是差十万八千里。

为什么会这样?因为大数据很难。
从很多方面看,机器学习可以说是大数据革命的一个延伸,但它比大数据更难攻克。虽然希望常在,但是正如Gartner分析师Nick Heudecker指出的那样:“只有15%的机构能在生产中成功应用大数据”。那么,机器学习呢?Nick表示:“成功应用机器学习的几率则更低”。

即便如此,众公司仍幻想前途一片光明。在Belatrix Software公司进行的一项调查中,81%的受调查公司表示:“未来五年机器学习将给他们的机构带来某种影响或者巨大影响”。鉴于机器学习能影响运作效率等因素,这些公司一定会积极开展机器学习项目吧?然而情况并不是这样。接受调查的公司中只有18%的公司真正开展了机器学习项目,40%的公司含糊其辞,只有42%的公司坦率承认:他们在机器学习方面未采取任何实际行动。

其实,你所谓的机器学习只是黄粱一梦
这种不作为部分归结于机器学习(及AI)神话与现实之间的巨大差距。正如Amplify Partners公司的David Beyer所言:“现在有太多企业忙于推销AI,简直可以用趋之如骛来形容”。这很危险,因为公司最终要么过度投资(然后幻想破灭走人低谷),要么在稍微有实际研究表明机器学习非常困难时避而远之,这种困难不是普通Python工程师利用业余时间能攻克得了的。

获取数据难,处理数据更难
数据是成功攻克机器学习的关键因素之一。为了正确训练模型,企业需要获取“海量的数据”——亚马逊(Amazon)AI团队成员兼谢菲尔德大学(University of Sheffield)机器学习教授Neil Lawrence这样描述。他表示:“不管算法有多优秀,驱动机器学习进步的较佳途径在于获取大量的数据,而不是改进算法”。

不幸的是,只有少数企业拥有如此海量的数据。即便是这些企业,它们还要解决数据储存在不同位置的问题。Yandex Data Factory首席运营官Alexander Khaytin感叹道:“数据经常储存在分离的存储器和处理系统中,数据聚合会十分耗时且困难”。

有了数据,你敢进行试验么?!

成功让所有数据整齐划一地行动后,还有更多问题。例如需要在生产中进行大胆试验。Khaytin表示:“当进行规范性分析 (prescriptive analytics)时,只有在实际业务流程中真正应用机器学习模型,我们才能真实地评估业务影响的大小。

 “对于多数公司而言,在数字化转型的开始阶段开展未在先前试验中表现出价值的大型机器学习项目,这种做法渺茫的前景往往让他们望而却步。”

你败在了最后一关——没有机器学习专家
即使有些公司成功克服了这些障碍,它们也会败在最后一关——人。和先兴起的大数据一样,机器学习也需要进行试验。大多数公司很喜欢称自己为数据驱动型公司,但是很少有公司真正是。多年来,公司高层口头承诺与真正应用大数据之间存在着巨大的空白,但是现在公司完全不考虑数据,只依赖直觉(62%的公司承认自己是数据盲,而剩下的38%则可能在说谎)。

尽管机器学习人才问题也与文化有关,这可能很糟糕,但问题不仅于此。

如果有更多人懂得如何进行机器学习建模,那么机器学习就不会像这样难于攻克,但是问题就在于这方面的专家太少。当我询问Gartner分析师Merv Adrian造成机器学习成功率甚微的较大原因是什么时,他明确地回答道:“在我看来主要是技能问题。缺失技能”。

复制这样一位机器学习专家有多难?Ben Lorica 和 Mike Loukides给这类人起了个外号——“类数据科学家”,他们认为找到这些数据驱动型产品人才可以说是希望渺茫。

他们通常拥有理科博士学位,在处理大规模数据方面有着丰富的实际经验。他们往往不只精通R或其他统计软件包,而且还是无所不通的优秀程序员。他们掌握数据获取、数据清理、原型构建、原型生产、产品设计、设置和管理数据架构等等技能。事实上,他们是典型的‘硅谷独角兽’:稀有并且很难聘到。

Ovum分析师乐观地表示:“当高校大量开设数据科学课程时,历史就会重演”,大学会推进开展更多的机器学习项目。

也许的确如此,但是如果相信学术培训能够培养出我们所需的那种专家,那就过于积极了。正如Lorica 和Loukide强调的那样,机器学习是一门与实际挂钩的学科,光靠课堂学习是无法轻松掌握的。可能正是由于这个原因,培训通常以失败告终。摩托罗拉解决方案公司(Motorola Solutions)的首席数据工程师曾在Spark MLlib尝试培训50名软件工程师,但是结果迫使他得出这样一个结论:“这种方法行不通”。

但是……,希望还是有的。

我不认为你所理解的机器学习是真正的机器学习

你认为的机器学习其实使用简单的回归分析法就可以解决很多问题

首先,大部分被渲染为“机器学习”的应用实际上并不是机器学习。

正如Basecamp数据科学家Noah Lorang解释的那样:“现在盛行的“数据科学”热潮有一个不可告人的秘密:人们谈论的所谓“数据科学”大部分都不是企业所需要的……机器学习只能很好地解决一小部分商业问题;只要拥有好数据并理解“使用简单方法能得到较好的结果”这句话的含义,就能解决大部分商业问题”。

Beyer承认自己有“不可告人的秘密”,并同意“使用简单的回归分析法就可以解决很多(所谓的机器学习)问题”。

你认为的机器学习应用根本用不到专业人才
同样,那些被正确归为“机器学习”的应用也包含许多聪明的非机器学习工程师可以解决的问题。Lorica 和 Loukides称:“在任何应用中,严格意义上的“机器学习”只占较小的一部分:需要有人负责维护服务器基础架构、监督数据收集渠道以及确保有足够的计算资源等任务”。

真正的机器学习工程师应该是这样的
我们可以将机器学习工程师的任务视为将机器学习附在更广的应用上。他们可能参与原始架构构建以及某个应用的开发,但是却不负责在机器学习模型失效时对其进行重新训练。他们不是在数据中寻找意义的数据科学家,也不是Lorica 和Loukides口中那种“目标是构建出能分析数据和生成结果的机器(创建出能工作并且经过调整后能生成可靠结果的神经网络)”的人才”。

这才是解决机器学习问题的正确打开方式
简而言之,如果一家机构想要成功解决机器学习问题,这并不意味着它的机器学习工程师需要随时待命。我们还应在企业内重新设定对机器学习意义的预期:用一系列的"if/then"语句就可以解决企业想要解决的大多数问题,完全没必要用到某些需要获取大量数据的机器学习算法。

如果机构的机器学习项目从小问题开始着手,在充实内部人才之后再处理大问题,机构在机器学习上取得初步成功的可能性就更大——这点是毋庸置疑的。

原文链接:
https://www.theregister.co.uk/2017/07/05/rethink_machine_learning/

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

  GMT+8, 2017-11-21 14:15 , Processed in 0.156143 second(s), 24 queries .