数据科学家访谈录

978-7-115-47091-1
作者: 【美】Carl Shan(单研) William Chen(陈子蔚) Henry Wang(汪强明) Max Song(宋迈思)
译者: 田原 刘奕
编辑: 陈冀康

图书目录:

详情

本书是关于25为顶级数据科学家的采访内容,及囊括了他们在专业方面的一些见解,同时也全面展现了他们的人生故事。本书由四位作者合理编写,对于想成为数据科学家的读者,将是一本非常好的教科书。无论是数据科学领域的新手,还是有经验的数据科学从业者,都将从中获益。

图书摘要

版权信息

书名:数据科学家访谈录

ISBN:978-7-115-47091-1

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


• 著    [美] 单研(Carl Shan) 陈子蔚(William Chen)

       汪强明(Henry Wang) 宋迈思(Max Song)

  译    田 原 刘 奕

  责任编辑  陈冀康

• 人民邮电出版社出版发行  北京市丰台区成寿寺路11号

  邮编 100164  电子邮件 315@ptpress.com.cn

  网址 http://www.ptpress.com.cn

• 读者服务热线:(010)81055410

  反盗版热线:(010)81055315


Simplified Chinese translation copyright ©2017 by Posts and Telecommunications Press

ALL RIGHTS RESERVED

The Data Science Handbook,by Carl Shan,Henry Wang,William Chen,Max Song

Copyright © 2016 by Carl Shan,Henry Wang,William Chen,Max Song

本书中文简体版由作者授权人民邮电出版社出版。未经出版者书面许可,对本书的任何部分不得以任何方式或任何手段复制和传播。

版权所有,侵权必究。


数据科学正在对商业、教育、能源、软件与互联网等各行各业产生深远的影响并贡献巨大的价值。作为21世纪最诱人的职业,数据科学家既有巨大市场需求的潜力,又面临着高难度的学习路径的挑战。

本书选取世界知名的25位数据科学家进行了深度的访谈,从不同的视角和维度,将他们的智慧、经验、指导和建议凝聚成册。每一篇访谈都是一次深度的交流,涵盖了这些数据科学家最初从菜鸟起步,运用各种知识武装和充实自己,一直到最终成为一名卓有成效的数据科学家的全过程。通过阅读本书中的访谈,读者可以形成对数据科学的宏观认识和了解,更深刻地认识和体验数据科学家的角色,并且从这些前辈的过往经历中学到宝贵的知识和经验以应用于自身的成长和事业中。

本书适合有志于成为数据科学家的人、正在从事数据科学相关工作的人、数据科学团队的领导者和企业家以及商业人士参考,也适合对数据感兴趣的普通读者阅读。


Carl Shan于2014年在芝加哥大学 Eric & Wendy Schmidt数据科学学会担任数据科学家, 用数据模型协助非营利组织的工作。他与人合作撰写了一篇论文,将监督学习应用于公共政策问题。他以优异的成绩毕业于加州大学伯克利分校并获得了统计学学位。他目前在加州圣马特奥的Nueva学校教授机器学习和计算机科学。你可以通过www.carlshan.com了解关于他的更多信息。

Henry Wang目前在伦敦,在一家专注于转型工作的金融公司工作 。在此之前,他曾在美国的一家可再生能源公司进行增长股权投资。在他的闲暇时间里,他喜欢参与诸如Numer.ai这样的数据科学竞赛,并且对基于随机梯度的机器学习优化算法很感兴趣。他拥有加州大学伯克利分校的统计学学位。你可以通过www.henrywang7.com了解关于他的更多信息。

William Chen是Quora的数据科学经理,他在那里帮助公司发展壮大并与世界分享知识。他也是Quora(https://www.quora.com/profile/ William-Chen-6)上一个狂热的作家,在那里他回答各种关于数据科学、统计、机器学习、概率的问题。他参与本书的写作,分享了数据科学家的故事,以帮助那些想要进入这个行业的人。在闲暇时候,他的爱好是玩“密室逃脱”, 他还开了一个专门用于分享这类“越狱经验”的博客。William拥有哈佛大学的统计学学士和应用数学硕士学位。他的个人网站是www.wzchen.com。

Max Song曾在Ayasdi担任数据科学家,他也是Neurocurious(后来被Vium收购)公司的联合创始人。他曾任奇点大学(Singularity University)的生物信息助教,从而接触人工智能的概念。他热爱学习、旅行和社区建设,并与其他人共同创立了 “壹沙龙(onesalon.org)”。Max拥有布朗大学 (Brown University) 的应用数学和生物学学士学位、清华大学苏世民学院(Schwarzman College)的硕士学位,他是苏世民学院的首届学生之一。他目前在香港的一家家族公司从事研究和投资。你可以通过www.maxsong.io了解关于他的更多信息。


在过去的5年里,数据科学差不多对人类所有重要的研究突破领域,都产生过深远的影响。从商业到教育界,再到能源领域,当然,也包括软件与互联网产业,在全球范围内,数据科学在这些形形色色的产业中产生了巨大的价值。实际上,在2015年年初,美国总统发布了白宫的一个新职位——首席数据科学家,并且任命DJ Patil担此重任,而DJ Patil正是本书中的受访者之一。

与世界上其他的发明创造如出一辙,数据科学产业的诞生同样归功于一小群积极踊跃的人。在过去的几年里,正是他们让数据分析这一理念可以走进任何领域,慢慢从无到有,发展壮大,并最终深入人心。在本书中,你将有机会遇见这些开拓者中的一部分,聆听他们一路走来的、精彩纷呈的第一手故事,并且了解他们对于数据科学未来的发展预见。

成为数据科学家的道路并不总是一帆风顺的。当我曾经试图从实验物理学领域转向这个领域时,和如今相比,那时的资源是如此的稀缺。实际上,虽然当时公司里确实已经存在数据科学方面的岗位需求了,但这一类人却连一个正式、统一的职位名称都没有。我曾经花费大量的时间自学这个领域的知识,也在不同的产业项目中磨砺过,到头来却发现我在学术圈的朋友遇到了和我同样的挑战。

我见过许多拥有极高天分及多年科研领域经验的研究人员,由于心仪数据科学领域而选择转向其中,愿意成为与数据为伍的人,但却挣扎多年不得要领。简而言之,他们不知道如何将自身惊人的数学功底、计算天赋以及数据分析技巧用在工业界。与此同时,我在硅谷工作的时候发现,相当多的科技公司其实都急需这方面的人才。

为了填补学术界与工业界之间的鸿沟,我于2012年创建了深入理解数据科学研究(Insight Data Science Fellows Program)社群。该项目旨在组建一个帮助计量相关领域的博士从学术界向工业界转职的训练团队。在过去的几年中,我们已经帮助数百名项目成员,从诸如物理学、计算生物学、神经科学、数学以及工程学之类的科研背景转入工业界,在诸如Facebook、Arbib、LinkIn、纽约时报公司、斯隆-凯特琳癌症中心以及其他上百家企业公司中担任重要的数据科学家职位。

在我的个人过往经历中,一方面,我自己成功走进了科技产业;另一方面,我也创造了一个让更多的人走上这条路的团队社区。在此过程中,我发现对我的事业给予重要帮助的一个资源就是:更多地与那些成功完成事业转型的人沟通交流。鉴于我创建并发展了数据科学社群,我有机会与硅谷的一些最好的数据科学家沟通交流,他们绝对是业内顶尖的大师:

Jonathan Goldman创建了LinkedIn公司最初的一个数据产品,即“你可能认识的人(People You May Know)”,该产品直接促使公司改变了它的发展战略。DJ Patil将LinkedIn内部的数据科学小分队发展壮大,最终发展成了该公司一个强大的部门,并且他也是“数据科学”这个术语最初的创造人之一。Riley Newman在Airbnb公司内致力于产品开发与分析,该工作对于Airbnb的发展可谓举足轻重。Jace Kohlmeier在可汗学院领导数据团队,致力于将上百万学子的网上学习最优化。

遗憾的是,想要与这些大师面对面交流是非常难的。在数据科学研究社群中,为了尽量争取与这些大师面对面交流高质量的内容,我们每年只会选择这样一群数据科学家以及工程师中的3位进行交流访谈。

本书把与这些大师的深度交流访谈整理出版,奉献给读者。

通过阅读本书中的访谈,你应该可以从这些前辈们的过往经历中学到一些知识并用于你自己的事业中,无论你现在身在何地,从事何业。每一篇访谈都是一次深度的交流,涵盖了这些科学家最初从菜鸟阶段起步,运用各种知识武装充实自己的经验,一直到最终成为数据科学家的事业全程。

并不只是早期的数据科学先驱们才有可能在这个领域做出卓越的贡献。这个领域源源不断地有新鲜血液注入,他们中的每一个人都有机会推动这个领域前进。在我遇到本书的作者们的时候,他们都曾只是梦想成为数据科学家的大学生,一个个急切地询问着那些每一个初入门道的人都想要了解的问题。

在18个月的努力学习过后,他们跑遍各地并寻访了全球的诸位顶尖数据科学家,探询了他们的观点、意见和指导。本书就是这些访谈的最终成果,将最出类拔萃的一群数据科学家的100小时以上的智慧汇集整理成册(想象一下你去和奥巴马总统都要抢时间与之交谈的DJ Patil对话)。

通过阅读这些内容丰富且非正式的访谈,你将会坐在领域先驱DJ Patil、Jonathan Goldman和Pete Skomoroch对面,他们都是LinkedIn早期的员工,也是LinkedIn内部数据科学团队的核心成员。你将会遇到Hilary Mason与Drew Conway,他们是声名远扬的纽约数据科学社区的主要发起人及推动人。你将会听到未来的数据科学领域先锋领袖(如Diane Wu和Chris Moody)的建议,他们都曾是数据科学研究社群的成员,现在他们正分别在MetaMinds和Stitch Fix公司大放异彩。

你将会遇到那些在学术领域有巨大影响力的科学家,例如加州大学圣迭戈分校的Bradley Voytek和哈佛大学的Joe Blitzstein。你也将见到初创公司里的数据科学家,例如Mattermark的Clare Corthell和Bento Labs的Kunal Punera,他们会告诉你他们如何将数据科学作为让自己更有竞争力的武器来运用。

本书中提到过的科学家们与其他的千万同僚们一起,曾经创建了许多形形色色的对这个世界产生重大影响力的公司和企业。在本书里,他们主要讨论了那些促使他们厘清误区、不断开疆拓土的心路历程,并且分享了他们人生中那些有特别意义的挑战或成功的故事,以及他们对于自己的团队所需要的人才的想法。

我希望读者通过阅读此书,聆听他们所思,学习他们对于未来的数据科学世界的眼界,并最终找到适合自己的数据科学之路。祝愿你们在这条路上做出自己对于世界的贡献,甚至于推进这个领域的前沿发展。

深入理解数据科学研究社群、深入理解数据工程研究社群、深入理解健康

数据科学研究社群的创始人 Jake Klamka


欢迎阅读本书!

在本书此后的内容中,你将会看到针对25位卓越的数据科学家的深度采访。他们来自于不同的背景、职业以及产业。他们中的一些人,诸如DJ Patil和Hilary Mason,是曾经将这一领域从默默无闻推向全球皆知的伟大开拓者。也有一些刚刚开始数据科学家生涯的学者,例如Clare Corthell,她在这个领域内有自己独树一帜的贡献,即创造了开源数据科学导师课程,这是一套完全基于开源的互联网资源而建立的自学课程。

我们出版本书的目的,是创造一本可以历久弥香并且激发你对于数据科学的兴趣的图书,无论你的教育专业背景如何,希望你都能从中获益。我们每一次精心校对、编辑、推敲和拿捏,都是为了让本书成为你日后在不同的学习和事业阶段,可以不断回头翻阅,得以温故知新的一件礼物。

这里列出了本书中涵盖的知识点。尽管本书的每一篇访谈都是精彩绝伦的,并且涵盖了很广阔的知识领域,我们还是从中选择出了一些有助于你快速起步的访谈。

在收集、策划以及编纂这些访谈的时候,我们的重心一直是与这些科学家中的每一位都能有深度并且高质量的对话。这其中的很大一部分信息也同样是长久以来数据科学界众多周知的观点和故事。你将会听到他们每一个人独家的出身背景、宏观眼界、职场经历以及人生建议。

在本书后面的内容中,你将会看到这些数据科学家对于以下问题的观点和解答:

在你阅读这些访谈之后,我们希望你会发现,从不同的背景和领域转入数据科学领域,并最终成为数据科学家这一过程是非常多样化的。我们再次祝你一路好运,并且期待你与我们联系:contact@thedatasciencehandbook.com。

—— Carl、Henry、William和Max


DJ Patil是“数据科学家”这个术语的创造者之一,也是哈佛商业周刊文章《数据科学家:21世纪最诱人的工作》(Data ScientistSexiest Job of the 21st Century)的共同作者。

由于折服于数学的魅力,年轻时代的DJ在加利福尼亚大学圣地亚哥分校取得了数学学士学位,然后在马里兰州立大学取得应用数学博士学位。在攻读博士期间,他主要研究非线性动态过程、混沌理论以及复杂系统。在进入科技领域以前,他在气象领域做了将近十年的研究工作,并且为美国国防部和能源部提供咨询服务。在他的职业生涯中,DJ曾在eBay担任首席架构师和研究科学家职位,然后在LinkedIn担任数据产品主管,正是在那段时光里,他与Jeff Hammerbacher一同创造了“数据科学家”这个术语,并且打造了一个出类拔萃的数据科学团队。他曾是RelateIQ公司产品部副总裁,RelateIQ是新一代基于数据科学开发的客户关系管理软件(customer relationship management software)。近期,RelateIQ公司因为其出众的数据科学技术而被Salesforce.com收购。

在对他的访谈中,DJ将会谈论抓住时机的重要性,通过独立学习、团队工作,激发兴趣并回馈帮助过自己的社区,以此不断提高自己。

2015年,DJ被任命为美国历史上第一位首席数据科学家。

您的演讲中打动了很多人的一部分内容是您曾经的失败经历。看到像您这么成功的人公然讨论自己过往的失败经历是挺让人惊讶的。您能更多地告诉我们一些相关内容吗?

在初入职场的时候,很多人都在挣扎面对的一个问题是,如何才能正确地走进这个领域的招聘市场。首先你要明白,当你走进去的时候,你必然已经把自己放在一个特定的“盒子”里呈现到了大家面前,而大家一定程度上会根据你所在的“盒子”来评估你所拥有的技能。比如说,如果你以一个销售人员的身份进入了人才招聘市场,大家就会默认你寻求的是销售职位;如果你以一个媒体人的身份进入市场,大家就会默认你对媒体公司有兴趣;如果你是生产产品的人,大家就会觉得你对于生产企业更感兴趣。在这个时候,相比形形色色的很多“盒子”,一些特定的“盒子”就更容易让你转入或转出相关的领域。

比如学术这个“盒子”就是一个非常不容易转型的例子。因为显而易见,在大家的印象中,你就是一个拥有学术背景的人。你所面对的问题有:我在目前的情况下有什么出路?如何转入其他的“盒子”里?我认为这方面一个颇具挑战的现状就是,组织机构和招聘人员更倾向于寻找与他们自己更类似的人。比如,在Ayasdi(一个拓扑机器学习公司)里,只有非常少量的数学家,却有非常多的拓扑学家。

对于大部分从学术界过来的人来说,招聘你就意味着公司可能需要在你身上冒一定的风险,除非你跟他们中的很多人有过非常非常多的沟通交流。我花了6个月才获得eBay的工作岗位。不要指望会有人在咖啡馆发现你,走过来跟你说:“嗨,你好,我看到了你在餐巾纸上写的那些东西,你一定是一个非常聪明的人!”工作不是这样找到的,在你获得机会之前,你必须要清楚地意识到,任何招聘你的人都是在你身上冒险。

不要指望会有人在咖啡馆发现你,走过来跟你说:“嗨,你好,我看到了你在餐巾纸上写的那些东西,你一定是一个非常聪明的人!”工作不是这样找到的,在你获得机会之前,你必须要清楚地意识到,任何招聘你的人都是在你身上冒险。

在你的求职过程中,你一定会失败很多次,那是因为他们最终不愿意在你身上下注。在很多公司恶狠狠地把职位的大门对你毫不留情地关上之前,估计你是不太可能找到一份称心的工作的。并且,求职可不是你准备一篇稿子,然后在每一次需要介绍自己的时候,千篇一律地讲出来。而是需要你每一次都针对不同的聊天对象修改对自己的介绍和描述。其中的精髓正和做数据科学如出一辙,你需要不断地在展示自己和研究如何展示自己之间反复循环。

最终,有人愿意试试聘用你了,但是当你刚刚找到工作的时候,迎面而来的问题就是:如何在走进公司以后尽快地让自己的事业走上快车道?我认为目前数据科学领域的一大优势就是它并没有过于清晰的职位技能需求,所以很大一部分拥有偏才的人其实都是适合这个领域的。人们会说:“啊,你当然可以成为一名数据科学家!也许你的编程功底不如软件工程师那么出色,但是你研究问题以及运用工具解决问题的能力是相当出色的。”

公司里根本没有人知道具体该使用什么工具来解决正在面对的问题,所以你必须去搞清楚,而这恰好给予了你足够的自由度。一本还没有开始动笔的书,才有可能成为一本精彩的著作。

您能不能给我们一些起步的建议,例如您一开始在那个市场上是怎么做的,以及您如何想办法弄清楚那个领域内的“新人必知”之类的知识?新人如何在其中展现出自己的价值?

你首先需要做的就是,证明你可以完成一些任务,然后证明你可以创造一些东西。

我曾经让我的每一个研究生都做如下的测试——当我自己曾经还是一个研究生的时候,我经常在我的公寓附近散步并且喃喃自语:“我想要成为一个数学家。当我说‘数学家’的时候,它对我来说意味着什么?什么是每一个数学家都应该知道的事情?”

当我还是研究生的时候,我就是这样做的,然而经过一段时间的思考,我却得到了各种不同的结论。天知道我该怎么办!根本没有人对于数学家有一个很明确的定义啊!但是我觉得,一定还是应该有一些基准吧,毕竟都是过来人(数学家),对于一些问题还是应该有一些共识的。在思考了一段时间之后,我大概总结出了3~4个针对这些问题的不同观点和结论。而这其中,我觉得最重要的结论,就是那种让你在一个糟糕的想法上最终遭受失败以后,还能有机会转行到其他领域的结论。

基于上述的想法,我开始上大量形形色色的推公式的课程以及一堆概率统计课,尽管后者其实并不是我的研究方向。我给学生上课,我也知道如何编程,我曾经学过很多物理学知识——总而言之,我做每一件事的目的,就是希望它能给我带来更广阔的眼界和出路。

很多学术界的人技能都过于单一,只专注于特定的问题和纬度。他们并没有证明他们有能力创造任何东西,只是在不断证明他们可以学会一些没人关心的东西(除了他们的导师以及他们实验室过往两届的学生们)。在我眼里,这是不对的。其实在那一段时间里,你可以同时搞定你的博士研究课题,并且学会其他的一些技能。

你首先需要做的就是证明你可以完成一些任务,然后证明你可以创造一些东西。

比如说,除了在实验室的时间,你可以出去走走,多跟人交流,去参加一些课程充电,参加黑客马拉松活动,以及学习如何制作一些东西。正如我们绝对不会跟一个人说“你必须先学会做科研,然后再去学怎么跟人交流”一样。这些事情本应该是同时发生的,并且彼此相互协同促进。

所以我的论点就是,现在的科研人员完全不知道如何去创造一些东西。在你学会如何创造东西以后,你还需要学会如何讲故事,这样才能告诉大家你为什么想要做这个东西。

还有另一件学术界的人非常不擅长的事情。他们很喜欢滔滔不绝地说话,而不是静静地聆听你的需求,所以他们不太擅长倾听别人的问题在哪里。在学术界,你需要做的第一件事就是关上门,静静地坐在自己的桌子前。但是硅谷是没有门的!一旦走进企业界,你就好比走到了空旷的空地上一样。在第一次听到别人告诉他们“不,你必须要工作、合作、交流、沟通、竞争、辩论,而不是躲在门或者办公桌的背后”的时候,这些人往往都是一脸的震惊。

我觉得这正是学术界的不足之处:对这些方面的训练太少了。他们几乎没有机会参与团队合作,或者以小组的形式工作。

相反,现在的本科教育正在经历巨大的转变。如果我们比较一下过去几年和现在的大学里黑客马拉松、合作、小组项目一类的数量,我们就会发现转变的趋势。本科教育确实正在把学生训练成非常适合工作的一类群体。硕士生也有一些类似的机会,但是博士是几乎没有的。我觉得这种情况的原因主要是很多学者更愿意把学生训练成重复性的科研劳工,而不是设身处地为学生着想,让他们变得更适应社会,并且给他们选择自己人生路线的更多机会。

学术界的项目合作与业界的相比有哪些不同?

人们错就错在总是会忘记数据科学其实是一个团队游戏。人们可能会指着我、Hammerbacher以及Hillary或者Peter Norvig这样的人惊叫:天呐,快看,是他们!这是完全不对的,没有任何一个数据科学家可以为自己的成就独自邀功。数据科学是一个团队游戏,必然需要有些人去把数据收集到一起,有些人去转移这批数据,有些人来分析它们,有些人来把分析的结果和想法大声地告诉世界。

人们错就错在总是会忘记数据科学其实是一个团队游戏。

如果没有Facebook核心团队其他成员的帮忙,Jeff绝对不可能做出他的毕生成就,而那个团队也是他协助创建的。我的工作依赖于其他非常非常多的人的帮助,这一点对于任何人都是相同的!因为做数据科学与搞科研其实是非常类似的。人们总是看到数据科学家独来独往地工作,这是完全错误的表述,更多的原因估计是现在媒体以及其他方面的错误解读。

您认为现在有没有可能存在一种趋势,就是有些人在数据科学领域工作了一些年,然后把这其中的技能转而用于其他的行业和领域,比如市政学、教育学或者健康领域?

我觉得这样的趋势正在开始,而且我希望这样的转变会发生。Datakind就是其中的一个例子,同样Social Good的数据科学方向也正是如此。而且这其中有一个让我非常揪心的公司叫Crisis Text Line。它是从DoSomething.org这个公司分出来的——他们做的事情是非常聪明地将自然语言文本技术用于避免自杀行为的电话干预,在公司的产品结果中,那些算法分析出的与自杀有关的文字看上去实在是非常令人心痛。

在从这些人的信息中分析出有关自杀原因的一些非常悲惨的语句的时候,他们马上就会被电话联通。现在社会很多年轻人很少通过声音来彼此沟通——打电话说话其实很困难,而发文字信息却容易很多。通过Crisis Text Line技术分析得到的往来于受困、需要帮助的人和那些愿意提供帮助的人之间的信息量巨大得惊人。

我们是如何做到的?这一切背后的原理是什么?该产品背后有一群非常聪明的数据科学家坐镇,他们一直致力于研究完善该系统,就因为产品的目的是帮助那些深陷泥潭的年轻人。现在,我们的身边有非常多的新兴科技,使得我们可以轻松地完成很多五六年前需要耗费巨资和重大科研设备才能实现的任务。今天,我们可以轻松地选择我们喜欢的工具做任何想做的事情。

这些人做的事情是非常了不起的。换言之,他们一直在节约我们所有人的时间。这个公司背后那一套复杂精巧的运行系统,完全可以与其他许多庞大知名而且资金充足的大机构相匹敌。他们能做到,就是因为他们确实是这方面的行家里手。他们能玩转这些技术,并且他们有足够聪明的大脑。正在有越来越多的人希望贡献自己的技术,加入他们的团队,去帮助他们把这件事情做得越来越好。我们并不觉得这仅仅是数据科学这一个领域的事情,而是一个非常开放普及的事业。这么多的技术专家甘愿投身于这个项目并帮助他们的原因,就是因为这件事情非常伟大而且有意义。

Jennifer Aaker最近刚刚在《纽约时报》上发表了一篇文章,主题是千禧年那一代人比起他们的祖辈,做事情有更强的目标性。他们以助人为快乐之本。我认为这个社会正在发生一些根本上的转变。主导我们这一代人的情结是同情,主导你们这一代人的情结是扶助。同情仅仅意味着去理解他人的痛苦,而扶助意味着真正地帮助别人走出困境,根本性地去解决问题。从数据科学的视角上来说,这样的细微转变就类似于,以往的数据科学只能以图像的形式向你展现出问题和数据,而现今的数据科学是通过鞭辟入里的分析得出结论,并告诉你可以采取什么行动。这绝对是质的飞跃。

对于开发一个简洁漂亮的产品来帮助减轻他人的痛苦来说,同情心确实是非常重要的。您平时在工作和产品开发中最看重的品质是什么?比如对于数据的解读能力?

我认为人们经常没有意识到的一个问题是:很多选择从事或者研究非常难的问题的人,本身已经拥有非常强的技术背景。

我用Electronics的Fry举一个例子。John Fry是Electronics公司的创始人,他同时也是一位数学家。他在Morgan山为一个数学学会建造了一座城堡。他对于数学的热情可见一斑。然后我们可以看看Netflix的Reed Hastings,他也是一位数学家。我的父亲以及他那个时代的很多老一辈硅谷精英,都曾经是计算机核心硬件方面的科学家。这样的例子数不胜数,我只是想说明,如果你去花力气了解每一个这样的地方,你都会找到很多难以想象的故事。

公司里有两样事情是非常吸引我的:第一个是你可以从头开始做一些东西,第二个就是我们的目的是开发一个实实在在的产品。为什么这两点很重要?因为如果你要创建一个公司,你必然需要产品,而如果你需要产品,你就必然要想办法把它们做出来。我指的就是在物理意义上把一个东西从无到有地创造出来。下面的问题就来了:你要怎么做这个产品?你可以依据自己的擅长和偏好,选择任何你喜欢的工具来做。另外,现在人们经常说的市场调查也是很重要的,你可以做一个详细的市场调查,找到现在市场上的不足和缺漏,然后把它作为目标。

有市场类的产品,意思就是你创造一些东西,然后把它们投放到让人们群情激昂的市场上,市场是自己会发生效应的。也有工程类的产品,它们会让人们惊讶——你会觉得它背后的工程技术是如此精巧、非常了不起,以至于根本没有人能理解它背后的运作机制,这样的产品就是这么出色而纯粹,这就是纯工程产品。也有设计类的产品,它们往往是非常漂亮的东西。当然,也有数据类的产品。

我最喜欢的人都需要理解两样东西,缺一不可。一个是用户体验(user experience),另一个是数据。为什么偏偏是这两样呢?很多人说他们只擅长其中的一样,我完全不认同这样的结论,因为解决数据问题的最好方法恰好就是用户体验。有时候,你可以通过简单而独具匠心的数据分析来聪明地解决一个用户体验上的难题。

鉴于这个时代事物转变得如此快速,我们最应该培养自己的地方,就是让自己多元全能。

比如说,“你认识的人(People You May Know)”(LinkedIn公司的连接社交图谱的工具)就是使用数据解决了现实中的设计问题的一个经典案例。你加入那个网站,然后网站就会在你登录的时候自动给你推荐你可能认识的人。但是如果“你认识的人”的推荐结果太好了,可能会让人觉得毛骨悚然,尽管其实那只是基于一个叫作Triadic closing的算法计算出来的结果。人们会问“你是怎么知道我们之间的关系的?我们才刚刚见过面而已!”而回答这类问题的答案就是“你们俩都认识Jake”,这下就一目了然了。就是这样一个简单的设计,成功解决了一个数据问题。我的信条就是,你把两个简单的东西放在一起,它们可能会创造一个新的世界。

另一个问题就是:你如何让自己多元全才?你如何让别人也成为多面手,能够适应多种多样的工作和任务?我之所以这么问,是因为相比于从前,我们这个时代改变得越来越快。现在的东西淘汰的速度是非常惊人的。当我为eBay工作的时候,那是一个激情澎湃的地方,但是现在eBay已经在转型。雅虎曾经像猛犸象一般坚不可摧,但是现在也在每况愈下。我们已经见证了太多公司的兴衰起伏。

我见过太多的市值几十亿美元的公司起起落落。这是一个剧变迭起的年代。想想微软,十年前它是多么辉煌而不可一世?显而易见,它已经今非昔比了。

鉴于这个时代事物转变得如此快速,我们最应该培养自己的方向,就是让自己多元全能。我想我们也同样应该认识到,接触不同的事物能让人有多元的视角。正如现在的数据,这方面的人才太稀缺了。不过人们正在意识到这样的转变正在发生。现在这个时代,懂数据科学的人实在是优势太大了。

您曾经说过,在曾经希望成为一名数学家的时候,您尽力地让自己对于生活的选择权更多更大。那么作为一名数学科学家,您认为应该学习哪些技术来让拓宽自己的眼界以及让自己多元全能?

我认为数据科学给了我们一个得以接入不同行当的绝好入口。其性质就像是你坐在中间,周围的很多产业生意都围绕着你,但是你必然也需要花力气去研究这些不同的领域,去了解其他人在做什么,以及思考如何可以把你的所学用在这些领域。换言之,你永远在不停地努力学习,而不是躺在板凳上吃“铁饭碗”。所以你必然需要花很多时间去了解这些其他的领域,而这最终会给你带来变化。

我经常告诉新入行加入公司的年轻数据科学家的一件事就是,他们最好是每天最早到公司但是最晚离开的人。

我认为现在很多人都无法清楚地看到数据科学这一项工作需要耗费多少力气。比如RelateIQ这个公司,我是公司产品部的一员(虽然他们说我是他们的头,但是我觉得这是一个团队事业,所以我更认同我和他们是平等的),我经常每周工作超过100个小时。如果我有更多时间,我会花更多的时间在里边。我认为人们很难意识到这背后需要花费多少时间去沟通交流。无论你有多资深,或者你技术有多好,你都需要花费这些时间去做这项事业。

你不要觉得我说的是现在社会上流行的那个10000小时理论(我根本就不相信那个,因为我觉得它完全就是错的,它默认大家的学习效率是线性的,而没有考虑也许可以通过并行学习来加速这个过程)。我的意思是你需要花费很多时间来学习很多相互独立、看似不相关的事情,并最终把它们拼凑在一起。就像是炖汤,炖一锅好汤的秘诀就是四个字——“历久弥香”。

我经常告诉新入行加入公司的年轻数据科学家的一件事就是,他们最好是每天最早到公司但是最晚离开的人。如果这意味着你每天只能睡4~5个小时,你只能去习惯它。这样的生活至少要持续6个月甚至于一年多。

这就是你如何加速你的学习曲线。一旦你入门了,你就可以到达与人交流的阶段。在这个阶段,你可能需要经常与人交流到凌晨两点。你会精疲力竭,和你沟通交流的人也同样疲惫不堪。你的所有情感防线都将会崩塌。而这个时候,就意味着你上道了。这其实就是为什么美国海军陆战队有着地狱一般的青训。他们在每一个士兵的起步阶段就把他们放在了地狱一般的生存环境中。因为如果在真枪实弹的时候才把未经世事的士兵投入战场,那就意味着让他们去送死。在上战场之前就让他们经历痛苦,可以迫使他们团结努力,让他们在未来的真枪实弹面前可以团结彼此依赖对方,然后齐心协力增加他们在真正的战火面前的生存概率。所以,在实战里面学习是不行的,必须要在上战场之前就学好。

这就是我对于全球所有尖端数据科学公司或者研究所中的人的看法。他们所有人都比我努力十倍以上,因为这是唯一的出路。他们就是这样一遍一遍不断地磨砺自己的能力的,这就是为什么他们如此优秀。

您认为是否有某些日复一日的习惯和坚持,让您最终成为一名如此优秀的数据科学家?

你看孩子在绕着一条跑道疯跑,他的父母想要走了,孩子总是央求他的父母:“再让我跑一次!再让我跑一次!”但是你再看那些在敲打笔记本键盘的成年人,他们满脑子都是抱怨:“我还要再做这样的事情多少次?”

这么说吧,我从来不觉得我们人类是无所不知的。我也从来都觉得我们的数据还不够多。另外,我也觉得我们对于做得好的事情和做得不好的事情还没有足够清晰的认识。我说这些话的原因就是,针对你的问题,我们当然可以说肯定是有一些事情是增加了某个人事业的成功的可能性的。这不仅是在数据科学领域,在所有领域都是。这些品质就有很多了,从认真倾听他人,到做一个团队合作者,小到出门捡垃圾,再到认真陪孩子做每一个游戏,不浪费食物,以及做事情重视团队利益而不仅是自身利益。当然,还有一丝不苟地完成自己的任务,不辜负任何人和任何任务。

在做这些事情的时候,你要想象总是有一个客户在你面前(他其实可以是任何人,外在的,或者你自己想象的)。我认为,这就是让自己进步的绝好办法。除了上述的这些常规小事,我觉得还有一些很重要的素养应该强调一下——讲故事的能力和叙事能力。另外,永远不要丢掉内心里的激情和好奇心。

我觉得那些投身于科研领域的人是非常有激情的。是否记得你曾经听课时学到的一些东西引得你大叫“酷!这个脑洞开得太大了!”?是否记得你曾经在大学里说“该死!我怎么就没预见到这件事情呢?”的时候?为什么我们要丢掉那个时候的澎湃激情呢?

这是完全可以类比的。你看孩子在绕着一条跑道疯跑,他的父母想要走了,孩子总是央求他的父母“再让我跑一次!再让我跑一次!”但是你再看那些在敲打着笔记本键盘的成年人,他们满脑子都是抱怨:“我还要再做这样的事情多少次?”他们总是在数着分秒地盼着下班回家,而不会激动地说“这个东西太棒了!”

我觉得每一次人们从孩子长大成为我刚才说的后一种人的时候,他们内心的一些东西已经丢失掉了。你们一定要努力用那些曾经让你疯狂激动的东西重新填满你的生活和内心。再多交流一次,再多努力一次,再来一次。如果你能找到这样的感觉,那你已经相当不容易了。如果你的生活中围绕着你的人都是这样的鸡血满满,每天给你带来无止境的新信息、新故事,那么你已经非常幸运了。

所有的学习都是一样的吗?作为一名年轻的数据科学家,您能给比自己更博学的前辈长者们带来什么价值?

知识和智慧是不一样的。我认为这正是学术界长期在面对的一个经典问题。一个高中生可以比一个算法博士更好更快地写一个手机软件,这是因为那个高中生的知识恰好在手机软件领域。而智慧是另一件事:比如你在研究一个非常艰深的学术问题,经过经年的研究学习,然后最后你宣布:“这个东西的算法复杂度是O(n2)”。

我觉得我本人是非常幸运的,在初入eBay的时候,我恰巧在一个拥有非常多的智慧的小组。尽管我们小组所参与的项目在eBay这个公司里进展缓慢,但是我身边的人真的拥有非常多的智慧可以分享,所以当时我真的是小组里最傻的人,当然,我也有最轻最少的任务。但即便如此,我也为那个团队贡献了我自己的能量,因为我可以看到别人看不到的东西。所以在生活中,我们需要找到哪里有智慧存在而哪里没有。

另一个对我有重大影响的公司是LinkedIn,在那里我与公司一同经历了一段指数级增长的进步曲线。人们会说,“你仅仅在那个公司待了三年半而已”,但是恰好就是我在的那几年,LinkedIn公司的员工数从几百人激增到了几千人。在一个快速发展崛起的公司工作是很容易给你带来相当的智慧的,我觉得这就是所谓的“量变引起质变”。

现今的很多年轻人都在知识和智慧上遇到很多问题。他们经常会问自己:我是应该做那些我最感兴趣而且有非常强烈的激情的事情呢,还是做那些马上能给我带来进步的事情?我是应该加强特定方面的技术知识呢,还是应该更多地增加针对特定领域的宏观智慧?

这是一个不断重现江湖的难题。我个人算是曲线解决了这个问题:我永远去接纳我的那个地方去。我的意思就是:无论你去哪里,记得要跟最优秀的人在一起。

我是学徒文化的坚定拥趸。我是非常幸运的,因为我当时有机会与James Yorke一同共事,他提出了“混沌理论”。我经常和塞吉·布林的父亲在一起。我总是和很多非常出色的人在一起,而他们与我的交流对话是对我人生产生最重要影响力的东西。我真的觉得能和他们有过交集是我人生一大幸事。和Reid Hoffman、Jeff Weiner这样的人在一起绝对能让你变得优秀,并且你能从中学到很多智慧。

这就是我的答案。如果你要去跟一些在Google公司工作的顶尖人才共事,好极了!如果你要去跟教育系统中一些非常优秀的人才共事,好极了!只需要确保无论自己去哪里、做什么,都可以让自己获得尽量多的进步就行了。你的人生坐标最好时刻指向那个时候对你来说最好的方向。记住人生努力的方向是非常重要的。

您是如何面对风险的?您又是如何识人的?

每一个人都需要写就自己的人生。我唯一确定的事情就是,作为一个个体,你一定要不断地问自己问题,然后通过问问题和解答问题,你才能慢慢勾勒出最适合自己的故事轮廓。如果你的人生故事写错了,那你就有责任自己把故事写回来。一句话,如果你不喜欢自己正在做的事情,那就想办法改变它。

如果你的人生故事写错了,那你就有责任自己把故事写回来。一句话,如果你不喜欢自己正在做的事情,那就想办法改变它。

这一切也许不容易,看起来不体面,会给你带来很多痛苦,但事实是,在你年轻的时候做这样剧烈的转变是可以接受的,这总比你老了以后重头再来要好得多。我现在已经无法完成我曾经完成过的成就中的哪怕一半了,而且我真的很嫉妒那些年轻力强的人。但这就是生活,在你有了家庭责任或者开始养育下一代的时候,你就无法再像从前那样无所不能了。你的父母们在一个小城里度过了他们人生绝大部分的时光,抑或一些顶级高校的教授也一样,他们几乎不需要考虑这些事情,也无须思索这背后的风险和艰辛。

这就是你可以发力的地方。这也是单打独斗和团队合作之间的区别所在。生活中你并不总是可以做自己想要做的事情。这也是我并不那么非常精于技术的原因,至少相比于Monica Rogati和Peter Skomoroch这两位LinkedIn的杰出数据科学家和工程师来说我的技术不那么厉害。那么我大部分的时间用来做什么了呢?想办法和他们竞争?去堵死他们的路?然后也和他们一样花大量的时间去调试程序写代码吗?

我做的事情,其实也是我所在的职位对我这项工作的要求,就是帮助别人移除他们前进道路上的障碍。我的工作就是开辟一条康庄大道,然后让别人在上边顺利快捷地完成工作。而他们做得确实非常好。

您曾经谈到过,您视自己的研究工作为一项回馈大众的行为。那么现今这个社会,有没有一些您觉得可以通过数据科学家的杰出才华来实现进步和提升的领域?

做事一定要从简单的做起,然后慢慢做一些复杂而且艰难的事情,那个时候你才有办法解决那些复杂的事情。

我觉得我们可以从组成社会的每一个小的元素着手分析这个问题。Crisis Text Line所在的领域就是其中至关重要的一个,这也是我为什么在它身上投入了这么多的精力和时间。当然还有其他的很多方面:国家安全、基础教育、政府、为美国编程项目(Code for America)。我环视我们当今的环境,想要去理解气候,想要了解很多很多的东西。我真的很希望我们可以攻克那些难题。

通过传统的方法,想要找到一条合适的切入这些难题的路径并不是一件容易的事情,因为如果选择的方向不慎,机遇的大门就可能关闭。但是数据很有魅力的一点就是,通过它,我们可以有很多种打开一个问题大门的方式。我醉心于研究气候就是因为那个领域有数据。我对自己说:“我能做到!”最终,我可以说,我成为数据科学家的起点,就是下载了那一批疯狂的数据,然后在我的公寓里开始着手分析他们。那一批数据让我有可能成为气象领域的专家,并不仅仅是因为我花费了很多年在其中做研究,而是因为我从心底喜欢它,是这样的动力和激情促使我得以纵情其中很多年。

从重拾好奇心到探索数据,再到拓展更多的领域,您的生活看似是一个不断最大化您的生活的可能性,也不断探索各种领域和机会的过程。那么未来您将会选择往哪个方面发力呢?

前往那些门槛和阻碍比较低的方向。其实我并不喜欢挑硬骨头啃。我的博士生导师给我上过很重要的一课——他说做事一定要从简单的做起,然后慢慢做一些复杂而且艰难的事情,那个时候你才有办法解决那些复杂的事情。

所以,诀窍就是从简单的事情做起?

从简单的事起步就好。

我是学徒文化的坚定拥趸。


Hillary是机器智能研究公司Fast Forward Labs 的创始人,同时也是Accel公司的全职数据科学家。在此之前,她曾是Bitly公司首席科学家,她在那里领导着一个专注于研究因特网实时动向的团队,从事研究、探索和软件工程的复合型工作。她也是HackNY和DataGotham的联合创始人,同时是NYCResistor成员。

作为一名全职的数据科学家,您的工作具体有哪些?

我的日常工作主要有3个方面。首先,我时常与合作伙伴们一同探讨有趣的技术以及公司。其次,我与那些Accel注资管理的公司合作,在他们遇到有趣的或者具有挑战性的数据问题的时候提供帮助。最后,我帮助Accel公司理清头绪,分析出未来的下一代数据公司应该是什么样的。

现在风险投资公司开始聘用全职数据科学家了,您觉得这种趋势会越来越流行吗?

在我们当下的这个时代,只有极少数的人有过花费多年时间来帮助公司建立数据科学团队或者帮助公司打造数据产品的经历。所以对于公司来说,能有从事这方面工作达数年时间的专家加入并着手做这件事情,本身就已经非常有价值了。

我并不觉得招聘数据科学家在未来会和现在一样困难。因为现在数据科学是一个全新的东西——只有很少的人有过这方面的长期经验。因此对于风投公司来说,得到一位能时时刻刻协助它的多家下属公司、解决各种数据问题的数据科学家是多有裨益的。就当下而言,数据科学专家不容易找到,但也并不是完全不可能。我觉得在未来几年,越来越多的人会给予这类专家更高的待遇和重视。

您能向我们读者介绍一下纽约的数据社区吗?

纽约不是一个科技城市。这个城市的金融、出版、媒体、流行、美食以及其他一些行业更为著名。这是一个无所不有的城市,所以我们在城市的每一个角落都可以看到数据。在纽约从事数据科学的人,几乎遍布你能想象到的所有行业领域。这正是这座城市的魅力所在。

你会看到公务员们在市长办公室使用数据来谈论他们的工作,科学家们在用数据展示、讨论他们的科研成果,健康领域的人在使用数据治疗癌症,甚至于媒体界也在使用数据分析新闻。你会看到无论是初创公司还是大型企业,他们都在热情洋溢地坐在一起讨论他们是如何运用数据的。

DataGotham是我们致力于让更多这样的数据分析需求得到人们重视而所做的一次尝试。我们开始这个项目的宗旨就是:“无论你从事什么行业,如果你关心数据,就来我们这里,与其他志同道合的人一起探讨。”我认为这个项目非常成功。纽约的数据社区就是在这样的灵感中诞生的。

您认为数据科学未来会在其他方面有哪些改变?在您的设想中,未来5年数据科学领域会变成什么样子?

5年是非常长的一段时间了。如果你回看5年以前,数据科学在那时甚至还不存在,而即使是在当下,它也尚在一个茁壮成长的萌芽过程中。未来5年,很多事情都会发生转变。我不能具体地说出未来5年会发生什么,但是可以做一些猜测与展望。

首先的一个变化就是,当下这种野蛮生长、孤立无援的局面将不复存在。我认识很多出色的数据科学家,他们供职于计算机科学、物理学、数学、统计学、经济学、心理学、政治科学、新闻业等各种行业。他们正在兴致盎然地转向数据科学,而他们中的许多人其实都没有学术背景。这样的转变正在发生着——今天,你甚至可以直接在硕士阶段选择数据科学专业。

也许在未来,越来越多来自不同领域背景的新鲜血液进入这个领域之后,他们之间的交流合作会让数据科学的轮廓框架日渐清晰,让我们自身也对于它有更为深入的了解,并且迸发出更多的创意和点子。而这可能会是一把“双刃剑”。

我们在城市的每一个角落都可以看到数据。在纽约从事数据科学的人,几乎遍布你能想象到的所有行业领域。这正是这座城市的魅力所在。

第二个变化就是,这么说吧,假如未来5年,我依然在写Java代码的话,我很可能要遇到难以逾越的瓶颈!我们的工具一定会变得比现在好用很多的,这样的情况同样也已经在发生了。这简直不能被称为“猜想”了,因为我知道在数据科学领域,这样的革命正在进行。

5年以前,大部分数据公司都着力于创造基础设施,例如研发各种不同类型的数据库。他们致力于开发的工具大多是用于管理时间序列数据的。但是现在,这个领域的基础设施已经非常成熟了,我们现在看到公司正在想办法让这些原本笨拙复杂的数据设备变得简单易用。所以现在你可以看着一个个漂亮的仪表盘,在大屏幕上输入你的查询语句,然后你的命令就会转向后台,自动进行map-reduce运算,而不再需要像以前一样,一边抱怨,一边花费40小时去绞尽脑汁地编写并行运算算法。我认为工具的简单易用就是一种趋势,未来会越来越常见。

文化同样也是一个将会发生显著变化的方面。我认为数据文化(data culture)将会越来越流行,即使对于并不从事数据科学的人来说也一样。这意味着在许多公司里,你将会看到很多人的头衔并不是“数据科学家”,但是他们也做着差不多的事情。在他们需要统计数据库里的一些数据的时候,他们再也不需要寻求统计学家的帮助——他们自己也可以搞定。我对此是非常期待的。我始终坚信数据可以赋予人们做出更好的决策的能力,所以越多的人参与这项事业,对这个领域的发展必然越好。

如果在未来,几乎每一个公司里都有这样有数据意识的人,您觉得数据科学家的角色会发生什么变化吗?

数据科学家会不断地询问问题。在任何时候,问对问题都很不容易,例如你在面对一个复杂的商业难题时该怎么入手?有哪些问题需要解决?这些都很不容易看出来。另外,如何解读数据分析的结果也是一个难题。数据科学家可能会成为像教练一样的人,在他们的领域内,针对他们一直以来致力解决的问题,他们慢慢会成为那方面的权威专家。

数据科学家以及数据团队能做的事情众多,远远不止上述的商业智能领域。他们可以做算法工程,创造新颖的产品,收集数据集,为产品寻找以及打开潜在的市场与生意。所以我从来不觉得数据科学家们会像明日黄花一般日暮西沉。

在谈论数据科学的时候,您特意强调了沟通能力和讲故事的能力,您可以更多地介绍一下吗?

一名数据科学家就是脑子里想着问题、静静地坐在计算机前的人,然后他会开始收集数据,用数据去解决问题、回答问题。抑或他是一个一开始拥有一批数据的人,然后他开始针对这批数据问出问题,并且尝试去深入理解它。他会做一些数学推导、写一些代码、做一些分析,然后最终得到一些结论,再然后呢?

他需要把从数据中分析得到的东西告诉别人,让更多并没有参与这个研究过程的人也知道结论是什么。创造一个有信服力并且精彩的故事,同时要保证故事尊重数据事实,这可不是容易的事情。这一项技能在众多技术行业里都被忽视了。但事实就是,如果你不仅能做出一些东西,还能很好地解释它们,这会让你异常出彩。但是,我不认为这是一件容易的事。

为什么它不容易?为什么用简练的语言解释一些东西是非常困难的?

之所以难,是因为它需要同理心。你当然必须要理解那些非常复杂以及学术性的技术,但同时你需要对一些完全没有技术背景的人讲解这一切。你必须要清楚他们是怎么想的,这样你才能用他们能够理解的语言来讲述这一切。同时,你必须要考虑到,你的听众只有很短的一段时间能集中精力,他们很快就会变得不耐烦,并且他们绝对不会花费大量的时间去学习这些知识或者技术。

我始终坚信数据可以赋予人们做出更好的决策的能力,所以越多的人参与这项事业,对这个领域的发展必然越好。

所以你必须要想办法用你的语言,或者可视化的工具方法,来让你的听众理解你所做的东西,这样才不枉你花费大量的时间去建立复杂的模型。当你这样去看这个问题时,就会觉得能够在自身了解清楚各种复杂技术的情况下,用精练准确的笔触把这一切写下来,然后与其他人进行沟通,分享数据分析背后的知识和兴趣,这是一件多么让人激动的事情。

当你像这样去思考这个问题的时候,就会发现“讲故事”确实是非常困难的技能,就像是艺术一样。你需要努力将旷日持久的学习经验和复杂工作,以人们可以理解的一种方式娓娓道来。

您之前说过,一些初创公司拥有非常好的数据科学工作机会。基于您曾经在Bitly和咨询初创公司的工作经历,您能不能更多地解释一下?

我不得不说,我在最好的数据科学工作机会这个问题上是有一些个人偏好的。最好的数据科学工作机会,就是那种你有足够的自由度去收集数据的工作机会。而你收集来的数据经常是你一直在努力创造的一个产品的“副产品”。

Bitly就是一个这样的例子——更短的URL可以让你的公司网站更快、更容易地在互联网上传播复制。针对人们在互联网和社交网站上倾向于点击什么网址、分享什么网址,人们收集了一批非常好的数据。但是仅此而已,从来没有人真正从头开始、踏踏实实地做一个专门用于缩短网址的产品,然后用它来进行分析:卡戴珊(Kardashian)在采用了“Kim” 的缩写名之后,有没有变得更受欢迎。Bitly的创始人John Borthwick称这样的“副作用”为“数据尾气”,这实在是一个非常可爱的名字。

换言之,如果你是学术界的人,你可能没有机会拥有一个可以不断为你产生数据的产品。这导致在你开始做想做的事情之前,必须要做一些额外的工作(来产出数据)。你需要想办法自己产出数据,或者去大公司乞求他们施舍你一些数据。这一切都是非常不容易的,因为绝大多数公司根本不愿意分享数据。实际上,他们对于数据都有非常强的独家占有意识。所以,作为一名科研工作者,你可能会觉得自己在这个问题上进退两难,除非你可以与公司里那些家伙把关系搞得非常好。

如果你供职于一家大企业,你想要的数据可能已经深埋在公司那堆成山的、无法运转的数据库里了。或者你需要动用层层叠叠的批准文件,才能获得你想要的数据。

如果你所在的初创公司拥有一个可以产出数据的产品,那么这绝对是最完美的地方了。作为一名数据科学家,你有能力去修改产品的参数,从而让它产出其他的一些数据,所以你可以问“我们可以采集一些其他数据吗?”或者“你觉得如果我们这样做,会不会发现其他一些好玩的东西?”一类的问题,这样非常开放自由的环境正是最适合数据科学家工作的地方。

在数据中,我们总是可以发现很多有趣的东西。这样的过程非常有意思,并且这也确实是工作的一个好选择。

您可以对有志于加入数据科学初创公司的人给予什么建议吗?一个新人应该如何选择公司?

试着去了解一个初创公司的文化。一般来说初创公司的文化都很好——一个原因是初创公司都比较自由随和,文化上也比较多元包容。你可能会发现有些公司非常适合你,但有些就不太适合。这并不代表你本人不够优秀,仅仅是因为这个公司不适合而已。

如果你所在的初创公司拥有一个可以产出数据的产品,那么这绝对是最完美的地方了。

正如我之前说的,很多公司现在都在招聘他们的第一位数据科学家。而大部分的数据科学家其实都对这个工作没有任何经验,所以想要找到那种能迅速投入工作、完成别人力所不能及的任务的数据科学家是非常难的事情。我会弄清楚,我将需要合作的人(无论是你的COO、CTO还是CEO)对于招聘数据科学家这件事情有足够清楚的认识。至少他们必须是那种你可以合作,一同分析探讨你应该如何努力做事情的人。

对于工作的优先级以及应该在什么项目上花时间,您有什么心得可以分享吗?

在工作中,有一个无限长的待办事项清单等待你去解决——你如何选择那个能够带来最显著影响的问题?如果在你的公司,CEO一直在催促你做出一些用于董事会会议的PPT,销售主管总是在催促你给他数据……但是在这个时候,你有一个觉得非常有意思的项目——但是他们所有人都对这个项目完全不感兴趣,仅仅是因为他们没有和你一同坐下来探讨分析这个问题,这个时候你又该怎么办?

如果你正在寻找的数据科学家工作是你的第一份工作,那么你应努力确保主管上司能够成功管理项目进度。这说起来容易,但如果你真的是一位主管,你就会发现这事儿不像外行看起来那么容易。这是一项你必须要磨砺的技能。如果你要成为一名主管,我建议你思考下面的一系列问题——如何同时推进几个项目的进度?如何让项目之间的成员有所交流?如何让项目的进度赶得上公司其他部门的进展?

您还有其他建议可以给我们吗?

寻找好的数据集。当我面试那些寻求数据科学职位的人的时候,他们往往已经花了一些时间与我团队内的人沟通交流了。我会说:“现在你已经知道我们在做什么了。如果我现在问你,你有没有发现什么我们整个团队一直都没有想到的好主意或者分析方法,你脑子里第一个闪过的答案是什么?”我其实并不关心答案是什么,但是我想要知道他有没有能力去构思这个数据集是什么样的,并且独立地想出一个角度来运用这批数据。

针对上述的问题,我从面试者中收到的大部分答案都是我们已经思考过的。我并不指望这些面试的人可以在那么短的时间内迸发出一个绝顶聪明的点子,但是他们的答案会反映出他们内心有没有我们最期待看到的创造力。如果你一直以来都期待加入某些公司或者项目组,成为他们其中的一员,但你对于自己将要参与的事业却没有任何的想法,那这就有问题了。你应该要能想到一些让你自己都为之喝彩、激情澎湃的点子。

对于在公司工作的人们来说,各种事项的优先级应该是怎么样的?应该如何做出对公司有重大影响力的产品和工作?

就以我在Bitly工作的经历为例吧,针对我们所面对的每一个数据项目,都有一系列的问题亟待解决。这些问题的优先级排序不仅仅是我们个人(团队)的问题,更是整个公司的问题,因为只有恰当的排序才能让公司的其他部门了解我们项目的进度。

在工作中,有一个无限长的待办事项清单等待你去解决——你如何选择那个能够带来最显著影响的问题?

第一个问题是,我们能不能清楚地定义这个问题?我觉得一个很好的办法就是,把这个问题用最简洁的语言描述出来,写在一张白纸上,让所有人都明白我们想要做什么。

第二个问题是,我们怎么估计何时顺利完成这个项目?我们应该用什么成败指标来判断我们针对某个问题的解决方案是不是成功的?例如,如果你项目的算法根本无法返回一个可以量化的指标,你至少应该写清楚这个项目的量化指标不能是一个简单的数字。

第三个问题是,假设我们最终可以完美地解决这个问题,我们应该首先从什么地方入手?我问这个问题的目的是确保每一个项目都时刻与公司的业务和产品相关,而不能仅仅因为我们对某些东西好奇就花费大量的人力、物力去一探究竟。所以针对项目,在入手的第一步,就要有一个长期的规划,确保我们可以通过这一阶段的工作,更深入地了解数据。

对于所涉及的每一个数据项目,你需要不断问自己以下几个问题:我正在做什么事?我如何估计工期还有多长?这项工作会带来什么影响?如果你不断地问自己上述这些问题,你就会知道有没有把自己的时间合理地投资在正确的方向上。

您有没有例子来更好地说明如何通过询问自己这些问题来理解项目?

例如,你手头有一个项目:“土耳其用户与美国用户在日常的行为上有差异吗?”这是一个与市场有紧密关联的问题,对于那些在土耳其有销售业务的美国公司来说尤其如此。

项目的远期目标应该是着力于了解是否地缘差异会影响用户们的生活习惯,以及如果确实有影响的话,差异具体是什么。你应该时刻注意在短期目标和远期目标之间取舍平衡,进而根据你的数据建立一个完整的、针对这个问题的知识库。

最后一个问题是,假设一切都进展得很顺利,而且全球很多人都接纳了我们的分析结论,这会对人们的行为产生什么影响?这个问题是非常重要的,因为我总是确保团队成员着力于解决具有最大影响力的任务。

另外有一个我也经常会问自己的问题就是,针对这个问题我们能做的最邪恶的事情是什么?如果我是一个居住在火山洞穴里、非常邪恶疯狂的科学家,并且我拥有这样的技术和知识,我会用这一批数据做什么邪恶的事情?从这样的角度出发去想问题,你可以获得很多非常有创意的答案,而实际上这其中的大部分想法都并不邪恶。但是我觉得这是一个开脑洞的好办法。

您刚才针对数据科学家应该如何选择初创公司给出了建议。我想把这个问题反过来——对于新的初创公司来说,他们应该如何打造自己的数据科学团队呢?

这是非常有挑战性的一件事情。在大多数时候,对于数据科学家在公司里应该扮演什么角色这个问题,人们总是见仁见智的。这就意味着,至少公司的创始人和经理层需要对于这个问题有正确且透彻的认识。

也许你想要一些商业分析报告、产品分析报告、计算一些指标。或者你自己对于数据有一个很好的点子——例如类似于推荐系统,或者比这还要有创意的东西。但是想要找到一个人,帮你做出这一切东西,并且他有能力帮助你在公司里建立起一个数据团队,这可不容易。

对于你所涉及的每一个数据项目,你需要不断问自己以下几个问题:我正在做什么事?我如何估计工期还有多长?这项工作会带来什么影响?

在招聘的时候,你应该做的事情就是寻找那些能快速学习的人、有非常多创意的人、能够灵活变通的人,以及能够与你公司的软件工程开发部门通力协作的人,因为他们最终会一起合作。他们需要有能力和运维数据库的人成为好朋友,因为只有这样他们才能从数据库中获得所需的数据。同时他们也要能和产品部以及市场部的同事沟通聊天,一同探讨问题商量产品策略。

这就意味着你也许要考虑那些虽然没有20年的漫长数据科学经验,但是可以快速学会新技术,并且愿意与公司产品业务一同进步的人。你要意识到这样的人最终会给你带来一个出色的团队,而他们本身也会慢慢成为公司管理层的一员,成为公司的中坚力量。

大部分初创公司的成功招聘案例都是在正确的时间,找到了最适合公司的正确的人。这背后并没有可以列出来的公式和指标——简而言之,这是一个需要双方都能共赢的事情。

现在很多毕业生都在纠结去大公司工作还是小公司打拼,对此您有什么建议吗?

我个人觉得找小公司是一个不错的主意。准确来说,我的想法是努力找到一个在未来一年以内可以与你共事合作,并且能给你带来很多启发和教导,类似于一位出色的导师的人物。但是不要仅仅因为某些小公司听起来很酷就草率地加入他们。最好去那种你觉得“我在未来一年可以从那个公司里学到很多东西,并且我觉得在那里工作很快乐,我愿意待更久的时间”的公司。

在你加入公司一年以后,可以重新评估一下自己。我还在继续学到东西吗?我依然喜欢我所从事的事情吗?如果你对于这些问题的答案都是否定的,那么你就可以考虑去寻找下一个可以学到东西的公司了。走出学校、初入职场的那几年学到的东西,将会对你的职业生涯产生巨大的影响,并且实现你的第一次知识积累,所以最好去那些你能学到最多东西的地方。我觉得,从这个角度出发去思考去大公司还是小公司这个问题将会好很多。

对于学生选择公司,您还有其他什么建议与忠告吗?

我知道在你们寻找工作的时候,大部分人都会优先考虑工资待遇和工作地点。我也很重视住在我喜欢的城市里,否则你每天的生活都不会开心,相比于工资,我更看重这一点。但是最重要的一点还是,要选择一个对自己有挑战性的工作,并且要和能教会你很多东西的人在一起。

例如,我曾经在AT&T实验室做研究,我非常喜欢那个地方。那个是个无与伦比的地方,挤满了聪明绝顶的人。但是我不喜欢住在新泽西州,每天通勤往来于城市花园大道简直就是噩梦。对于这个问题,你必须要自己想办法找到其中的平衡点,来确保你工作的公司是一个你喜欢的地方,并且能从中学到很多东西。

相比于你以后几年的工资,你初入公司的年薪是10万元还是20万元,其实真的不重要。相比于住得舒心、吃得好、生活愉悦,我不会太重视第一份工作的工资。

对于那些有志于成为顶尖数据科学家的人,您有什么建议吗?

大部分人都惧怕起步的阶段,因为他们很怕因为初入领域而犯下一些愚蠢的错误,进而招致人们的笑话。是的,你会犯下一些愚蠢的错误,但是实际上人们往往比你想象的要友好很多,而且就算真的有人嘲笑你,你也不用太走心。

我的建议是,如果你确实对于数据科学有兴趣,就尝试去做它!现在网络上有这么多可用的数据集。我有Bitly公司曾经总结的100个开源的高质量数据集,你可以在这个链接里找到:bitly.com/bundles/hmason/1。你也可以找到一大堆方便的开源API。你可以充分发挥自己的创造力去做任何事。

所以最好去那些你能学到最多东西的地方。

尝试去做一个最符合你的优势技能的项目。总体上,我把数据科学家的工作分为3个板块:统计、代码以及讲故事/可视化。这3个板块中你最擅长的方面是哪个,你就尽量选择最需要这方面技能的项目。然后下一步,做一个着重点在你最不擅长的板块上的项目。这会帮助你尽快地成长,学到新的东西,并且搞清楚自己下一步的学习方向,然后顺水推舟地学下去就好。

这样做有几点优势。首先,你知道数据科学是什么样的,对于它的轮廓有了一个宏观的概念。大部分数据科学家需要花费大量时间写Hadoop脚本,这其中可没有什么乐趣——但是你还是应该体验一下这是什么感觉。

其次,你可以做出一些用于展览的东西。你可以告诉别人你做了一个多么酷炫的工作,而人们也会兴致勃勃地听你讲述。他们不会觉得你一直在做无用功或者你糟糕透了,他们将会说:“哇,这是你做的?太酷了!”而这样的成功也将会帮助你找到一份工作。

以我的一个朋友Hillary Parker为例,她在Etsy的分析团队工作。在找到这一份工作之前,她针对小孩的名字做了一个精彩的分析报告,揭示了“Hillary”(希拉里)这个名字在美国历史上是如何变得流行的。本来这个名字处于正常的缓慢增长阶段,但是在比尔·克林顿成功竞选成为美国总统以后,该名字的使用数量开始激增,而最近它又开始快速地增长(希拉里·克林顿开始参选美国总统)。我很喜欢用这个例子说明问题,因为我自己的名字就是Hillary。她把这个分析结果放在自己的博客上,而最终这个结果刊载到了New York Magazine上——我认为她做的事情对于她的求职绝对有莫大的帮助,因为这项工作充分证明了她对于数据科学有着清晰的认识。

我一直都在鼓励人们勇敢一些,把自己的工作放在自己的博客上或者Github上。想要做好数据科学这件事情,需要的是乐观与坚持。


相关图书

高级算法和数据结构
高级算法和数据结构
数据素养
数据素养
云数据中心网络架构与技术(第2版)
云数据中心网络架构与技术(第2版)
数亦有道 Python数据科学指南
数亦有道 Python数据科学指南
Jupyter入门与实战
Jupyter入门与实战
Jupyter数据科学实战
Jupyter数据科学实战

相关文章

相关课程