Tags
这篇文章是参加一个分享数据科学活动后的总结和感悟,感谢data scientist – Hu Pili的总结和分享。
活动简介:本次的Symbols & Keys,组织者Mart邀请到了在Facebook London office工作的Hong Chun Leung,前来分享「当一个data scientist是种什么体验」。Hong Chun在去Facebook前曾在UCL攻读Machine Learning专业,也在King(制作Candy Crush的公司)工作过,在数据科学方面有不少实战经验。
Hong Chun Leung 对于问题 “What do data scientists do?” 直接给出答案:“Drive impact, strategy through data.” 并对这个答案解释如下:“A data scientist should know ‘How users are using your product?’, which means a data scientist should 1) understand the product; 2) do experimentation (very very important); 3) build data structure”。
对于这个问题,作为data scientist的Hu Pili同学有很深刻的见解:“总得来说,数据科学家并不是「科学家」,data scient-ist直接说就是「people who work on data science」、「people who use data science」。正如「journalist」是记者,而不是「新闻家」、「日记家」一样。去除这层神秘色彩,再来看data scientist的日常工作,可以说更接近PM(产品经理),不过是更精于数据分析技巧的PM。不管是in-house还是consultancy,data scientist的一个重要职责是沟通。从需求确定,到结果呈现,无一不是沟通能力的考验。而抛开写代码还是写文字这种技术细节,data scientist和journalist的工作性质有一点非常类似:学习并利用不同领域的知识。说到底,data是工具,价值永远存在于对领域知识和业务逻辑的把握中。”--看到这里Tansy不禁称赞叫好,因为虽然有浅层意义上的理解,但由于缺乏行业经验无法一语中的的道明重点。接下来是刚入行小白Tansy的理解:
“我觉得一个数据科学家,更加像一个用户研究者,或者更像一个用户体验部门,再或者是用不同的方法在做和用户体验部门一样的事情。用户体验部门可能更多的面向客户的心理层面,很多事情亲力亲为,在开发产品的整个流程中对用户做调查,设计调研,与客户面对面沟通,进行各种专业和业余的实验来检验客户使用产品的方式。而数据科学家可能更多的从后台数据中应用machine learning和data technology部分来分析数据,发现pattern,从而发现用户使用产品的习惯,来制定下一步的发展和策略。”
至于具体的技术需求,必然是每次这类meetup的Q/A环节必备问题。Hong Chun做了简单的总结 —— (非技术宅请绕过)
- 用什么语言?SQL或HQL最多,看后端对接什么数据库了。
- 用什么统计工具?T-test和Bootstraping用得最多,关键在于找到合适的假设(Hypothesis)。
- 机器学习方法呢?Random Forest,简单好用(在Kaggle上非常流行,虽然不总是最好的算法,但大多时候能拿到不错的结果)。
Talk的第二部分我很喜欢,围绕着最近正使我欲罢不能的游戏Candy Crush来讲Data Science @ King. 原来每次打开Candy Crush中文版“糖果传奇”都出现的“腾讯游戏”四个字的意思是:腾讯只是糖果传奇的中国代理商,真正开发的大佬却是英国的网络公司King。瞬间觉得这个游戏霸气侧漏。Candy Crush的用户体验很好,游戏难易程度随机改变,可以用金币解决很多问题,也可以请求好友帮忙过关,游戏样式也变化多端,每一关的任务不同可以给玩家带来不同的体验和思考。在这个风靡全球的游戏产品中,Hung Chun讲到了marketing 领域里的 Customer LTV & Churn Prediction,Hung Chun说到data scientist更关心离开的用户为何离开,用什么方式放弃使用产品,怎样才能重获离开用户的芳心等问题。
接下来的两段话我读后受益匪浅,十分适合刚入行和还未入行想入行的小白,同样来自Hu Pili 的倾情奉献:
“无独有偶,几次分享会上我也被问及类似的问题。以目前在媒体工作的情况来看,90%的时候,只需要掌握好Spreadsheet软件就可以了。而近半年来,我们团队用到的最复杂的方法不过是PCA(主成分分析,一种常用的高维数据处理算法,即「降维」)。聚会上,一位从9Gag来的data scientist也谈到,他目前的工作主要集中在data pipeling,统计分析涉及并不多。‘ 如果客户需要的话,甚至前端开发,也会成为data scientist工作的重要部分,’ —— Symbols & Keys的创办者,Mart这样说。简而言之,就是不要搞技术崇拜和技术偏执,集中精力面对业务本身。行业、公司、团队构成,都会影响到data scientist的具体工作内容,快速确定需求并找到合适的领域专家、(数据处理/可视化)工具、资源是核心能力。
末了需要提醒的是,深度的技术积累和/或行业经验积累是很重要的。提这点是因为问到「工具」问题的大多是学生或者有志于这行的朋友。但把精力放在少数几种工具或语言上,有点急功近利的意思。要注意,把以上这些「简单」的「工具」学会,并不足以帮你敲开data science的职业之门。99%的时间都用简单的工具(奥卡姆剃刀原则;没事不找事),并不代表你可以忽视1%的需求(有事不怕事)。”
nicely put!
LikeLike
Thanks!
LikeLike
Ockham’s razor — to prefer simple explanations for phenomena over more complicated ones — is a strategy but not a rule.– By Janet D. Stemwedel
LikeLike
Two years past and some values/ opinions still work! Interesting to see one this resurface on Top Posts. It was cross-posted on http://itq.hk/ , a community efforts from “IT Circle” (ITQ) contributors.
LikeLike