Tags

This is a book that I have been reading recently, which is strongly recommended by some pioneers in data journalism. I would like to mark down some extracts for reference. The extracts would be in Chinese. For English version, please visit Big Data: A Revolution That Will Transform How We Live, Work, and Think.

第一部分:大数据时代的思维变革

书中是这样解读大数据的:

  1. “数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。(完整性)”
  2. 放弃精确性,接受不精确性,接受数据的混杂性。
  3. 数据告诉我们是什么,有时候我们并不需要知道为什么。最典型的事例:亚马逊的推荐系统,数据推荐的书籍增加了销量,从而解散了书评组。“我们需要改变我们的操作方式,使用我么能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。

第二部分:大数据时代的商业变革

  1.  谷歌的数字图书馆 shows that “correlation” is much more used than “causality” after 1990:

Screen Shot 2016-01-31 at 1.55.21 pm

2. 地理信息,位置数据的重要性:“从个人层面来说,根据他所居住的地点和他要去的地方的预测数据,可以为他提供定制广告。而且,这些信息汇集起来可能会揭示事情的发展趋势。”

3. 位置数据在商业以外的用途:“‘现实挖掘’,通过大量来自手机的数据,发现和预测人类行为。” 举例,流感病情的分析,一切和位置有关的,可以从手机中获取地理信息的分析。

4. 微博:句法分析,情感分析技术;以获得顾客反馈意见的汇总或对营销活动的效果的判断;

5. “社交网络分析之父”Bernardo Huberman: 微博中单一主题出现的频率可以用来预测很多事情,比如好莱坞的票房收入。--- 沟通的数据化,情感的数据化

6. 互联网?物联网?典型的数据化手段。

7. 数据再利用的重要性:ReCaptcha

  • 数据创新 1:数据的再利用         example: 搜索关键词
  • 数据创新 2: 重组数据               example:使用移动电话和癌症风险之间关系的研究
  • 数据创新 3: 可扩展数据:“促成数据再利用的方法之一是从一开始 就设计好它的可扩展性。收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始的时候就考虑到各种潜在的二次用途并使其具有扩展性是非常有意义的。这增加了数据的潜在价值。问题的关键是寻找 “一份钱两份货”,即如果以某种方式收集的单一数据集有多重不同的用途,它就具有双重功能。”
  • 数据创新 4:数据的折旧值:“即使数据用于基本用途的价值会减少,但潜在价值却依然强大。潜在价值的概念表明,组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应当与第三方分享数据,前提是要保留所谓的“延展性”权利(专利许可术语)。这样一来,由数据再利用而产生的任何商业价值,原始数据拥有者都能从中分到一杯羹。数据收集者和拥有者无法想象数据再利用的所有可能方式,这一点几乎是不言自明的。
  • 数据创新5:数据废弃:“它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。” “从数据中学习”原则。
  • 数据创新 6: 开放数据 data.gov   example: FlyOnTimes.us充分体现了一个不收集或控制信息的实体单位是如何像搜索引擎或大零售商一样,能够获取数据并利用其创造价值。

“数据是一个平台”,用硅谷技术专家和科技出版社员工Tim O’Reilly的话来说就是,“因为数据是新产品和新商业模式的基石。” “数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。

8.  大数据价值链:

  • 基于数据本身(Twitter, VISA & MASTERCARD, ITA)
  • 基于技能(咨询公司,技术供应商,分析公司,Teradata, 埃森哲)
  • 基于思维(Jetpac, Decide.com,FlightCaster): “所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。”

       “数据科学家”是统计学家,软件程序员,图形设计师,与作家的结合体。数据科学家通过探寻数据库来得到新的发现。

大数据时代的早期受益者可能是具有创新性大数据思维的人和拥有技术的外在力量。可是随着思维和技术的普及,可能真正的数据拥有者才是最佳受益人,这个时候可能会出现“数据中间人”。它们会从各种地方搜集数据进行整合,然后再提取有用的信息进行利用。数据拥有者可以让中间人充当这样的角色,因为这些数据的价值只能通过中间人来挖掘。For example, 交通数据处理公司Inrix。

第三部分:大数据时代的管理变革

“也许,大数据预测可以为我们打造一个更安全、更高效的社会,但是却否定了我们之所以为人的重要组成部分 – 自由选择的能力和行为责任自负。大数据成为了集体选择的工具,但也放弃了我们的自由意志。大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。让人们为还未实施的未来行为买单是带来不利影响的主要原因,因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。”

“卓越的才华并不依赖于数据” – 典型的例子:乔布斯

“只要得到了合理的利用,而不单纯只是为了‘数据’而‘数据’,大数据就会变成强大的武器。