4.6 大数据和深度学习:3D打印内容的挖掘与推荐

      有了3D打印机,那么我们日常究竟要打印些什么东西呢?这就像我们有了MP3播放器iPod,却在为每天要听什么歌而犯愁。因为,现在网上可下载的MP3实在太多了,数不胜数。同样,目前网上的3D模型也数不胜数,今天,你到底应该打印哪些模型呢?
       造成你如此困惑的根源就在于“大数据”。

4.6.1 什么是大数据

“大数据”(Big Data)是“数据化”趋势下的必然产物。数据化带来了两个重大的变化。一是数据量的爆炸性剧增,最近几年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和。以前网上的3D模型非常少,而目前仅Shapeways这一个网站上的3D模型,就已突破了100万个。二是数据来源的多样化以及异构性,比如介绍某款手机产品的网页,既有文本、语音,还有视频、图像、3D模型等,从各个方面展示了该产品的特征,这种多源性也有助于滤除数据噪声、交叉验证。数据间是否具有结构性和关联性,是“大数据”与“大规模数据”的重要差别;“大数据”这一概念中包含着对数据对象的处理行为,即快速挖掘和展现其中蕴含着的有价值信息。

大数据的特点可总结为4个“V”——Volume(体量巨大)、Variety(类型多样)、Value(价值密度低,商业价值高)、Velocity(处理速度快)。牛津大学互联网研究所维克托·迈尔·舍恩伯格教授指出,“大数据”所代表的是当今网络社会所独有的一种新型能力──通过对海量数据进行分析,来获得有巨大价值的产品和服务或深刻的洞见。例如,你在网上买书时,网站根据你之前的购买记录快速推测你的阅读类型(比如你喜欢魔幻武侠小说),然后把当前最热门的3部魔幻武侠小说显示在网页最醒目的位置,以便激发你的购买欲。因此,可利用大数据对客户群进行细分,通过分析其既往行为,推测他们潜在的意图、习惯和计划,以实现精准营销

大数据时代会颠覆许多传统思维,在哲学层面体现为“经验主义”“理性主义”更多地被人们所采用。以前人们总在探寻问题的因果:事物为什么会这样?但现在,人们更关心结论。比如,从大量数据分析得出冬天第一场雪过后大白菜价格会涨大概两倍,那么商家会更乐意利用这个结论来关注天气预报并伺机囤积大白菜,而不会像专家那样坐在一起讨论为什么第一场冬雪后大白菜会涨价、为什么是涨两倍而不是涨3.2倍。大数据也意味着对效率的追求,而不是去过分追求数值上的精确。

专家的价值在于因果分析,而大数据却放弃对因果关系(Causality)的追求,仅关注相关关系(Correlation。也就是说,只需要知道“是什么”,而不需要知道“为什么”。这种变化已经远远突破了技术层面,将对人类认识世界的哲学观产生重大影响。因果关系只是相关关系中特殊的一种,大数据告诉我们很多情况下只要关注相关关系以做出预测就够了。另一种可能的解释是,数据是不会骗人的,而人(即使是专家)的见解往往是主观和偏见的。当然,我们并不是说逻辑性的因果关系不重要,而是我们一开始往往会迷失在纷乱繁杂的数据海洋中、毫无头绪,所以这时就可首先想办法获得统计意义上的相关关系,然后再考虑从中提取出逻辑性的因果关系。这其实很好理解:当我们对数据无法直接获得可解释性时,那就试着先观察出这些数据的统计规律性(“是什么”),然后再针对这些规律进行解释(“为什么”)。

大数据还有一个巨大的优势是,可利用通用的的统计学模型代替各种各样的专家系统,“以不变应万变。例如,基于大数据(包罗万象的语料数据),Google的翻译算法可统一实现几十种语言(英语、汉语、法语、韩语、拉丁语等等)的互译,而无须针对每种语言定制专门的语法专家系统。IBM 公司的 Fred Jelinek院士是利用大数据进行统计语音识别与合成的著名学者,他曾说过一句著名的论点:“每当我解雇一个语言学家,语音识别系统的性能就会改善一些”。

大数据是网络社会在掌握海量数据收集、存储和处理技术基础上所产生的一种进行判断和预测的能力。专家往往希望归纳出一个模型,而在大数据时代,数据直接自己“说话”,变得比模型更重要,因为再复杂的模型也无法包罗万象。而当数据“大”(多)到能对几乎整个样本空间进行充分覆盖时,就可以减弱对理论和模型的依赖,不再需要通过模型去经历“从特殊归纳(Induce)到一般,再从一般演绎(Deduce)到特殊”的传统流程,而是利用大数据去直接实现“从特殊特殊”的判断和预测(这种直接的方式也被称为转导,Transduce),因为大数据中已经包含了足够多的“特殊”样本以供参考。换言之,此时数据本身便是模型,也即大数据可实现全样而非抽样(现实中要获得代表真实情况的抽样非常难,比如可能会因为抽样不够全面而遭遇“黑天鹅事件”)。

大数据将给整个社会带来从生活到思维上革命性的变化:人们所接受的服务,将以数字化和个性化的方式呈现,借助3D打印技术和智能数字化,零售业和医疗业也将实现数字化和个性化的服务。

扩展:除了大数据,还有所谓的小数据(iData。小数据跟大数据的根本区别在于:小数据以单个人(个体)为唯一对象,重点在于深度,即像一位忠诚细致的“个人管家”那样对个人数据进行全方位、全天候地深入精确分析,同时还可主动灵活地设置各种外界访问权限以保护个人隐私;而大数据则侧重在某个领域(群体),大范围、大规模地进行数据的全面收集处理分析,侧重点在于广度

目前,Hadoop是最为流行的大数据处理平台,是一个开源的、可运行于大规模集群上的分布式并行编程框架,由分布式文件系统(如HDFS)、数据库(如HBase,属于NoSQL类型的数据库)、数据处理模块(如分布式编程模型MapReduce)等组成。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于大规模集群上,从而完成大数据的计算。除了Hadoop,此外还有另一个高效的分布式并行计算系统Spark,通用性更好、迭代运算效率更高、容错能力更强,目前其发展势头正逐渐盖过Hadoop

扩展:数据挖掘不仅与统计学习有关,而且与信息论紧密相关。所谓信息,根据信息论创始人香农Claude Elwood Shannon)的说法:“凡是在一种情况下能减少不确定性的任何事物都叫做信息”。在信息论中,使用信息熵(EntropyShannon Entropy,简称:熵)来评估信息量的大小,即不确定性的度量

通过上式可以看出信息熵被定义为信息()的期望值,单位为比特(bit。事件的不确定性越大,则信息熵就越大(也即把它搞清楚所需的信息量就越大)。比如,“人咬狗”相比于“狗咬人”是小概率事件,可能性小,不确定性大,因此熵更大。

条件熵(Conditional Entropy的定义:


可证明,也即如果增加了(与相关的)的信息,的不确定性下降了。类似地,还有

那么,到底有多相关呢?我们可通过
互信息(Mutual Information来量化地度量“相关性”:
        


比如,“计算机”和“鼠标”这两个词的互信息就比“计算机”和“牙刷”的互信息更大,因为前者更相关。
相对熵(Relative Entropy,又叫KL距离(Kullback-Leibler DivergenceKL散度)、信息增益(Information Gain)、信息散度(Information Divergence

               


不同于前面的熵和互信息(它们衡量的是随机变量的关系),相对熵衡量的是两个概率分布函数的差异程度。