大数据的应用核心是大数据预测,即尽量找出数据相关性,而不强求找到准确的因果性。找因果关系的成本和难度远大于找相关性。什么是相关性?就是我知道当出现A现象时必然会出现B现象。我们不一定要去搞明白为什么会这样,而只需要努力的提高出现A现象时一定会出现B现象的预测准确率。设计测试系统的本质是发现一堆bug数据,然后找到bug数据集与软件质量的相关性,不一定要找到准确的因果性。测试设计的测试系统或测试评价模型对挖掘出的bug数据集的质量非常重要,否则在寻找bug集与质量相关性时,就会很难或不靠谱。
大数据预测完全依赖大数据来源。最有价值的数据是异常数据,对全部数据进行统计分析发现这些小概率的异常数据对其分析是大数据分析的最大价值,异常数据说明我们的认知和建模还有漏洞,从而可发现我们过去未知的新事物,完善我们的认知模型。
大数据分析不怕数据中有错误数据的干扰,如2+2=3.9也挺好。从软件质量角度来看,只要是“全部bug数集”,即使有一些无效bug,但对产品发布质量的相关性准确性的负面影响,也小于仅是“随机抽样bug数据或按规则抽样bug数据”进行数据分析的负面影响。
大数据时代三大关键资源:拥有大数据资源、拥有统计算法工具、拥有大数据思维模式。对于大多数人或组织没法拥有大数据资源,也不一定精通统计算法工具,但都可以拥有大数据思维模式,依靠大数据思维模式提升工作的效率和质量。
截止到目前以及在可见的将来,计算机所能够提供给我们的结论都应该是相关性的。对大数据我们最为关键的,就是利用这样的相关性关系研究,把数据里面的金子挖出来,或者利用相关性,预防或促成某些结果的发生。我们需要一定的速度,应对信息社会“数据爆炸”和诸多涌现出来的“复杂性”很高的问题,然后才是对其过程和背后原因的探询。在大多数情况下,一旦我们完成了对大数据的相关性分析,而又不再仅仅满足于‘是什么’时,我们就会继续向更深层次研究因果关系,找出背后的为什么。