大数据分析面临的机遇与挑战

2015-09-04 范剑青等 国家科学评论

    800个(红色)和6400个(蓝色)独立的标准正态分布中,第1个与其余4个变量的最大相关系数的统计分布(n=60)。观察可知,假相关系数相当大。大数据分析给现代社会带来了新的机遇与挑战。一方面,与传统研究侧重于揭示事物的共性不同,大数据研究将有助于人们发现事物的个体特性,并针对每一个体的特性给出个体化的解决方案。同时,大数据研究也将使人们能够从大量个体的差异变

    800个(红色)和6400个(蓝色)独立的标准正态分布中,第1个与其余4个变量的最大相关系数的统计分布(n=60)。观察可知,假相关系数相当大。

大数据分析给现代社会带来了新的机遇与挑战。一方面,与传统研究侧重于揭示事物的共性不同,大数据研究将有助于人们发现事物的个体特性,并针对每一个体的特性给出个体化的解决方案。同时,大数据研究也将使人们能够从大量个体的差异变化中,揭示其中存在的难以察觉的规律。另一方面,大数据的海量样本规模和高维数特征也引入以下显著特性:数据搜集的偏差性、数据产生的异母体性、计算成本、噪音的累积叠加、假关联性、外生性,以及测量误差等等。为了应对这些挑战,需要引入新的计算和统计方法。

由美国普林斯顿大学范剑青教授作为通讯作者撰写、发表于《国家科学评论》的综述文章“大数据分析面临的机遇与挑战”(http://nsr.oxfordjournals.org/content/1/2/293.full)阐述了大数据独有的特点及其对统计分析和计算体系结构的影响。

首先,从计算的角度来看,大数据提供的数据量巨大,这会给实施统计计算和最后完成统计估算和检验带来问题。比如,对于一个列数上百万的矩阵,一次简单的矩阵求逆操作在计算上都是困难的。该文概括性地介绍了Hadoop分布式文件系统、MapReduce编程模型、云计算、凸优化算法,以及随机投影技术,以解决海量数据的计算问题。其次,从统计分析的角度来看,大数据经常包含被抽样个体的大量特征信息,即样本的个异性和高维性。个异性和高维性给统计分析与计算带来诸多问题,包括异母体、噪音累积、假相关、内生性。以假相关性为例,高维数会增加发现欺骗性关联的风险。比如,在人类基因表达数据分析中,学者可能会认为第八对染色体上的某个重要致癌基因(MYC)和Y染色体性别决定基因(SRY)有很强的相关性。但是,这可能仅仅是因为考虑的基因数目太高,以至于有些高相关性的出现只是偶然事件。

该文也为大数据分析提供了新的展望。以高维数据下的统计推断为例,文中给出了高致信区间内的最稀疏解的一般解,并指出许多传统的理论所基于的外生性假设是不正确的,尤其可能导致错误的统计推断,并得出错误的科学结论。以内生性问题为例,范剑青教授和他的合作者指出,线性回归模型中的外生性假设在高维数下很可能是不正确的:当考虑的回归变量数目很大时,其中的一些回归量(自变量)很有可能和模型的误差项相关。他们发现,当内生性问题存在时,流行的高维回归方法(诸如lasso和SCAD)的估计值不具有相合性,即:随着样本数变大,估计量和母群体参数的差异不会趋近于零。本文介绍了一种新的、基于广义矩与高维回归的方法。这个方法可以克服内生性问题,并给出具有一致性的估计量。

作者:范剑青等



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言

相关资讯

俞熔:我眼中的移动医疗和健康大数据

移动医疗的四大竞争态势目前大家关注的移动医疗领域,其竞争态势可以分为以下四个方面:抢医生、争入口、拼线下、贴身体。目前医生的抢夺很严重,线上线下创新模式都围绕不可替代且稀缺的医生资源、稀缺资质的争抢。争抢医生存在这样一个显而易见的逻辑:有医生就不愁患者,有患者就有人买单。目前的争抢路径主要是:地推、用学术声望和利益捆绑医生。但学术、利益和情怀都是需要考虑的因素,谁能把这三个因素做到极致,谁将会在这

移动医疗, 医生或是下一轮变革引擎的主体?

“移动医疗”热潮一波一波来袭,从问诊平台,面向医生服务平台到BAT大佬,制药企业涌入。医生作为医疗体系中核心的主体,对改善医疗环境及提升医疗质量有着重要影响,医生可以是下一轮变革引擎的主体。 当移动遇到医疗,政策未放松 移动互联网快速改变了“通信、商品消费、金融等”,当它遇到医疗,更多却是围绕在体系外围打转,在面对移动互联网热潮,医疗体系显得格外的慎重,甚至于保守。2014年8月29日

医疗大数据时代,知情同意怎么办?

5月下旬,马云、马化腾、雷军、周鸿祎等互联网巨头齐聚贵州,参加“2015年贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会”,李克强总理发去贺信,马凯副总理到场发表演讲。会上,周鸿祎提出了“大数据的伦理和道德问题”。他指出了三点:1. 用户数据的所有权归用户;2. 用户在知情同意的基础上,用自己的数据换取企业或政府的服务;3. 存储数据的主题对数据安全负责。知情同意,在医疗领域不是一个新鲜的词。但

大数据时代,美国医院评价给国内智慧医疗的几点启发

更精确的数据采集和应用,更立体的医院评价体系,更明确的患者导向,是大数据时代美国医院评价带给中国的鲜活启示。 2015年7月21日,《美国新闻与世界报道》公布了美国2015-2016年最佳医院排名。紧随其后的7月22日,由中国医学科学院、中国研究型医院学会主办的现代化医院评价与评估高峰论坛举行,国家卫计委医疗管理服务指导中心主任赵明钢指出,中国将基于数据,科学、规范和准确地建立全国医疗机

大数据协作与对慢性疾病的管理

近日,来自杜克-新加坡国立大学医学院和全球远程健康平台Holmusk近日宣布了一项关于潜在的医疗保健领域大数据的合作,大数据就意味着大型的无社会组织及多样化的数据库,这些数据库并不能利用常规的方法来进行利用和管理,而在医疗保健领域,大数据及其分析可以帮助研究者们发现一些未知的信息,从而使得我们可以对疾病进行预测,进而改善患者的生活质量及花费。 这项合作旨在寻找改善糖尿病及精神健康管理的方法,研究

响应“精准医疗” FDA要建立基因大数据共享平台!

随着奥巴马政府精准医学计划的提出,个性化诊断、基因测序等概念又一次变得炙手可热。然而,随着技术的日趋成熟,众多检测方法对FDA提出了尽快适应形势的要求。为了与精准医学计划相呼应,FDA计划建立一个名为“精准FDA”(precisionFDA)平台。最近,著名的生物信息学公司DNAnexus公司与FDA签订了第一份合作协议,可被看做是向前迈出了重要一步。尽管这次协议涉及的金额可以说是少的可怜,仅为