PNAS：改善大数据集分析的准确性

2014-03-25 佚名测序中国

日前，来自哈佛医学院等机构的研究人员发现，整合了交叉验证的一种数据集分析技术可能有能力识别出从生物信息学到语言学等领域的多维数据集的模式。对大数据集的自动分析可能识别出数据的模式，但是无法评估发现的模式的显著性，这可能导致无意义的结果。研究人员发展了一种数据分析方法，它包括了一个交叉验证步骤，从而识别出最显著的模式，这种方法称为通过准确性最大化的知识发现（KODAMA）。一个迭代过程评估了

日前，来自哈佛医学院等机构的研究人员发现，整合了交叉验证的一种数据集分析技术可能有能力识别出从生物信息学到语言学等领域的多维数据集的模式。

对大数据集的自动分析可能识别出数据的模式，但是无法评估发现的模式的显著性，这可能导致无意义的结果。

研究人员发展了一种数据分析方法，它包括了一个交叉验证步骤，从而识别出最显著的模式，这种方法称为通过准确性最大化的知识发现（KODAMA）。一个迭代过程评估了对数据的可能的分类，从而对尽可能多的数据点进行归类，并且通过合并类似的数据类，削减可能的数据类的数量。最后，定义了一个相异度矩阵从而评估数据点之间的关系。

研究人员把通过准确性最大化的知识发现（KODAMA）应用到了几个数据集上，包括淋巴瘤遗传学、代谢组学和上溯到 1900 年的美国国情咨文的语言学特征。

对于国情咨文，研究人员表示通过准确性最大化的知识发现（KODAMA）揭示出了在罗纳德•里根总统任期期间的一种转变，诸如“劳动”、“生产”和“开支”等词汇的频率减少，而诸如“父母”、“子女”和“改革”等词汇的频率增加。

研究人员表示，这些结果提示通过准确性最大化的知识发现（KODAMA）可能有能力从有噪声或复杂的数据集中提取出有意义的模式。

原始出处：

Stefano Cacciatore, Claudio Luchinat, and Leonardo Tenori. Knowledge discovery by accuracy maximization. PNAS, March 24, 2014; doi:10.1073/pnas.1220873111

作者：佚名

版权声明：
本网站所有注明“来源：梅斯医学”或“来源：MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：梅斯医学”。其它来源的文章系转载文章，本网所有转载文章系出于传递更多信息之目的，转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言