在大多数科学研究中,大量的实验数据的统计分析工作通常由计算和统计方面的技术专家完成。 遗憾的是,这些专家不是相应领域研究的专家,这可能导致分析中的缺陷。 如果,研究人员本人能够轻松使用工具和方法来处理和分析数据,那么肯定会获得丰富研究成果。

结合优选算法 使用可视化进行高档数据剖析的五个过程(可视化分析的常用算法)  可视化 数据分析 优选算法 第1张

在大多数科学研讨中,很多的试验数据的计算剖析作业一般由核算和计算方面的技能专家完结。 惋惜的是,这些专家不是相应范畴研讨的专家,这或许导致剖析中的缺点。 假如,研讨人员自己能够轻松运用东西和办法来处理和剖析数据,那么肯定会取得丰厚研讨效果。

问题

许多科学家都面对着一起的应战,特别是那些分子生物学范畴科学家,他们的试验产生了很多的数据。关于如此海量的数据,人们需求软件东西来有用地解说其数据。

现在,面对日益增长的大数据,核算机软件仍大多侧重于数据处理,经过面向技能专家的用户界面,以规范的计算办法来出现数据效果。 因而,科学家/研讨者很难深化解说这些数据,很多的数据剖析作业只能由专业的生物信息学家和生物计算学家来履行。 可是,这个形式并不尽善尽美,由于一般情况下,科学家才是最了解该研讨范畴的人。

结合优选算法 使用可视化进行高档数据剖析的五个过程(可视化分析的常用算法)  可视化 数据分析 优选算法 第2张

解决方案

结合优选算法可视化办法能够在某种程度上应对这些应战,并可使更多运用者去探究和剖析数据。可视化技能,给咱们供给了一种快速辨认重要结构和形式的活泼有用的办法,而且反应信息也很易于了解。 从集体化的视角来看,这也是一种很重要的办法,由于它使更多的科学家能够剖析和评论试验数据和效果,从而推进立异。

当运用可视化来辨认数据中新的子组数据和形式时,咱们主张运用五步法来保证可重复的明显的效果。 此剖析进程的是出于多方面的考虑, 最基本的目的是测验在数据中辨认全新的组或形式, 另一方面是为了探究数据,而且仅检测预期的形式,这是一种质量操控的好办法。 经过运用这个五步法,科学家就能够研讨很多杂乱的数据集,而不用成为计算专家。 该办法在下面更具体地描绘,可是一些基本概念需在此告知清楚, 它可运用于任何类型的生命科学职业数据,可所以高维度数据和样本数据,例如 RNA-seq,基因表达阵列,蛋白质组学,DNA甲基化,代谢组学等等。

***步:下降数据维度

首要,高维数据需求被降阶到较低的维度,使得其能够进行3D制作。 为此,咱们主张运用主成分剖析(Principal Component Analysis, PCA)的办法。别的,还需求用数据染色东西来增强信息,并用过滤器等东西来挑选数据集的部分。

结合优选算法 使用可视化进行高档数据剖析的五个过程(可视化分析的常用算法)  可视化 数据分析 优选算法 第3张

在五步法的开始阶段,研讨人员会对活动数据会集存在的***信号进行检测和去除。 一旦辨认了该信号就能够去除它,以便检查是否存在其他含糊但仍然可辨认的信号。移除一个强信号,一般会导致活动样本和或变量(特征)的削减。

第二步:评价信噪比

该进程的第二步是经过运用PCA、投影分数和随机化来评价数据中的信噪比。 投影分数会显现检测的信号或模板的视觉强度。

结合优选算法 使用可视化进行高档数据剖析的五个过程(可视化分析的常用算法)  可视化 数据分析 优选算法 第4张

第三步:方差滤波去除噪声

第三步是经过方差滤波去除“噪声”。 假如研讨人员能够在其活动数据会集看到明显的信噪比,那么他们应该测验去除一些最或许奉献噪声的活泼变量。 为了辨认所需的方差过滤量,用户能够运用由PCA可视化和投影得分的办法来取得方差过滤量。 经过测验多个不同的方差设置,能够更简单找到明晰的形式。

第四步:计算测验

结合优选算法 使用可视化进行高档数据剖析的五个过程(可视化分析的常用算法)  可视化 数据分析 优选算法 第5张

第四步,计算测验是可选的履行进程,能够运用于五步进程的任何/一切其他阶段,也就是说,能够在初始剖析期间履行,或许当某个进程重复的时分履行,或许在进程结束时履行,或许不做也能够。 被测数据组可所以预界说的,或许是在迭代进程中确认下来的。 (主张对第二个数据集去验证发现的数据结构和数组)

第五步:查找子组或群集

***一步,运用图形来细化子组或群集的查找。 例如,在网络或图形中衔接样本,使其能够搬升至更高的维度(即,大于三个维度,能够用3D PCA图来表明),由于在样本图中创立的图形是根据一切活动变量的空间间隔,所以它能够运用户对数据结构有更深化的了解。

重复这五个进程,直到无法再找出新的数据结构。

就此办法来操作,可视化能够作为研讨人员的强壮东西。数据能够以明晰的方法可视化,科学家能够轻松辨认那些风趣和/或重要的效果,而不用依赖于专业的生物信息学家和生物计算学家。 相反,科学家能够与生物信息学家协作,去收成更有意义的效果。

转载请说明出处
知优网 » 结合优选算法 使用可视化进行高档数据剖析的五个过程(可视化分析的常用算法)

发表评论

您需要后才能发表评论