白菜网送体验金2018

公用数据深度挖掘

近年来,生物信息学研究积累了大量的实验数据,其中大部分被储存在各类公用数据库中。2018白菜网送体验金生物生物开发了综合利用已有数据进行信息分析的模式,实现了数据的多次利用,让您的研究站在全世界著名研究机构的肩膀上,给您的研究提供更多的选择。

神经胶质瘤芯片数据

1、GEO数据库中来自13批不同实验的408张非重复表达量芯片的数据。
2、使用这些数据研究与神经胶质瘤的发生相关的基因。

数据流向图

处理步骤

具体研究方法

1、GEO数据库:GEO数据库是储存基因芯片实验与部分高通量测序实验的基因表达量结果的数据库。分为GEO profile与GEO dataset两种数据呈现方式,为了说明两者的差别,这里有一个小小的例子:共三组实验,每次测量1000个基因,则GEO profile展示的是单个基因在三组实验中的表达量变化;GEO dataset则展示每组实验中1000个基因的表达量。

2、批次效应:不同的实验得到的基因芯片数据在比较前,需要先将随机因素引起的基因表达量差异去除(批次效应校正)。我们采用贝叶斯方法对批次效应进行校正。

3、SVM向量机特征选择

结果

去离群样本

大数据时代已经到来。生物公用数据库中蕴藏着丰富的信息,这使得少量样本进行大数据的研究成为可能。我们将根据客户的需求,为您提供共用数据挖掘策略服务。