PPImodule蛋白质互作蛋白质-蛋白质相互作用(protein-proteininteraction,PPI)是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体(proteincomplex)的过程。PPImodule是指共表达蛋白模块或蛋白质相互作用模块。蛋白质相互作用形成人体复杂的蛋白质相互作用网络,对蛋白质相互作用网络进行聚类形成模块从而帮助我们理解细胞的功能。我们一般使用PPImodule把基因列表跟蛋白相互作用网络联系起来。例如RNA-seq获得的差异表达基因,看他们在蛋白相互作用网络中,哪些基因处于同一module。基本原理:蛋白质在细胞中的功能取决于它与其他蛋白质、核酸和小分子相互作用关系,对蛋白质相互作用网络进行聚类形成模块,各个蛋白模块发挥不同的功能,我们将基因列表重叠于模块上,查找基因列表所在的功能模块,从而发现基因列表中的基因可能发挥的细胞功能。我们通过PPI数据库找到共表达蛋白中的module,然后从模块中筛选出基因列表的产物蛋白,筛选出的结果就是基因列表***表达的PPImodule。 长期与交大、复旦、中科院、南大、药科大等实验室合作。辽宁诊疗软件开发数据科学
Inmmune gene
免疫学研究是目前科研领域争相研究的热点,**免疫细胞浸润是其中一种。**免疫细胞浸润是指免疫细胞从血液中移向**组织发挥作用。我们从**组织中分离出浸润免疫细胞含量,计算基因与浸润免疫细胞含量的相关性,筛选出影响免疫浸润的候选基因。
基本原理:
从基因矩阵数据中提取免疫细胞含量,生成免疫细胞含量矩阵;
计算目标基因与浸润免疫细胞含量的相关性,筛选与浸润免疫细胞含量高度相关的基因。
术语解读:
相关性系数(pearson,spearman, kendall)反应两个变量之间变化趋势的方向以及程度。相关系数范围为-1到+1。0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。
数据要求:
**数据表达矩阵 湖北组学数据处理数据科学诊疗软件开发、算法还原与开发、临床统计等数据科学工作。
industryTemplate
LASSO回归:更多的变量在拟合时往往可以给出一个看似更好的模型,但是同时也面临过度拟合的危险。此时如果用全新的数据去验证模型(Validation),通常效果很差。一般来说,变量数大于数据点数量很多,或者某一个离散变量有太多独特值时,都有可能过度拟合。LASSO回归复杂度调整的程度由参数λ来控制,λ越大对变量较多的线性模型的惩罚力度就越大,从而**终获得一个变量较少的模型。LASSO回归与Ridge回归同属于一个被称为ElasticNet的广义线性模型家族。这一家族的模型除了相同作用的参数λ之外,还有另一个参数α来控制应对高相关性(highlycorrelated)数据时模型的性状。LASSO回归α=1,Ridge回归α=0,一般ElasticNet模型0<α<1。LASSO过程中我们通常会进行多次交叉验证(crossvalidation)拟合(1000次)进而选取模型,从而对模型的性能有一个更准确的估计。 基因组数据全链条处理。
不同分组的全基因组拷贝数变化的比较:**初目的:不同分组的拷贝数变异在染色体水平和染色体臂水平的展示和比较。应用:不同分组的全基因组拷贝数变化的比较,展示genome-wideDNAcopy-numberprofiles。不同染色体臂的变异与临床表型息息相关。输入数据格式:一个表征每个样本的染色体变异(gain,balance,loss)的数值矩阵和样本分组信息。或者拷贝数的原始结果,可处理成所需矩阵。参考文献:(2)::本文计算出病人的拷贝数变异情况后,按照之前病人的分组比较了不同分组的染色体变异的异同,找到特定的染色体变异模式。确定了各组的特征,如lmonosomy2inPFB2,monosomy8inPFB3,monosomy3inPFB1,andgainof1qinPFB1.。 甲状腺疾病的靶向药物研究。北京成果发表指导数据科学口碑推荐
circos图通过圆圈和连线展示多个亚组之间的关系,包括且不限于基因、基因片段、亚型。辽宁诊疗软件开发数据科学
t-SNE(t分布随机邻域嵌入)是一种用于探索高维数据的非线性降维算法。它将多维数据映射到适合于人类观察的两个或多个维度。t-SNE非线性降维算法通过基于具有多个特征的数据点的相似性识别观察到的簇来在数据中找到模式。另外t-SNE的输出可以作为其他分类算法的输入特征。因为t-SNE算法定义了数据的局部和全局结构之间的软边界。t-SNE几乎可用于所有高维数据集,广泛应用于图像处理,自然语言处理和语音处理。在生物信息中可广泛应用于基因表达数据、基因甲基化数据、基因突变数据等,能够直观地对不同数据集进行比较。基本原理从方法上来讲,t-SNE本质上是基于流行学习(manifoldlearning)的降维算法,不同于传统的PCA和MMD等方法,t-SNE在高维用normalizedGaussiankernel对数据点对进行相似性建模。相应的,在低维用t分布对数据点对进行相似性(直观上的距离)建模,然后用KL距离来拉近高维和低维空间中的距离分布。 辽宁诊疗软件开发数据科学