上海临床统计数据科学服务诚信服务「上海蕴卓生物科技供应」

数据科学基本参数

品牌
云生物,数据科学
服务内容
软件开发,软件定制,技术开发
版本类型
普通版,正式版,标准版,企业版,升级版
适用范围
企业用户
所在地
上海,北京,广州

数据科学企业商机

ssGSEA基本原理

对于一个基因表达矩阵，ssGSEA首先对样本的所有基因的表达水平进行排序获得其在所有基因中的秩次rank。然后对于输入的基因集，从基因集中寻找表达数据里存在的基因并计数，并将这些基因的表达水平求和。接着基于上述求值，计算通路中每个基因的富集分数，并进一步打乱基因顺序重新计算富集分数，重复一千次，***根据基因富集分数的分布计算p值整合基因集**终富集分数。

数据要求

1、特定感兴趣的基因集（通常为免疫细胞表面marker genes），列出基因集中基因

2、基因表达矩阵，为经过log2标准化的芯片数据或者RNA-seq count数数据（基因名形式与基因集对应）

下游分析

免疫细胞浸润分数相关性（corralation）分析长期与交大、复旦、中科院、南大、药科大等实验室合作。上海临床统计数据科学服务

bubbles（不同分组的基因表达或通路富集展示）：

Bubbles可以同时展示pvalue和表达量。例如展示motif的pvalue和motif对应的转录因子的表达量，方便快速看出转录因子富集且高表达所在的group，预示着该分组对细胞状态的改变（例如细胞分化、转移、应激）起关键调控作用；例如做基因功能富集分析时，展示富集的通路qvalue和基因数量或geneRatio。

基本原理：

Bubbles的实质是分组数据下基因表达量或通路内基因数量的可视化，同时可以展示pvalue。

数据要求：

表达矩阵，分组广东公共数据库挖掘数据科学服务基因组数据全链条处理。

GSEA术语解读Enrichmentscore（ES）ES是GSEA**初的结果，反应关注的基因集S在原始基因数据序列L的顶部或底部富集的程度。ES原理：扫描排序序列，当出现一个基因集S中的基因时，增加ES值，反之减少ES值，一个基因的ES值权重与差异表达度相关。ES是个动态值，**终ES是动态扫描过程中获得的**ES值。如果**终ES为正，表示某一功能基因集S富集在排序序列顶部。ES为负，表示某一基因集S富集在排序序列底部。NES由于ES是根据分析的排序序列中的基因是否在一个基因集S中出现来计算的，但各个基因集S中包含的基因数目不同，且不同功能基因集S与原始数据之间的相关性也不同，因此比较数据中基因在不同基因集S中的富集程度要对ES进行标准化处理，也就是计算NES。NES=某一基因集S的ES/数据集所有随机组合得到的ES平均值，NES是主要的统计量。nominalp-value（普通P值）描述的是针对某一功能基因集S得到的富集得分的统计***性，通常p越小富集性越好。FDR（多重假设检验矫正P值）NES确定后，需要判断其中可能包含的错误阳性发现率。FDR=25%意味着对此NES的判断4次可能错1次。GSEA结果中，高亮显示FDR<25%的富集基因集S。因为从这些功能基因集S中**可能产生有意义的假设。大多数情况下。

cancersubtype**亚型分析：**的传统分型被***使用，但是有些分类与生存预后并没有明显的关系，因此需要研究人员开发有效的分类器对疾病进行针对性指导***。通过对分子谱与临床信息的综合性研究，重新定义**亚型，并对新定**分型进行分析，明确各亚型的发病机制和预后情况的差异。基本原理：使用SNFCC+与HC和NMF算法进行分子分型，然后进行分型之间的比较。CancerSubtypes包含以下5种计算方法对基因组数据进行**分子分型鉴定：术语解读：SNFCC+：相似网络融合加一致聚类(Similaritynetworkfusionplusconsensusclustering)HC：层次聚类(Hierarchicalclustering)NMF：非负矩阵分解(Non-negativematrixfactorization)DEG：差异表达基因数据要求：芯片数据。利用甲基化数据分析样本的拷贝数变异。

RoastROAST是一种差异表达分析方法，有助于提高统计能力、组织和解释结果以及在不同实验中的关联表达模式，一般适用于microarray、RNA-seq的表达矩阵，用limma给全部基因做差异表达分析，不需要筛差异表达基因。基本原理：ROAST是一种假设驱动的测试，对结果基因集做富集分析，富集分析考虑基因集中基因的方向性(上调或下调)和强度(log2倍变化)，判断上/下调基因是否***富于集目标基因集；ROAST使用rotation,一种MonteCarlotechnology的多元回归方法，适用于样本数量较少的情况；roast检验一个geneset，对于复杂矩阵，使用mroast做multipleroasttests。富集分析结果用barcodeplot展示，使上/下调基因在目标基因集中的分布可视化。数据要求：表达矩阵。不断拓展各类大学、科研院所、医院学术资源，互通有无，形成强大学术生态圈。上海数据库建设数据科学口碑推荐

WGCNA其译为加权基因共表达网络分析。上海临床统计数据科学服务

GSEA数据要求1、通常为表达谱芯片或测序数据（已经过预处理），也可以是其他形式可排序的基因数据。2、具有已知生物学意义（GO、Pathway、**特征基因集等）的基因集。下游分析：得到GSEA结果之后的分析有：1.基因注释：1、绘制基因集富集趋势图（Enrichmentplot）横坐标：按差异表达差异排序的基因序列。数值越小（偏向左端）的基因**在shICAM-1组中有越高倍数的差异表达，数值越小（偏向右端）的基因在对照组中有越高倍数的差异表达。纵坐标：上方的纵坐标为富集打分ES，ES是一个动态的值，沿着基因序列，找到条目中的基因则增加评分，否则减少评分。通常用偏离0**远的值作为**终富集打分。下方的纵坐标**基因表达与表型的关联，***值越大**关联越强，数值大于0**正相关，小于0则**负相关。上海临床统计数据科学服务

与数据科学相关的文章

与数据科学相关的产品

与数据科学相关的**

与数据科学相关的专区