mutationEvents**已存在的基因突变会影响其他基因的突变,突变分析时确定这些基因突变潜在的相互作用,能更好地了解健康细胞转化为*细胞的过程和机制。DISCOVER,一种针对基因突变的统计检验工具,帮助寻找***的基因突变间互斥性和共现性。一般可应用的研究场景:探索一组基因是否在**中存在互斥性和共现性;基于基因突变的互斥性和共现性,研究**发***展的潜在机制。基本原理:DISCOVER(DiscreteIndependenceStatisticControllingforObservationswithVaryingEventRates)是一种用于检测**基因组数据的共现性和互斥性的新统计检验方法。与Fisher'sexacttest等用于这些任务的传统方法不同的是,DISCOVER基于一个空模型,该模型考虑了总体**特异性的变化率,从而决定变化率的同时发生的频率是否高于或低于预期。该方法避免了共现检测中的虚假关联,提高了检测互斥性的统计能力。DISCOVER的性能与其他几个已发布的互斥性测试相比,在整个***性水平范围内,DISCOVER在控制假阳性率的同时更敏感。 检测服务及数据分析助力取得2020年国自然面上十项、青年基金十八项。山东诊疗软件开发数据科学售后服务
Nomogram列线图(nomogram,诺莫图)是在平面直角坐标系中,用一簇互不相交的线段表示多个临床指标或者生物学特征,用以预测一定的临床结局或者某类事件发生的概率的图。列线图使预测模型的结果更具有可读性,可个性化地计算特定**患者生存率,在临床实践中有较大的价值。一般可应用的研究方向有:将回归的结果进行可视化呈现,对个体样本给出其发病风险或比例风险;根据多个临床指标或生物学特征,判断个体样本的疾病分类或特征。基本原理:列线图的理论于1884年提出,**早用于工程学。它能够将复杂的计算公式以图形的方式,快速、直观、精确的展现出来。列线图通过构建多因素回归模型(例如Cox回归、Logistic回归等),根据模型中各个影响因素对结局变量的影响程度的高低,即回归系数的大小,给每个影响因素的每个取值水平进行赋分。将各个评分相加得到总评分,通过总评分与结局事件发生概率之间的函数转换关系,从而计算出该个体结局事件的预测概率。校准曲线(calibrationcurve)为实际发生率和预测发生率的散点图,常于用于化工行业溶液配制。在这里通过观察预测值与实际值相差情况,判断基于回归模型构建列线图的有效性。 天津生物/药物信息学分析数据科学活动circos图通过圆圈和连线展示多个亚组之间的关系,包括且不限于基因、基因片段、亚型。
术语解释:Cox回归:又称比例风险回归模型(proportionalhazardsmodel,简称Cox模型),是由英国统计学家。该模型以生存结局和生存时间为应变量,可同时分析多种因素对于生存期长短的影响。Cox模型能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型,因此在医学界被***使用。Logistic回归:又称逻辑回归模型,属于广义线性模型。逻辑回归是一种用于解决二分类问题的分析方法,用于估计某种事物的可能性。相较于传统线性模型,逻辑回归模型以概率形式输出结果,可控性高且结果可解释性强。数据要求:样本临床信息或生物学特征(基因突变、基因表达等)样本的随访数据(总生存期,生存状态)或样本的分组情况下游分析:1.补充相关因素的已有相关研究2.解释相关因素对研究课题的意义。
sankey
桑基图(sankey)是一种数据流图,每条边**一条数据流,宽度**数据流的大小。一套数据集可能有多重属性,每层属性之间有交叉,就可以用这种图来展示。一般应用场景:分组与基因为多对多关系,展示高频突变基因所处的分组;miRNA和靶基因的关系;人群按性别、年龄、家族史等特征分组,展示不同分组得**的规律。
数据要求:
多个分组及其关系,包括且不限于基因表达、突变。
下游分析:
1. 补充展示部分的已有相关研究
2. 解释展示部分对研究课题的意义 云生物提供数据科学服务。
**突变频谱分析(突变模式):目的:输入突变数据,用非负矩阵分解方法NMF分析突变特征,描述样本集的突变模式。什么是突变模式:这也是对TCGA数据的深度挖掘,从而提出的一个统计学概念。文章(Signaturesofmutationalprocessesinhumancancer)研究了30种**,发现21种不同的mutationsignature。如果理解了,就会发现这个其实蛮简单的,他们并不重新测序,只是拿已经有了的TCGA数据进行分析,而且居然是发表在nature上面!文章研究了4,938,362mutationsfrom7,042cancers样本,突变频谱的概念只是针对于somatic的mutation。一般是对**病人的**组织和*旁组织配对测序,过滤得到的somaticmutation,一般一个样本也就几百个somatic的mutation。还有其它文章(Mutationalsignatures:thepatternsofsomaticmutationshiddenincancergenomes)也是这样分析的从2013年提出到现在,已经有30种mutationsiganures,在cosmic数据库有详细记录,更新见:MutationalSignatures。它的概念就是:根据突变上下文分成96类,然后每类突变的频率不一样画一个条形图,可视化展现。应用场景:突变特征定义:体细胞突变是多个突变过程如DNA修复缺陷,暴露于外源或内源诱变剂等综合结果。 TCGA数据机器学习研究数据包。天津生物/药物信息学分析数据科学活动
承担各类项目超过400余项。山东诊疗软件开发数据科学售后服务
术语解读:PPI:蛋白质-蛋白质相互作用(protein-proteininteraction)PPImoduleI:指蛋白质相互作用模块,一个模块指向一个功能数据要求:基因列表应用示例1:(于2018年3月发表在Immunity.,影响因子)T细胞活化过程中产生蛋白质组进行多重定量分析,然后对差异表达蛋白权重聚类,并将聚类蛋白叠加到PPI网络上以识别功能模块。D.模块大小的分布,通过将每个WPC(权重聚类结果)中的蛋白叠加到蛋白-蛋白相互作用(PPI)网络上识别模块。每个模块的蛋白质数量显示出来。E.各个模块及其交互的关系图。圆圈(节点)表示90个模块,圆圈大小与模块大小成比例。边连接共享PPIs的模块。在(F)和(G)中进一步扩展了装箱模块。F.来自WPC3的细胞质和线粒体核糖体的四个互连模块。显示了蛋白质的名称和每个模块的代表性功能术语。G.来自WPC3的蛋白酶体,OXPHOS和线粒体复合物IV途径的模块。 山东诊疗软件开发数据科学售后服务