企业商机
数据科学基本参数
  • 品牌
  • 云生物,数据科学
  • 服务内容
  • 软件开发,软件定制,技术开发
  • 版本类型
  • 普通版,正式版,标准版,企业版,升级版
  • 适用范围
  • 企业用户
  • 所在地
  • 上海,北京,广州
数据科学企业商机

棒棒糖图是直观显示蛋白质结构上的突变点**简单且有效的方式。许多致*基因具有比任何其他基因座更频繁突变的优先位点。这些位点被认为是突变热点,棒棒糖图可以用于显示突变热点以及其他突变位点。并可以对比不同**/亚型的突变位点。

基本原理

将蛋白质结构根据氨基酸顺序绘制为长条形,以不同色块标注不同结构域,在基因突变导致氨基酸改变的位置标注棒棒糖,并在棒棒糖圆球标注位点的突变频数以及突变位点。

数据要求

基因突变或者蛋白质突变数据


下游分析

1、突变位点靶向药物分析

2、驱动基因突变分析 糖尿病药物基因组学分析找到新的作用靶点。辽宁数据科学活动

ssGSEA基本原理

对于一个基因表达矩阵,ssGSEA首先对样本的所有基因的表达水平进行排序获得其在所有基因中的秩次rank。然后对于输入的基因集,从基因集中寻找表达数据里存在的基因并计数,并将这些基因的表达水平求和。接着基于上述求值,计算通路中每个基因的富集分数,并进一步打乱基因顺序重新计算富集分数,重复一千次,***根据基因富集分数的分布计算p值整合基因集**终富集分数。

数据要求

1、特定感兴趣的基因集(通常为免疫细胞表面marker genes),列出基因集中基因

2、基因表达矩阵,为经过log2标准化的芯片数据或者RNA-seq count数数据(基因名形式与基因集对应)


下游分析

免疫细胞浸润分数相关性(corralation)分析 湖北公共数据库挖掘数据科学口碑推荐不断拓展各类大学、科研院所、医院学术资源,互通有无,形成强大学术生态圈。

    术语解释:Cox回归:又称比例风险回归模型(proportionalhazardsmodel,简称Cox模型),是由英国统计学家。该模型以生存结局和生存时间为应变量,可同时分析多种因素对于生存期长短的影响。Cox模型能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型,因此在医学界被***使用。Logistic回归:又称逻辑回归模型,属于广义线性模型。逻辑回归是一种用于解决二分类问题的分析方法,用于估计某种事物的可能性。相较于传统线性模型,逻辑回归模型以概率形式输出结果,可控性高且结果可解释性强。数据要求:样本临床信息或生物学特征(基因突变、基因表达等)样本的随访数据(总生存期,生存状态)或样本的分组情况下游分析:1.补充相关因素的已有相关研究2.解释相关因素对研究课题的意义。

    蛋白质主要由碳、氢、氧、氮等化学元素组成,是一类重要的生物大分子。蛋白质的功能由蛋白质的三维结构决定。蛋白质三维结构绘图,可以直观地展示蛋白质三维功能结构,广泛应用于单核苷酸突变功能分析、药物蛋白分子相互作用分析等研究领域。基本原理蛋白质三维结构绘图主要分为蛋白质三维结构预测以及对结构进行可视化两步。蛋白质三维结构预测是基于蛋白质中氨基酸序列预测蛋白质折叠结构的步骤,**常用的预测方法为同源建模,同源建模的原理是序列相似的蛋白质具有相似的蛋白质结构,要推测一个未知结构蛋白的三维结构,只需要找到与之序列高度相似的已知结构模板。在无法进行同源建模(找不到模型)的情况下,还有折叠识别及从头建模法,但是计算量大运行缓慢且建模准确度不如同源建模。获得蛋白质三维结构预测的pbd文件后还需要通过分子三维结构软件绘制可视化的三维图,并分析特殊位点(分子对接或突变位点分析),常用的有pymol和DeepView等。数据要求目标蛋白的氨基酸序列或者编码蛋白的基因序列,突变数据等。下游分析突变位点靶向药物分析等。 WGCNA其译为加权基因共表达网络分析。

    STEM基因表达趋势分析基因调控网络是一个连续且复杂的动态系统。当生物体按照一定顺序发生变化或者受到外界环境刺激(如受到不同浓度的化学药物诱导)时,基因表达变化也会呈现趋势特征。趋势分析就是发现基因表达的趋势特征,将相同变化特征的基因集中在一种变化趋势中,从而找到实验变化过程中相当有有代表性的基因群。STEM(ShortTime-seriesExpressionMiner),中文名短时间序列表达挖掘器。该软件主要用于分析短时间实验数据,也可用于多组小样本数据。推荐3至8组数据。一般可应用的研究方向有:多个时间点的时间序列数据,例如多个发育时期、处理后多个时间点取样。基本原理STEM采用了一种新的聚类算法来分析时间序列基因表达趋势。聚类算法首先选择一组不同的、有代表性的时间表达模式(temporalexpressionprofiles)作为模型(modelprofiles)。模型是**于数据选择的,并从理论上保证了所选择的模型剖面具有代表性。然后,根据每个标准化过后的基因表达模式,分配给模型中相关系数比较高的时间表达模式。由于模型的选择是**于数据的,因此该算法可以通过排列测试,确定哪些时间表达模式在统计意义上***富集基因。对每一个基因都分配时间表达模式完成后。 生存曲线分隔,在展示基因表达水平对生存期的影响时找到分组。上海临床统计数据科学欢迎咨询

做数据分析就找云生物。辽宁数据科学活动

sankey

桑基图(sankey)是一种数据流图,每条边**一条数据流,宽度**数据流的大小。一套数据集可能有多重属性,每层属性之间有交叉,就可以用这种图来展示。一般应用场景:分组与基因为多对多关系,展示高频突变基因所处的分组;miRNA和靶基因的关系;人群按性别、年龄、家族史等特征分组,展示不同分组得**的规律。


数据要求:

多个分组及其关系,包括且不限于基因表达、突变。


下游分析:

1.   补充展示部分的已有相关研究

2.   解释展示部分对研究课题的意义 辽宁数据科学活动

与数据科学相关的产品
与数据科学相关的**
信息来源于互联网 本站不为信息真实性负责