TCGA数据库介绍以及数据下载

  • 2019-12-11 12:35:37
  • 147
  • 0

TCGA数据库简介

美国政府发起的癌症和肿瘤基因图谱(Cancer Genome Atlas,TCGA)计划,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”。TCGA 使命:提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力TCGA 目标:完成一套完整的与所有癌症基因组改变相关的“图谱”。TCGA收录的了很全面的癌症基因组数据,包括突变,拷贝数变异,mRNA表达,miRNA表达,甲基化数据等。

数据下载

1。 进入TCGA网址,TCGA提供了五种数据检索方式:

(1)Projects:“项目”链接将用户导向“项目”页面,该页面提供项目级信息的总体摘要,包括每个项目的可用数据。

(2)Exploration:“探索”链接将用户带到探索页面,该页面允许用户利用各种情况、基因和突变过滤器来探索数据。

(3)Analysis:“分析”链接将用户导向分析页面。此页面具有可供用户比较不同群组或分析特定群组临床变量的功能。这些群组可以通过现有过滤器(例如男性肺癌患者)生成,也可以通过自定义选择生成。

(4)Repository:“存储库”链接将用户导向存储库页面。在这里,用户可以在GDC上看到可供下载的数据文件,并应用文件/案例过滤器来缩小搜索范围。

(5)人体轮廓:主页显示人体解剖轮廓,可用于优化搜索。选择一个相关联的机构将引导用户找到与该主站点相关联的所有项目的列表。例如,点击人脑将只显示与脑癌相关的病例和项目。与每个主站点相关联的案例数量也显示在这里,并按项目分开。(注:在这里以肺癌为例,点击 Repository,进入数据存储地,或者直接点击人体轮廓中的肺进入数据存储地。)

2。点击 Case,选择肿瘤原发部位、项目、疾病类型,比如选择结直肠、TCGA、腺癌或腺瘤,在前面打钩即可。接着点击 File,选择需要下载文件的数据类型,因为需要下载的是RNAseq数据,所以在Transcriptome Profiling前面打钩。在Data Type选择Gene Expression Quantification,在Experimental Strategy上由于只有一个选项,所以不用选择,主要看到有三种类型,分别是counts,FPKM和FPKM-UQ,分别表示counts数和两种归一化后的值,推荐下载counts数据。


3。右边可以看到每一步操作都会记录在里面,也可以看到数据大小是135。01M。

点击Add All Files to Cart,然后就会看到箭头所指的地方,变为相应的样本数,接着点击右上角cart。点击download,下载cart即可(数据小于50M)



注意:当数据大于50M时不能用这种方法下载,需要借助TCGA下载工具Data Transfer TooL进行下载否则下载的数据很有很可能不全或下载失败。以下是Data Transfer TooL软件下载数据的步骤:

点击download,下载manifest文件。点击右上角GDC Apps,选择“Data Transfer Tool”按照电脑系统下载相应的工具,我们以win10为例说明。将下载好的gdc-client工具(解压)和manfiest文件放在同一个文件夹下(该软件不能解压到含有中文名的文件夹下,否则会报错,不能使用!!!),方便整理。



5  win+R调出命令窗口,输入"cmd”确定,然后在命令行中输入:


下载过程如下图所示,后续就是等待数据下载完成



数据下载完成之后,是TCGA中的选取每一个数据txt文本分别创造了一个相应的文件夹,每个文件夹中都有一个对应的gz格式的安装包。至此,TCGA的数据下载基本介绍完了。

评论

全部评论()
查看更多评论
优盛彩票平台 大亚彩票平台 鼎汇彩票平台 开门彩平台 美娱彩票平台 679彩票平台 e博彩票平台 uc彩票平台 大奖网彩票平台 彩娃彩票平台