单细胞原始数据上传

单细胞的文章还在返修ing,但是杂志已经连续发邮件催促提交原始数据的索引号,之前计划上传到GEO和NCBI的SRA数据库中,但是突然一想,国内应该已经有类似的生物信息数据中心了吧,一番搜索,发现国家生物信息中心的存在,而且确实可以上传数据并用于文章发表,但是第一次使用,肯定要踩坑,所以呢,记录一下完整的数据上传过程,以后也会经常用到的@@

原始数据整理

National Genomics Data Center (NGDC)支持中文,所以很多地方对于本土用户还是非常方便的,不过对国外的研究人员,可能就不是那么友好了…或许以后这样的情况会越来越多呢…

我是单细胞的数据,就只上传原始Raw Data数据就好了,计算好的表达矩阵就不提交了(其实是没有办法在这里提交,GEO倒是很方便的),数据按照数据中心要求打包为fastq.gz格式,修改好名字,提前记录好MD5值。

md5sum <path to file>  #linux里面很简单很迅速就可以得到文件的MD5值了

CertUtil -hashfile <path to file> MD5 #Windows里面可以在powershell里面简单查询,速度较慢

新建BioProject

按照网站要求,首先建立新的BioProject,按照要求填写即可,so easy。

新建GSA编号

按照要求,需要准备2个excel表格,录入数据相关信息,按照说明来即可。

踩坑记录: 1、GSA_Template.cn.xlsx里面有BioSample name的选项,之前以为是S1,S2这种按顺序即可,结果是输入之前BioProject里面录入的样品名称,导致耽误了一天,一直以为需要等待之前录入的BioSample编号被系统承认@@!!后面发现不对劲,修改为样品名称而不是样品编号,顺利通过…

2、数据上传就是大问题了,单细胞一个文件有40G左右,我在上传的时候,首先按照建议使用了ftp软件,连接很容易,速度也还可以,10M/s,但是每次都会提前中断,也按照建议选择了二进制数据传输,不过最后还是选择放弃。

3、官方还推荐Aspera Command Line进行数据上传,之前用过,速度非常快,而且稳定,因此直接打开服务器,用Aspera进行数据上传,软件路径和文件路径都是很简单的,但是一直提示认证错误,反复检查代码,发现没有问题,就是很奇怪,之后突然发现官方指南里面有个蓝色的文字Get the key file,额,每个用户应该是有独特的key码,所以下载之后替换原始代码里面的~/miniconda3/etc/asperaweb_id_dsa.openssh文件,就可以顺利和数据服务器建立连接,即可正常高速的进行数据上载了,速度在90M/s,非常稳定,也就是以后的首选方案了。

ascp -P33001 
     -i ~/miniconda3/etc/aspsub_rsa #前面提到的从数据中心下载的Key文件
     -QT -l100m -k1 #断点续传等设置
     -d /XXXX/XXXX/subCRA004669 #上传原始文件所在目录,建议为每一个提交创建一个新的子目录(可以用GSA的提交编号作为子目录名称)
     [email protected]:uploads/XXXX-You ID-XXXX #每个用户独特的ID信息

后记

数据上传之后等待check就好了,之后就赶紧给杂志发邮件提供编号,顺便正文里面补充数据描述信息:

Availability of data and materials

The scRNA-seq clean data reported in this paper have been deposited in the Genome Sequence Archive (Genomics, Proteomics & Bioinformatics 2017) in National Genomics Data Center (Nucleic Acids Res 2020), Beijing Institute of Genomics (China National Center for Bioinformation), Chinese Academy of Sciences, under accession number CRAxxxxxx that are publicly accessible at https://bigd.big.ac.cn/gsa.

完结撒花★,°:.☆( ̄▽ ̄)/$:.°★**★,°:.☆( ̄▽ ̄)/$:.°★ (这是什么鬼)

Jiannan Zhang
Jiannan Zhang
Associate Professor

My research interests include Avian Physiology, Endocrinology and Metabolism.

Related