Academic

单细胞数据公开啦
家鸡垂体单细胞的文章几个月前就接收发表了,经历了差不多一年的时间吧,一共有4个审稿人,不过中途两位退出,最终在一位超级友善而严格的审稿人的帮助下,在实验室处于困境下总算得以见刊,也算了却了一桩大事,从湿实验到干实验,算是一次转行,码了上千行的代码,不算是白费~精简代码是以后要改进的主要地方了。 论文撰写的时候就一直想把数据以一种交互式网页的方式展示,shiny app超级合适我这种新手,毕竟我是不会做网页UI的生物研究人员= =!但是又没有时间去构建好看和好用的界面,最终放弃在正文里面添加链接呈现数据,非常遗憾,不过这个交互式网页一直在实验室内部共享的,文章见刊了,也就可以正式的online公开了,拖了很近,假期结束前还是把网页界面稍微调整了下,删除了密码验证,打开就可以直观的展示这篇单细胞文章的数据,当然,仅仅是最基础的通过基因名查看基因分布,对于不会码代码的同学来说,还是很省事的,毕竟单基因分布的图片直接导出就可以达到发表要求了… 网站链接如下:http://scrna.avianscu.com/pit/,https的链接始终有问题,所以最好就是http打开了,nginx反代始终达不到预期效果,穿透frp实现https对现在的我来说还是很难的= =! 没图没真相,放一张预览图哈:
单细胞原始数据上传
单细胞的文章还在返修ing,但是杂志已经连续发邮件催促提交原始数据的索引号,之前计划上传到GEO和NCBI的SRA数据库中,但是突然一想,国内应该已经有类似的生物信息数据中心了吧,一番搜索,发现国家生物信息中心的存在,而且确实可以上传数据并用于文章发表,但是第一次使用,肯定要踩坑,所以呢,记录一下完整的数据上传过程,以后也会经常用到的@@ 原始数据整理 National Genomics Data Center (NGDC)支持中文,所以很多地方对于本土用户还是非常方便的,不过对国外的研究人员,可能就不是那么友好了…或许以后这样的情况会越来越多呢… 我是单细胞的数据,就只上传原始Raw Data数据就好了,计算好的表达矩阵就不提交了(其实是没有办法在这里提交,GEO倒是很方便的),数据按照数据中心要求打包为fastq.gz格式,修改好名字,提前记录好MD5值。 md5sum <path to file> #linux里面很简单很迅速就可以得到文件的MD5值了 CertUtil -hashfile <path to file> MD5 #Windows里面可以在powershell里面简单查询,速度较慢 新建BioProject 按照网站要求,首先建立新的BioProject,按照要求填写即可,so easy。 新建GSA编号 按照要求,需要准备2个excel表格,录入数据相关信息,按照说明来即可。 踩坑记录: 1、GSA_Template.cn.xlsx里面有BioSample name的选项,之前以为是S1,S2这种按顺序即可,结果是输入之前BioProject里面录入的样品名称,导致耽误了一天,一直以为需要等待之前录入的BioSample编号被系统承认@@!!后面发现不对劲,修改为样品名称而不是样品编号,顺利通过…
腾讯云服务器及高带宽的nextcloud来啦
一年一度的双十一又来了,不一样的2020,但我还是没有什么要买的,除了云服务器,每年的双十一都是最优惠的时候,疫情期间初次替RQ付款购买了阿里云的服务器,结果我和老婆的都不能再购新,居然被认作老用户,试了很多方法都不行,果断被劝退,三年2核4G3M的服务器,原价我是怎么也买不起的了,阿里不给我机会,那我自然去腾讯,竞争对客户的最大好处就是,你不希望被我撸羊毛,那我就去其他家,数据积累到三年后,腾讯云价格再贵,我也会续费,阿里云错过了就是错过了,以后也不会给实验室的人推荐阿里云,谁让曾经被伤过心呢…不知道在个人blog里面吐槽这些好不好,管他呢,反正又没人看的@@ 下面是简单的记录下云平台的尝鲜记录和高带宽的nextcloud安装记录 腾讯云 腾讯云居然不是默认密钥登陆ssh的,所以在控制面板那里人为添加密钥,同时将我常用的端口开放,这些都是基本操作,哦,我一气之下买的是2核4G5M三年的服务器,¥1348,3M的是700左右,带宽啊带宽,国内就是这么贵! 然后就没有什么坑了,毕竟云服务器现在已经很成熟了…不会就google~ Nextcloud 不得不说,5M带宽的唯一目的就是这个私人云盘了,够快~而且50G的空间也足够实验室使用了~~ 软件虽然方便,但是各种配置还是很麻烦的,所以呢,Docker来啦~懒人的选择= =! 安装Docker apt install docker.io 安装Nextclouddocker docker pull nextcloud 从官网下载肯定很忙,云平台都有镜像下载,安装Docker后设置镜像源下载 vim /etc/default/docker DOCKER_OPTS="--registry-mirror=https://mirror.ccs.tencentyun.com" sudo service docker restart 在服务器对应端口(这里是1314)新建nextcloud服务 docker run --name nextcloud -p 1314:80 -v ~/nextcloud/data/:/var/www/html/data -v ~/nextcloud/apps/:/var/www/html/apps -d nextcloud
Pagedown制作CV及展示在个人主页
这段时间做的工作慢慢地变成了一篇篇的文章,项目也在努力的申请和完成,即使学院主页上仍然没有我的名字,不过呢,我的个人主页则是早早的就建好了,但是一直缺少一份正式的CV,说不定哪天就会用到呢@@ 鉴于最近超级迷恋R系列的XXXXdown,Pagedown又推荐用于制作CV,空暇之余变启动了个人CV之旅,也简单记录下整个过程。 安装Pagedown remotes::install_github('rstudio/pagedown') pagedown::html_resume 抄… 呃,从GitHub抄…(读书人的事情怎么能叫抄,借鉴借鉴) 借鉴于数据从csv导入的思路,参考 https://github.com/nstrayer/cv 和 https://github.com/GuangchuangYu/cv 的格式进行微调(下载文件改啊改),自己做的最大的改进在于第二页起就没有右边的侧边栏了,使得整体简洁大方了不少,虽然少了Y叔那里酷炫的google schoolar引用数据,等哪天和他一样牛的时候我再加上,哈哈,鬼知道有么有那天呢…哦,去掉侧边栏参考了 https://community.rstudio.com/t/pagedown-html-resume-with-aside-on-first-page-only/46351 里面的建议,css里面加一段代码就ok了: .pagedjs_page:not(:first-of-type) { --sidebar-width: 0rem; --sidebar-background-color: #ffffff; --main-width: calc(var(--content-width) - var(--sidebar-width)); --decorator-horizontal-margin: 0.2in; } 然后呢,先跑一下代码,整齐的CV就出来了,接着就是修改原始录入数据和调整相关信息,字体格式行距位置都是高端玩家的东西,我就不需要再去折腾了(菜就是原罪)…还不如写一写跳坑的东东…
阿里云服务新配置代码备存
新添了阿里云服务器,超级推荐云翼计划,学生能享受的优惠真的很赞,可惜我没有机会了,只有等双11的活动了,点击链接进去即可选购~~ 主要是为了解决frp走国外服务器的延迟问题,同时为实验室数据分享网址的建立练手,当然以后肯定还会有很多购新的事件,因此这里记录下相关代码和备注事项,方便以后的操作: SSH登陆 垃圾阿里云,操作复杂,事项繁多,比Vutlr的界面复杂太多了,不过安全性上面确实可能要高一些,新手直接劝退吧,不过新手也不会上来就买CES,或者买来就是练手的,我就是新手,差点被劝退了~~~ 首先重置密码,即设置新密码,为什么不能随机给个默认的,要这么麻烦,吐槽+1…… 然后在安全组界面添加密钥,默认只能通过密钥登陆,安全性提高,然后记得重启CES,随便啥远程登陆进去~再次前排推荐Visual Studio Code!!! 虚拟内存 由于开启swap分区会导致硬盘IO性能下降,因此阿里云服务器初始状态未配置swap,如果某些应用需要开启swap分区,自己设置即可。小鸡的烦恼,土豪随意 sudo dd if=/dev/zero of=swapfile bs=1024 count=2048000 sudo mkswap -f swapfile chmod 0600 swapfile sudo swapon swapfile sudo cp /etc/fstab /etc/fstab.bak echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab #学到么?下面还有类似操作喔~ shutdown -r now #重启看下free R, Shiny and Rstudio R install sudo apt-key adv --keyserver keyserver.
Gene ID转换
为什么要在R中进行ID转换 在转录组数据或者其他分析中,好吧,其实是因为我做的物种是家鸡,根本就没有人和鼠那样有着非常完善和时刻更新的数据库做为支持,我经常会遇见GeneID转换,同源基因转换的问题,之前一直利用Ensembl主页里面的biomart进行数据下载,然后在excel里面利用vlookup进行操作,哎,费时费力,而且不能高度自动化和重复化~~(传统湿实验室人员的基本操作思维)~~,现在已经开始将大部分操作都在R里面进行了,刚好学习了biomaRt包可以完美替代之前的操作流程,下面就是相关笔记及备注: 好吧,这是第一篇Rmd笔记,Rmarkdown真的超级好用啊! 安装所需的软件包 下面的R包也包括Y叔的clusterProfiler了,里面也有ID转换的板块,也是非常实用的,一并汇总了。 if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("biomaRt") biomaRt示例 首先还是推荐看官方文档,没有什么攻略比官方文档更靠谱了,除非懒~ library("biomaRt") library(org.Gg.eg.db) library(org.Hs.eg.db) library(clusterProfiler) library(DOSE) # 查看Marts库 listMarts(host="asia.ensembl.org") ## biomart version ## 1 ENSEMBL_MART_ENSEMBL Ensembl Genes 101 ## 2 ENSEMBL_MART_MOUSE Mouse strains 101 ## 3 ENSEMBL_MART_SNP Ensembl Variation 101 ## 4 ENSEMBL_MART_FUNCGEN Ensembl Regulation 101 一步到位代码 选择所需的数据库代码,我需要的是人和家鸡的数据库,直接定义到dataset即可,有时网速很慢,添加了对应地区的host。