生物知识个人分享

一生想做浪漫极客

SNP2HLA软件使笔记

HLA学习笔记

最近在尝试用芯片数据进行HLA分型,做做笔记。 1. 基本概念学习 Imputation:中文名称叫做基因型填充,是根据已知的基因分型数据对未分型的数据进行预测。代表软件有MACH和IMPUTE。 plink:是基因型–表型分析软件,其ped文件格式前六列是家系、个体、父亲、母亲、性别(1男/2女/0其他) Haploview:用于单倍型分析的软件。 HLA区域特点:强...

HLA分型软件总结

hla学习笔记

HLA分型仍然是现在医学的难题,特别是在现在短读长测序依旧盛行的时代。虽然三代测序可有效解决HLA的测序,但现阶段成本较低的依旧是以illumina为首的测序分型。临床下在使用的金标准PCR-SBT技术存在分型不唯一的问题。主流的两家公司的产品,华大的5M panel,illumina的50k pannel,已经能满足临床的使用要求,能将分型做到6位(2*3)以上。一些软件设计是为了从全基因...

omictools的HLA分型软件爬取

rvest学习笔记

某天在生信技能树变异查找群里看到有个来自台湾的哥们要在合肥举办讨论R语言爬虫的讲座,引起了我的兴趣,刚好最近在学习HLA分型方面的内容,在omictools网站上测试一下。 1.工具名称爬取 首先安装上rvest的包,直接安装就可以了。然后,加载包,读取网址。代码参考自知乎教程:https://zhuanlan.zhihu.com/p/22940722 检查一下工具名称的标签,...

简易tcga下载脚本

NGS学习笔记

如果你不懂代码,不懂网站规则,那么最简单的就是UCSC xena 浏览器啦!!!网站;https://xenabrowser.net/datapages/ 看到jimmy总结的如此有规律的下载地址链接,我尝试用python写几句脚本下载一下tcga数据。 1.尝试用爬虫获得所有疾病条目 尝试写爬虫发现网页需要javascript,暂时没有搞定,于是偷个懒把内容从https://...

(译)flexbar3.0安装笔记

NGS学习笔记

1.源码安装 这是我的弱项,安装以各种报错告终,还好有二进制版本。ps.我曾经为此想要学习从头编译linux或者来个gentoo和arch之类的极客版本玩玩,但是这个难度更大,不过,鉴于我手头的好几台电脑,这个实现还是有希望的。 2.二进制安装 2.1 首先是我遇到的系统更新cdrom问题 百度一下找到了解决方案: 报错信息:Media change: please insert ...

(译)flexbar3.0--单指令多数据(SIMD)和多核并行

NGS学习笔记

文章原文:https://www.ncbi.nlm.nih.gov/pubmed/28541403 1.摘要 高通量测序仪可以一次运行处理多个样品。 对于Illumina系统中,测序reads分别用额外的DNA标签(barcode)标记。 因此条形码和接头序列的识别在下一代测序数据的分析中通常是需要的。 Flexbar根据barcode进行样本测序数据的修剪和分离。 现代测序仪上生成大量...

找变异流程之snp_call

WES学习之路

参考了许多WES的流程之后,终于学会了几个找变异软件的使用,记在这里备忘一下。学习不可囫囵吞枣,我还是把软件的各个参数理解下,也充实下内容,避免只有代码的尴尬。 1、找变异的前处理 这里主要是对bam文件进行排序,不知道用samtools和picard的差别在哪,但是,02样本用picard会报错的。 对 mapping 得到的 bam 文件做完 Fix Mate Inform...

2017千人计划青年科学家星座分布

用python测试星座的科学性

在生信媛微信公众号看到一篇《对青年千人表格信息的可视化探索》(https://github.com/wandering513/Data_workshop),中间有一个分析是关于千人青年们的出生年月的,没有细化到星座,我决定细化到星座来检测一下星座是否科学。 作者是使用R的,用得熟练,我作为一个R初学者,难以完成这样的任务,只好祭出我的菜鸟python,至少能用来解决问题。其实是一个...

HLA-NGS数据处理2

HLA-HD, HLAssign两个软件的使用

之前测试了一下使用humanlongevity(文特尔的人类长寿公司)在github上开源的xHLA算法来进行NGS数据的HLA分型,效果还不错,可以实现两位的分型,除了个别等位基因可能不全。 不前天用HLA Typing做关键词搜索了一下论文,发现日本的科学家开发了一款HLA-HD,也是今年发表的,号称可以实现6位分型,好奇心使我测试一下。费了九牛二虎之力,终于运行成功了,无奈手头的测序...

Python爬虫爬取电影图书前250

又一次蹩脚的爬虫应用

使用Python爬取,代码见github: 一、top250电影: 1 肖申克的救赎 9.6 2 霸王别姬 9.5 3 这个杀手不太冷 9.4 4 阿甘正传 9.4 5 美丽人生 9.5 6 千与千寻 9.2 7 辛德勒的名单 9.4 8 泰坦尼克号 9.2 9 盗梦空间 9.3 10 机器人总动员 9.3 11 海上钢琴师 9.2 12 三傻大闹宝莱坞 9.1 ...