bcftools按样本

【BCFTOOLS】按样本拆分VCF文件

在对vcf的操作有这样三个软件: Vcftools:主要用于群体分析,文本处理的功能不是很强大,虽然这个软件也可以拆分样本,但是这种拆分不涉及文件的处理,只是保留在分析流程里. GATK .x:这个软件最大的问题就是需要参考基因组,而且序列长度各个方面都要与待处理的文件一致这样就给我们的数据处理带来一定的麻烦. Bcftools:涉及文本的处理,功能很强大,后续随着我的分析还要继续介绍. 利用Bcftools按样本拆分文件主要利用了“--view”这个软件包,主要代码如下: bcftools v

使用bcftools提取指定样本的vcf文件（extract specified samples in vcf format）

1.下载安装bcftools. 2.准备样本ID文件,这里命名为samplelistname.txt,一个样本一行,如下所示: sample1 sample2 sample3 3.输入命令: bcftools view -S samplelistname.txt /1000genomes/ALL.chr16.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz -Ov > samplelist_1000Genomes.v

bcftools

beftools非常复杂,大概有20个命令,每个命令下面还有N多个参数 annotate .. edit VCF files, add or remove annotations call .. SNP/indel calling (former "view") cnv .. Copy Number Variation caller concat .. concatenate VCF/BCF files from the same set of samples consensus ..

一个windows下的ddos样本

一个windows下的ddos样本. 加载器程序运行之后会在临时目录释放出一个256_res.tmp的文件之后将该文件移动至system32目录下,以rasmedia.dll命名. 删除原文件. 加载开始释放的dll文件,并调用该dll导出的install函数.

locky勒索样本分析

前段时间收到locky样本,分析之后遂做一个分析. 样本如下所示,一般locky勒索的先决条件是一个js的脚本,脚本经过了复杂的混淆,主要用于下载该样本文件并运行,. 解密样本本身进行了保护,通过ida打开之后只有少量几个函数,如下图所示为样本的入口地址,代码进行了重度的混淆加密.

PHP处理海量样本相似度聚类算法

catalogue . TF-IDF . 基于空间向量的余弦算法 . 最长公共子序列 . 最小编辑距离算法 . similar_text . local sensitive hash 局部非敏感哈希 . SSDEEP Hash . K-means聚类算法 . 二分K-means算法 1. TF-IDF Relevant Link: http://qianxunniao.iteye.com/blog/1831780 2. 基于空间向量的余弦算法将分词后的词频作为向量分量,将每个文件转化为一个向量

idapython在样本分析中的使用-字符解密

最近接手的一个样本,样本中使用了大量的xor加密,由于本身样本不全,无法运行(好吧我最稀饭的动态调试没了,样本很有意思,以后有时间做票大的分析),这个时候就只好拜托idapython大法了(当然用idc也一样),期间遇到几个问题,遂记录一番. 样本加密的字符如下,很简单,push压栈之后,反复调用sub_1000204D解密. 此时,要写脚本的话,我们希望这个脚本能够足够通用,通常样本中的加密都是由一个函数实现,函数本身实现解密,传入的参数通常是解密字符,和key两个参数(当然肯定也有其他的模式

linux xorddos样本分析2

逆向分析之后我们通过ida对该样本进行更深入的分析样本的main函数中,一开始会调用函数dec_conf对样本中的大量加密的字符串进行解密,如下图所示.

linux xorddos样本分析1

样本行为该样本为国庆期间接到的一个应急,发现为今年比较流行的xorddos,遂分析一番. 运行之后,查看进程,可以发现可疑进程ydxrooqtno,以及ppkzkneour. 多次运行发现除了ydxrooqtno之外,其余进程的id,名称一直在改变.

样本、文库、重复、lane、run - 二代测序原理及名词解释

参考: 独占鳌头的Illumina仪器(二代测序篇) HiSeq2000测序原理.流程与仪器 NGS文库制备的方法比较[心得点评] 各种测序文库构建方式样本:就是待测的DNA.RNA或蛋白序列,样本来源单一的就是单样本,样本来源于多处就是多样本,一般我们测序用的样本都是单样本,但有时候有特殊需求,我们会把一些样本混合在一起测序,也就是多样本测序. 文库:二代三代读长都是有限的,为此我们必须将全长的序列打断成小片段的文库才能进行测序.总的来说,在NGS分析之前,制备RNA或DNA的主要步骤包括:

用2263份证件照图片样本测试how-old.net的人脸识别

上一年也就是这个时候微软根据自己的人脸识别API推出了一个识别照片中人脸年龄和性别的网站--http://how-old.net,小伙伴们各种玩耍,一年后的今天突发"奇想"地想测试一下这个网站的识别情况.正好手里有3万多份标识有身份证信息.性别及照片拍摄时间的证件照(别问我从哪儿弄的,这玩意儿你懂的).今天就写了个脚本来测试一下.测试识别的目标有两个: 性别年龄提交数据获得识别结果寻找接口首先,查看一下how-old.net的提交接口. 用Chrome查看一下网络请求的情况查

第二章平稳时间序列模型——ACF和PACF和样本ACF/PACF

自相关函数/自相关曲线ACF AR(1)模型的ACF: 模型为: 当其满足平稳的必要条件|a1|<1时(所以说,自相关系数是在平稳条件下求得的): y(t)和y(t-s)的方差是有限常数,y(t)和y(t-s)的协方差伽马s 除以伽马0,可求得ACF如下: 由于{rhoi}其在平稳条件|a1|<1下求得,所以平稳 0<a1<1则自相关系数是直接收敛到0 -1<a1<0

使用LIBSVM工具实现样本分类预测——MatLab

准备工作: https://www.csie.ntu.edu.tw/~cjlin/libsvm/,下载LIBSVM:(LIBSVM工具相较于MATLAB自带的工具:1).支持多分类及回归(‘-s 0’ ,‘-s 1' -> 多分类'-s 3':'-s 4' -> 回归:'-s 2' -> one-class SVM),matlab自带的仅支持二分类,且不支持回归2).支持核函数种类多样(linear;polynomial;RBF(radial basis function);sigmoi

RNA测序样本检测

常规转录组测序样品类型:去蛋白并进行DNase处理后的完整总RNA 样品需求量(单次): 植物和真菌样品:≥20 μg: 人.大鼠.小鼠样品:≥5 μg: 其他类型动物:≥10 μg: 原核生物样品:≥5μg. 样品浓度: 植物和真菌样品:≥250 ng/μL: 人.大鼠.小鼠样品:≥65 ng/μL: 其它类型动物样品:≥150 ng/μL: 原核生物样品:≥65 ng/μL. 样品纯度: 真核:OD260/280 =1.8-2.2:OD260/230 ≥2.0: 动物样品:RIN

一个android样本的过保护

前段时间处理一个android样本,样本本身作用不大,但是加了保护,遂做一个过保护的记录通过dex2jar将dex转为jar文件的时候发现无法成功,通过抛出的异常可知,此处MainActivity:onCreate函数在解析的时候出现了问题. 使用ida打开该dex文件,发现该函数确实进行了加密

一个linux的样本分析

不久前收到的一个linux样本,之前linux平台下的样本见得并不多,正好做个记录. 样本启动之后,会将自身重命名拷贝到/usr/bin下,并删除自身,如此处就将自身文件amdhzbenfi命名为usnfpnglab. 运行中的样本进程.

甲骨文白桃花心木P6 EPPM 8.2项目点提供样本

甲骨文白桃花心木样例代码除非明确确定,这里的示例代码不是认证或Oracle支持;它只是用于教育或测试的目的. 你必须接受许可协议下载此示例代码. 接受许可协议 | 下降许可协议的名字创建/更新描述下载 Oracle白桃花心木BPM 11 g工作流示例 2012-4-18 Oracle白桃花心木BPM 11 g 为项目启动工作流代码 ProjectInitiation_2.0_PS4_DemoPackaging.zip 甲骨文白桃花心木P6 EPPM 8.2项目点提供样本

Tesseract-OCR 字符识别---样本训练 [转]

Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文). Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上.地址为http://code.google.com/p/tesseract-ocr/. 使用默认的语言库识别 1.安装Tesseract 从http://code.google

PCA样本数量少于矩阵维数

%test pcaA=[3,7,1,4,1;5,5,2,1,3;4,2,4,5,3];S=cov(A);T=cov(A');[ds,vs]=eig(S)[dt,vt]=eig(T) 样本数量少于矩阵维数,发现[dt,vt]=eig(S)中非零特征值个数总是等于:样本数量-1 其二,用转置来替代的话,暂没有发现什么规律

Tesseract-OCR 字符识别---样本训练

Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文). Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上.地址为http://code.google.com/p/tesseract-ocr/. 使用默认的语言库识别 1.安装Tesseract 从http://code.google

巴特西

bcftools按样本