数据处理流程-BGI.ppt

资源ID：6578372 资源大小：908.50KB 全文页数：36页
资源格式： PPT 下载积分：15金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

数据处理流程-BGI.ppt

,数据处理流程,计算机集群,测序控制PC,测序仪,1.控制测序过程决定测序长度、填加试剂、控制温度、控制反应时间、拍照2.图像分析对测序仪拍照的图片进行图像分析，得到亮点的光强度和坐标3.basecalling由光强度得到碱基序列,4.数据传输将basecalling结果（二进制文件bcl）传输到计算机集群的存储上,5.数据处理将bcl文件转化为后续信息分析所使用的文本文件（fastq,qseq）6.index拆分7.数据质量分析8.数据备份9.后续信息分析.,图像分析及basecalling基本原理,Cycle1 Cycle2 Cycle3,对A发出的光拍照,对C发出的光拍照,对G发出的光拍照,对T发出的光拍照,图像分析及basecalling基本原理,Cycle1 Cycle2 Cycle3,由4个cluster得到4条序列：ATA.CCT.GCG.GAC.,图像分析,对每个图片独立的处理图像锐化对图片进行快速傅里叶变换(FFT)，在傅里叶空间乘以滤波函数后反变换识别cluster/亮点信噪比(亮度/背景值)大于阈值的亮点区域计算亮点光强度和位置坐标在亮点区域，对光强度进行二维插值，求出最大光强度，以及最大光强度对应的位置坐标,将同一个tile的所有图片中的亮点坐标对齐重叠不同图片之间存在偏移/拉伸/压缩(offset)系统、稳定的：4种光折射率不同、滤波片不同、光路不同，所以造成成像的偏移/拉伸/压缩，可利用crosstalk，计算出偏移/拉伸/压缩的数值(offset参数)偶然、随机的：flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动，可利用crosstalk解决,CrosstalkAC光谱间有交叠，GT光谱间有交叠，所以：碱基A的图片中包含C发出的光碱基C的图片中包含A发出的光碱基T的图片中包含G发出的光不利：不能直接比较光强度大小而得到碱基有利：利用图片中共同的亮点，将所有图片对齐重叠，解决offset问题,图像分析流程,Template Generation利用AC之间的crosstalk、GT之间的crosstalk，将前 2个cycle的图片，与第一个cycle的A的图片对齐重叠，确定所有cluster的位置坐标(x,y),Registration and Intensity Extraction对于每一个cycle：将4张图片(ACGT)中的所有亮点与cluster坐标(x,y)对应，计算每个cluster的4种光强度,对每个图片独立的处理图像锐化、识别cluster/亮点、计算亮点光强度和位置坐标,Template Generation利用AC之间的crosstalk、GT之间的crosstalk，将前 2个cycle的图片，与第一个cycle的A的图片对齐重叠，确定所有cluster的位置坐标(x,y),图像分析结果,Basecalling,Crosstalk 校正4种光强度归一化（用DNA样品计算参数）,Phasing/Prephasing校正（用DNA样品计算参数）,对于每个cluster：在每个cycle中，比较4种光强度，光强度最大的就是当前cycle测到的碱基，各cycle测到的碱基连起来组成这个cluster的碱基序列；计算每个碱基的质量值,4种光强度归一化,A,C,G,T,phasing,Sequencing primer,prephasing,Basecalling结果：qseq文件,每一行表示一条reads(一个cluster)每行有11列，tab分隔：机器编号、run序号、Lane号、Tile号、X坐标、Y坐标、index标志、read1/read2标志、碱基序列、质量序列、是否通过默认的质量筛选标准 Single-end(SE)测序：1个qseq文件 Pair-end(PE)测序：2个qseq文件分别存放read1和read2的数据；2个文件的同一行属于同一个cluster 每条序列(reads)长度=上机测序循环(cycle)数量；测序cycle数量受测序试剂盒的试剂量限制，对于GA有：36SE、36+7/8SEindex、45PE、36+7+45PEindex、76PE、74+7+76PEindex、73+8+76PEindex、101PE、101+7/8+101PEindex 等对于Hiseq：91PE、91+8+91PEindex、101PE、101+8+101PEindex,Basecalling结果：qseq文件,fastq文件,每4行表示一条reads(一个cluster)第一行：序列ID，包含index序列及read1或read2标志：第二行：碱基序列，大写“ACGTN”第三行：“+”，省略了序列ID第四行：质量值序列：字符的ASCII码值-64=质量值 Single-end(SE)测序：1个fastq文件 Pair-end(PE)测序：2个fastq文件分别存放read1和read2的数据；Read1的fastq文件*1.fq中第一条reads：FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_Read2的fastq文件*2.fq中第一条reads：FC61FL8AAXX:1:17:1012:19200#GCCAAT/2AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA+QVVVVYVYWWYPWYYTYYWUYYYVVWW,质量值FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_表示方法 Illumina：字符的ASCII值-64=质量值(Sanger：字符的ASCII值-33=质量值)范围 GA Illumina1.3+(09年3月之后):2,35 B,c GA Illumina1.0(09年3月之前):-5,40;,h Hiseq:2:38 B,f质量值与错误率理论关系：Q=-10 log10(e)质量值计算方法：根据光强信号信噪比、光强度衰减、GC含量等参数，计算质量值,fastq文件,fastq文件,每条序列(reads)长度read1和read2分别去除了最后一个碱基，即：36 SE 有效长度为 35101 PE 有效长度为 100(read1)+100(read2)101+8+101 PEindex 有效长度为 100(read1)+100(read2)Read1中所有reads长度相同，Read2中所有reads长度相同，但是Read1和Read2长度可以不相同，取决于上机测序循环(cycle)数量质量筛选(PF)：Illumina标准流程输出的fastq文件，去除了qseq文件中没有通过默认质量筛选标准的低质量序列(reads)GA正常PF比例：DNA 8090%，RNA 7085%每个Lane的正常产量范围：GA 2030M PF reads Read1和Read2各有2030MHiseq 6080M PF reads Read1和Read2各有6080M碱基总产量=Read1的产量+Read2的产量=reads数量(Read1的长度+Read2的长度),fastq文件产量（GA）,fastq文件产量（Hiseq vs GA）,文库质控问题1：Pair-end关系,800bp及以下文库,与参考序列比较或者：总之，Read1，Read2与参考序列比对结果：一正(F)一反(R)，且F的位点坐标小于R的位点坐标,Read1,总之，Read1，Read2于参考序列比对结果：一正(F)一反(R)，且F的位点坐标小于R的位点坐标文库插入片段长度,F,2100检测报告文库长度分布,与参考序列比对得到insert-size分布,正常insert-size分布,基因组DNA,外显子,PCR-free文库,异常insert-size分布,2K及以上文库,文库质控问题1：Pair-end关系,与参考序列比较或者：总之，Read1，Read2于参考序列比对结果：一正(F)一反(R)，且F的位点坐标大于R的位点坐标,正常insert-size分布,2K,56K,PCR-free文库,10K,异常insert-size分布,文库问题2：adapter污染,空载：adapter与adapter直接连接，中间没有插入片段，导致read1测到3adapter，read2测到5adapter的反向互补reads尾部测到adapter 插入片段过短插入片段长度小于上机测序循环(cycle)数，导致read1尾部测到3adapter，read2尾部测到5adapter的反向互补,adapter空载较多导致碱基含量波动,客户PCR引物污染导致碱基含量波动,文库质控问题3：文库随机性,GC含量偏差：实验技术（打断、PCR、测序）本身特点，导致高GC和低GC区域测序覆盖度偏低，甚至某些区域覆盖不到；PCR-free建库技术可减少PCR带来的随机性问题 duplication PCR扩增出很多一模一样的母版分子，测序结果中很多条reads是一样的；基因组自身重复序列含量高导致duplication偏高；数据量越大，duplication比例越高,文库质控问题4：其它物种、样品污染,测序质控问题,raw Cluster密度正常raw Cluster密度：2030万/GAtile，200350万/HiSeqtile Cluster制备时，控制文库浓度，达到适当的raw Cluster密度密度过低产量低；密度过高质量差样品差异：200小片段能够容忍的密度较高，800bp片段以及RNA样品、特殊样品，应适当降低密度通过默认质量筛选标准比例(PF)用read1前25cycle的信噪比进行筛选；正常PF比例：DNA 80%，RNA 70%；raw Cluster密度越高，PF比例越低；当raw Cluster密度超高时，图像分析识别出的raw Cluster数量小于真实值，此时PF比例会低于正常；,测序质控问题,光强度信号受到环境温度、测序仪温度控制、测序仪聚焦、CS试剂、测序试剂、样品等因素共同影响；测序长度越长，光强度降低越多；碱基含量不均匀的样品，光强度会有波动，但属于正常碱基含量样品本身测序问题导致有偏向性的测序错误质量值 Q20：质量值大于等于20的碱基数量/所有碱基数量 reads尾部质量低 Error-rate 与参考序列比较，能够map的reads中：错误的碱基数量/(正确的+错误的碱基总数)；与参考序列质量有关；人、小片段文库：101PE 1%2%环化大片段error-rate高于小片段文库 reads尾部error-rate高,正常光强度、碱基含量、质量值、Error-rate,异常光强度、碱基含量、质量值、Error-rate,异常光强度与碱基含量,

注意事项

本文（数据处理流程-BGI.ppt）为本站会员（牧羊曲112）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。