欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数据处理流程-BGI.ppt

    • 资源ID:6578372       资源大小:908.50KB        全文页数:36页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据处理流程-BGI.ppt

    ,数据处理流程,计算机集群,测序控制PC,测序仪,1.控制测序过程决定测序长度、填加试剂、控制温度、控制反应时间、拍照2.图像分析对测序仪拍照的图片进行图像分析,得到亮点的光强度和坐标3.basecalling由光强度得到碱基序列,4.数据传输将basecalling结果(二进制文件bcl)传输到计算机集群的存储上,5.数据处理将bcl文件转化为后续信息分析所使用的文本文件(fastq,qseq)6.index拆分7.数据质量分析8.数据备份9.后续信息分析.,图像分析及basecalling基本原理,Cycle1 Cycle2 Cycle3,对A发出的光拍照,对C发出的光拍照,对G发出的光拍照,对T发出的光拍照,图像分析及basecalling基本原理,Cycle1 Cycle2 Cycle3,由4个cluster得到4条序列:ATA.CCT.GCG.GAC.,图像分析,对每个图片独立的处理图像锐化对图片进行快速傅里叶变换(FFT),在傅里叶空间乘以滤波函数后反变换识别cluster/亮点信噪比(亮度/背景值)大于阈值的亮点区域计算亮点光强度和位置坐标在亮点区域,对光强度进行二维插值,求出最大光强度,以及最大光强度对应的位置坐标,将同一个tile的所有图片中的亮点坐标对齐重叠不同图片之间存在偏移/拉伸/压缩(offset)系统、稳定的:4种光折射率不同、滤波片不同、光路不同,所以造成成像的偏移/拉伸/压缩,可利用crosstalk,计算出偏移/拉伸/压缩的数值(offset参数)偶然、随机的:flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动,可利用crosstalk解决,CrosstalkAC光谱间有交叠,GT光谱间有交叠,所以:碱基A的图片中包含C发出的光碱基C的图片中包含A发出的光碱基T的图片中包含G发出的光不利:不能直接比较光强度大小而得到碱基有利:利用图片中共同的亮点,将所有图片对齐重叠,解决offset问题,图像分析流程,Template Generation利用AC之间的crosstalk、GT之间的crosstalk,将前 2个cycle的图片,与第一个cycle的A的图片对齐重叠,确定所有cluster的位置坐标(x,y),Registration and Intensity Extraction对于每一个cycle:将4张图片(ACGT)中的所有亮点与cluster坐标(x,y)对应,计算每个cluster的4种光强度,对每个图片独立的处理图像锐化、识别cluster/亮点、计算亮点光强度和位置坐标,Template Generation利用AC之间的crosstalk、GT之间的crosstalk,将前 2个cycle的图片,与第一个cycle的A的图片对齐重叠,确定所有cluster的位置坐标(x,y),图像分析结果,Basecalling,Crosstalk 校正4种光强度归一化(用DNA样品计算参数),Phasing/Prephasing校正(用DNA样品计算参数),对于每个cluster:在每个cycle中,比较4种光强度,光强度最大的就是当前cycle测到的碱基,各cycle测到的碱基连起来组成这个cluster的碱基序列;计算每个碱基的质量值,4种光强度归一化,A,C,G,T,phasing,Sequencing primer,prephasing,Basecalling结果:qseq文件,每一行表示一条reads(一个cluster)每行有11列,tab分隔:机器编号、run序号、Lane号、Tile号、X坐标、Y坐标、index标志、read1/read2标志、碱基序列、质量序列、是否通过默认的质量筛选标准 Single-end(SE)测序:1个qseq文件 Pair-end(PE)测序:2个qseq文件分别存放read1和read2的数据;2个文件的同一行属于同一个cluster 每条序列(reads)长度=上机测序循环(cycle)数量;测序cycle数量受测序试剂盒的试剂量限制,对于GA有:36SE、36+7/8SEindex、45PE、36+7+45PEindex、76PE、74+7+76PEindex、73+8+76PEindex、101PE、101+7/8+101PEindex 等 对于Hiseq:91PE、91+8+91PEindex、101PE、101+8+101PEindex,Basecalling结果:qseq文件,fastq文件,每4行表示一条reads(一个cluster)第一行:序列ID,包含index序列及read1或read2标志:第二行:碱基序列,大写“ACGTN”第三行:“+”,省略了序列ID第四行:质量值序列:字符的ASCII码值-64=质量值 Single-end(SE)测序:1个fastq文件 Pair-end(PE)测序:2个fastq文件分别存放read1和read2的数据;Read1的fastq文件*1.fq中第一条reads:FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_Read2的fastq文件*2.fq中第一条reads:FC61FL8AAXX:1:17:1012:19200#GCCAAT/2AAAATTAGCCAGGCAATGGTGGTGCATGCCTTTAATCCCAGCTA+QVVVVYVYWWYPWYYTYYWUYYYVVWW,质量值FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbabbbbbbbbbbbbbbaaaaaaaaa_表示方法 Illumina:字符的ASCII值-64=质量值(Sanger:字符的ASCII值-33=质量值)范围 GA Illumina1.3+(09年3月之后):2,35 B,c GA Illumina1.0(09年3月之前):-5,40;,h Hiseq:2:38 B,f质量值与错误率理论关系:Q=-10 log10(e)质量值计算方法:根据光强信号信噪比、光强度衰减、GC含量等参数,计算质量值,fastq文件,fastq文件,每条序列(reads)长度read1和read2分别去除了最后一个碱基,即:36 SE 有效长度为 35101 PE 有效长度为 100(read1)+100(read2)101+8+101 PEindex 有效长度为 100(read1)+100(read2)Read1中所有reads长度相同,Read2中所有reads长度相同,但是Read1和Read2长度可以不相同,取决于上机测序循环(cycle)数量 质量筛选(PF):Illumina标准流程输出的fastq文件,去除了qseq文件中没有通过默认质量筛选标准的低质量序列(reads)GA正常PF比例:DNA 8090%,RNA 7085%每个Lane的正常产量范围:GA 2030M PF reads Read1和Read2各有2030MHiseq 6080M PF reads Read1和Read2各有6080M碱基总产量=Read1的产量+Read2的产量=reads数量(Read1的长度+Read2的长度),fastq文件产量(GA),fastq文件产量(Hiseq vs GA),文库质控问题1:Pair-end关系,800bp及以下文库,与参考序列比较或者:总之,Read1,Read2与参考序列比对结果:一正(F)一反(R),且F的位点坐标小于R的位点坐标,Read1,总之,Read1,Read2于参考序列比对结果:一正(F)一反(R),且F的位点坐标小于R的位点坐标文库插入片段长度,F,2100检测报告文库长度分布,与参考序列比对得到insert-size分布,正常insert-size分布,基因组DNA,外显子,PCR-free文库,异常insert-size分布,2K及以上文库,文库质控问题1:Pair-end关系,与参考序列比较或者:总之,Read1,Read2于参考序列比对结果:一正(F)一反(R),且F的位点坐标大于R的位点坐标,正常insert-size分布,2K,56K,PCR-free文库,10K,异常insert-size分布,文库问题2:adapter污染,空载:adapter与adapter直接连接,中间没有插入片段,导致read1测到3adapter,read2测到5adapter的反向互补reads尾部测到adapter 插入片段过短插入片段长度小于上机测序循环(cycle)数,导致read1尾部测到3adapter,read2尾部测到5adapter的反向互补,adapter空载较多导致碱基含量波动,客户PCR引物污染导致碱基含量波动,文库质控问题3:文库随机性,GC含量偏差:实验技术(打断、PCR、测序)本身特点,导致高GC和低GC区域测序覆盖度偏低,甚至某些区域覆盖不到;PCR-free建库技术可减少PCR带来的随机性问题 duplication PCR扩增出很多一模一样的母版分子,测序结果中很多条reads是一样的;基因组自身重复序列含量高导致duplication偏高;数据量越大,duplication比例越高,文库质控问题4:其它物种、样品污染,测序质控问题,raw Cluster密度 正常raw Cluster密度:2030万/GAtile,200350万/HiSeqtile Cluster制备时,控制文库浓度,达到适当的raw Cluster密度 密度过低产量低;密度过高质量差 样品差异:200小片段能够容忍的密度较高,800bp片段以及RNA样品、特殊样品,应适当降低密度 通过默认质量筛选标准比例(PF)用read1前25cycle的信噪比进行筛选;正常PF比例:DNA 80%,RNA 70%;raw Cluster密度越高,PF比例越低;当raw Cluster密度超高时,图像分析识别出的raw Cluster数量小于真实值,此时PF比例会低于正常;,测序质控问题,光强度信号 受到环境温度、测序仪温度控制、测序仪聚焦、CS试剂、测序试剂、样品等因素共同影响;测序长度越长,光强度降低越多;碱基含量不均匀的样品,光强度会有波动,但属于正常 碱基含量 样品本身 测序问题导致有偏向性的测序错误 质量值 Q20:质量值大于等于20的碱基数量/所有碱基数量 reads尾部质量低 Error-rate 与参考序列比较,能够map的reads中:错误的碱基数量/(正确的+错误的碱基总数);与参考序列质量有关;人、小片段文库:101PE 1%2%环化大片段error-rate高于小片段文库 reads尾部error-rate高,正常光强度、碱基含量、质量值、Error-rate,异常光强度、碱基含量、质量值、Error-rate,异常光强度与碱基含量,

    注意事项

    本文(数据处理流程-BGI.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开