Basics of high- throughput sequencing

Size: px

Start display at page:

Download "Basics of high- throughput sequencing"

Ralph Kerry Green
5 years ago
Views:

1 InsBtute for ComputaBonal Biomedicine Basics of high- throughput sequencing Olivier Elemento, PhD TA: Jenny Giannopoulou, PhD

2 Plan 1. What high- throughput sequencing is used for 2. Illumina technology 3. Primary data analysis (alignment, QC) 4. Read formats 5. Secondary Analysis (mutabon calling, transcript level quanbficabon, etc) 6. Read data visualizabon 7. Useful R/BioC packages 8. Challenges and evolubon of sequencing and its analysis

3 1. What high- throughput sequencing is used for

4 Full genome sequencing

8 Targeted sequencing

9 Exome sequencing

10 DNA methylabon profiling mc C C U A'er PCR C C U T PCR+Seq

11 RNA- seq

12 ChIP- seq DNA TranscripBon factor of interest Peaks!" AnBbody Human genome Transcription factor binding

13 High- throughput mapping of chromabn interacbons (HiC) Elemento lab (more on this next week)

15 And many others Gene fusion detecbon TranslaBonal profiling (which mrnas localize to ribosomes) Small/miRNA sequencing Bacterial communibes Protein- RNA interacbons (PURE- CLIP)

16 2. Illumina technology

17 Illumina SBS Technology Reversible Terminator Chemistry Founda6on 3 5 DNA ( ug) Sample prepara?on Single Cluster molecule growth array A C T C T G C T G A A G 5 T G C T A C G A T A C C C G A T C G A T Sequencing T G C T A C G A T Image acquisi?on Base calling hcp://seqanswers.com/forums/showthread.php?t=21 hcp:// Borrowed from C. Mason, WCMC Illumina, Inc.

18 Single end vs pair end sequencing

19 What comes out of the machine: short reads in fastq CTCCTGGAAAACGCTTTGGTAGATTTGGCCAGGAGCTTTCTTTTATGTAAATTG! +D3B4KKQ1_0166:8:1101:1960:2190#CGATGT/1! TCCANCCATGGCAAATTCCATGGCACCGTCAAGGCTGAGAACGGGAAGCTTGTC! +D3B4KKQ1_0166:8:1101:2154:2137#CGATGT/1! TACAAGTGCAGCATCAAGGAGCGAATGCTCTACTCCAGCTGCAAGAGCCGCCTC! +D3B4KKQ1_0166:8:1101:2249:2171#CGATGT/1! GAAGGAGAGAAGGGGAGGAGGGCGGGGGGCACCTACTACATCGCCCTCCACATC! +D3B4KKQ1_0166:8:1101:2043:2187#CGATGT/1! GTGGCCGATTCCTGAGCTGTGTTTGAGGAGAGGGCGGAGTGCCATCTGGGTAGC! +D3B4KKQ1_0166:8:1101:2188:2232#CGATGT/1! QS to int In R: as.integer (chartora w( e'))- 33

20 Pair end sequencing s_8_1_sequence.txt.gz CTCCTGGAAAACGCTTTGGTAGATTTGGCCAGGAGCTTTCTTTTATGTAAATTG! +D3B4KKQ1_0166:8:1101:1960:2190#CGATGT/1! TCCANCCATGGCAAATTCCATGGCACCGTCAAGGCTGAGAACGGGAAGCTTGTC! +D3B4KKQ1_0166:8:1101:2154:2137#CGATGT/1! TACAAGTGCAGCATCAAGGAGCGAATGCTCTACTCCAGCTGCAAGAGCCGCCTC! +D3B4KKQ1_0166:8:1101:2249:2171#CGATGT/1! GAAGGAGAGAAGGGGAGGAGGGCGGGGGGCACCTACTACATCGCCCTCCACATC! +D3B4KKQ1_0166:8:1101:2043:2187#CGATGT/1! GTGGCCGATTCCTGAGCTGTGTTTGAGGAGAGGGCGGAGTGCCATCTGGGTAGC! +D3B4KKQ1_0166:8:1101:2188:2232#CGATGT/1! GGCATATTTAACAGCATTGAACAGAATTCTGTGTCCTGTAAAAAAATTAGCTTA! +D3B4KKQ1_0166:8:1101:1960:2190#CGATGT/2! a TTGAGGCTGTTGTCATACTTCTCATGGTTCACACCCATGACGAACATGGGGGCG! +D3B4KKQ1_0166:8:1101:2154:2137#CGATGT/2! a CGGGGTGCACCTCGTCGTAGAGGAACTCTGCCGTCAGCTCTGCCCCATCGCCAA! +D3B4KKQ1_0166:8:1101:2249:2171#CGATGT/2! ^ ee CTTAGTCTCAGTTTTCCTCCAGCAGCCTGAGGAAACTCAAAGGCACAGTTCCCA! +D3B4KKQ1_0166:8:1101:2043:2187#CGATGT/2! TAGGCTCAAAGTCTAACGCCAATCCCGAACCTGGGCATCTGTACACACACACAC! +D3B4KKQ1_0166:8:1101:2188:2232#CGATGT/2! abbeceeegggcghiihiihhhhiifhiiiiihiiiiiiihegh`eggfebfhg!

per lane, 8-16 lanes (1-2QC) in parallel with HiSeq2000 Mul?

21 Illumina sequencing using HiSeq2000 Previously: GAIIx: ~30M reads per lane, 8 lanes (1QC) Now: HiSeq TruSeq v3: 200M reads per lane, 8-16 lanes (1-2QC) in parallel with HiSeq2000 Mul?plexing: acach barcode, mix samples, sequence, idenbfy and remove barcode

22 Full Genome Sequencing using Illumina technology ~$5K reagent with Illumina (storage+analysis costs not included) Exercise: you want to sequence 1 human genome at 100X coverage; how many lanes?

23 QC for Illumina (part 1) 3 5 A C T C T G C T G A A G 5 T G C T A C G A T A C C C G A T C G A T Sequencing

24 3. Primary data analysis (alignment, QC)

25 Read alignment programs BWA (Burrows- Wheeler Aligner) hcp://bio- bwa.sourceforge.net/ Fast, accurate, can find (short) indels Allow 1-3 mismatches by default Can also align longer 454 reads BowBe hcp://bowbe- bio.sourceforge.net/index.shtml Ultrafast, accurate, newest version finds indels too Allow 1-3 mismatches by default Integrated into TopHat (splice aligner) Others: Eland, Maq, SOAP, etc

26 BWA tutorial (for aligning single end reads to genome) Get genome, e.g., from UCSC hcp://hgdownload.cse.ucsc.edu/goldenpath/hg19/bigzips/chromfa.tar.gz Combine into 1 file tar zvfx chromfa.tar.gz cat *.fa > wg.fa Indexing the genome bwa index - p hg19bwaidx - a bwtsw wg.fa Align bwa aln - t 4 hg19bwaidx s_3_sequence.txt.gz > s_3_sequence.txt.bwa Convert to SAM format bwa samse hg19bwaidx s_3_sequence.txt.bwa s_3_sequence.txt.gz > s_3_sequence.txt.sam

27 Aligning pair end reads Align two files separately bwa aln - t 4 hg19bwaidx s_3_1_sequence.txt.gz > s_3_1_sequence.txt.bwa bwa aln - t 4 hg19bwaidx s_3_2_sequence.txt.gz > s_3_1_sequence.txt.bwa Convert to SAM format bwa sampe hg19bwaidx s_3_1_sequence.txt.bwa s_3_1_sequence.txt.bwa s_3_1_sequence.txt.gz s_3_1_sequence.txt.gz > s_3_sequence.txt.sam

28 TopHat (spliced alignment) Download genome index up:// up.cbcb.umd.edu/pub/data/bowbe_indexes/ hg18.ebwt.zip D~100bp tophat r 100 p 4 o outdir/ hg18 s_1_1_sequence.txt s_1_2_sequence.txt Trapnell et al, 2009

29 Basic QC FracBon of mapped reads How many unique mappers? FracBon of clonal reads (PCR duplicates)

30 4. Read formats

31 Read formats SAM/BAM Eland/Eland Export

32 SAM format DH1608P1_0130:6:1103:10579:166379#TTAGGC 16 chr M * 0 0 GGGCGTGACTCTGATCTCAGGCATCGTCTCCGCCGCGCTCCCGGACCCGCG eb`xxybzdadee^cev]x][cctcc^ebeece eeewbeeeeeeeceeaee XX:Z:NM_017871,32 NM:i:0 MD:Z:51 DH1608P1_0130:6:1102:3415:150915#TTAGGC 16 chr M * 0 0 GGGCGGGACTCTGATCTCAGGCATCGTCTCCGCCGCGCTCCCGGACCCGCG BBBBBBBBBBBac]bbbceedaeddeZceeea_ba_\_eee eeeedaeeee XX:Z:NM_017871,32 NM:i:1 MD:Z:5T45 DH1608P1_0130:6:1102:13118:62644#TTAGGC 16 chr M * 0 0 GGGCGTGCCTCGGATCTCAGGCATCGTCTCCGCCGCGCTCCCGGACCCGCG BBBBBBBBBBBBBBBBBBBBB`XTbSa`cffegdggeccbe effdeggggg XX:Z:NM_017871,32 NM:i:2 MD:Z:7A3T39 DH1608P1_0130:6:1203:3012:157120#TTAGGC 16 chr M * 0 0 AAGGCCGTGACTCTGATCTCAGCCCTCGTCTCCGCCGCGCTCCCGGACCCG BBBBBBBB^`QWZZ]UXYSZSTFRU]Z SO[adcc[acdV \`Y]YWY][_ XX:Z:NM_017871,34 NM:i:3 MD:Z:4G17G1A26 DH1608P1_0130:6:2206:4445:12756#TTAGGC 16 chr M3487N50M * 0 0 CCAAAGGGTGTGACTCTGATCTCGGGCATCGTCTCCGCCGCGCTCCCGGAC BBBBBBBBBBBBBBBBBBBBBBBB`YdddYdc\ cacanddddcdddaeeee XX:Z:NM_017871,37 NM:i:3 MD:Z:2C5C14A27 DH1608P1_0130:6:2203:7903:43788#TTAGGC 16 chr M3487N50M * 0 0 CCCAAGGGCGTGACTCTGATCTCAGGCATCGTCTCCGCCGCGCTCCCGGAC adbe[cbccb_cb^cb^^c^edgegggggdf ggefffgfggggegeg XX:Z:NM_017871,37 NM:i:0 MD:Z:51 CIGAR string, eg 5M3487N46M = 5bp- long block, 3487 insert, 46bp- long block MD tag, e.g, MD:Z:4T46 = 5 matches, 1 mismatch (T in read), 46 matches XT tag, e.g. XT:A:U = unique mapper; XT:A:R = more than 1 high- scoring matches

33 Pair end SAM D3B4KKQ1_0161:8:2206:11080:31374#CTTGTA 83 chr M = TTAGATGCATTTTCTTACCATTGTAAGAAAAATGAAAATTTTACAATTAAG hiiiiiiihihhdhghggdiiihihffihhheihihhhgggggeeeeebbb NM:i:0 NH:i:1 D3B4KKQ1_0161:8:2206:8294:192062#CTTGTA 147 chr M = CATTTTCTTACCATTGTAAGAAAAATGAAAATTTTACAATTAAGTATACAC efeh gfdiihhhhhihghiiih ihdhiihgghigefggeeeeebbb NM:i:0 NH:i:1 D3B4KKQ1_0161:8:2204:6985:145082#CTTGTA 147 chr M = TCTTACCATTGTAAGAAAAATGAAAATTTTACAATTAAGTATACACTTCTA gh gihihghgihgiiiifiiiiihhhhfi ihhiigggeeceeeea NM:i:0 NH:i:1 D3B4KKQ1_0161:8:2205:15014:60805#CTTGTA 83 chr M = TCTTACCATTGTAAGAAAAATGAAAATTTTACAATTAAGTATACACTTCTA hihheiihiiiiiiiiiiiiiiiiii ie iiiiiigggggeceeebba NM:i:0 NH:i:1 D3B4KKQ1_0161:8:1105:17802:25847#CTTGTA 83 chr M = TTACCATTGTAAGAAAAATGAAAATTTTACAATTAAGTATACACTTCTAAT gheiiiihhhiiiiiiiiiihiiiiiihgfiiiiiiiigeggceeeeebb_ NM:i:0 NH:i:1 D3B4KKQ1_0161:8:1208:2232:73719#CTTGTA 147 chr M = CATTGTAAGAAAAATGAAAATTTTACAATTAAGTATACACTTCTAATTGTA ghiiiiiiiiiiiiiiiiiiihghiihiiiiihgggegfggeeeeebbb NM:i:0 NH:i:1 D3B4KKQ1_0161:8:2104:18142:93861#CTTGTA 83 chr M = ATTGTAAGAAAAATGAAAATTTTACAATTAAGTATACACTTCTAATTGTAT ihghiiiheiiiiihhih ifgghhhhfg iggge_ggggeeeeee_bb NM:i:0 NH:i:1 NM=edit distance NH=number of alignments for that read

34 BAM format Compressed, indexable version of SAM Can be uploaded to UCSC Genome Browser

35 SAMtools hcp://samtools.sourceforge.net/ Convert SAM to BAM samtools view bs file.sam > file.bam Sort BAM file samtools sort file.bam file.sorted # (will create file.sorted.bam) Index BAM file samtools index file.sorted.bam Convert BAM to SAM samtools view file.bam > file.sam RSAMtools hcp://

36 SAMtools Get alignment stabsbcs samtools flagstat pairendfile.bam in total! 0 QC failure! 0 duplicates! mapped (83.06%)! paired in sequencing! read1! read2! properly paired (80.38%)! with itself and mate mapped! singletons (1.96%)! with mate mapped to a different chr! with mate mapped to a different chr (mapq>=5)!

37 SAMtools Get pileup samtools pileup file.sorted.bam chr T 26 ttttttttttttttttttttgttttt ggggeggggg^vgf_fggggjceb_g! chr T 26 tttttttttttttttttttttttttt ggggfggggg[rgfnfgfgg`ed^]f! chr G 26 g$ggggggggggggggggggggggggg gggg_ggggg[ugfddgggga_ew\c! chr A 25 AaaAAAaAaaAaaAaAaAAAAAAAA gggaefggg_xgf_fggggadd]zg! chr A 25 AaaAAAaAaaAaaAaAaAAAAAAAA ggefggggdnvgbzbgggg`ee[\g! chr C 25 C$c$c$CCCcCccCccCcCcCCCCCCCC gfgfggfggyygeadgggg`ea^\g! chr C 23 C$CCcCccCccCcCcCCCCCCCC^FC fgggge_`gf_dgggge_e]_gg! chr T 22 T$T$tTttTttTtTtTTTTTTTTT ggffg\rgf_dggeggde]_cg! chr C 20 cccccccccccccccccccc!!ggg`[gf_dggggg\d[]fg! chr A 22 a$aaaaaaaaaaaaaaaaaaa^fa^fa ged_]ggadffgggecx^ggfg! chr G 21 G$g$g$GggGgGgGGGGGGGGGGG ggc`gfwfggfggcasdggfe! chr C 19 CccCcCcCCCCCCCCCCC^FC!!agg\dgggggbZUdfgfgg! chr T 19 TttTtTtTTTTTTTTTTTT!!eggcbfgfgg_cXdegfgg! chr T 19 TttTtTtTTTTTTTTTTTT!!aggccggdggccZdggfgf! chr T 19 TttTtTtTTTTTTTTTTTT!!`gfcfgggggccUcggcgg! chr A 19 AaaAaAaAAAAAAAAAAAA!!ege_fgggggcc[aggcgg! chr A 19 A$aaAaAaAAAAAAAAAAAA!!XggLfggfggdeM_ggagg! chr G 18 g$ggggggggggggggggg!!gf\fgggggcfpcggegg! chr A 17 a$aaaaaaaaaaaaaaaa!!fce[gggg_el]ggfdf! chr A 16 A$aAaAAAAAAAAAAAA!!dfggfggdfS[ggegg! ^ = start of read at that posibon $ = end of read at that posibon

38 SAMtools Removing clonal reads MulBple reads that map to same posibon, with same orientabon as usually considered PCR duplicates For mutabon detecbon (less important for RNA- seq), need to collapse them into 1 read (e.g. read with highest quality score) samtools rmdup s file.bam file_noclonal.bam

39 5. Secondary Analysis (transcript level quanbficabon, mutabon calling)

40 RPKM Reads per kilobase of transcript per million reads R: Count how many reads map to a transcript K: Divide by ( length of transcript / 1,000 ) M: Divide by (total number of mapped reads in sample / 1,000,000 ) CuffLinks uses FPKM (same as RPKM, F=fragment, for paired end reads)

41 CuffLinks cufflinks - p 4 o outdir/ s_1_sequence.txt.sorted.bam Trapnell et al, 2010

42 hcp://genes.mit.edu/burgelab/miso/ hcp://

44 DetecBng Single NucleoBde VariaBons (SNVs)

45 Short read AAAATACGCGTATTCTCCCAAAACAATATC TTCTCCCAAAACAAAAAAATACGCGTATTCTCCCAAAACAATATCTTACAAGATGTAAATATACCCAAGATG Reference Human Genome (hg18)

46 Short read AAAATACGCCTATTCTCCCAAAACAATATC TTCTCCCAAAACAAAAAAATACGCGTATTCTCCCAAAACAATATCTTACAAGATGTAAATATACCCAAGATG Reference Human Genome (hg18)

47 Short read AAAATACGCCTATTCTCCCATAACAATATC TTCTCCCAAAACAAAAAAATACGCGTATTCTCCCAAAACAATATCTTACAAGATGTAAATATACCCAAGATG Reference Human Genome (hg18)

48 Sequencing has high error rate Mismatch = real variabon OR sequencing error Short read AAAATACGCCTATTCTCCCAAAACAATATC TTCTCCCAAAACAAAAAAATACGCGTATTCTCCCAAAACAATATCTTACAAGATGTAAATATACCCAAGATG Reference Human Genome (hg18) Typical mismatch rate of enbre datasets = 0.5-2% (errors >> real variabons)

49 Single NucleoBde VariaBon chr2, pos= bp

50 Single NucleoBde VariaBon chr14, pos= bp

51 Single NucleoBde VariaBon chr1, pos=

52 Cancer mutabons All cells in tumor have heterozygous mutabon A fracbon of cells have heterozygous mutabon Loss of heterozygocity due to loss of genebc material

53 Single NucleoBde VariaBon detecbon from deep sequencing data n reads at considered posibon k reads with mutabon genome Is k greater than expected by chance, given error rate p? p = mismatch rate = % P(X k) = n i= k n p i (1 p) n i i CumulaBve binomial distribubon

54 The error/mismatch rate is not uniform across read length Mismatch

55 The error/mismatch rate is not uniform across read length

56 Single NucleoBde VariaBon detecbon from deep sequencing data N reads at considered posibon p 5 p 6 p 8 p 9 p 10 p 11 p17 p 14 p 1 p 3 k reads with mutabon genome Is k greater than expected by chance, given error rates p i? S Z = Z Z N N P(S Z = k) = (1 p i ) i=1 i 1 <...<i k w i1...w ik with Stefano Monni, WCMC The Poisson- Binomial distribubon Chen & Liu, 1997

57 Other SNV calling programs SNVmix (Shah et al, 2010) GATK hcp:// index.php/the_genome_analysis_toolkit VarScan hcp://varscan.sourceforge.net/

58 Indel calling Complicated because indels ouen occur within microsatellite regions, eg CACACACA CA- - CACACA as good as CACA- - CACA, CACACA- - CA Since reads are aligned independently, local realignment is needed DINDEL (used in 1000 Genomes Project) hcp://

59 Variant annotabon Variants can be either mutabon or (more ouen) polymorphism. dbsnp catalogs all known polymorphisms Missense, nonsense, intron, 3 UTR, 5 UTR, etc SeacleSNP hcp://pga.gs.washington.edu/ Severity of missense mutabons PolyPhen hcp://genebcs.bwh.harvard.edu/pph2/ MutaBon Assessor hcp://mutabonassessor.org/ GATK for variant annotabon hcp:// The_Genome_Analysis_Toolkit Cross- species conservabon

60 6. Read data visualizabon

61 samtools tview file.sorted.bam wg.fa SAMtools

62 UCSC Genome Browser Upload BAM file to genome browser or make it accessible to UCSC from your own web page

63 Integrated Genome Viewer (IGV)

64 Read densibes genome Read count T A T T A A T T A T C C C C A T A T A T G A T A T genome

65 Wiggle files for Genome Browser variablestep chrom=chr1 span= hcp://genome.ucsc.edu/goldenpath/help/wiggle.html hcp://genome.ucsc.edu/goldenpath/help/bigwig.html

67 7. BioConductor packages for high- througput sequencing

68 BioC packages IRanges hcp://bioconductor.org/packages/ release/bioc/html/iranges.html Rsamtools hcp://bioconductor.org/packages/2.7/ bioc/html/rsamtools.html ShortRead hcp://bioconductor.org/packages/ release/bioc/html/shortread.html rtracklayer hcp://bioconductor.org/packages/ 2.8/bioc/html/rtracklayer.html BSgenome hcp://bioconductor.org/packages/ release/bioc/html/bsgenome.html And many more

69 SAMTools, Unix programs and R/BioC RSAMtools Unix commands can be ran in R system( samtools rmdup s file.bam file_noclonal.bam )

70 hcp://manuals.bioinformabcs.ucr.edu/home/ht- seq

71 8. Challenges and evolubon of sequencing and its analysis

72 Storage is becoming a real problem Kahn, 2011, Science

73 Sequencing is becoming faster

74 PacBio Reads are becoming longer

75 How do you interpret sequencing data in a clinical context?

Data integrabon ChIP- seq for BCL6, BCOR, SMRT, H3K79me2,

77 Data integrabon ChIP- seq for BCL6, BCOR, SMRT, H3K79me2, H3K4me1, H3K4me3, H3K27Ac, H3K9Ac, H3K27me3, and DNA methylabon (HELP) in LY1 cells HiC!" Peaks Human genome Transcription factor binding!"#$%&'()*(+,-(.&//%(( RPKM Integra-ve sta-s-cal model Predic?ons / Mechanisms RPKM = # reads per kilobase per million reads Experiments ChIP- seq / sirna etc

78 The end

High-throughput sequencing: Alignment and related topic. Simon Anders EMBL Heidelberg

High-throughput sequencing: Alignment and related topic Simon Anders EMBL Heidelberg Established platforms HTS Platforms Illumina HiSeq, ABI SOLiD, Roche 454 Newcomers: Benchtop machines: Illumina MiSeq,