too many reads

ajone · August 25, 2016, 12:51pm

Hi all,

I have just received my first Illumina data (Have previously analyzed 454 data). The problem is that the sequencing center went crazy and send back +50 millions reads (approx. 500 bp.) of the V1-V3 region (after the make.contigs command) from 21 samples using 2X300bp chemistry. Although I’m running Mother on a cluster with 24 cpus and 256gb., I can imagine that the downstream analysis may be a big problem resulting in enormous file sizes that can not easily be handled. Does anyone of you have experiences what to do with such large amount of reads? One easy way to get around the problem of course is to reduce the number of reads before analyzing.

thanks in advance

Anders

Kendra · August 25, 2016, 1:02pm

Have you read about the poor results with v1-3 on 2x300 MiSeq? I’d set your stringency really high for the screen.seq/filter.seqs steps, then if you still have way too many you could subsample down to some number per sample.

I’m confused how you got 50M reads, that’s ~3 v3 miseq runs?

ajone · August 25, 2016, 1:21pm

I haven’t read about the poor quality of the V1-V3 with 2X300 MiSeq. However we used GATC Biotech for the sequencing and they prefer this regions, which is also the best region for oral cavity samples. I’m also a bit confused about the number of sequences. Especially when the header of each sequence starts with “HISEQ_483…” indicating that HISEQ was used, which is quite strange considering the length of each reads was 300. Unfortunately I haven’t talked to the sequencing center yet, as I just received the data this morning.

Anders

ajone · August 25, 2016, 6:21pm

I just contacted my sequence supplier (GATC biotech) about the issues. They say, because of the problems Illumina have had with the V3 chemistry for MiSeq, they have developed a protocol for running 300bp PE on the HiSeq. Have any of you heard of this before, and if so what is the error rate compared to the MiSeq?

Anders

Kendra · August 25, 2016, 6:45pm

you have 2x150 hiseq reads rather than 2x300 miseq? No idea why GATC does v1-3 (regardless if it’s miseq or hiseq), I think that’s the wrong approach for microbiome sequencing. How many samples do you have? You make want to strongly consider redoing them with just v4 and sequence on a 2x250 miseq run.

ajone · August 25, 2016, 6:52pm

I only have 21 samples, and I might consider to resequence them. However, I do not really follow you on the 2X150bp, since each of the PE reads is actually 300 bp and the assembled sequence is around 500 bp. as expected using the 27F and 534R primers.

Anders

Kendra · August 25, 2016, 6:57pm

As far as I know, hiseq doesn’t have any kits that provide longer than 2x150bp. in Illumina speak PE 300bp means 2x150, PE 500bp means 2x250…

your total amplicon size is ~500 bp, they have given you sequences with a ~200bp gap in the middle you can’t concatenate those sequences.

ajone · August 25, 2016, 7:02pm

I thought the same. However using the the make.contigs command the reads concatenated nicely, so somehow it seems that they have managed to do 2X300 bp. PE on the HiSeq.

Anders

Kendra · August 25, 2016, 7:24pm

look at your contigs, I bet they aren’t actually overlapped but rather just stuck together with a couple of NNN in the middle (or at least that’s how Pandaseq handles non-overlapping R1/R2)

ajone · August 25, 2016, 7:31pm

That does not seems to be the case. I’ve just aligned them manually in Mega and the overlap perfectly. Here is the first four reads try yourself. I very interested to hear if you get something else.

forward:

HISEQ_483_H2GN3BCXY_1_1101_2128_2165
AGATTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAGCGGAACTAACAGATTTACTTCGGTAATGACGTTAGGAAAGCGAGCGGCGGATGGGTGAGTAACACGTGGGGAACCTGCCCCATAGTCTGGGATACCACTTGGAAACAGGTGCTAATACCGGATAAGAAAGCAGATCGCATGATCAGCTTTTAAAAGGCGGCGTAAGCTGTCACTGTGGGATGGCCCCGCGGTGCATTAGCTAGTTGGTAAGGTAAAGGCTTACCAAGGCGATGATGCAT
HISEQ_483_H2GN3BCXY_1_1101_2687_2162
AGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCCTAATACATGCAAGTAGAACGCTGAAGCTTGGTGCTTGCACCGAGCGGATGAGTTGCGAACGGGTGAGTAACGCGTAGGTAACCTGCCTGGTAGCGGGGGATAACTATTGGAAACGATAGCTAATACCGCATAAAATGGATTATCGCATGATAATCCATTGAAAGGTGCAAATGCATCACTACCAGATGGACCTGCGTTGTATTAGCTAGTTGGTGGGGTAACGGCACACCAAGGCGACGATACATAGCCGACCTGAGAGG
HISEQ_483_H2GN3BCXY_1_1101_2584_2186
AGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAGCGGAACTAACAGATTTACTTCGGTAATGACGTTAGGAAAGCGAGCGGCGGATGGGTGAGTAACACGTGGGGAACCTGCCCCATAGTCTGGGATACCACTTGGAAACAGGTGCTAATACCGGATAAGAAAGCAGATCGCATGATCAGCTTTTAAAAGGCGGCGTAAGCTGTCGCTATGGGATGGCCCCGCGGTGCATTAGCTAGTTGGTAAGGTAAAGGCTTACCAAGGCGATGATGCA
HISEQ_483_H2GN3BCXY_1_1101_3178_2168
AGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAGCGGAACTAACAGATTTACTTCGGTAATGACGTTAGGAAAGCGAGCGGCGGATGGGCGAGTAACACGTGGGGAACCTGCCCCATAGTCCGGGATACCACTTGGAAACAGGTGCTAATACCGGATAGGAAAGCAGATCGCATGATCAGCTTTTAAAAGGCGGCGTAAGCTGTCGCTATGGGATGGCCCCGCGGTGCATTAGCTAGTTGGTAAGGTAAAGGCTTACCAAGGCGATGATGCA

Reverse:

HISEQ_483_H2GN3BCXY_1_1101_2128_2165
ATTACCGCGGCTGCTGGCACGTAGTTAGCCGTGACTTTCTGGTTGATTACCGTCAAATAAAGGCCAGTTACTACCTCTATCCTTCTTCACCAACAACAGAGCTTTACGATCCGAAAACCTTCTTCACTCACGCGGCGTTGCTCCATCAGACTTGCGTCCATTGCGGAAGATTCCCTACTGCTGCCTCCCGTAGGAGGTTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTCAACTCGGCTATTCATCATCGCCTTGGTAAGCGTTTACCTTACCAACCAGCTAATGCACACGCG
HISEQ_483_H2GN3BCXY_1_1101_2687_2162
ATTACCGCGGCTGCTGGCACGTAGTTAGCCGTCCCTTTCTGGTAAGATACCGTCACAGTGTGAATTTTCCACTCTCACACTCGTTCTTCTCTTACAACAGAGCTTTACGATCCGAAAACCTTCTTCACTCACGCGGCGTTGCTCGGTCAGACTTCCGTCCATTGCCGAAGATTCCCTACCGCTGCCTCCCGTAGGAGTCTGGGCCGTGTCTCAGTCCCAGTGTGGCCGATCACCCTCTCAGGTCGGCTATGTATCGTCGCCTTGGTGTGCCGTTACCCCACCAACTAGCTAATACAACGCC
HISEQ_483_H2GN3BCXY_1_1101_2584_2186
ATTACCGCGGCTGCTGGCACGTAGTTAGCCGTGACTTTCTGGTTGATTACCGTCAAATAAAGGCCAGTTACTACCTCTATCCTTCTTCACCAACAACAGAGCTTTACGATCCGAAAACCTTCTTCACTCACGCGGCGTTGCTCCATCAGACTTGCGTCCATTGTGGAAGATTCCCTACTGCTGCCTCCCGTAGGAGTTTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTCAACTCGGCTATGCATCATCGCCTTGGTAAGCCTTTACCTTACCAACTAGCTAATGCACCGCGG
HISEQ_483_H2GN3BCXY_1_1101_3178_2168
ATTACCGCGGCTGCTGGCACGTAGTTAGCCGTGACTTTCTGGTTGATTACCGTCAAGTAAAGGCCAGTTACTACCTCTATCCTTCTTCACCAACAACAGAGCCTTACGATCCGAAAACCTTCTTCACTCACGCGGCGTTGCTCCATCAGACTTGCGTCCATTGTGGAAGATTCCCTACTGCTGCCTCCCGTAGGAGTTTGGGCCGTGTCTCAGTCCCAATGTGGCCGATCAGTCTCTCAACTCGGCTATGCATCATCGCCTTGGTAAGCCTTTACCTTACCAACTAGCTAATGCACCGCGG

and the concatenated sequences using the command “make.contigs”

HISEQ_483_H2GN3BCXY_1_1101_2128_2165
AGATTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAGCGGAACTAACAGATTTACTTCGGTAATGACGTTAGGAAAGCGAGCGGCGGATGGGTGAGTAACACGTGGGGAACCTGCCCCATAGTCTGGGATACCACTTGGAAACAGGTGCTAATACCGGATAAGAAAGCAGATCGCATGATCAGCTTTTAAAAGGCGGCGTAAGCTGTCACTGTGGGATGGCCCCGCGGTGCATTAGCTAGTTGGTAAGGTAAAGGCTTACCAAGGCGATGATGCATAGCCGAGTTGAGAGACTGATCGGCCACATTGGGACTGAGACACGGCCCAACCTCCTACGGGAGGCAGCAGTAGGGAATCTTCCGCAATGGACGCAAGTCTGATGGAGCAACGCCGCGTGAGTGAAGAAGGTTTTCGGATCGTAAAGCTCTGTTGTTGGTGAAGAAGGATAGAGGTAGTAACTGGCCTTTATTTGACGGTAATCAACCAGAAAGTCACGGCTAACTACGTGCCAGCAGCCGCGGTAAT
HISEQ_483_H2GN3BCXY_1_1101_2687_2162
AGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCCTAATACATGCAAGTAGAACGCTGAAGCTTGGTGCTTGCACCGAGCGGATGAGTTGCGAACGGGTGAGTAACGCGTAGGTAACCTGCCTGGTAGCGGGGGATAACTATTGGAAACGATAGCTAATACCGCATAAAATGGATTATCGCATGATAATCCATTGAAAGGTGCAAATGCATCACTACCAGATGGACCTGCGTTGTATTAGCTAGTTGGTGGGGTAACGGCACACCAAGGCGACGATACATAGCCGACCTGAGAGGGTGATCGGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCGGTAGGGAATCTTCGGCAATGGACGGAAGTCTGACCGAGCAACGCCGCGTGAGTGAAGAAGGTTTTCGGATCGTAAAGCTCTGTTGTAAGAGAAGAACGAGTGTGAGAGTGGAAAATTCACACTGTGACGGTATCTTACCAGAAAGGGACGGCTAACTACGTGCCAGCAGCCGCGGTAAT
HISEQ_483_H2GN3BCXY_1_1101_2584_2186
AGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAGCGGAACTAACAGATTTACTTCGGTAATGACGTTAGGAAAGCGAGCGGCGGATGGGTGAGTAACACGTGGGGAACCTGCCCCATAGTCTGGGATACCACTTGGAAACAGGTGCTAATACCGGATAAGAAAGCAGATCGCATGATCAGCTTTTAAAAGGCGGCGTAAGCTGTCGCTATGGGATGGCCCCGCGGTGCATTAGCTAGTTGGTAAGGTAAAGGCTTACCAAGGCGATGATGCATAGCCGAGTTGAGAGACTGATCGGCCACATTGGGACTGAGACACGGCCCAAACTCCTACGGGAGGCAGCAGTAGGGAATCTTCCACAATGGACGCAAGTCTGATGGAGCAACGCCGCGTGAGTGAAGAAGGTTTTCGGATCGTAAAGCTCTGTTGTTGGTGAAGAAGGATAGAGGTAGTAACTGGCCTTTATTTGACGGTAATCAACCAGAAAGTCACGGCTAACTACGTGCCAGCAGCCGCGGTAAT
HISEQ_483_H2GN3BCXY_1_1101_3178_2168
AGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAGCGGAACTAACAGATTTACTTCGGTAATGACGTTAGGAAAGCGAGCGGCGGATGGGCGAGTAACACGTGGGGAACCTGCCCCATAGTCCGGGATACCACTTGGAAACAGGTGCTAATACCGGATAGGAAAGCAGATCGCATGATCAGCTTTTAAAAGGCGGCGTAAGCTGTCGCTATGGGATGGCCCCGCGGTGCATTAGCTAGTTGGTAAGGTAAAGGCTTACCAAGGCGATGATGCATAGCCGAGTTGAGAGACTGATCGGCCACATTGGGACTGAGACACGGCCCAAACTCCTACGGGAGGCAGCAGTAGGGAATCTTCCACAATGGACGCAAGTCTGATGGAGCAACGCCGCGTGAGTGAAGAAGGTTTTCGGATCGTAAGGCTCTGTTGTTGGTGAAGAAGGATAGAGGTAGTAACTGGCCTTTACTTGACGGTAATCAACCAGAAAGTCACGGCTAACTACGTGCCAGCAGCCGCGGTAAT

Anders

Kendra · August 25, 2016, 8:14pm

You’re right those are 2x300 which can’t be hiseq (at least not by any published method I’ve seen) but the 50M seqs implies hiseq. You should have a long chat with the seq facility to really figure out what’s going on.

chaperone1 · September 8, 2016, 1:16pm

Hi ajone

Did you talk to the sequencing provider about this? I used the same provider and have similar sequence numbers.

Topic		Replies	Views
HiSeq V4 region with V2 chemistry Theory behind mothur	2	1899	April 7, 2016
make.contigs gets short reads Commands in mothur	1	1078	August 30, 2016
screen.seqs removes half of my sequences Commands in mothur	19	12935	January 9, 2015
adapt MiSeq SOP for MiSeq V3 kit Commands in mothur	11	13956	November 19, 2014
Sequence Length Theory behind mothur	11	4595	May 30, 2019

too many reads

Related topics