Align.seqs removing most basepairs

peleliu · August 14, 2013, 8:27pm

Hi,
My align.seqs is eliminating most of the basepairs. I know this problem is usually related to 5’->3’ vs. 3’->5’ sequencing, but I analyzed it both ways and the result remains the same (logfile attached below). Please help…

Windows version

Running 64Bit Version

mothur v.1.31.2
Last updated: 6/13/2013

by
Patrick D. Schloss

Department of Microbiology & Immunology
University of Michigan
pschloss@umich.edu
http://www.mothur.org

When using, please cite:
Schloss, P.D., et al., Introducing mothur: Open-source, platform-independent, community-supported software for describing and comparing microbial communities. Appl Environ Microbiol, 2009. 75(23):7537-41.

Distributed under the GNU General Public License

Type ‘help()’ for information on the commands that are available

Type ‘quit()’ to exit program
Interactive Mode

mothur > summary.seqs(fasta=COHEN_2538_831FB.fna)

Using 8 processors.

Start End NBases Ambigs Polymer NumSeqs
Minimum: 1 100 100 0 4 1
2.5%-tile: 1 124 124 0 4 5252
25%-tile: 1 270 270 0 4 52518
Median: 1 409 409 0 5 105036
75%-tile: 1 469 469 1 5 157553
97.5%-tile: 1 532 532 3 7 204819
Maximum: 1 673 673 10 20 210070
Mean: 1 368.258 368.258 0.378826 4.87502

of Seqs: 210070

Output File Names:
COHEN_2538_831FB.summary

[WARNING]: your sequence names contained ‘:’. I changed them to ‘_’ to avoid problems in your downstream analysis.

mothur > trim.seqs(fasta=COHEN_2538_831FB.fna, oligos=bdellovibrio.oligos, qfile=COHEN_2538_831FB.qual, maxambig=0, maxhomop=8, bdiffs=1, pdiffs=2, minlength=150, qwindowaverage=30, qwindowsize=50, processors=8)

Using 8 processors.
1000
1000
1000
1000
2000
1000
1000
2000
1000
1000
2000
2000
2000
3000
2000
2000
3000
4000
2000
3000
3000
3000
5000
3000
3000
4000
4000
4000
4000
6000
3000
5000
4000
7000
5000
6000
5000
5000
4000
8000
5000
7000
6000
6000
9000
6000
4000
6000
8000
7000
7000
10000
5000
7000
11000
9000
8000
7000
8000
5000
10000
6000
9000
9000
11000
8000
8000
10000
12000
10000
12000
9000
13000
7000
11000
11000
6000
9000
13000
14000
10000
12000
12000
10000
8000
7000
14000
11000
13000
15000
11000
15000
13000
9000
8000
14000
12000
16000
16000
14000
12000
15000
17000
17000
10000
13000
13000
9000
18000
16000
15000
18000
11000
14000
19000
17000
14000
16000
10000
20000
19000
12000
18000
15000
20000
17000
21000
19000
15000
18000
11000
21000
13000
20000
16000
22000
19000
22000
23000
21000
16000
23000
20000
12000
14000
17000
22000
24000
24000
21000
17000
23000
13000
15000
25000
18000
25000
22000
26000
16000
24000
26258
14000
26000
18000
23000
26258
19000
17000
15000
19000
24000
25000
18000
20000
25000
16000
20000
19000
21000
26000
17000
20000
26258
22000
26000
21000
18000
26258
21000
23000
19000
22000
22000
24000
20000
25000
23000
23000
21000
24000
26000
24000
22000
26264
25000
23000
25000
26000
26258
24000
26000
26258
25000
26000
26258
Appending files from process 1
Appending files from process 2
Appending files from process 3
Appending files from process 4
Appending files from process 5
Appending files from process 6
Appending files from process 7

Group count:
1-831F 2619
10-831F 4113
10B-831F 3490
11-831F 10493
11B-831F 7701
12-831F 2669
12B-831F 2365
17-831F 2105
18-831F 4039
19-831F 1205
1B-831F 3399
2-831F 3884
20-831F 1435
21-831F 1426
22-831F 3419
23-831F 7062
24-831F 893
2B-831F 10364
3-831F 2114
3B-831F 5413
3ES1-831F 354
3ES2-831F 3903
4-831F 2156
4B-831F 3267
5-831F 6068
5B-831F 3011
5K1-831F 11535
5K2-831F 4916
6-831F 1771
6B-831F 2683
7-831F 2546
7B-831F 6392
8-831F 8042
8B-831F 2386
9-831F 2876
9B-831F 1390
Total of all groups is 143504

Output File Names:
COHEN_2538_831FB.trim.fasta
COHEN_2538_831FB.scrap.fasta
COHEN_2538_831FB.trim.qual
COHEN_2538_831FB.scrap.qual
COHEN_2538_831FB.groups

[WARNING]: your sequence names contained ‘:’. I changed them to ‘_’ to avoid problems in your downstream analysis.

mothur > summary.seqs(fasta=COHEN_2538_831FB.trim.fasta)

Using 8 processors.

Start End NBases Ambigs Polymer NumSeqs
Minimum: 1 150 150 0 2 1
2.5%-tile: 1 161 161 0 3 3588
25%-tile: 1 246 246 0 4 35877
Median: 1 325 325 0 5 71753
75%-tile: 1 393 393 0 5 107629
97.5%-tile: 1 455 455 0 7 139917
Maximum: 1 551 551 0 8 143504
Mean: 1 316.687 316.687 0 4.67473

of Seqs: 143504

Output File Names:
COHEN_2538_831FB.trim.summary

mothur > unique.seqs(fasta=Cohen_2538_831FB.trim.fasta) [WARNING]: This command can take a namefile and you did not provide one. The current namefile is Cohen_2538_831FB.trim.names which seems to match Cohen_2538_831FB.trim.fasta. 1000 840 2000 1417 3000 2106 4000 2742 5000 3368 6000 4012 7000 4728 8000 5070 9000 5812 10000 6383 11000 7135 12000 7793 13000 8501 14000 9218 15000 9962 16000 10596 17000 11321 18000 12102 19000 12854 20000 13477 21000 14223 22000 14792 23000 15526 24000 15895 25000 16719 26000 17318 27000 17930 28000 18402 29000 19045 30000 19675 31000 20485 32000 21105 33000 21740 34000 22557 35000 23216 36000 23926 37000 24277 38000 24756 39000 25247 40000 26003 41000 26815 42000 27395 43000 27958 44000 28841 45000 29670 46000 30217 47000 31023 48000 31509 49000 32236 50000 32889 51000 33544 52000 34042 53000 34598 54000 35194 55000 35709 56000 36125 57000 36795 58000 37175 59000 37940 60000 38663 61000 39265 62000 39749 63000 40233 64000 40827 65000 41449 66000 42005 67000 42534 68000 43056 69000 43779 70000 44142 71000 44777 72000 45331 73000 45751 74000 46287 75000 46679 76000 47063 77000 47562 78000 48036 79000 48706 80000 49433 81000 49995 82000 50726 83000 51392 84000 51893 85000 52428 86000 52754 87000 53330 88000 53797 89000 54353 90000 54913 91000 55482 92000 55994 93000 56316 94000 56954 95000 57518 96000 57820 97000 58034 98000 58242 99000 58722 100000 59360 101000 59744 102000 59865 103000 59969 104000 60055 105000 60137 106000 60226 107000 60869 108000 61311 109000 61762 110000 62406 111000 62950 112000 63680 113000 64318 114000 65005 115000 65644 116000 66236 117000 66896 118000 67462 119000 67928 120000 68403 121000 68924 122000 69175 123000 69642 124000 70066 125000 70445 126000 70697 127000 70967 128000 71535 129000 72060 130000 72662 131000 73156 132000 73625 133000 74238 134000 74740 135000 75385 136000 75820 137000 76207 138000 76494 139000 76868 140000 77468 141000 77906 142000 78336 143000 78719 143504 79078

Output File Names:
Cohen_2538_831FB.trim.names
Cohen_2538_831FB.trim.unique.fasta

mothur > summary.seqs(fasta=Cohen_2538_831FB.trim.unique.fasta, name=Cohen_2538_831FB.trim.names)

Using 8 processors.

Start End NBases Ambigs Polymer NumSeqs
Minimum: 1 150 150 0 2 1
2.5%-tile: 1 161 161 0 3 3588
25%-tile: 1 246 246 0 4 35877
Median: 1 325 325 0 5 71753
75%-tile: 1 393 393 0 5 107629
97.5%-tile: 1 455 455 0 7 139917
Maximum: 1 551 551 0 8 143504
Mean: 1 316.687 316.687 0 4.67473

of unique seqs: 79078

total # of seqs: 143504

Output File Names:
Cohen_2538_831FB.trim.unique.summary

mothur > align.seqs(fasta=COHEN_2538_831FB.trim.unique.fasta, reference=silva.bacteria.fasta, flip=T, processors=8)

Using 8 processors.

Reading in the silva.bacteria.fasta template sequences… DONE.
It took 69 to read 14956 sequences.
Aligning sequences from COHEN_2538_831FB.trim.unique.fasta …

Reading in the silva.bacteria.fasta template sequences…

Reading in the silva.bacteria.fasta template sequences… Reading in the silva.bacteria.fasta template sequences…

Reading in the silva.bacteria.fasta template sequences… Reading in the silva.bacteria.fasta template sequences… DONE.
It took 871 to read 14956 sequences.
DONE.
It took 1001 to read 14956 sequences.
DONE.
It took 1002 to read 14956 sequences.
DONE.
It took 1040 to read 14956 sequences.
DONE.
It took 1054 to read 14956 sequences.
DONE.
It took 1139 to read 14956 sequences.
DONE.
It took 1408 to read 14956 sequences.
Some of you sequences generated alignments that eliminated too many bases, a list is provided in COHEN_2538_831FB.trim.unique.flip.accnos. If the reverse compliment proved to be better it was reported.
It took 6196 secs to align 79078 sequences.

Output File Names: COHEN_2538_831FB.trim.unique.align COHEN_2538_831FB.trim.unique.align.report COHEN_2538_831FB.trim.unique.flip.accnos
mothur > summary.seqs(fasta=COHEN_2538_831FB.trim.unique.align, name=Cohen_2538_831FB.trim.names)

Using 8 processors.

Start End NBases Ambigs Polymer NumSeqs
Minimum: 0 0 0 0 1 1
2.5%-tile: 1044 1046 2 0 1 3588
25%-tile: 1044 1071 7 0 2 35877
Median: 43026 43116 11 0 3 71753
75%-tile: 43097 43116 18 0 3 107629
97.5%-tile: 43115 43116 45 0 5 139917
Maximum: 43116 43116 433 0 8 143504
Mean: 26437.7 26493.6 13.7358 0 2.55593

of unique seqs: 79078

total # of seqs: 143504

Output File Names:
COHEN_2538_831FB.trim.unique.summary

mothur > align.seqs(fasta=COHEN_2538_831FB.trim.unique.fasta, reference=silva.bacteria.fasta, processors=8)

Using 8 processors.

Reading in the silva.bacteria.fasta template sequences… DONE.
It took 71 to read 14956 sequences.
Aligning sequences from COHEN_2538_831FB.trim.unique.fasta …

Reading in the silva.bacteria.fasta template sequences…
Reading in the silva.bacteria.fasta template sequences…
Reading in the silva.bacteria.fasta template sequences…
Reading in the silva.bacteria.fasta template sequences…
Reading in the silva.bacteria.fasta template sequences…

Reading in the silva.bacteria.fasta template sequences… Reading in the silva.bacteria.fasta template sequences… DONE.ique.
Reading in the silva.bacteria.fasta template sequences… Reading in the silva.bacteria.fasta template sequences… DONE.ique.

It took 735 to read 14956 sequences. It took 735 to read 14956 sequences. It took 735 to read 14956 sequences. DONE. DONE.DONE.It took 735 to read 14956 sequences. DONE.

It took 736 to read 14956 sequences.
It took 736 to read 14956 sequences.
It took 736 to read 14956 sequences.

Some of you sequences generated alignments that eliminated too many bases, a list is provided in COHEN_2538_831FB.trim.unique.flip.accnos. If you set the flip parameter to true mothur will try aligning the reverse compliment as well.
It took 4015 secs to align 79078 sequences.

Output File Names: COHEN_2538_831FB.trim.unique.align COHEN_2538_831FB.trim.unique.align.report COHEN_2538_831FB.trim.unique.flip.accnos
mothur > summary.seqs(fasta=COHEN_2538_831FB.trim.unique.align, name=Cohen_2538_831FB.trim.names)

Using 8 processors.

Start End NBases Ambigs Polymer NumSeqs
Minimum: 0 0 0 0 1 1
2.5%-tile: -1 -1 0 0 1 3588
25%-tile: 1044 1058 2 0 1 35877
Median: 43026 43116 5 0 2 71753
75%-tile: 43112 43116 12 0 3 107629
97.5%-tile: 43116 43116 34 0 4 139917
Maximum: 43116 43116 302 0 8 143504
Mean: 24049.6 24079.1 8.6797 0 1.91124

of unique seqs: 79078

total # of seqs: 143504

Output File Names:
COHEN_2538_831FB.trim.unique.summary

mothur > trim.seqs(fasta=COHEN_2538_831FB.fna, oligos=bdellovibrio.oligos, qfile=COHEN_2538_831FB.qual, maxambig=0, maxhomop=8, bdiffs=1, pdiffs=2, minlength=150, qwindowaverage=30, qwindowsize=50, flip=T, processors=8)

Using 8 processors.
1000
1000
1000
1000
1000
1000
1000
2000
2000
1000
2000
3000
2000
2000
2000
2000
4000
3000
3000
2000
3000
3000
5000
3000
3000
4000
3000
4000
4000
4000
4000
5000
6000
5000
5000
4000
4000
6000
7000
5000
6000
5000
8000
6000
5000
5000
7000
6000
7000
9000
6000
7000
8000
6000
7000
10000
6000
8000
7000
11000
8000
9000
7000
8000
9000
12000
7000
9000
100008000

13000
10000
8000
9000
10000
8000
14000
9000
11000
11000
10000
15000
11000
9000
10000
12000
9000
12000
16000
11000
12000
17000
13000
11000
10000
13000
10000
13000
12000
18000
14000
19000
12000
11000
14000
20000
14000
11000
15000
13000
21000
16000
22000
14000
17000
12000
12000
13000
15000
23000
18000
15000
15000
24000
14000
13000
25000
16000
19000
16000
13000
15000
26000
14000
26258
16000
17000
17000
20000
16000
17000
14000
15000
18000
18000
21000
18000
17000
15000
19000
19000
16000
22000
19000
20000
20000
18000
20000
17000
21000
16000
23000
21000
19000
21000
18000
22000
22000
17000
24000
19000
20000
22000
23000
23000
18000
25000
20000
24000
24000
21000
23000
26000
24000
19000
26258
25000
22000
21000
25000
25000
23000
20000
26000
26000
24000
26000
26258
22000
26258
26264
21000
25000
23000
22000
26000
24000
26258
23000
25000
24000
26000
26258
25000
26000
26258
Appending files from process 1
Appending files from process 2
Appending files from process 3
Appending files from process 4
Appending files from process 5
Appending files from process 6
Appending files from process 7

Group count:
1-831F 2619
10-831F 4113
10B-831F 3490
11-831F 10493
11B-831F 7701
12-831F 2669
12B-831F 2365
17-831F 2105
18-831F 4039
19-831F 1205
1B-831F 3399
2-831F 3884
20-831F 1435
21-831F 1426
22-831F 3419
23-831F 7062
24-831F 893
2B-831F 10364
3-831F 2114
3B-831F 5413
3ES1-831F 354
3ES2-831F 3903
4-831F 2156
4B-831F 3267
5-831F 6068
5B-831F 3011
5K1-831F 11535
5K2-831F 4916
6-831F 1771
6B-831F 2683
7-831F 2546
7B-831F 6392
8-831F 8042
8B-831F 2386
9-831F 2876
9B-831F 1390
Total of all groups is 143504

Output File Names:
COHEN_2538_831FB.trim.fasta
COHEN_2538_831FB.scrap.fasta
COHEN_2538_831FB.trim.qual
COHEN_2538_831FB.scrap.qual
COHEN_2538_831FB.groups

[WARNING]: your sequence names contained ‘:’. I changed them to ‘_’ to avoid problems in your downstream analysis.

mothur > summary.seqs(fasta=COHEN_2538_831FB.trim.fasta)

Using 8 processors.

Start End NBases Ambigs Polymer NumSeqs
Minimum: 1 150 150 0 2 1
2.5%-tile: 1 161 161 0 3 3588
25%-tile: 1 246 246 0 4 35877
Median: 1 325 325 0 5 71753
75%-tile: 1 393 393 0 5 107629
97.5%-tile: 1 455 455 0 7 139917
Maximum: 1 551 551 0 8 143504
Mean: 1 316.687 316.687 0 4.67473

of Seqs: 143504

Output File Names:
COHEN_2538_831FB.trim.summary

mothur > unique.seqs(fasta=Cohen_2538_831FB.trim.fasta) [WARNING]: This command can take a namefile and you did not provide one. The current namefile is Cohen_2538_831FB.trim.names which seems to match Cohen_2538_831FB.trim.fasta. 1000 840 2000 1417 3000 2106 4000 2742 5000 3368 6000 4012 7000 4728 8000 5070 9000 5812 10000 6383 11000 7135 12000 7793 13000 8501 14000 9218 15000 9962 16000 10596 17000 11321 18000 12102 19000 12854 20000 13477 21000 14223 22000 14792 23000 15526 24000 15895 25000 16719 26000 17318 27000 17930 28000 18402 29000 19045 30000 19675 31000 20485 32000 21105 33000 21740 34000 22557 35000 23216 36000 23926 37000 24277 38000 24756 39000 25247 40000 26003 41000 26815 42000 27395 43000 27958 44000 28841 45000 29670 46000 30217 47000 31023 48000 31509 49000 32236 50000 32889 51000 33544 52000 34042 53000 34598 54000 35194 55000 35709 56000 36125 57000 36795 58000 37175 59000 37940 60000 38663 61000 39265 62000 39749 63000 40233 64000 40827 65000 41449 66000 42005 67000 42534 68000 43056 69000 43779 70000 44142 71000 44777 72000 45331 73000 45751 74000 46287 75000 46679 76000 47063 77000 47562 78000 48036 79000 48706 80000 49433 81000 49995 82000 50726 83000 51392 84000 51893 85000 52428 86000 52754 87000 53330 88000 53797 89000 54353 90000 54913 91000 55482 92000 55994 93000 56316 94000 56954 95000 57518 96000 57820 97000 58034 98000 58242 99000 58722 100000 59360 101000 59744 102000 59865 103000 59969 104000 60055 105000 60137 106000 60226 107000 60869 108000 61311 109000 61762 110000 62406 111000 62950 112000 63680 113000 64318 114000 65005 115000 65644 116000 66236 117000 66896 118000 67462 119000 67928 120000 68403 121000 68924 122000 69175 123000 69642 124000 70066 125000 70445 126000 70697 127000 70967 128000 71535 129000 72060 130000 72662 131000 73156 132000 73625 133000 74238 134000 74740 135000 75385 136000 75820 137000 76207 138000 76494 139000 76868 140000 77468 141000 77906 142000 78336 143000 78719 143504 79078

Output File Names:
Cohen_2538_831FB.trim.names
Cohen_2538_831FB.trim.unique.fasta

mothur > align.seqs(fasta=COHEN_2538_831FB.trim.unique.fasta, reference=silva.bacteria.fasta, flip=T, processors=8)

Using 8 processors.

Reading in the silva.bacteria.fasta template sequences… DONE.
It took 73 to read 14956 sequences.
Aligning sequences from COHEN_2538_831FB.trim.unique.fasta …

Reading in the silva.bacteria.fasta template sequences…

Reading in the silva.bacteria.fasta template sequences… Reading in the silva.bacteria.fasta template sequences…
Reading in the silva.bacteria.fasta template sequences…

Reading in the silva.bacteria.fasta template sequences... Reading in the silva.bacteria.fasta template sequences... Reading in the silva.bacteria.fasta template sequences... DONE. It took 823 to read 14956 sequences. DONE. It took 824 to read 14956 sequences. DONE. It took 824 to read 14956 sequences. DONE. It took 824 to read 14956 sequences. DONE. It took 824 to read 14956 sequences. DONE. It took 824 to read 14956 sequences. DONE. It took 824 to read 14956 sequences. Some of you sequences generated alignments that eliminated too many bases, a list is provided in COHEN_2538_831FB.trim.unique.flip.accnos. If the reverse compliment proved to be better it was reported. It took 5847 secs to align 79078 sequences.
Output File Names: COHEN_2538_831FB.trim.unique.align COHEN_2538_831FB.trim.unique.align.report COHEN_2538_831FB.trim.unique.flip.accnos
mothur > summary.seqs(fasta=COHEN_2538_831FB.trim.unique.align, name=Cohen_2538_831FB.trim.names)

Using 8 processors.

Start End NBases Ambigs Polymer NumSeqs
Minimum: 0 0 0 0 1 1
2.5%-tile: 1044 1046 2 0 1 3588
25%-tile: 1044 1071 7 0 2 35877
Median: 43026 43116 11 0 3 71753
75%-tile: 43097 43116 18 0 3 107629
97.5%-tile: 43113 43116 45 0 5 139917
Maximum: 43116 43116 433 0 8 143504
Mean: 26278.8 26334.7 13.7358 0 2.56091

of unique seqs: 79078

total # of seqs: 143504

Output File Names:
COHEN_2538_831FB.trim.unique.summary

pschloss · August 15, 2013, 12:42pm

What are you sequencing and how are you sequencing it?

Topic		Replies	Views
align.seqs and no of bases Commands in mothur	5	2980	January 16, 2015
Align.seqs - queries. Commands in mothur	4	5844	January 30, 2014
Mothur remove all sequence from all groups Commands in mothur	5	1172	March 22, 2019
Warning Some of your sequences generated alignments that eliminated too many bases Commands in mothur	5	1755	December 1, 2022
Start and End differs after remove.seqs compared to screen.seqs Commands in mothur	5	592	July 30, 2020

Align.seqs removing most basepairs

of Seqs: 210070

of Seqs: 143504

of unique seqs: 79078

of unique seqs: 79078

of unique seqs: 79078

of Seqs: 143504

of unique seqs: 79078

Related topics