8.1 Výstupní data ze sekvenátoru
Podívejte se na příkladový .fastq soubor ze sekvenátoru Illumina
illumina.fastq a sekvenátoru Oxford Nanopore
minion.fastq.
8.1.1 Kolik řádků odpovídá jednomu čtení (read)?
Odpověď:
Čtyři
8.1.2 Kterým znakem začíná záznam jednoho čtení?
Odpověď:
@
8.1.3 Na kterém řádku je samotná sekvence?
Odpověď:
Na druhém
8.1.4 Který řádek udává kvalitu jednotlivých bází?
Odpověď:
Čtvrtý
8.1.5 Kolik readů obsahuje soubor illumina.fastq a minion.fastq?
Odpověď:
3 a 1
8.2 Analýza dat na Galaxy serveru
Nahrajte data
Good_illumina_2000,
Bad_2000_illumina
a
MinION
na
Galaxy server.
Ověřte kvalitu sekvenování dat Good_illumina_2000 a Bad_2000_illumina pomocí programu FastQC.
8.2.1 Dostala se průměrná hodnota kvality readů v případě Good_illumina_2000 pod hodnotu 28?
Odpověď:
Ne
8.2.2 Čím jsou “znečištěné” ready Bad_2000_illumina?
Odpověď:
Sekvencemi adaptérů z Nextera_transposase_sequence.
Použite pro složení dat 3A_MinION.fastq.gz assembler Raven (
usegalaxy.eu; předpočítaný výsledek
zde).
8.2.3 Jak přesně dlouhá je složená sekvence?
Odpověď:
43078 bp
8.2.4 Jaká tři accession numbers mají při prohledání Nucleotide collection nr/nt nukleotidovým blastem nejbližší hit pro sekvenci? (složená FASTA sequence z dat 3A_MinION.fastq.gz
zde).
Odpověď:
NC_007053.1; CP127790.1; CP184559.1
8.2.5 Ověřte kvalitu sekvenování dat z MinION 3A_MinION.fastq.qz pomocí programu NanoPlot. Jaký je počet readů?
Odpověď:
3000
Jaká je průměrná délka čtení a jaká je hodnota N50 pro tento genom?
Odpověď:
25448.2 bp; N50: 42962.0
8.2.6 Jaké je přibližné pokrytí složeného genomu? Pokrytí vypočítejte jako: (průměrná délka readu × počet readů) / délka sekvence.
Odpověď:
1772
8.3 Anotace neznámé sekvence v programu UGENE
Spusťte program UGENE a nahrajte do něj sekvenci Stafylokokového shuttle vektoru
S_vector.fasta.
Využite možnosti UGENEu pro zjištění následujících informací:
8.3.1 Jaká je délka molekuly a jaký je procentuální podíl GC daného vektoru?
Odpověď:
6430 bp a 36.33 %
8.3.2 Kolik je v sekvenci predikovaných ORF delších než 300 nukleotidů? Použijte standardní genetický kód a přidejte alternatívní start kodony.
Odpověď:
6
8.3.3 Analyzujte sekvenci nejdelšího ORF (pomocí blastp) a vytvořte jeho anotaci v UGENE. Uložte jeho sekvenci ve formátu gb (spolu s přeloženou proteinovou sekvencí).
8.3.4 Kolik enzymů, rozpoznávajících alespoň 6 nukleotidů, štěpí molekulu právě jednou?
Odpověď:
1098 v případě kruhové molekuly
8.3.5 Které enzymy je možné použit na vyštěpení nejdelšího ORF?
Odpověď:
např. StiSGI a AauI
8.4 Analýza terminátorů transkripce
Zjistěte přítomnost bakteriálních terminátorů transkripce v sekvenci
S_vector.fasta.
Využijte program UGENE, vyberte možnost Annotate plasmid, následně použijte webový nástroj
Arnold.
8.4.1 Kolik terminátorů predikoval UGENE? Jaké jiné oblasti, podobné vektorovým sekvencím, predikoval?
Odpověď:
0 terminátorů, jiné oblasti: pGEX primer, Amp promoter, Ery gene
8.4.2 Kolik terminátorů predikoval Arnold?
Odpověď:
13
8.4.3 Kolik predikovaných terminátorů z Arnold-u může reálně soužit jako terminátory nalezených ORF (nenachází se např. ve středu ORF, ale při jeho konci, nachází se
na kódujícím vlákně)? Anotujte tyto sekvence v UGENE.
Odpověď:
3
8.4.4 Vložte do UGENE sekvenci s GenBank Accession number KR781468.1.
Porovnejte anotovaný terminátor transkripce (označený “TT”) s vašimi predikovanými sekvencemi.
V případě potřeby použijte předpočítané výsledky: