8.1 Výstupní data ze sekvenátoru
Podívejte se na příkladový .fastq soubor ze sekvenátoru Illumina
illumina.fastq a sekvenátoru Oxford Nanopore
minion.fastq.
8.1.1 Kolik řádků odpovídá jednomu čtení (read)?
Odpověď:
Čtyři
8.1.2 Kterým znakem začíná záznam jednoho čtení?
Odpověď:
@
8.1.3 Na kterém řádku je samotná sekvence?
Odpověď:
Na druhém
8.1.4 Který řádek udává kvalitu jednotlivých bází?
Odpověď:
Čtvrtý
8.1.5 Kolik readů obsahuje soubor illumina.fastq a minion.fastq?
Odpověď:
3 a 1
8.2 Analýza dat na Galaxy serveru
Nahrajte data
Good_illumina_2000,
Bad_2000_illumina
a
IonTorrent_2000
na
Galaxy server.
Ověřte kvalitu sekvenování dat Good_illumina_2000 a Bad_2000_illumina pomocí programu FastQC.
8.2.1 Dostala se průměrná hodnota kvality readů v případě Good_illumina_2000 pod hodnotu 28?
Odpověď:
Ne
8.2.2 Čím jsou “znečištěné” ready Bad_2000_illumina?
Odpověď:
Sekvencemi adaptérů z Nextera_transposase_sequence.
Použite program SPAdes pro analýzu složení dat IonTorrent_2000.
8.2.3 Kolik kontigů složil assembler při nastavení: only assembly NO, careful NO, K-mers 21,33,55, IonTorrent YES?
Odpověď:
2
8.2.4 Jaké accession number má při prohledaní Nucleotide collection nr/nt nukleotidovým blastem nejbližší hit pro sekvenci NODE_1?
Odpověď:
NC_048192
8.2.5 Jaké je přibližné pokrytí složeného genomu (NODE_1)? Pokrytí vypočítejte jako: (průměrná délka readu × počet readů) / délka kontigu.
Odpověď:
Přibližně 16
8.3 Anotace neznámé sekvence v programu UGENE
Spusťte program UGENE a nahrajte do něj sekvenci Stafylokokového shuttle vektoru
S_vector.fasta.
Využite možnosti UGENEu pro zjištění následujících informací:
8.3.1 Jaká je délka molekuly a jaký je procentuální podíl GC daného vektoru?
Odpověď:
6430 bp a 36.33 %
8.3.2 Kolik je v sekvenci predikovaných ORF delších než 300 nukleotidů? Použijte standardní genetický kód a přidejte alternatívní start kodony.
Odpověď:
6
8.3.3 Analyzujte sekvenci nejdelšího ORF (pomocí blastp) a vytvořte jeho anotaci v UGENE. Uložte jeho sekvenci ve formátu gb (spolu s přeloženou proteinovou sekvencí).
8.3.4 Kolik enzymů, rozpoznávajících alespoň 6 nukleotidů, štěpí molekulu právě jednou?
Odpověď:
1098 v případě kruhové molekuly
8.3.5 Které enzymy je možné použit na vyštěpení nejdelšího ORF?
Odpověď:
např. StiSGI a AauI
8.4 Analýza terminátorů transkripce
Zjistěte přítomnost bakteriálních terminátorů transkripce v sekvenci
S_vector.fasta.
Využijte program UGENE, vyberte možnost Annotate plasmid, následně použijte webový nástroj
Arnold.
8.4.1 Kolik terminátorů predikoval UGENE? Jaké jiné oblasti, podobné vektorovým sekvencím, predikoval?
Odpověď:
0 terminátorů, jiné oblasti: pGEX primer, Amp promoter, Ery gene
8.4.2 Kolik terminátorů predikoval Arnold?
Odpověď:
13
8.4.3 Kolik predikovaných terminátorů z Arnold-u může reálně soužit jako terminátory nalezených ORF (nenachází se např. ve středu ORF, ale při jeho konci, nachází se
na kódujícím vlákně)? Anotujte tyto sekvence v UGENE.
Odpověď:
3
8.4.4 Vložte do UGENE sekvenci s GenBank Accession number KR781468.1.
Porovnejte anotovaný terminátor transkripce (označený “TT”) s vašimi predikovanými sekvencemi.
V případě potřeby použijte předpočítané výsledky: