NGS data a lokální anotace dat

8.1 Výstupní data ze sekvenátoru
Podívejte se na příkladový .fastq soubor ze sekvenátoru Illumina illumina.fastq a sekvenátoru Oxford Nanopore minion.fastq.
8.1.1 Kolik řádků odpovídá jednomu čtení (read)? Odpověď: Čtyři
8.1.2 Kterým znakem začíná záznam jednoho čtení? Odpověď: @
8.1.3 Na kterém řádku je samotná sekvence? Odpověď: Na druhém
8.1.4 Který řádek udává kvalitu jednotlivých bází? Odpověď: Čtvrtý
8.1.5 Kolik readů obsahuje soubor illumina.fastq a minion.fastq? Odpověď: 3 a 1
8.2 Analýza dat na Galaxy serveru
Nahrajte data Good_illumina_2000, Bad_2000_illumina a IonTorrent_2000 na Galaxy server.

Ověřte kvalitu sekvenování dat Good_illumina_2000 a Bad_2000_illumina pomocí programu FastQC.
8.2.1 Dostala se průměrná hodnota kvality readů v případě Good_illumina_2000 pod hodnotu 28? Odpověď: Ne
8.2.2 Čím jsou “znečištěné” ready Bad_2000_illumina? Odpověď: Sekvencemi adaptérů z Nextera_transposase_sequence.
Použite program SPAdes pro analýzu složení dat IonTorrent_2000.
8.2.3 Kolik kontigů složil assembler při nastavení: only assembly NO, careful NO, K-mers 21,33,55, IonTorrent YES? Odpověď: 2
8.2.4 Jaké accession number má při prohledaní Nucleotide collection nr/nt nukleotidovým blastem nejbližší hit pro sekvenci NODE_1? Odpověď: NC_048192
8.2.5 Jaké je přibližné pokrytí složeného genomu (NODE_1)? Pokrytí vypočítejte jako: (průměrná délka readu × počet readů) / délka kontigu. Odpověď: Přibližně 16
8.3 Anotace neznámé sekvence v programu UGENE
Spusťte program UGENE a nahrajte do něj sekvenci Stafylokokového shuttle vektoru S_vector.fasta. Využite možnosti UGENEu pro zjištění následujících informací:
8.3.1 Jaká je délka molekuly a jaký je procentuální podíl GC daného vektoru? Odpověď: 6430 bp a 36.33 %
8.3.2 Kolik je v sekvenci predikovaných ORF delších než 300 nukleotidů? Použijte standardní genetický kód a přidejte alternatívní start kodony. Odpověď: 6
8.3.3 Analyzujte sekvenci nejdelšího ORF (pomocí blastp) a vytvořte jeho anotaci v UGENE. Uložte jeho sekvenci ve formátu gb (spolu s přeloženou proteinovou sekvencí).
8.3.4 Kolik enzymů, rozpoznávajících alespoň 6 nukleotidů, štěpí molekulu právě jednou? Odpověď: 1098 v případě kruhové molekuly
8.3.5 Které enzymy je možné použit na vyštěpení nejdelšího ORF? Odpověď: např. StiSGI a AauI
8.4 Analýza terminátorů transkripce
Zjistěte přítomnost bakteriálních terminátorů transkripce v sekvenci S_vector.fasta. Využijte program UGENE, vyberte možnost Annotate plasmid, následně použijte webový nástroj Arnold.
8.4.1 Kolik terminátorů predikoval UGENE? Jaké jiné oblasti, podobné vektorovým sekvencím, predikoval? Odpověď: 0 terminátorů, jiné oblasti: pGEX primer, Amp promoter, Ery gene
8.4.2 Kolik terminátorů predikoval Arnold? Odpověď: 13
8.4.3 Kolik predikovaných terminátorů z Arnold-u může reálně soužit jako terminátory nalezených ORF (nenachází se např. ve středu ORF, ale při jeho konci, nachází se na kódujícím vlákně)? Anotujte tyto sekvence v UGENE. Odpověď: 3
8.4.4 Vložte do UGENE sekvenci s GenBank Accession number KR781468.1. Porovnejte anotovaný terminátor transkripce (označený “TT”) s vašimi predikovanými sekvencemi.
V případě potřeby použijte předpočítané výsledky:



MENDELOVO CENTRUM pro vzdělávání v biologii, biomedicíně a bioinformatice CZ.1.07/2.3.00/09.0186

Aktuální cvičení:


Další informace:
Cvičení
Nukl. kyseliny
Proteiny
Struktury
Nástroje
Ke stažení
Bioinformatika - proteiny
Bioinformatika - nukl. kyseliny
Bioinformatické databáze
Manipulace se sekvenčními daty
Párové sekvenční přiložení
Mnohonásobné sekvenční přiložení
Návrh primerů
Hledání a identifikace genů
Analýza proteinových sekvencí
NGS data a lokální anotace
Strukturní databáze
Předpověď struktury proteinů
GenBank
EMBL-Bank
DDBJ
dbEST
UniGene
UniProtKB
NRDB
PIR
PROSITE
Pfam
INTERPRO
PDB
MMDB
PDBsum
CATH
SCOP
BLAST
FASTA
LALIGN
ClustalW
T-Coffee
MUSCLE
PSIPRED
JPRED
PHD
PuTTY
WinSCP
SPdbV
PyMOL
RasMol
BioEdit
MEGA3
TreeView