\ Cvičení 8 - bioinformatika
NGS data a lokální anotace dat

8.1 Výstupní data ze sekvenátoru
Podívejte se na příkladový .fastq soubor ze sekvenátoru Illumina illumina.fastq a sekvenátoru Oxford Nanopore minion.fastq.
8.1.1 Kolik řádků odpovídá jednomu čtení (read)? Odpověď: Čtyři
8.1.2 Kterým znakem začíná záznam jednoho čtení? Odpověď: @
8.1.3 Na kterém řádku je samotná sekvence? Odpověď: Na druhém
8.1.4 Který řádek udává kvalitu jednotlivých bází? Odpověď: Čtvrtý
8.1.5 Kolik readů obsahuje soubor illumina.fastq a minion.fastq? Odpověď: 3 a 1
8.2 Analýza dat na Galaxy serveru
Nahrajte data Good_illumina_2000, Bad_2000_illumina a MinION na Galaxy server.

Ověřte kvalitu sekvenování dat Good_illumina_2000 a Bad_2000_illumina pomocí programu FastQC.
8.2.1 Dostala se průměrná hodnota kvality readů v případě Good_illumina_2000 pod hodnotu 28? Odpověď: Ne
8.2.2 Čím jsou “znečištěné” ready Bad_2000_illumina? Odpověď: Sekvencemi adaptérů z Nextera_transposase_sequence.
Použite pro složení dat 3A_MinION.fastq.gz assembler Raven (usegalaxy.eu; předpočítaný výsledek zde).
8.2.3 Jak přesně dlouhá je složená sekvence? Odpověď: 43078 bp
8.2.4 Jaká tři accession numbers mají při prohledání Nucleotide collection nr/nt nukleotidovým blastem nejbližší hit pro sekvenci? (složená FASTA sequence z dat 3A_MinION.fastq.gz zde). Odpověď: NC_007053.1; CP127790.1; CP184559.1
8.2.5 Ověřte kvalitu sekvenování dat z MinION 3A_MinION.fastq.qz pomocí programu NanoPlot. Jaký je počet readů? Odpověď: 3000
Jaká je průměrná délka čtení a jaká je hodnota N50 pro tento genom? Odpověď: 25448.2 bp; N50: 42962.0
8.2.6 Jaké je přibližné pokrytí složeného genomu? Pokrytí vypočítejte jako: (průměrná délka readu × počet readů) / délka sekvence. Odpověď: 1772
8.3 Anotace neznámé sekvence v programu UGENE
Spusťte program UGENE a nahrajte do něj sekvenci Stafylokokového shuttle vektoru S_vector.fasta. Využite možnosti UGENEu pro zjištění následujících informací:
8.3.1 Jaká je délka molekuly a jaký je procentuální podíl GC daného vektoru? Odpověď: 6430 bp a 36.33 %
8.3.2 Kolik je v sekvenci predikovaných ORF delších než 300 nukleotidů? Použijte standardní genetický kód a přidejte alternatívní start kodony. Odpověď: 6
8.3.3 Analyzujte sekvenci nejdelšího ORF (pomocí blastp) a vytvořte jeho anotaci v UGENE. Uložte jeho sekvenci ve formátu gb (spolu s přeloženou proteinovou sekvencí).
8.3.4 Kolik enzymů, rozpoznávajících alespoň 6 nukleotidů, štěpí molekulu právě jednou? Odpověď: 1098 v případě kruhové molekuly
8.3.5 Které enzymy je možné použit na vyštěpení nejdelšího ORF? Odpověď: např. StiSGI a AauI
8.4 Analýza terminátorů transkripce
Zjistěte přítomnost bakteriálních terminátorů transkripce v sekvenci S_vector.fasta. Využijte program UGENE, vyberte možnost Annotate plasmid, následně použijte webový nástroj Arnold.
8.4.1 Kolik terminátorů predikoval UGENE? Jaké jiné oblasti, podobné vektorovým sekvencím, predikoval? Odpověď: 0 terminátorů, jiné oblasti: pGEX primer, Amp promoter, Ery gene
8.4.2 Kolik terminátorů predikoval Arnold? Odpověď: 13
8.4.3 Kolik predikovaných terminátorů z Arnold-u může reálně soužit jako terminátory nalezených ORF (nenachází se např. ve středu ORF, ale při jeho konci, nachází se na kódujícím vlákně)? Anotujte tyto sekvence v UGENE. Odpověď: 3
8.4.4 Vložte do UGENE sekvenci s GenBank Accession number KR781468.1. Porovnejte anotovaný terminátor transkripce (označený “TT”) s vašimi predikovanými sekvencemi.
V případě potřeby použijte předpočítané výsledky:



MENDELOVO CENTRUM pro vzdělávání v biologii, biomedicíně a bioinformatice CZ.1.07/2.3.00/09.0186

Aktuální cvičení:


Další informace:
Cvičení
Nukl. kyseliny
Proteiny
Struktury
Nástroje
Ke stažení
Bioinformatika - proteiny
Bioinformatika - nukl. kyseliny
Bioinformatické databáze
Manipulace se sekvenčními daty
Párové sekvenční přiložení
Mnohonásobné sekvenční přiložení
Návrh primerů
Hledání a identifikace genů
Analýza proteinových sekvencí
NGS data a lokální anotace
Strukturní databáze
Předpověď struktury proteinů
GenBank
EMBL-Bank
DDBJ
dbEST
UniGene
UniProtKB
NRDB
PIR
PROSITE
Pfam
INTERPRO
PDB
MMDB
PDBsum
CATH
SCOP
BLAST
FASTA
LALIGN
ClustalW
T-Coffee
MUSCLE
PSIPRED
JPRED
PHD
PuTTY
WinSCP
SPdbV
PyMOL
RasMol
BioEdit
MEGA3
TreeView