Cvičení 8 - bioinformatika

NGS data a lokální anotace dat

8.1 Výstupní data ze sekvenátoru
Podívejte se na příkladový .fastq soubor ze sekvenátoru Illumina illumina.fastq a sekvenátoru Oxford Nanopore minion.fastq.

8.1.1 Kolik řádků odpovídá jednomu čtení (read)? Odpověď: Čtyři
8.1.2 Kterým znakem začíná záznam jednoho čtení? Odpověď: @
8.1.3 Na kterém řádku je samotná sekvence? Odpověď: Na druhém
8.1.4 Který řádek udává kvalitu jednotlivých bází? Odpověď: Čtvrtý
8.1.5 Kolik readů obsahuje soubor illumina.fastq a minion.fastq? Odpověď: 3 a 1

8.2 Analýza dat na Galaxy serveru
Nahrajte data Good_illumina_2000, Bad_2000_illumina a IonTorrent_2000 na Galaxy server.

Ověřte kvalitu sekvenování dat Good_illumina_2000 a Bad_2000_illumina pomocí programu FastQC.

8.2.1 Dostala se průměrná hodnota kvality readů v případě Good_illumina_2000 pod hodnotu 28? Odpověď: Ne
8.2.2 Čím jsou “znečištěné” ready Bad_2000_illumina? Odpověď: Sekvencemi adaptérů z Nextera_transposase_sequence.

Použite program SPAdes pro analýzu složení dat IonTorrent_2000.

8.2.3 Kolik kontigů složil assembler při nastavení: only assembly NO, careful NO, K-mers 21,33,55, IonTorrent YES? Odpověď: 2
8.2.4 Jaké accession number má při prohledaní Nucleotide collection nr/nt nukleotidovým blastem nejbližší hit pro sekvenci NODE_1? Odpověď: NC_048192
8.2.5 Jaké je přibližné pokrytí složeného genomu (NODE_1)? Pokrytí vypočítejte jako: (průměrná délka readu × počet readů) / délka kontigu. Odpověď: Přibližně 16

8.3 Anotace neznámé sekvence v programu UGENE
Spusťte program UGENE a nahrajte do něj sekvenci Stafylokokového shuttle vektoru S_vector.fasta. Využite možnosti UGENEu pro zjištění následujících informací:

8.3.1 Jaká je délka molekuly a jaký je procentuální podíl GC daného vektoru? Odpověď: 6430 bp a 36.33 %
8.3.2 Kolik je v sekvenci predikovaných ORF delších než 300 nukleotidů? Použijte standardní genetický kód a přidejte alternatívní start kodony. Odpověď: 6
8.3.3 Analyzujte sekvenci nejdelšího ORF (pomocí blastp) a vytvořte jeho anotaci v UGENE. Uložte jeho sekvenci ve formátu gb (spolu s přeloženou proteinovou sekvencí).
8.3.4 Kolik enzymů, rozpoznávajících alespoň 6 nukleotidů, štěpí molekulu právě jednou? Odpověď: 1098 v případě kruhové molekuly
8.3.5 Které enzymy je možné použit na vyštěpení nejdelšího ORF? Odpověď: např. StiSGI a AauI

8.4 Analýza terminátorů transkripce
Zjistěte přítomnost bakteriálních terminátorů transkripce v sekvenci S_vector.fasta. Využijte program UGENE, vyberte možnost Annotate plasmid, následně použijte webový nástroj Arnold.

8.4.1 Kolik terminátorů predikoval UGENE? Jaké jiné oblasti, podobné vektorovým sekvencím, predikoval? Odpověď: 0 terminátorů, jiné oblasti: pGEX primer, Amp promoter, Ery gene
8.4.2 Kolik terminátorů predikoval Arnold? Odpověď: 13
8.4.3 Kolik predikovaných terminátorů z Arnold-u může reálně soužit jako terminátory nalezených ORF (nenachází se např. ve středu ORF, ale při jeho konci, nachází se na kódujícím vlákně)? Anotujte tyto sekvence v UGENE. Odpověď: 3
8.4.4 Vložte do UGENE sekvenci s GenBank Accession number KR781468.1. Porovnejte anotovaný terminátor transkripce (označený “TT”) s vašimi predikovanými sekvencemi.

V případě potřeby použijte předpočítané výsledky:

Good_illumina_2000_fastqc
Bad_2000_illumina_fastqc
IonTorrent_2000_fastqc

MinIon_4000_fastqc (pouze pro ukázku)

Spades_contigs_OUT.fasta

MENDELOVO CENTRUM pro vzdělávání v biologii, biomedicíně a bioinformatice CZ.1.07/2.3.00/09.0186

Aktuální cvičení:

• Sequin
• UGENE
• Galaxy
• Arnold

Další informace:

• Sequin Quick Guide
• GenBank
• EMBL-Bank
• DDBJ
• Bioinf. Links
• Dbs. Collection

Cvičení

Nukl. kyseliny

Proteiny

Struktury

Nástroje

Ke stažení

Bioinformatika - proteiny
Bioinformatika - nukl. kyseliny

Bioinformatické databáze
Manipulace se sekvenčními daty
Párové sekvenční přiložení
Mnohonásobné sekvenční přiložení
Návrh primerů
Hledání a identifikace genů
Analýza proteinových sekvencí
NGS data a lokální anotace
Strukturní databáze
Předpověď struktury proteinů

GenBank
EMBL-Bank
DDBJ
dbEST
UniGene

UniProtKB
NRDB
PIR
PROSITE
Pfam
INTERPRO

PDB
MMDB
PDBsum
CATH
SCOP

BLAST
FASTA
LALIGN
ClustalW
T-Coffee
MUSCLE
PSIPRED
JPRED
PHD

PuTTY
WinSCP
SPdbV
PyMOL
RasMol
BioEdit
MEGA3
TreeView