Cvičení 6 - bioinformatika

Hledání a identifikace genů

6.1 Identifikace otevřeného čtecího rámce
Prostřednictvím nástroje ORF Finder vyhledejte nejdelší otevřený čtecí rámec (ORF) na bakteriální sekvenci ze souboru: bacteriophage_3A.txt Protein kódovaný daným ORF porovnejte prostřednictvím blastp s proteiny dostupnými v databázi nr.

6.1.1 Uveďte nejdelší ORF. Odpověď: ORF -2 1874 .. 3457, 527 aa.
6.1.2 Je sekvence genu odpovídající nejdelšímu ORF kompletní? Posuďte na základě analýzy blastp a SmartBLAST a výsledky porovnejte. Odpověď: Ve srovnání s geny v databázi je gen odpovídající nejdelšímu ORF předčasně ukončený terminačním kodonem.

6.2 Identifikace genů pro tRNA
Prostřednictvím nástroje tRNAscan-SE search server vyhledejte v následující sekvenci geny pro tRNA.

>S.aureus_genome partial
GATGAAGATGGACATCATATTAGAGAAGTTGGTCGTGAATACGGTACAACAACAGGA
CGTCCACGTCGTGTAGGTTGGTTTGACTCAGTTGTATTACGTCACTCTCGTCGTGTA
AGTGGTATTACAGATTTATCTATTAACTCAATCGATGTTTTAACAGGCCTAGACACA
GTGAAAATCTGTACAGCTTATGAATTAGACGGTAAAGAAATTACTGAGTACCCAGCA
AACTTAGATCAATTAAAACGTTGTAAACCAATCTTTGAAGAGTTACCAGGTTGGACA
GAAGACGTAACAAGTGTGCGTACTTTAGAAGAATTACCTGAAAATGCACGTAAATAT
TTAGAGCGTATTTCAGAATTATGTAATGTACAAATTTCTATCTTCTCAGTTGGTCCA
GATAGAGAACAAACAAACCTATTAAAAGAATTGTGGTAGAACTTTATATAAGTCATA
CGCAATGATTATAAATACATGAGCCTTCTATCTTTATTGGTAGGAGGCTTTTGCTTT
GTTTGCTTCTGTATCGATTCGATTATTTAGATAAAAATTACTAACGTAAAGGTGATA
TTTGCTAGTCATAATTTAAAAGATTAGATGATATTTAACAAAATTAAGAAGAAATAC
TTGAATTTAATAAGTCTGATGTCGAAAATAGCTATTAAAATAGAGTAGACGTAAGTG
TAAATGAAAGTACCTAAAATAGAAAAATTTCAAAAATAGCGTAATTATTATAATAAA
TAGACTGCCAATAAAATGCAATTTTTCACTTATAACATTCTTCAAAAAATAATAGCA
AAATTATGTAAAAAATATCTTGTCATGGCAAGATTGGCTGTGCTATAATCTATCTTG
TGCTTAAGAACGGCTCCTTGGTCAAGCGGTTAAGACACCGCCCTTTCACGGCGGTAA
CACGGGTTCGAGTCCCGTAGGAGTCACCATTTTTTAGGTCTCGTAGTGTAGCGGTTA
ACACGCCTGCCTGTCACGCAGGAGATCGCGGGTTCGATTCCCGTCGAGACCGTACAA
ATGCCTATCCAAGAGGATAGGCATTTTTTTGCGTTTAATATTATATTAATAAAAGAT
ATATGGACGAATGATAATCATATTGATTTATCTGTTCGTCCATTTTCTTTATAATGT
ATGAACCTCAAGTAACTTAGTGGTTGGATATGAAAGATAAACGTAGACAATAAAATC
TTTATTAGACGTACAAACATATGCTACTGTCAACATATTTCTTCGTTGTGATATGCC
ACCAATCCTCCATAACATCAATTGTTAAAGTAACGAATAACGAATAATGATATTTAT
TTTCT

6.2.1 Uveďte pozici, velikost genu a typ antikodonu neseného danou tRNA Odpověď: 867..941 tRNA-Glu; 949..1021 tRNA-Asp

6.3 Identifikace strukturních genů pomocí aplikace GeneMark
V části bakteriální sekvence Staphylococcus aureus ze souboru staphylococcus_aureus.txt proveďte prostřednictvím aplikace GeneMark vyhledání strukturních genů. Použijte jak model Genemark.hmm využívající skryté Markovovy modely s předpočítanými parametry dostupnými pro modelové genomy, tak heuristický model Genemark.
Výsledky zaznamenejte do tabulky, která bude obsahovat: označení nalezeného genu (např. ORF1, ORF2, ....), lokalizaci genu (pozice levého a pravého konce na zadané sekvenci), délku genu, délku aminokyselinové sekvence a vlastní proteinovou sekvenci.
Proteiny kódované těmito geny klasifikujte prostřednictvím integrované databáze InterProScan nebo CDD. Tuto informaci zaznamenejte do tabulky.

6.3.1 Jak se liší výsledky dvou použitých modelů GenMark? Odpověď: Odlišně jsou identifikovány iniciační kodony ORF2, ORF6 a ORF7 na pozitivním řetězci a ORF5 na negativním řetězci
6.3.2 Vyplňte následující tabulku: ukol_63.xls Částečná odpověď: ukol_63_reseni.xls

6.4 Představení nástroje pro anotaci bakteriálních genomů RAST (Rapid Annotation Using Subsystem Technology)
RAST je plně automatizovaný nástroj pro anotaci kompletních nebo téměř kompletních bakteriálních a archeálních genomů. Prostudujte výukové video v angličtině, které máte k dispozici ve studijních materiálech a přihlaste se (přístupové heslo bude v instruktážním videu) na server RAST. V aplikaci si prohlédněte anotovaný genom druhu Masilia sp. CCM 8692.

6.4.1 Prostudujte původní instruktážní video
6.4.2 Který algoritmus byl zvolen pro anotaci tohoto genomu? Odpověď: RASTtk
6.4.3 Zjistěte obsah GC, velikost genomu, počet kódovaných sekvencí a počet RNA molekul v genomu. Odpověď: GC 63,8%; 7,6 MBp; 6982 CDS; 104 RNA
6.4.4 Stáhněte "Spreadsheet" genomu Massilia sp. a pomocí textového vyhledávače najděte fágovou integrázu, zjistěte pozici v genomu, vykopírujte odpovídající sekvenci a pomocí nástroje BLAST identifikujte záznam s největší podobností na úrovni aminokyselinové sekvence, jako identifikátor použijte: Massilia (taxid:149698). Odpověď: NODE_11_length_191842_cov_6.055530_12898_13740 (contig 11, pozice 12898-13740); Tyrosine-type recombinase/integrase [Massilia rubra]; Sequence ID: WP_167226524.1
6.4.5 Identifikujte nejdelší contig genomu Masilia sp., v kontigu identifikujte CDS asociované s bakteriální chemotaxí a napište, kolik záznamů bylo nalezeno. Odpověď: NODE_1 (581 973 bp), 11 záznamů

6.5 Přiřazení sekvence ke genomu jiného organizmu
Prostřednictvím nástroje gVISTA přiřaďte lidskou sekvenci s přístupovým kódem NM_003990 k myšímu genomu (sestavení 2006). Výsledky prozkoumejte v prohlížeči VISTA-Point.
Poznámka: Pro zobrazení výsledků ve Vista Browser 2.0 je třeba Java runtime.

6.5.1 Ke které oblasti myšího genomu (ke kterému chromozómu a pozici) se sekvence přiřadí? Odpověď: Výsledky
6.5.2 Charakterizujte, kolik exonů homologická sekvence obsahuje a ve které časti genu se nacházejí podobnosti. Odpověď: Podobnost je v 6 exonech z celkových 11, které gen obsahuje; 3 exony jsou lokalizované poblíž 5´-konce a další 3 poblíž 3´-konce genu
6.5.3 Vyskytují se v sekvenci konzervativní nekódující oblasti? Pokud ano uveďte jaké. Odpověď: Podobnost je také v regulačních oblastech na obou koncích genu, 5´-UTR a 3´-UTR