6.1 Identifikace otevřeného čtecího rámce
Prostřednictvím nástroje
ORF Finder vyhledejte
nejdelší otevřený čtecí rámec (ORF)
na bakteriální sekvenci ze souboru:
bacteriophage_3A.txt
Protein kódovaný daným ORF porovnejte prostřednictvím
blastp s proteiny dostupnými v databázi
nr.
6.1.1 Uveďte nejdelší ORF.
Odpověď:
ORF -2 1874 .. 3457, 527 aa.
6.1.2 Je sekvence genu odpovídající nejdelšímu ORF kompletní? Posuďte na základě analýzy blastp a SmartBLAST a výsledky porovnejte.
Odpověď:
Ve srovnání s geny v databázi je gen odpovídající nejdelšímu ORF předčasně ukončený terminačním kodonem.
6.2 Identifikace genů pro tRNA
Prostřednictvím nástroje
tRNAscan-SE search server
vyhledejte v následující sekvenci
geny pro tRNA.
>S.aureus_genome partial
GATGAAGATGGACATCATATTAGAGAAGTTGGTCGTGAATACGGTACAACAACAGGA
CGTCCACGTCGTGTAGGTTGGTTTGACTCAGTTGTATTACGTCACTCTCGTCGTGTA
AGTGGTATTACAGATTTATCTATTAACTCAATCGATGTTTTAACAGGCCTAGACACA
GTGAAAATCTGTACAGCTTATGAATTAGACGGTAAAGAAATTACTGAGTACCCAGCA
AACTTAGATCAATTAAAACGTTGTAAACCAATCTTTGAAGAGTTACCAGGTTGGACA
GAAGACGTAACAAGTGTGCGTACTTTAGAAGAATTACCTGAAAATGCACGTAAATAT
TTAGAGCGTATTTCAGAATTATGTAATGTACAAATTTCTATCTTCTCAGTTGGTCCA
GATAGAGAACAAACAAACCTATTAAAAGAATTGTGGTAGAACTTTATATAAGTCATA
CGCAATGATTATAAATACATGAGCCTTCTATCTTTATTGGTAGGAGGCTTTTGCTTT
GTTTGCTTCTGTATCGATTCGATTATTTAGATAAAAATTACTAACGTAAAGGTGATA
TTTGCTAGTCATAATTTAAAAGATTAGATGATATTTAACAAAATTAAGAAGAAATAC
TTGAATTTAATAAGTCTGATGTCGAAAATAGCTATTAAAATAGAGTAGACGTAAGTG
TAAATGAAAGTACCTAAAATAGAAAAATTTCAAAAATAGCGTAATTATTATAATAAA
TAGACTGCCAATAAAATGCAATTTTTCACTTATAACATTCTTCAAAAAATAATAGCA
AAATTATGTAAAAAATATCTTGTCATGGCAAGATTGGCTGTGCTATAATCTATCTTG
TGCTTAAGAACGGCTCCTTGGTCAAGCGGTTAAGACACCGCCCTTTCACGGCGGTAA
CACGGGTTCGAGTCCCGTAGGAGTCACCATTTTTTAGGTCTCGTAGTGTAGCGGTTA
ACACGCCTGCCTGTCACGCAGGAGATCGCGGGTTCGATTCCCGTCGAGACCGTACAA
ATGCCTATCCAAGAGGATAGGCATTTTTTTGCGTTTAATATTATATTAATAAAAGAT
ATATGGACGAATGATAATCATATTGATTTATCTGTTCGTCCATTTTCTTTATAATGT
ATGAACCTCAAGTAACTTAGTGGTTGGATATGAAAGATAAACGTAGACAATAAAATC
TTTATTAGACGTACAAACATATGCTACTGTCAACATATTTCTTCGTTGTGATATGCC
ACCAATCCTCCATAACATCAATTGTTAAAGTAACGAATAACGAATAATGATATTTAT
TTTCT
6.2.1 Uveďte pozici, velikost genu a typ antikodonu neseného danou tRNA
Odpověď:
867..941 tRNA-Glu; 949..1021 tRNA-Asp
6.3 Identifikace strukturních genů pomocí aplikace GeneMark
V části bakteriální sekvence
Staphylococcus aureus
ze souboru
staphylococcus_aureus.txt
proveďte prostřednictvím aplikace
GeneMark vyhledání
strukturních genů.
Použijte jak
model Genemark.hmm využívající skryté Markovovy modely s předpočítanými parametry dostupnými pro modelové genomy, tak heuristický
model Genemark.
Výsledky zaznamenejte do tabulky,
která bude obsahovat: označení nalezeného genu (např. ORF1, ORF2, ....), lokalizaci genu (pozice levého a pravého konce na zadané sekvenci), délku genu, délku aminokyselinové sekvence a vlastní proteinovou sekvenci.
Proteiny kódované těmito geny
klasifikujte prostřednictvím integrované databáze
InterProScan nebo
CDD. Tuto informaci zaznamenejte do tabulky.
6.3.1 Jak se liší výsledky dvou použitých modelů GenMark?
Odpověď:
Odlišně jsou identifikovány iniciační kodony ORF2, ORF6 a ORF7 na pozitivním řetězci a ORF5 na negativním řetězci
6.3.2 Vyplňte následující tabulku:
ukol_63.xls
Částečná odpověď:
ukol_63_reseni.xls
6.4 Představení nástroje pro anotaci bakteriálních genomů RAST (Rapid Annotation Using Subsystem Technology)
RAST je plně automatizovaný nástroj pro anotaci kompletních nebo téměř kompletních bakteriálních a archeálních genomů.
Prostudujte výukové video v angličtině, které máte k dispozici ve studijních materiálech a přihlaste se (přístupové heslo bude v instruktážním videu)
na server
RAST. V aplikaci si prohlédněte anotovaný genom druhu
Masilia sp. CCM 8692.
6.4.1 Prostudujte původní instruktážní video
6.4.2 Který algoritmus byl zvolen pro anotaci tohoto genomu?
Odpověď:
RASTtk
6.4.3 Zjistěte obsah GC, velikost genomu, počet kódovaných sekvencí a počet RNA molekul v genomu.
Odpověď:
GC 63,8%; 7,6 MBp; 6982 CDS; 104 RNA
6.4.4 Stáhněte "Spreadsheet" genomu Massilia sp. a pomocí textového vyhledávače najděte fágovou integrázu, zjistěte pozici v genomu, vykopírujte odpovídající sekvenci a pomocí nástroje BLAST identifikujte záznam s největší podobností na úrovni aminokyselinové sekvence, jako identifikátor použijte: Massilia (taxid:149698).
Odpověď:
NODE_11_length_191842_cov_6.055530_12898_13740 (contig 11, pozice 12898-13740); Tyrosine-type recombinase/integrase [Massilia rubra]; Sequence ID: WP_167226524.1
6.4.5 Identifikujte nejdelší contig genomu Masilia sp., v kontigu identifikujte CDS asociované s bakteriální chemotaxí a napište, kolik záznamů bylo nalezeno.
Odpověď:
NODE_1 (581 973 bp), 11 záznamů
6.5 Přiřazení sekvence ke genomu jiného organizmu
Prostřednictvím nástroje
gVISTA přiřaďte
lidskou sekvenci
s přístupovým kódem
NM_003990 k myšímu genomu (sestavení 2006).
Výsledky prozkoumejte v prohlížeči VISTA-Point.
Poznámka: Pro zobrazení výsledků ve Vista Browser 2.0 je třeba Java runtime.
6.5.1 Ke které oblasti myšího genomu (ke kterému chromozómu a pozici) se sekvence přiřadí?
Odpověď:
Výsledky
6.5.2 Charakterizujte, kolik exonů homologická sekvence obsahuje a ve které časti genu se nacházejí podobnosti.
Odpověď:
Podobnost je v 6 exonech z celkových 11, které gen obsahuje; 3 exony jsou lokalizované poblíž 5´-konce a další 3 poblíž 3´-konce genu
6.5.3 Vyskytují se v sekvenci konzervativní nekódující oblasti? Pokud ano uveďte jaké.
Odpověď:
Podobnost je také v regulačních oblastech na obou koncích genu, 5´-UTR a 3´-UTR