4.1 Konstrukce mnohonásobného přiložení
Pomocí programu
ClustalΩ
vytvořte
mnohonásobné přiložení sekvencí cyklin-dependetních kináz (CDKs):
>CDK1
MEDYTKIEKIGEGTYGVVYKGRHKTTGQVVAMKKIRLESEEEGVPSTAIREISLLKE
LRHPNIVSLQDVLMQDSRLYLIFEFLSMDLKKYLDSIPPGQYMDSSLVKSYLYQILQ
GIVFCHSRRVLHRDLKPQNLLIDDKGTIKLADFGLARAFGIPIRVYTHEVVTLWYRS
PEVLLGSARYSTPVDIWSIGTIFAELATKKPLFHGDSEIDQLFRIFRALGTPNNEVW
PEVESLQDYKNTFPKWKPGSLASHVKNLDENGLDLLSKMLIYDPAKRISGKMALNHP
YFNDLDNQIKKM
>CDK2
MENFQKVEKIGEGTYGVVYKARNKLTGEVVALKKIRLDTETEGVPSTAIREISLLKE
LNHPNIVKLLDVIHTENKLYLVFEFLHQDLKKFMDASALTGIPLPLIKSYLFQLLQG
LAFCHSHRVLHRDLKPQNLLINTEGAIKLADFGLARAFGVPVRTYTHEVVTLWYRAP
EILLGCKYYSTAVDIWSLGCIFAEMVTRRALFPGDSEIDQLFRIFRTLGTPDEVVWP
GVTSMPDYKPSFPKWARQDFSKVVPPLDEDGRSLLSQMLHYDPNKRISAKAALAHPF
FQDVTKPVPHLRL
>CDK3
MDMFQKVEKIGEGTYGVVYKAKNRETGQLVALKKIRLDLEMEGVPSTAIREISLLKE
LKHPNIVRLLDVVHNERKLYLVFEFLSQDLKKYMDSTPGSELPLHLIKSYLFQLLQG
VSFCHSHRVIHRDLKPQNLLINELGAIKLADFGLARAFGVPLRTYTHEVVTLWYRAP
EILLGSKFYTTAVDIWSIGCIFAEMVTRKALFPGDSEIDQLFRIFRMLGTPSEDTWP
GVTQLPDYKGSFPKWTRKGLEEIVPNLEPEGRDLLMQLLQYDPSQRITAKTALAHPY
FSSPEPSPAARQYVLQRFRH
>CDK4
MATSRYEPVAEIGVGAYGTVYKARDPHSGHFVALKSVRVPNGGGGGGGLPISTVREV
ALLRRLEAFEHPNVVRLMDVCATSRTDREIKVTLVFEHVDQDLRTYLDKAPPPGLPA
ETIKDLMRQFLRGLDFLHANCIVHRDLKPENILVTSGGTVKLADFGLARIYSYQMAL
TPVVVTLWYRAPEVLLQSTYATPVDMWSVGCIFAEMFRRKPLFCGNSEADQLGKIFD
LIGLPPEDDWPRDVSLPRGAFPPRGPRPVQSVVPEMEESGAQLLLEMLTFNPHKRIS
AFRALQHSYLHKDEGNPE
>CDK5
MQKYEKLEKIGEGTYGTVFKAKNRETHEIVALKRVRLDDDDEGVPSSALREICLLKE
LKHKNIVRLHDVLHSDKKLTLVFEFCDQDLKNFDSCNGDLDPEIVKSFLFQLLKGLG
FCHSRNVLHRDLKPQNLLINRNGELKLADFGLARAFGIPVRCYSAEVVTLWYRPPDV
LFGAKLYSTSIDMWSAGCIFAELANAGRPLFPGNDVDDQLKRIFRLLGTPTEEQWPS
MTKLPDYKPYPMYPATTSLVNVVPKLNATGRDLLQNLLKCNPVQRISAEEALQHPYF
SDFCPP
>CDK6
MEKDGLCRADQQYECVAEIGEGAYGKVFKARDLKNGGRFVALKRVRVQTGEEGMPLS
TIREVAVLRHLETFEHPNVVRLFDVCTVSRTDRETKLTLVFEHVDQDLTTYLDKVPE
PGVPTETIKDMMFQLLRGLDFLHSHRVVHRDLKPQNILVTSSGQIKLADFGLARIYS
FQMALTSVVVTLWYRAPEVLLQSSYATPVDLWSVGCIFAEMFRRKPLFRGSSDVDQL
GKILDVIGLPGEEDWPRDVALPRQAFHSKSAQPIEKFVTDIDELGKDLLLKCLTFNP
AKRISAYSALSHPYFQDLERCKENLDSHLPPSQNTSELNTA
>CDK7
MALDVKSRAKRYEKLDFLGEGQFATVYKARDKNTNQIVAIKKIKLGHRSEAKDGINR
TALREIKLLQELSHPNIIGLLDAFGHKSNISLVFDFMETDLEVIIKDNSLVLTPSHI
KAYMLMTLQGLEYLHQHWILHRDLKPNNLLLDENGVLKLADFLAKSFGSPNRAYTHQ
VVTRWYRAPELLFGARMYGVGVDMWAVGCILAELLLRVPFLPGDSDLDQLTRIFETL
GTPTEEQWPDMCSLPDYVTFKSFPGIPLHHIFSAAGDDLLDLIQGLFLFNPCARITA
TQALKMKYFSNRPGPTPGCQLPRPNCPVETLKEQSNPALAIKRKRTEALEQGGLPKK
4.1.1 Které oblasti cyklin-dependentních kináz patří mezi nejvíce konzervované?
Odpověď:
HRDLKP, KLADFGLAR, VVTLWYR
4.1.2 Které oblasti cyklin-dependentních kináz patří mezi nejméně konzervované?
Odpověď:
např. oblasti obsahující inzerce/delece
4.2 Konstrukce mnohonásobného přiložení v programu BioEdit
Připravte mnohonásobné přiložení sekvencí cyklin-dependentních kináz z
úkolu 4.1
pomocí programu
ClustalW integrovaného v rámci sekvenčního editoru
BioEdit.
V případě potřeby použijte
stručný návod nebo
manuál BioEditu.
• zkopírujte všechny sekvence
• otevřete BioEdit
• zvolte File/New Alignment
• zvolte File/Import from Clipboard:
• přes menu Accessory Application spusťte program ClustalW Multiple alignment
4.2.1 Určete, které z následujících aminokyselin CDK1 jsou vysoce konzervované v rámci
analyzovaných cyklin-dependentních kináz: G21, D68, A250.
Odpověď:
G21: NE (G21 se sice nachází na evolučně konzervované pozici, sama však konzervovaná není); D68: ANO; A250 NE;
4.2.2 S ohledem na celkovou podobnost analyzovaných sekvencí určete, zda je segment odpovídající aminokyselinám K243-S248 sekvence CDK1 spíše více nebo méně konzervovaný.
Odpověď:
jedná se o oblast s relativně nižší evoluční konzervovaností
4.3 Konstrukce fylogenetického stromu
Pomocí programu
MUSCLE připravte přiložení
5 sekvencí halogenalkandehalogenáz. Mnohonásobné přiložení použijte pro konstrukci fylogenetického stromu
metodou
neighbor-joining za pomocí programu
Simple
Phylogeny.
Fylogenetický strom uložte ve formátu
newick (odkaz "View Phylogenetic Tree File") a prostudujte v programu
Interactive Tree of Life,
MEGA nebo
TreeView.
Strom zakořeňte na větvi spojující DhlA se zbytkem proteinů (v Interactive Tree of Life lze kliknutím na větev levým tlačítkem a zvolením Tree structure -> Reroot the tree here).
>LinB
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA
>DhaA
MSEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHVAP
SHRCIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFH
WAKRNPERVKGIACMEFIRPIPTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEG
ALPKCVVRPLTEVEMDHYREPFLKPVDREPLWRFPNELPIAGEPANIVALVEAYMNW
LHQSPVPKLLFWGTPGVLIPPAEAARLAESLPNCKTVDIGPGLHYLQEDNPDLIGSE
IARWLPAL
>DhaAf
MSEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHVAP
SHRCIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFH
WAKRNPERVKGIACMEFIRPIPTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEG
ALPKFVVRPLTEVEMDHYREPFLKPVDREPLWRFPNELPIAGEPANIVALVEAYMNW
LHQSPVPKLLFWGTPGVLISPAEAARLAESLPNCKTVDIGPGLHFLQEDNPDLIGSE
IARWLPALIVGKSIEFDGGWAT
>DhlA
MINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRAHYLDEGNSDAEDVFLCLHGEP
TWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFHRNFLLALIERLD
LRNITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPAFSAFVTQPADG
FTAWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAAPFPDTSYQAGVRKFPKMVAQ
RDQACIDISTEAISFWQNDWNGQTFMAIGMKDKLLGPDVMYPMKALINGCPEPLEIA
DAGHFVQEFGEQVAREALKHFAETE
>DmsA
MPGSEPYGRLQYREINGKRMAYIDEARGDAIVFQHGNPSSSYLWRNVLPHTEGLGRL
VACDLIGMGASDKLDGSGPDSYHYHENRDYLFALWDALDLGDRVTLVLHDWGGALGF
DWANRHRDRVAGIVHMETVSVPMEWDDFPDEVAQMFRGLRSPQGEEMVLENNAFIEG
VLPSIVMRTLSEEEMIHYRRPFLNAGEDRRPTLSWPRDVPLAGEPAEVVAVIEDFGE
WLATSDIPKLFIRADPGVIQGKQRILDIVRSWPNQTEITVPGTHFLQEDSAD
Za předpokladu, že se kořen fylogenetického stromu nachází na větvi spojující DhlA se zbytkem proteinů:
4.3.1 Které dva proteiny jsou sekvenčně nejvíce příbuzné?
Odpověď:
DhaA a DhaAf
4.3.2 Který protein je bližší příbuzný proteinu LinB: DhaA nebo DhlA?
Odpověď:
DhaA
4.3.3 Který protein je bližší příbuzný proteinu DhaA: LinB nebo DmsA?
Odpověď:
evolučně oba, sekvenčně LinB
4.4 Vyhledávání pomocí nástroje PSI-BLAST
Pomocí nástroje
PSI-BLAST prohledejte
databázi
nr (non-redundant protein sequences) a nalezněte potenciální
příbuzné proteinu
pilO. V rámci nastavení parametrů algoritmu
navyšte maximální počet cílových sekvencí ("Max target sequences") na
5000,
nastavte hodnotu parametrů
Expect threshold na
1e-15 a
PSI-BLAST threshold na
1e-20.
>pilO
MRIWLAWERMGRASRTILLLLISILLLSPVVYCGVSKNWHDQQRILQLVVLSGSSLLLL
FSSRLSFARRMVQVTLLVILGLGSVSAFLSANPSWAFKEWSVFAGLMLFSFNISASPEW
VRRIALWGVVVLGGFFCYQFLLSYLAAFVSGLRELNPRVLLSGFSNVRTMGQFQAMLLP
LMAALGLYLRETGRFRLSWLVMLLLAIQWCISFALAGRGLWLGFAVAHLALCWIGPVGR
RFLIVQLSAAFVGLALYFLLMVALPTWLGIDMTLMSGMRSGLSLRDVLWRDAWGMFVAH
PLLGVGPMHFSAVPNSVGAHPHQMLLQWFAEWGGAAGLLVVGLMTLGLLRGARYLREQG
DPMDAGLWLALVSVLVLAQVDGVFVMPFTQTVLALLVGIAMARWSKPVVPSPAQRWLCR
GLAVVVIVVLGRVLLLEVPGLTAAEERYLEIHGGGEAPRFWIQGWIPM
4.4.1 Kolik záznamů s E-hodnotou lepší než specifikovaný PSI-BLAST threshold (< 1e-20)
bylo nalezno při první iteraci (běhu) programu?
Odpověď:
1998
[14-10-2024]
4.4.2 Kolik záznamů s E-hodnotou lepší než specifikovaný Expect threshold (< 1e-15) bylo
nalezno při první iteraci programu?
Odpověď:
1830
[14-10-2024]
4.4.3 Kolik nových (žluté zvýraznění) záznamů s E-hodnotou lepší než specifikovaný PSI-BLAST threshold (< 1e-20)
bylo nalezeno při druhé iteraci programu?
Odpověď:
??? (limited resources)
[14-10-2024]