Mnohonásobné sekvenční přiložení

4.1 Konstrukce mnohonásobného přiložení
Pomocí programu ClustalΩ vytvořte mnohonásobné přiložení sekvencí cyklin-dependetních kináz (CDKs):

>CDK1
MEDYTKIEKIGEGTYGVVYKGRHKTTGQVVAMKKIRLESEEEGVPSTAIREISLLKE
LRHPNIVSLQDVLMQDSRLYLIFEFLSMDLKKYLDSIPPGQYMDSSLVKSYLYQILQ
GIVFCHSRRVLHRDLKPQNLLIDDKGTIKLADFGLARAFGIPIRVYTHEVVTLWYRS
PEVLLGSARYSTPVDIWSIGTIFAELATKKPLFHGDSEIDQLFRIFRALGTPNNEVW
PEVESLQDYKNTFPKWKPGSLASHVKNLDENGLDLLSKMLIYDPAKRISGKMALNHP
YFNDLDNQIKKM

>CDK2
MENFQKVEKIGEGTYGVVYKARNKLTGEVVALKKIRLDTETEGVPSTAIREISLLKE
LNHPNIVKLLDVIHTENKLYLVFEFLHQDLKKFMDASALTGIPLPLIKSYLFQLLQG
LAFCHSHRVLHRDLKPQNLLINTEGAIKLADFGLARAFGVPVRTYTHEVVTLWYRAP
EILLGCKYYSTAVDIWSLGCIFAEMVTRRALFPGDSEIDQLFRIFRTLGTPDEVVWP
GVTSMPDYKPSFPKWARQDFSKVVPPLDEDGRSLLSQMLHYDPNKRISAKAALAHPF
FQDVTKPVPHLRL

>CDK3
MDMFQKVEKIGEGTYGVVYKAKNRETGQLVALKKIRLDLEMEGVPSTAIREISLLKE
LKHPNIVRLLDVVHNERKLYLVFEFLSQDLKKYMDSTPGSELPLHLIKSYLFQLLQG
VSFCHSHRVIHRDLKPQNLLINELGAIKLADFGLARAFGVPLRTYTHEVVTLWYRAP
EILLGSKFYTTAVDIWSIGCIFAEMVTRKALFPGDSEIDQLFRIFRMLGTPSEDTWP
GVTQLPDYKGSFPKWTRKGLEEIVPNLEPEGRDLLMQLLQYDPSQRITAKTALAHPY
FSSPEPSPAARQYVLQRFRH

>CDK4
MATSRYEPVAEIGVGAYGTVYKARDPHSGHFVALKSVRVPNGGGGGGGLPISTVREV
ALLRRLEAFEHPNVVRLMDVCATSRTDREIKVTLVFEHVDQDLRTYLDKAPPPGLPA
ETIKDLMRQFLRGLDFLHANCIVHRDLKPENILVTSGGTVKLADFGLARIYSYQMAL
TPVVVTLWYRAPEVLLQSTYATPVDMWSVGCIFAEMFRRKPLFCGNSEADQLGKIFD
LIGLPPEDDWPRDVSLPRGAFPPRGPRPVQSVVPEMEESGAQLLLEMLTFNPHKRIS
AFRALQHSYLHKDEGNPE

>CDK5
MQKYEKLEKIGEGTYGTVFKAKNRETHEIVALKRVRLDDDDEGVPSSALREICLLKE
LKHKNIVRLHDVLHSDKKLTLVFEFCDQDLKNFDSCNGDLDPEIVKSFLFQLLKGLG
FCHSRNVLHRDLKPQNLLINRNGELKLADFGLARAFGIPVRCYSAEVVTLWYRPPDV
LFGAKLYSTSIDMWSAGCIFAELANAGRPLFPGNDVDDQLKRIFRLLGTPTEEQWPS
MTKLPDYKPYPMYPATTSLVNVVPKLNATGRDLLQNLLKCNPVQRISAEEALQHPYF
SDFCPP

>CDK6
MEKDGLCRADQQYECVAEIGEGAYGKVFKARDLKNGGRFVALKRVRVQTGEEGMPLS
TIREVAVLRHLETFEHPNVVRLFDVCTVSRTDRETKLTLVFEHVDQDLTTYLDKVPE
PGVPTETIKDMMFQLLRGLDFLHSHRVVHRDLKPQNILVTSSGQIKLADFGLARIYS
FQMALTSVVVTLWYRAPEVLLQSSYATPVDLWSVGCIFAEMFRRKPLFRGSSDVDQL
GKILDVIGLPGEEDWPRDVALPRQAFHSKSAQPIEKFVTDIDELGKDLLLKCLTFNP
AKRISAYSALSHPYFQDLERCKENLDSHLPPSQNTSELNTA

>CDK7
MALDVKSRAKRYEKLDFLGEGQFATVYKARDKNTNQIVAIKKIKLGHRSEAKDGINR
TALREIKLLQELSHPNIIGLLDAFGHKSNISLVFDFMETDLEVIIKDNSLVLTPSHI
KAYMLMTLQGLEYLHQHWILHRDLKPNNLLLDENGVLKLADFLAKSFGSPNRAYTHQ
VVTRWYRAPELLFGARMYGVGVDMWAVGCILAELLLRVPFLPGDSDLDQLTRIFETL
GTPTEEQWPDMCSLPDYVTFKSFPGIPLHHIFSAAGDDLLDLIQGLFLFNPCARITA
TQALKMKYFSNRPGPTPGCQLPRPNCPVETLKEQSNPALAIKRKRTEALEQGGLPKK


4.1.1 Které oblasti cyklin-dependentních kináz patří mezi nejvíce konzervované? Odpověď: HRDLKP, KLADFGLAR, VVTLWYR
4.1.2 Které oblasti cyklin-dependentních kináz patří mezi nejméně konzervované? Odpověď: např. oblasti obsahující inzerce/delece
4.2 Konstrukce mnohonásobného přiložení v programu BioEdit
Připravte mnohonásobné přiložení sekvencí cyklin-dependentních kináz z úkolu 4.1 pomocí programu ClustalW integrovaného v rámci sekvenčního editoru BioEdit.
V případě potřeby použijte stručný návod nebo manuál BioEditu.

• zkopírujte všechny sekvence
• otevřete BioEdit
• zvolte File/New Alignment
• zvolte File/Import from Clipboard:
• přes menu Accessory Application spusťte program ClustalW Multiple alignment
4.2.1 Určete, které z následujících aminokyselin CDK1 jsou vysoce konzervované v rámci analyzovaných cyklin-dependentních kináz: G21, D68, A250. Odpověď: G21: NE (G21 se sice nachází na evolučně konzervované pozici, sama však konzervovaná není); D68: ANO; A250 NE;
4.2.2 S ohledem na celkovou podobnost analyzovaných sekvencí určete, zda je segment odpovídající aminokyselinám K243-S248 sekvence CDK1 spíše více nebo méně konzervovaný. Odpověď: jedná se o oblast s relativně nižší evoluční konzervovaností
4.3 Konstrukce fylogenetického stromu
Pomocí programu MUSCLE připravte přiložení 5 sekvencí halogenalkandehalogenáz. Mnohonásobné přiložení použijte pro konstrukci fylogenetického stromu metodou neighbor-joining za pomocí programu Simple Phylogeny.
Fylogenetický strom uložte ve formátu newick (odkaz "View Phylogenetic Tree File") a prostudujte v programu Interactive Tree of Life, MEGA nebo TreeView.
Strom zakořeňte na větvi spojující DhlA se zbytkem proteinů (v Interactive Tree of Life lze kliknutím na větev levým tlačítkem a zvolením Tree structure -> Reroot the tree here).

>LinB
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA

>DhaA
MSEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHVAP
SHRCIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFH
WAKRNPERVKGIACMEFIRPIPTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEG
ALPKCVVRPLTEVEMDHYREPFLKPVDREPLWRFPNELPIAGEPANIVALVEAYMNW
LHQSPVPKLLFWGTPGVLIPPAEAARLAESLPNCKTVDIGPGLHYLQEDNPDLIGSE
IARWLPAL

>DhaAf
MSEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHVAP
SHRCIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFH
WAKRNPERVKGIACMEFIRPIPTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEG
ALPKFVVRPLTEVEMDHYREPFLKPVDREPLWRFPNELPIAGEPANIVALVEAYMNW
LHQSPVPKLLFWGTPGVLISPAEAARLAESLPNCKTVDIGPGLHFLQEDNPDLIGSE
IARWLPALIVGKSIEFDGGWAT

>DhlA
MINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRAHYLDEGNSDAEDVFLCLHGEP
TWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFHRNFLLALIERLD
LRNITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPAFSAFVTQPADG
FTAWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAAPFPDTSYQAGVRKFPKMVAQ
RDQACIDISTEAISFWQNDWNGQTFMAIGMKDKLLGPDVMYPMKALINGCPEPLEIA
DAGHFVQEFGEQVAREALKHFAETE

>DmsA
MPGSEPYGRLQYREINGKRMAYIDEARGDAIVFQHGNPSSSYLWRNVLPHTEGLGRL
VACDLIGMGASDKLDGSGPDSYHYHENRDYLFALWDALDLGDRVTLVLHDWGGALGF
DWANRHRDRVAGIVHMETVSVPMEWDDFPDEVAQMFRGLRSPQGEEMVLENNAFIEG
VLPSIVMRTLSEEEMIHYRRPFLNAGEDRRPTLSWPRDVPLAGEPAEVVAVIEDFGE
WLATSDIPKLFIRADPGVIQGKQRILDIVRSWPNQTEITVPGTHFLQEDSAD


Za předpokladu, že se kořen fylogenetického stromu nachází na větvi spojující DhlA se zbytkem proteinů:
4.3.1 Které dva proteiny jsou sekvenčně nejvíce příbuzné? Odpověď: DhaA a DhaAf
4.3.2 Který protein je bližší příbuzný proteinu LinB: DhaA nebo DhlA? Odpověď: DhaA
4.3.3 Který protein je bližší příbuzný proteinu DhaA: LinB nebo DmsA? Odpověď: evolučně oba, sekvenčně LinB
4.4 Vyhledávání pomocí nástroje PSI-BLAST
Pomocí nástroje PSI-BLAST prohledejte databázi nr (non-redundant protein sequences) a nalezněte potenciální příbuzné proteinu pilO. V rámci nastavení parametrů algoritmu navyšte maximální počet cílových sekvencí ("Max target sequences") na 5000, nastavte hodnotu parametrů Expect threshold na 1e-15 a PSI-BLAST threshold na 1e-20.

>pilO
MRIWLAWERMGRASRTILLLLISILLLSPVVYCGVSKNWHDQQRILQLVVLSGSSLLLL
FSSRLSFARRMVQVTLLVILGLGSVSAFLSANPSWAFKEWSVFAGLMLFSFNISASPEW
VRRIALWGVVVLGGFFCYQFLLSYLAAFVSGLRELNPRVLLSGFSNVRTMGQFQAMLLP
LMAALGLYLRETGRFRLSWLVMLLLAIQWCISFALAGRGLWLGFAVAHLALCWIGPVGR
RFLIVQLSAAFVGLALYFLLMVALPTWLGIDMTLMSGMRSGLSLRDVLWRDAWGMFVAH
PLLGVGPMHFSAVPNSVGAHPHQMLLQWFAEWGGAAGLLVVGLMTLGLLRGARYLREQG
DPMDAGLWLALVSVLVLAQVDGVFVMPFTQTVLALLVGIAMARWSKPVVPSPAQRWLCR
GLAVVVIVVLGRVLLLEVPGLTAAEERYLEIHGGGEAPRFWIQGWIPM


4.4.1 Kolik záznamů s E-hodnotou lepší než specifikovaný PSI-BLAST threshold (< 1e-20) bylo nalezno při první iteraci (běhu) programu? Odpověď: 1453 [26-10-2022]
4.4.2 Kolik záznamů s E-hodnotou lepší než specifikovaný Expect threshold (< 1e-15) bylo nalezno při první iteraci programu? Odpověď: 1564 [26-10-2022]
4.4.3 Kolik nových (žluté zvýraznění) záznamů s E-hodnotou lepší než specifikovaný PSI-BLAST threshold (< 1e-20) bylo nalezeno při druhé iteraci programu? Odpověď: 945 [26-10-2022]
4.4.4 Stáhněte sekvence všech proteinů nalezených po dvou iteracích PSI-BLAST. Kolik proteinů bylo po dvou iteracích nalezeno? Odpověď: 2867 [25-10-2021]

MENDELOVO CENTRUM pro vzdělávání v biologii, biomedicíně a bioinformatice CZ.1.07/2.3.00/09.0186

Aktuální cvičení:


Další informace:
Cvičení
Nukl. kyseliny
Proteiny
Struktury
Nástroje
Ke stažení
Bioinformatika - proteiny
Bioinformatika - nukl. kyseliny
Bioinformatické databáze
Manipulace se sekvenčními daty
Párové sekvenční přiložení
Mnohonásobné sekvenční přiložení
Návrh primerů
Hledání a identifikace genů
Analýza proteinových sekvencí
NGS data a lokální anotace
Strukturní databáze
Předpověď struktury proteinů
GenBank
EMBL-Bank
DDBJ
dbEST
UniGene
UniProtKB
NRDB
PIR
PROSITE
Pfam
INTERPRO
PDB
MMDB
PDBsum
CATH
SCOP
BLAST
FASTA
LALIGN
ClustalW
T-Coffee
MUSCLE
PSIPRED
JPRED
PHD
PuTTY
WinSCP
SPdbV
PyMOL
RasMol
BioEdit
MEGA3
TreeView