Analýza proteinových sekvencí

7.1 Predikce fyzikálně-chemických vlastností proteinu
Pomocí proteomických nástrojů dostupných na ExPASy serveru (ProtParam, PeptideCutter) porovnejte lidské fibroblastové růstové faktory FGF1 (UniProtKB: P05230-1 – Isoforma 1) a FGF2 (UniProtKB: P09038-2 – Isoforma 3).
7.1.1 Jaké jsou molekulové hmotnosti těchto proteinů? Dokázali byste tyto proteiny experimentálně rozlišit pouze na základě jejich molekulové hmotnosti? Odpověď: FGF1 má molekulovou hmotnost 17459.70 Da, FGF2 17253.82 Da. Tento rozdíl je moc malý na to, aby bylo možné rozlišit proteiny pouze na základě jejich velikosti.
7.1.2 Proč se FGF1 nazývá kyselý (angl. acidic FGF) a FGF2 bazický (basic FGF)? Jaký bude mít protein celkový náboj ve fyziologickém pH? Odpověď: Hodnota isoelektrického bodu (pI) FGF1 leží v mírně kyselé oblasti – 6,51, zatímco pI FGF2 je 9.58.

Celkový náboj proteinu závisí od jeho pI. V pH oblasti nižší než pI proteinu je jeho celkový náboj kladný, v opačném případě záporný. Ve fyziologickém roztoku (pH ~ 7,4) bude tedy FGF1 nabitý záporně, zatímco FGF2 kladně.

7.1.3 Která aminokyselina se vyskytuje nejčastěji v sekvencích daných FGF? Odpověď: FGF1: leucin (11,6 %, 18/155), FGF2: glycin (10,3 %, 16/155).
7.1.4 Ve 2 kyvetách se nachází roztoky FGF1 a FGF2, které mají hodnotu absorbance při 280 nm rovnu 1 (A280 = 1). Který z FGF roztoků je koncentrovanější.? (za předpokladu, že všechny cysteiny jsou redukovány a obě kyvety jsou identické) Odpověď: Koncentrace proteinu je přímo úměrná absorbanci dle Lambert-Beerova zákona : c = A/(ε.l), kde ε značí molarní extinkční koeficient. ε280 (FGF1) = 17420 M-1cm-1, ε280 (FGF2) = 15930 M-1cm-1. Koncentrovanější je tedy roztok FGF2.
7.1.5 Který z FGF proteinů bude po působení trypsinem rozštěpen na více peptidů? (za předpokladu dokonalého štěpení) Odpověď: FGF2 (25 štěpných míst) > FGF1 (17 štěpných míst)
7.2 Předpověď transmembránových oblastí proteinu
Pomocí nástrojů ProtScale, TMHMM a TopCons předpovězte transmembránové oblasti (TM) oblasti v sekvenci prostaglandin E syntázy (UniProtKB - O14684), NO-reduktázy (UniProtKB - A0A0D6H8R3) a lanosterol syntázy (UniProtKB - P48449). Pokuste se mezi výsledky najít nějaký konsenzus. Porovnejte výsledky predikcí s informacemi dostupnými pro dané záznamy v databázích UniProtKB/SwissProt a RCSB PDB.
7.2.1 Kolik transmembránových oblastí bylo nalezeno pomocí TMHMM? Odpověď: Postaglandin E syntáza: 2 (2 další oblasti předpovězeny jako transmembránové s 20 % pravděpodobností, NO-reduktáza: 14, Lanosterol syntáza: 0 (2 oblasti s pravděpodobností < 4%)
7.2.2 Kolik transmembránových oblastí bylo nalezeno pomocí jednotlivých metod TopCons serveru? Odpověď: Postaglandin E syntáza: 4, NO-reduktáza: 14, Lanosterol syntáza: 0 (2 oblasti identifikované nástrojem SPOCTOPUS)
7.2.3 Jaká je vaše interpretace výsledků z hlediska přítomnosti transmembránových oblastí v daných proteinech? Odpověď: Postaglandin E syntáza a NO-reduktáza jsou transmembránové proteiny, které ve své sekvenci obsahují 4, respektive 14, TM oblasti. Lanosterol syntáza neobsahuje žádné TM oblasti a patří do skupiny tzv. intergrálních monotopických proteinů, které jsou k membráně ukotveny.
7.3 Identifikace motivů a domén
Na základě informací obsažených v databázích PROSITE, Pfam a kompozitní databázi InterPro identifikujte v níže uvedené proteinové sekvenci případné motivy a domény. Na základě přítomných motivů a domén se pokuste určit proteinovou rodinu/nadrodinu a funkci daného proteinu. Prostudujte výstupní formáty a informace poskytované jednotlivými databázemi. (Poznámka: pro prohledávání jednotlivých databází používejte výchozí nastavení.)

MAETKIIYHMDEEETPYLVKLPVAPERVTLADFKNVLSNRPVHAYKFFFKSMDQD
FGVVKEEIFDDNAKLPCFNGRVVSWLVLAEGAHSDAGSQGTDSHTDLPPPLERTG
GIGDSRPPSFHPNVASSRDGMDNETGTESMVSHRRERARRRNREEAARTNGHPRG
DRRRDVGLPPDSASTALSSELESSSFVDSDEDGSTSRLSSSTEQSTSSRLIRKHK
RRRRKQRLRQADRASSFSSITDSTMSLNIVTVTLNMERHHFLGISIVGQSNDRGD
GGIYIGSIMKGGAVAADGRIEPGDMLLQVNDVNFENMSNDDAVRVLREIVSQTGP
ISLTVAKCWDPTPRSYFTVPRADPVRPIDPAAWLSHTAALTGALPRYGTSPCSSA
VTRTSSSSLTSSVPGAPQLEEAPLTVKSDMSAVVRVMQLPDSGLEIRDRMWLKIT
IANAVIGADVVDWLYTHVEGFKERREARKYASSLLKHGFLRHTVNKITFSEQCYY
VFGDLCSNLATLNLNSGSSGTSDQDTLAPLPHPAAPWPLGQGYPYQYPGPPPCFP
PAYQDPGFSYGSGSTGSQQSEGSKSSGSTRSSRRAPGREKERRAAGAGGSGSESD
HTAPSGVGSSWRERPAGQLSRGSSPRSQASATAPGLPPPHPTTKAYTVVGGPPGG
PPVRELAAVPPELTGSRQSFQKAMGNPCEFFVDIM

7.3.1 Kolik různých domén jste v sekvenci identifikovali na základě hledání v jednotlivých databázích? Odpověď:
PROSITE: 3 hity (DIX, PDZ, DEP), InterPro: 5 (DIX, Dishevelled protein domain, PDZ, DEP, Dishevelled_C-domain).

7.3.2 Do jaké proteinové rodiny/nadrodiny daný protein nejspíše patří? Odpověď: Protein patří do rodiny Dishevelled a Dishevelled-related proteinů.
7.3.3 Prostudujte výstupy z databází a pokuste se zjistit funkci proteinu a jeho 3 hlavních domén (DIX, PDZ a DEP).

MENDELOVO CENTRUM pro vzdělávání v biologii, biomedicíně a bioinformatice CZ.1.07/2.3.00/09.0186

Aktuální cvičení:


Další informace:
Cvičení
Nukl. kyseliny
Proteiny
Struktury
Nástroje
Ke stažení
Bioinformatika - proteiny
Bioinformatika - nukl. kyseliny
Bioinformatické databáze
Manipulace se sekvenčními daty
Párové sekvenční přiložení
Mnohonásobné sekvenční přiložení
Návrh primerů
Hledání a identifikace genů
Analýza proteinových sekvencí
NGS data a lokální anotace/a>
Strukturní databáze
Předpověď struktury proteinů
GenBank
EMBL-Bank
DDBJ
dbEST
UniGene
UniProtKB
NRDB
PIR
PROSITE
Pfam
INTERPRO
PDB
MMDB
PDBsum
CATH
SCOP
BLAST
FASTA
LALIGN
ClustalW
T-Coffee
MUSCLE
PSIPRED
JPRED
PHD
PuTTY
WinSCP
SPdbV
PyMOL
RasMol
BioEdit
MEGA3
TreeView