3.1 Textové vs. sekvenční vyhledávání v databázích
Vyhledejte záznamy týkající se genů pro halogenalkandehalogenázy (angl.
"haloalkane dehalogenase") v databázi
GenBank Nucleotide (nr/nt) prostřednictvím:
a) textového vyhledávacího systému
Entrez,
b)
DNA sekvence halogenalkandehalogenázy LinB a
blastn algoritmu na serveru
NCBI BLAST a
c)
proteinové sekvence halogenalkandehalogenázy LinB pomocí
tblastn algoritmu na serveru
NCBI BLAST.
Poznámka: v rámci nastavení parametrů algoritmu BLAST
navyšte maximální počet cílových sekvencí
("Max target sequences") na 5000.
>LinB_dna
ATGAGCCTCGGCGCAAAGCCATTTGGCGAGAAGAAATTCATTGAGATCAAGGGCCGG
CGCATGGCCTATATCGATGAAGGGACCGGCGATCCGATCCTCTTCCAGCACGGCAAT
CCGACGTCGTCCTATCTGTGGCGCAATATCATGCCGCATTGCGCCGGGCTGGGACGG
CTGATCGCCTGTGACCTGATCGGCATGGGCGATTCGGACAAGCTCGATCCGTCGGGG
CCCGAGCGTTATGCCTATGCCGAGCATCGTGACTATCTCGACGCGCTGTGGGAGGCG
CTCGATCTCGGGGACAGGGTTGTTCTGGTCGTGCATGACTGGGGGTCCGCCCTCGGC
TTCGACTGGGCCCGCCGCCACCGCGAGCGTGTACAGGGGATTGCCTATATGGAAGCG
ATCGCCATGCCGATCGAATGGGCGGATTTTCCCGAACAGGATCGCGATCTGTTTCAG
GCCTTTCGCTCGCAGGCGGGCGAAGAATTGGTGTTGCAGGACAATGTTTTTGTCGAA
CAAGTTCTCCCCGGATTGATCCTGCGCCCCTTAAGCGAAGCGGAGATGGCCGCCTAT
CGCGAGCCCTTCCTCGCCGCCGAAGCCCGTCGACCGACCCTGTCTTGGCCTCGCCAA
ATCCCGATCGCAGGCACCCCGGCCGACGTGGTCGCGATCGCCCGGGACTATGCCGGC
TGGCTCAGCGAAAGCCCGATTCCGAAACTCTTCATCAACGCCGAGCCGGGAGCCCTG
ACCACGGGCCGAATGCGCGACTTCTGCCGCACATGGCCAAACCAGACCGAAATCACG
GTCGCAGGCGCCCATTTCATCCAGGAGGACAGTCCGGACGAGATTGGCGCGGCGATT
GCGGCGTTTGTCCGGCGATTGCGCCCAGCA
>LinB_protein
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA
3.1.1 Kolik záznamů bylo nalezeno pomocí textového vyhledávání?
Odpověď:
>20 000 - při použití uvozovek
[04-10-2024]
3.1.2 Kolik záznamů (sekvencí s významnou podobností - angl. sequences producing significant alignments) bylo nalezeno pomocí vyhledávání na základě DNA sekvence?
Odpověď:
>2040 - při použití algoritmu optimalizovaného pro trochu podobné sekvence - angl. algorithm optimized
for somewhat similar sequences
[04-10-2024]
3.1.3 Kolik záznamů bylo nalezeno pomocí vyhledávání na základě proteinové sekvence?
Odpověď:
>5000 - při použití defaultních hodnot a nastavení Maxtarget 5000, Word size: 6, Expect threshold 0.05,
matice BLOSUM62
[04-10-2024]
3.2 Lokální vs. globální párové přiložení
Pomocí programu
LALIGN
proveďte
lokální a prostřednictvím programu
EMBOSS Needle
globální párové
přiložení sekvencí halogenalkandehalogenáz
LinB se sekvencí
DhaA a
LinB se sekvencí
DhlA.
LinB:
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA
DhaA:
MSEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHVAP
SHRCIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFH
WAKRNPERVKGIACMEFIRPIPTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEG
ALPKCVVRPLTEVEMDHYREPFLKPVDREPLWRFPNELPIAGEPANIVALVEAYMNW
LHQSPVPKLLFWGTPGVLIPPAEAARLAESLPNCKTVDIGPGLHYLQEDNPDLIGSE
IARWLPAL
DhlA:
MINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRAHYLDEGNSDAEDVFLCLHGEP
TWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFHRNFLLALIERLD
LRNITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPAFSAFVTQPADG
FTAWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAAPFPDTSYQAGVRKFPKMVAQ
RDQACIDISTEAISFWQNDWNGQTFMAIGMKDKLLGPDVMYPMKALINGCPEPLEIA
DAGHFVQEFGEQVAREALKHFAETE
3.2.1 Jaká je identita a E-hodnota nejdelšího překrývajícího se segmentu lokálního přiložení LinB s DhaA?
Odpověď:
s maticí BLOSUM50 49.3%; 2.1e-64
3.2.2 Jaká je identita a E-hodnota nejdelšího překrývajícího se segmentu lokálního přiložení LinB s DhlA?
Odpověď:
s maticí BLOSUM50 30.2%; 7.2e-20
3.2.3 Jaká je identita LinB a DhlA podle globálního přiložení (algoritmus bez penalizace mezer na konci přiložení
(angl. end-gap penalty false)?
Odpověď:
28.4% s maticí BLOSUM62
3.2.4 Kolik mezer bylo vneseno do globálního přiložení LinB a DhlA při použití algoritmu bez penalizace mezer
na konci přiložení - angl. without end-gap penalty)?
Odpověď:
14 s maticí BLOSUM62 (nezapočítány mezery na N-terminalním and C-terminalálním konci)
3.2.5 Kolik mezer bylo vneseno do globálního přiložení LinB a DhlA při použití algoritmu s penalizací mezer na
konci přiložení (angl. end-gap penalty true)?
Odpověď:
16 s maticí BLOSUM62
3.2.6 Které dvě sekvence jsou si vzájemně více podobné: LinB × DhaA nebo LinB × DhlA?
Odpověď:
LinB × DhaA
3.3 Vliv substituční matice na párové přiložení
Pomocí programu
EMBOSS Stretcher
proveďte párové přiložení sekvencí halogenalkandehalogenáz
LinB a
DhlA.
Přiložení proveďte celkem 5×, pokaždé s použitím jiné substituční matice:
PAM120,
PAM250,
BLOSUM45,
BLOSUM50 a
BLOSUM62.
LinB:
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA
DhlA:
MINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRAHYLDEGNSDAEDVFLCLHGEP
TWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFHRNFLLALIERLD
LRNITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPAFSAFVTQPADG
FTAWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAAPFPDTSYQAGVRKFPKMVAQ
RDQACIDISTEAISFWQNDWNGQTFMAIGMKDKLLGPDVMYPMKALINGCPEPLEIA
DAGHFVQEFGEQVAREALKHFAETE
3.3.1 Jaké je pořadí jednotlivých substitučních matic podle identity, kterou umožňují nalézt u přiložení získaných se sekvencemi LinB a DhlA?
Odpověď:
PAM120: 27.8%, PAM250: 28.1%, BLOSUM62: 28.1%, BLOSUM50: 28.3%, BLOSUM45: 29.0%
3.4 Vyhledávání v databázích na základě sekvenční podobnosti
Na základě sekvenční podobnosti nalezněte potenciální příbuzné enzymu halogenalkandehalogenázy
LinB dostupné v databázi
UniProtKB/Swiss-Prot.
Pro sekvenční vyhledávání použijte algoritmy
FASTA a
BLAST (program
blastp). Jako substituční matici zvolte
BLOSUM62,
u ostatních volitelných parametrů ponechte výchozí nastavení:
LinB:
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA
3.4.1 Jaké jsou přístupové kódy třech nejlepších "hitů" získaných algoritmem FASTA?
Odpověď:
D4Z2G1 (LINB_SPHJU), A0A1L5BTC1 (LINB_SPHIB), a tři identické sekvence A5U5S9 (DHAA_MYCTA) + P9WMR8 (DHAA_MYCTO) + P9WMR9 (DHAA_MYCTU)
3.4.2 Jaké jsou přístupové kódy třech nejlepších "hitů" získaných algoritmem BLAST?
Odpověď:
D4Z2G1, A0A1L5BTC1 a A5U5S9
3.4.3. Jaká je identita a pozitivita/podobnost stanovená algoritmy BLAST a FASTA pro 3. nejlepší hit (A5U5S9)?
Odpověď:
stejná identita u obou algoritmů: 69 nebo 69.5%; podobnost získaná s FASTA: 87.5%, pozitivita získaná s
BLAST: 82%
3.5 Identifikace kontaminace sekvencí vektoru
Následující sekvence klonovaného
fragmentu DNA fága 3A ve vektoru přídy pUC byla
stanovena pomocí univerzálního sekvenačního primeru. Prostřednictvím programu
VecScreen
určete, která část sekvence patří fágu 3A, a která sekvence představuje
kontaminaci vektorovou sekvencí:
>bacteriophage 3A specific fragment
TCGCTTTAAACCCTTCATGCCTTCTTGGACACCTAAATGGTCTAATTTCAGCTCCAA
GGTCATGCCTTCTACTTTTTCATTCATATTAACCTCCTTTCTAGCTTCCAAAAAGTT
TTCTTAAATCCGTACCTGTAATGACTTTTTGTTCACTTTGTTTTTCTTCAGTCTCTT
CTTTATTCTCTTCATTAAGTATTTCTAAAAGTTTTACATACGGCTGTTTTCTGACTT
CAGTTAATGTCCACCCATACTGCTCCATACAGAAACGTTGTATTTTCTTAATGTTCG
ATAAAATATCTTTTATTGAGATTGTTCTTCTGTCTTTCCCATCTCTTCTGGTTCAGT
TTCTGAATCTTCTTCATCTTCACCATTGATTTCTCGAAATATATCTTTCAAGGCTTT
TGTATAAGTTTTAGTGCTCATCTTGTTCAAAACATCTTCTTCAGTCAATCCTTCATC
TTTAAATAAATCTACTAATAACTGTCGCTCTTTTTGTCTCATTTTTGTTGCGTTAGG
TACTTCTTTTTTATTCTCTTGATTTACTAATTCTAAATACTCATAGCATTTTTCTGC
TTCGCCCATTGTCACATCTTCTTTTGTATAGCTCTCTGTTTTTCCTGTTTTACGGTC
TTTAATTTCAAATTTAATCATTGTATTAGCTCCTTTTATTCAAATAAAAAAGACGCA
GATATTCTGCGTCTCAAATAATTATCCATTTGTTACTGTTACTGTAATTTGTCCAGA
CTTGTCACTTCCGTCAGTAGACGTAGCAGTGATAACTGAAGTTCCCTCAGCTACACC
GTGAATTGCTCCTGTTCTCTCATCAACAGTAACAAACTCTGGATGTTCACTTGTATA
TTTCAACGTTTTATTCGTTGCTGTACTTGGTGCAATGTTTGGTTCAACATTGTCATC
AGCATTTACCGTGATTGATTTAGTTTCGGGTGTAAATGATACGCCTGAGACTAGAAT
TGGATTGGTTTTGAATTGAGGTACATCAACTTTACTAGATTCTTTACCATTTTCTTC
CCATGCCACTTGGTAAGTACCTTTTGGATAAGTTGTATCCGCTTCTAAATTAGATAA
AGTTACTGACACTTTGCCTTCACCTTGTTCAGAAGCTACGACGTCGTCTCCTTTATA
AACCTTTAAAGTTTTAGTCATAAATTATTCTCCTTTGATTTATTTTGAAAGCCCCTA
TTCTGCTGAAACTGTTGCAGATTTTGAATTAACTGCTACTTCAACATTTTGGGGGTT
AGCTGGGTAACGAACTTGCAGAATCCTCTGAATGATCTTCACTGTCCGTGTATCCAA
CGAATACTTTTTTGAAGAATTCGAGCTCGGTACCCGGGGATCCTCTAGAGTCGACCT
GCAGGCATGCAAGCTTGGCACTGGCCGTCGTTTTACAACGTCGTGACTGGGAAAACC
CTGGCGTTACCCAACTTAATCGCCTTGCAGCACATCCCCCTTTCGCCAGCTGGCGTA
ATAGCGAAGAGGCCCGCACCGATCGCCCTTCCCAACAGTTGCGCAGCCTGAATGGCG
AATGGCGCCTGATGCGGTATTTTCTCCTTACGCATCTGTGCGGTATTTCACACCGCA
TATGGTGCACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGCCCCGAC
ACCCGCCAACACCCGCTGACGCGCCCTGACGGGCTTGTCTGCTCCCGGCATCCGCTT
ACAGACAAGCTGTGACCGTCTCCGGGAGCTGCATGTGTCAGAGGTTTTCACCGTCATC
3.5.1 Která část sekvence vykazuje významnou shodou s vektory?
Odpověď:
region 1326-1768
3.6 Vliv repetitivní sekvence na párové přiložení
Pomocí programu BLAST pro 2 sekvence (
bl2sec)
proveďte
přiložení těchto dvou polymorfních
sekvencí stafylokokového genu spa obsahujících
repetitivní oblasti. Vhodně
nastavte parametry přiložení (filtrování regionů s nízkou
komplexitou a parametr word size).
>H5
GCATGCGCTATGCTAGCCTGACGTATGACGATAGCTAGCCCTAGCGCTCATTGCGTA
TTAACGGAGGCTAAAAGCTAAACGATGCTCAAGCACCAAAAACCAGGTTTGTTGTTG
TCTTCCTCAAAGAAGACGGCAACAAACCTGGCAAAGAAGACAACAACAAACCTGGTA
AAGAAGACGGCAACAAACCTGGCAAAGAAGACAACAACAAGCCTGGCAAAGAAGACG
GCAACAAACCTGGTAAAGAAGACAACAAAAAACCTGGTAAAGAAGATGGCAACAAGC
CTGGCAAAGAAGACAACAACAAACCTGGTAAAGAAGACGGCAACGGAGTACATAGTC
GTTAAACCTGGTGATACAGTAAAT
>E6
CCAAGGATTACGACTGTACTCCGTTGCCGTCTTCTTTACCAGGTTTGTTGTTGTCTT
CTTTGCCAGGCTTGTTGCCATCTTCTTTACCAGGTTTTTTGTTGTCTTCTTTACCAG
GTTTGTTGCCGTCTTCTTTGCCAGGCTTGTTGTTGTCTTCTTTGCCAGGTTTGTTGC
CGTCTTCTTTACCAGGTTTGTTGTTGTCTTCTTTGCCAGGTTTGTTGCCGTCTTCTT
TACCAGGTTTGTTGTTGTCTTCCTCTTTTGGTGCTTGAGCATCGTTTAGCTTTTTAG
CTTCTGCTAAAATTTCTTTGCTCACCGAAGATCTTTAAGTATTATCGAGCTAATTTT
ATGCAGCTGCTAGCTCGT
3.6.1 Posuďte repetitivní charakter sekvence pomocí výstupu Dot Matrix View
3.6.2 Identifikujte segment představující inverzi
Odpověď:
region 99-122
3.6.3. Jaká je identita obou výše uvedených sekvencí ?
Odpověď:
264/289 tj. 91% (jedná se o identitu přiložených oblastí, nikoliv celých sekvencí)