Párové přiložení sekvencí

3.1 Textové vs. sekvenční vyhledávání v databázích
Vyhledejte záznamy týkající se genů pro halogenalkandehalogenázy (angl. "haloalkane dehalogenase") v databázi GenBank Nucleotide (nr/nt) prostřednictvím:
a) textového vyhledávacího systému Entrez,
b) DNA sekvence halogenalkandehalogenázy LinB a blastn algoritmu na serveru NCBI BLAST a
c) proteinové sekvence halogenalkandehalogenázy LinB pomocí tblastn algoritmu na serveru NCBI BLAST.
Poznámka: v rámci nastavení parametrů algoritmu BLAST navyšte maximální počet cílových sekvencí ("Max target sequences") na 5000.

>LinB_dna
ATGAGCCTCGGCGCAAAGCCATTTGGCGAGAAGAAATTCATTGAGATCAAGGGCCGG
CGCATGGCCTATATCGATGAAGGGACCGGCGATCCGATCCTCTTCCAGCACGGCAAT
CCGACGTCGTCCTATCTGTGGCGCAATATCATGCCGCATTGCGCCGGGCTGGGACGG
CTGATCGCCTGTGACCTGATCGGCATGGGCGATTCGGACAAGCTCGATCCGTCGGGG
CCCGAGCGTTATGCCTATGCCGAGCATCGTGACTATCTCGACGCGCTGTGGGAGGCG
CTCGATCTCGGGGACAGGGTTGTTCTGGTCGTGCATGACTGGGGGTCCGCCCTCGGC
TTCGACTGGGCCCGCCGCCACCGCGAGCGTGTACAGGGGATTGCCTATATGGAAGCG
ATCGCCATGCCGATCGAATGGGCGGATTTTCCCGAACAGGATCGCGATCTGTTTCAG
GCCTTTCGCTCGCAGGCGGGCGAAGAATTGGTGTTGCAGGACAATGTTTTTGTCGAA
CAAGTTCTCCCCGGATTGATCCTGCGCCCCTTAAGCGAAGCGGAGATGGCCGCCTAT
CGCGAGCCCTTCCTCGCCGCCGAAGCCCGTCGACCGACCCTGTCTTGGCCTCGCCAA
ATCCCGATCGCAGGCACCCCGGCCGACGTGGTCGCGATCGCCCGGGACTATGCCGGC
TGGCTCAGCGAAAGCCCGATTCCGAAACTCTTCATCAACGCCGAGCCGGGAGCCCTG
ACCACGGGCCGAATGCGCGACTTCTGCCGCACATGGCCAAACCAGACCGAAATCACG
GTCGCAGGCGCCCATTTCATCCAGGAGGACAGTCCGGACGAGATTGGCGCGGCGATT
GCGGCGTTTGTCCGGCGATTGCGCCCAGCA

>LinB_protein
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA

3.1.1 Kolik záznamů bylo nalezeno pomocí textového vyhledávání? Odpověď: >70 000 - při použití uvozovek  [13-10-2020]
3.1.2 Kolik záznamů (sekvencí s významnou podobností - angl. sequences producing significant alignments) bylo nalezeno pomocí vyhledávání na základě DNA sekvence? Odpověď: >670 - při použití algoritmu optimalizovaného pro trochu podobné sekvence - angl. algorithm optimized for somewhat similar sequences  [13-10-2020]
3.1.3 Kolik záznamů bylo nalezeno pomocí vyhledávání na základě proteinové sekvence? Odpověď: >5000 - při použití defaultních hodnot Word size: 6, Expect threshold 0.05, matice BLOSUM62  [13-10-2020]
3.2 Lokální vs. globální párové přiložení
Pomocí programu LALIGN proveďte lokální a globální párové přiložení sekvencí halogenalkandehalogenáz LinB se sekvencí DhaA a LinB se sekvencí DhlA.

LinB:
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA

DhaA:
MSEIGTGFPFDPHYVEVLGERMHYVDVGPRDGTPVLFLHGNPTSSYLWRNIIPHVAP
SHRCIAPDLIGMGKSDKPDLDYFFDDHVRYLDAFIEALGLEEVVLVIHDWGSALGFH
WAKRNPERVKGIACMEFIRPIPTWDEWPEFARETFQAFRTADVGRELIIDQNAFIEG
ALPKCVVRPLTEVEMDHYREPFLKPVDREPLWRFPNELPIAGEPANIVALVEAYMNW
LHQSPVPKLLFWGTPGVLIPPAEAARLAESLPNCKTVDIGPGLHYLQEDNPDLIGSE
IARWLPAL

DhlA:
MINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRAHYLDEGNSDAEDVFLCLHGEP
TWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFHRNFLLALIERLD
LRNITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPAFSAFVTQPADG
FTAWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAAPFPDTSYQAGVRKFPKMVAQ
RDQACIDISTEAISFWQNDWNGQTFMAIGMKDKLLGPDVMYPMKALINGCPEPLEIA
DAGHFVQEFGEQVAREALKHFAETE

3.2.1 Jaká je identita a E-hodnota nejdelšího překrývajícího se segmentu lokálního přiložení LinB s DhaA? Odpověď: 49,3%; 1,7e-66
3.2.2 Jaká je identita a E-hodnota nejdelšího překrývajícího se segmentu lokálního přiložení LinB s DhlA? Odpověď: 30.2%; 2,7e-22
3.2.3 Jaká je identita LinB a DhlA podle globálního přiložení (algoritmus bez penalizace mezer na konci přiložení (angl. without end-gap penalty)? Odpověď: 29,5%
3.2.4 Kolik mezer bylo vneseno do globálního přiložení LinB a DhlA při použití algoritmu bez penalizace mezer na konci přiložení - angl. without end-gap penalty)? Odpověď: 13 (nezapočítány mezery na N-terminalním and C-terminalálním konci)
3.2.5 Kolik mezer bylo vneseno do globálního přiložení LinB a DhlA při použití algoritmu s penalizací mezer na konci přiložení (angl. with end-gap penalty)? Odpověď: 13
3.2.6 Které dvě sekvence jsou si vzájemně více podobné: LinB × DhaA nebo LinB × DhlA? Odpověď: LinB × DhaA
3.3 Vliv substituční matice na párové přiložení
Pomocí programu LALIGN proveďte párové přiložení sekvencí halogenalkandehalogenáz LinB a DhlA. Použijte algoritmus pro globální přiložení bez penalizace mezer na konci přiložení (angl. global alignment without end-gap penalities). Přiložení proveďte celkem 5×, pokaždé s použitím jiné substituční matice: PAM120, PAM250, BLOSUM45, BLOSUM50 a BLOSUM62.

LinB:
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA

DhlA:
MINAIRTPDQRFSNLDQYPFSPNYLDDLPGYPGLRAHYLDEGNSDAEDVFLCLHGEP
TWSYLYRKMIPVFAESGARVIAPDFFGFGKSDKPVDEEDYTFEFHRNFLLALIERLD
LRNITLVVQDWGGFLGLTLPMADPSRFKRLIIMNACLMTDPVTQPAFSAFVTQPADG
FTAWKYDLVTPSDLRLDQFMKRWAPTLTEAEASAYAAPFPDTSYQAGVRKFPKMVAQ
RDQACIDISTEAISFWQNDWNGQTFMAIGMKDKLLGPDVMYPMKALINGCPEPLEIA
DAGHFVQEFGEQVAREALKHFAETE

3.3.1 Jaké je pořadí jednotlivých substitučních matic podle identity, kterou umožňují nalézt u přiložení získaných se sekvencemi LinB a DhlA? Odpověď: PAM250: 28,5%, BLOSUM62: 29,2%, BLOSUM50: 29,5%, PAM120: 29,5%, BLOSUM45: 30,1%
3.4 Vyhledávání v databázích na základě sekvenční podobnosti
Na základě sekvenční podobnosti nalezněte potenciální příbuzné enzymu halogenalkandehalogenázy LinB dostupné v databázi UniProtKB/Swiss-Prot. Pro sekvenční vyhledávání použijte algoritmy FASTA a BLAST (program blastp). Jako substituční matici zvolte BLOSUM62, u ostatních volitelných parametrů ponechte výchozí nastavení:

LinB:
MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR
LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG
FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE
QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA
GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA
IAAFVRRLRPA

3.4.1 Jaké jsou přístupové kódy třech nejlepších "hitů" získaných algoritmem FASTA? Odpověď: D4Z2G1 (LINB_SPHJU), A0A1L5BTC1 (LINB_SPHIB), a tři identické sekvence A5U5S9 (DHAA_MYCTA) + P9WMR8 (DHAA_MYCTO) + P9WMR9 (DHAA_MYCTU)
3.4.2 Jaké jsou přístupové kódy třech nejlepších "hitů" získaných algoritmem BLAST? Odpověď: D4Z2G1, A0A1L5BTC1 a A5U5S9
3.4.3. Jaká je identita a pozitivita/podobnost stanovená algoritmy BLAST a FASTA pro 3. nejlepší hit (A5U5S9)? Odpověď: stejná identita u obou algoritmů: 69.5%; podobnost získaná s FASTA: 88.5%, pozitivita získaná s BLAST: 82%.
3.5 Identifikace kontaminace sekvencí vektoru
Následující sekvence klonovaného fragmentu DNA fága 3A ve vektoru přídy pUC byla stanovena pomocí univerzálního sekvenačního primeru. Prostřednictvím programu VecScreen určete, která část sekvence patří fágu 3A, a která sekvence představuje kontaminaci vektorovou sekvencí:

>bacteriophage 3A specific fragment
TCGCTTTAAACCCTTCATGCCTTCTTGGACACCTAAATGGTCTAATTTCAGCTCCAA
GGTCATGCCTTCTACTTTTTCATTCATATTAACCTCCTTTCTAGCTTCCAAAAAGTT
TTCTTAAATCCGTACCTGTAATGACTTTTTGTTCACTTTGTTTTTCTTCAGTCTCTT
CTTTATTCTCTTCATTAAGTATTTCTAAAAGTTTTACATACGGCTGTTTTCTGACTT
CAGTTAATGTCCACCCATACTGCTCCATACAGAAACGTTGTATTTTCTTAATGTTCG
ATAAAATATCTTTTATTGAGATTGTTCTTCTGTCTTTCCCATCTCTTCTGGTTCAGT
TTCTGAATCTTCTTCATCTTCACCATTGATTTCTCGAAATATATCTTTCAAGGCTTT
TGTATAAGTTTTAGTGCTCATCTTGTTCAAAACATCTTCTTCAGTCAATCCTTCATC
TTTAAATAAATCTACTAATAACTGTCGCTCTTTTTGTCTCATTTTTGTTGCGTTAGG
TACTTCTTTTTTATTCTCTTGATTTACTAATTCTAAATACTCATAGCATTTTTCTGC
TTCGCCCATTGTCACATCTTCTTTTGTATAGCTCTCTGTTTTTCCTGTTTTACGGTC
TTTAATTTCAAATTTAATCATTGTATTAGCTCCTTTTATTCAAATAAAAAAGACGCA
GATATTCTGCGTCTCAAATAATTATCCATTTGTTACTGTTACTGTAATTTGTCCAGA
CTTGTCACTTCCGTCAGTAGACGTAGCAGTGATAACTGAAGTTCCCTCAGCTACACC
GTGAATTGCTCCTGTTCTCTCATCAACAGTAACAAACTCTGGATGTTCACTTGTATA
TTTCAACGTTTTATTCGTTGCTGTACTTGGTGCAATGTTTGGTTCAACATTGTCATC
AGCATTTACCGTGATTGATTTAGTTTCGGGTGTAAATGATACGCCTGAGACTAGAAT
TGGATTGGTTTTGAATTGAGGTACATCAACTTTACTAGATTCTTTACCATTTTCTTC
CCATGCCACTTGGTAAGTACCTTTTGGATAAGTTGTATCCGCTTCTAAATTAGATAA
AGTTACTGACACTTTGCCTTCACCTTGTTCAGAAGCTACGACGTCGTCTCCTTTATA
AACCTTTAAAGTTTTAGTCATAAATTATTCTCCTTTGATTTATTTTGAAAGCCCCTA
TTCTGCTGAAACTGTTGCAGATTTTGAATTAACTGCTACTTCAACATTTTGGGGGTT
AGCTGGGTAACGAACTTGCAGAATCCTCTGAATGATCTTCACTGTCCGTGTATCCAA
CGAATACTTTTTTGAAGAATTCGAGCTCGGTACCCGGGGATCCTCTAGAGTCGACCT
GCAGGCATGCAAGCTTGGCACTGGCCGTCGTTTTACAACGTCGTGACTGGGAAAACC
CTGGCGTTACCCAACTTAATCGCCTTGCAGCACATCCCCCTTTCGCCAGCTGGCGTA
ATAGCGAAGAGGCCCGCACCGATCGCCCTTCCCAACAGTTGCGCAGCCTGAATGGCG
AATGGCGCCTGATGCGGTATTTTCTCCTTACGCATCTGTGCGGTATTTCACACCGCA
TATGGTGCACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGCCCCGAC
ACCCGCCAACACCCGCTGACGCGCCCTGACGGGCTTGTCTGCTCCCGGCATCCGCTT
ACAGACAAGCTGTGACCGTCTCCGGGAGCTGCATGTGTCAGAGGTTTTCACCGTCATC

3.5.1 Která část sekvence vykazuje významnou shodou s vektory? Odpověď: region 1326-1768
3.6 Vliv repetitivní sekvence na párové přiložení
Pomocí programu BLAST pro 2 sekvence (bl2sec) proveďte přiložení těchto dvou polymorfních sekvencí stafylokokového genu spa obsahujících repetitivní oblasti. Vhodně nastavte parametry přiložení (filtrování regionů s nízkou komplexitou a parametr word size).

>H5
GCATGCGCTATGCTAGCCTGACGTATGACGATAGCTAGCCCTAGCGCTCATTGCGTA
TTAACGGAGGCTAAAAGCTAAACGATGCTCAAGCACCAAAAACCAGGTTTGTTGTTG
TCTTCCTCAAAGAAGACGGCAACAAACCTGGCAAAGAAGACAACAACAAACCTGGTA
AAGAAGACGGCAACAAACCTGGCAAAGAAGACAACAACAAGCCTGGCAAAGAAGACG
GCAACAAACCTGGTAAAGAAGACAACAAAAAACCTGGTAAAGAAGATGGCAACAAGC
CTGGCAAAGAAGACAACAACAAACCTGGTAAAGAAGACGGCAACGGAGTACATAGTC
GTTAAACCTGGTGATACAGTAAAT

>E6
CCAAGGATTACGACTGTACTCCGTTGCCGTCTTCTTTACCAGGTTTGTTGTTGTCTT
CTTTGCCAGGCTTGTTGCCATCTTCTTTACCAGGTTTTTTGTTGTCTTCTTTACCAG
GTTTGTTGCCGTCTTCTTTGCCAGGCTTGTTGTTGTCTTCTTTGCCAGGTTTGTTGC
CGTCTTCTTTACCAGGTTTGTTGTTGTCTTCTTTGCCAGGTTTGTTGCCGTCTTCTT
TACCAGGTTTGTTGTTGTCTTCCTCTTTTGGTGCTTGAGCATCGTTTAGCTTTTTAG
CTTCTGCTAAAATTTCTTTGCTCACCGAAGATCTTTAAGTATTATCGAGCTAATTTT
ATGCAGCTGCTAGCTCGT

3.6.1 Posuďte repetitivní charakter sekvence pomocí výstupu Dot Matrix View
3.6.2 Identifikujte segment představující inverzi Odpověď: region 99-122
3.6.3. Jaká je identita obou výše uvedených sekvencí ? Odpověď: 264/289 tj. 91% (jedná se o identitu přiložených oblastí, nikoliv celých sekvencí)

MENDELOVO CENTRUM pro vzdělávání v biologii, biomedicíně a bioinformatice CZ.1.07/2.3.00/09.0186

Aktuální cvičení:


Další informace:
Cvičení
Nukl. kyseliny
Proteiny
Struktury
Nástroje
Ke stažení
Bioinformatika - proteiny
Bioinformatika - nukl. kyseliny
Bioinformatické databáze
Manipulace se sekvenčními daty
Párové sekvenční přiložení
Mnohonásobné sekvenční přiložení
Návrh primerů
Hledání a identifikace genů
Analýza proteinových sekvencí
NGS data a lokální anotace
Strukturní databáze
Předpověď struktury proteinů
GenBank
EMBL-Bank
DDBJ
dbEST
UniGene
UniProtKB
NRDB
PIR
PROSITE
Pfam
INTERPRO
PDB
MMDB
PDBsum
CATH
SCOP
BLAST
FASTA
LALIGN
ClustalW
T-Coffee
MUSCLE
PSIPRED
JPRED
PHD
PuTTY
WinSCP
SPdbV
PyMOL
RasMol
BioEdit
MEGA3
TreeView