Endereço do Curso : Bioinformática, Shandong University
Diretório de artigos
- 2. Comparação de sequência
-
- 2.1 Entendendo a sequência
- 2.2 Semelhança de sequência
- 2.3 Matriz de pontuação de substituição
- 2.4 Comparação par a par de sequências: método dos pontos
- 2.5 Comparação par a par de sequências: método de alinhamento de sequência (quantitativo)
- 2.6 Consistência e Semelhança
- 2.7 Ferramenta online de alinhamento de sequência dupla
- 2.8 Pesquisa BLAST
- 2.9 Introdução ao Alinhamento de Múltiplas Sequências
- 2.10 Ferramenta Online de Alinhamento de Múltiplas Sequências
- 2.11 Edição e Publicação de Múltiplos Alinhamentos de Sequência
- 2.12 Encontrando Regiões Conservadas
2. Comparação de sequência
2.1 Entendendo a sequência
sequência é uma string string.
Formato FASTA:
primeira linha: sinal de maior que mais nome ou outros comentários
Após a segunda linha: 60 letras por linha (também são 80, não necessariamente)
2.2 Semelhança de sequência
-
Sequência semelhante → estrutura semelhante → função semelhante
-
Prevê a estrutura e função de proteínas de estrutura e função desconhecidas
-
Identidade e similaridade de sequência :
◆ Consistência (identidade): Se duas sequências tiverem o mesmo comprimento, sua identidade é definida como a porcentagem do número de resíduos idênticos em suas posições correspondentes ao comprimento total.
◆ Semelhança : Se duas sequências têm o mesmo comprimento, sua similaridade é definida como o número de resíduos semelhantes e idênticos em suas posições correspondentes e a porcentagem do comprimento total.
A relação quantificada de semelhança de pares de resíduos é definida por uma matriz de pontuação de substituição .
2.3 Matriz de pontuação de substituição
● Matriz de pontuação de substituição (matriz de substituição): Uma matriz que reflete a taxa de substituição mútua entre resíduos , que descreve a relação quantitativa entre resíduos semelhantes entre si. Dividido em matriz de pontuação de substituição de DNA e matriz de pontuação de substituição de proteína.
★ 3 comunsseqüência de dnaA matriz de pontuação de substituição para
- Matriz de equivalência (matriz unitária): A matriz de pontuação de substituição mais simples, onde a pontuação correspondente entre os mesmos
1
nucleotídeos é , e a pontuação de substituição entre diferentes0
nucleotídeos é . Como não contém informações físicas e químicas de bases e não trata diferentes substituições de maneira diferente, raramente é usado na comparação real de sequências . - Matriz de transição-transversão (matriz de transição-transversão): As bases dos ácidos nucléicos são divididas em dois tipos de acordo com as características da estrutura do anel, uma é purina (A/G) com dois anéis; a outra é pirimidina (C/T), com apenas um anel. Se a substituição das bases do DNA mantiver o número do loop constante , é uma transição , se o número do loop mudar , é uma transversão . Durante a evolução,As transições ocorrem com muito mais frequência do que as transversões. Para refletir isso, geralmente a pontuação para transições nesta matriz é
-1
, e a pontuação para transversões é-5
. - Matriz BLAST : Após um grande número de comparações reais, verifica-se que, se os dois nucleotídeos comparados tiverema mesma pontuação e vice-versa , o efeito da comparação é melhor. Esta matriz é amplamente utilizada para comparação de sequências de DNA .
+5
-4
★ 3 comunsproteínaMatriz de pontuação de substituição para sequências
-
Matriz de equivalência (matriz unitária): Igual à matriz de equivalência de DNA, a pontuação correspondente entre os mesmos aminoácidos é 1. As substituições entre diferentes aminoácidos foram pontuadas como 0. Raramente é usado no alinhamento de sequência real.
-
Matriz PAM (Dayhoff Mutation Data Matrix): A matriz PAM é baseada em princípios evolutivos. Se duas substituições de aminoácidos são freqüentes , indicando que a natureza é fácil de aceitar tais substituições, então este par de substituições de aminoácidos deve pontuar alto . A matriz PAM é atualmente um dos métodos de pontuação mais utilizados na comparação de sequências de proteínas. A matriz PAM-1 básica reflete o valor de uma mutação por cem aminoácidos produzidos pela evolução (obtida por métodos estatísticos). O PAM-1 é multiplicado por ele mesmo por n vezes, e o PAM-n pode ser obtido, ou seja, mais mutações ocorreram . ( Escolha uma matriz PAM adequada de acordo com a relação próxima entre as sequências a serem comparadas. Se a relação próxima for distante , ou seja, houver muitas mutações , maior é n, caso contrário, menor é n. )
◆Matriz PAM-250: O valor na diagonal é a pontuação do aminoácido correspondente; em outras posições, uma pontuação ≥0 significa que o par de aminoácidos correspondente é um aminoácido semelhante .
-
Matriz BLOSUM (matriz de substituição de blocos): A matriz BLOSUM obtém os elementos da matriz através de sequências com relacionamentos distantes. A matriz PAM-1 é calculada com base no alinhamento de sequências com alta similaridade (>85%), e aquelas matrizes com longa distância evolutiva, como PAM-250, são obtidas multiplicando PAM-1 por ele mesmo. Ou seja, a similaridade da matriz BLOSUM égerada com base em dados reais , enquanto a matriz PAM é extrapolada por meio da automultiplicação da matriz . Assim como a matriz PAM, a matriz BLOSUM também possui números diferentes, como
BLOSUM-80
indicar que a matriz é calculada a partir de sequências com grau de consistência ≥ 80% . Da mesma forma,significa que a matrizé calculada a partir de sequências com grau de consistência ≥ 62% . ◆BLOSUM-62
BLOSUM-62: O valor na diagonal é a pontuação do aminoácido correspondente ; em outras posições, uma pontuação ≥0 significa que o par de aminoácidos correspondente é um aminoácido semelhante .
P1: Escolher PAM-1 ou PAM-250?
Q2: Escolha PAM-?
- Para a comparação entre sequências distantes , como o PAM-250 é calculado , sua precisão é limitada e o BLOSUM-45 apresenta mais vantagens .
- Para a comparação entre sequências intimamente relacionadas , há pouca diferença nos resultados de alinhamento feitos com a matriz PAM ou BLOSUM .
- Mais comumente usado : BLOSUM-62
★ 2 outros tiposproteínaMatriz de Pontuação de Substituição para Alinhamento de Sequência
-
Matriz de código genético (genetic code matrix,
GCM
): a matriz de código genético é calculada porobtido pelo número de mudanças de códon necessárias para converter um aminoácido em outro, o valor da matriz corresponde ao preço pago correspondentemente .
◆ Se a alteração de uma base pode alterar o códon de um aminoácido para outro aminoácido, o custo de substituição desses dois aminoácidos é1
;
◆ Se duas bases precisam ser alteradas, o custo de substituição é2
;
◆ Então Por exemplo, se os três os códons de Met para Tyr precisam ser alterados, o custo é de3
.
◆ A matriz do código genético é frequentemente usada para calcular a distância evolutiva , e sua vantagem é que o resultado do cálculo pode ser usado diretamente para desenhar a árvore evolutiva , mas raramente é usado no alinhamento da sequência de proteínas (especialmente o alinhamento da sequência de proteínas com baixo grau de similaridade) .
-
Matriz hidrofóbica : Obtém-se uma matriz de pontuação de acordo com a alteração da hidrofobicidade antes e depois da substituição dos resíduos de aminoácidos . Se as propriedades hidrofóbicas de uma substituição de aminoácido não mudam muito , a pontuação da substituição é alta , caso contrário, a pontuação da substituição é baixa.
2.4 Comparação par a par de sequências: método dos pontos
- Método ponto : o mesmo ponto.
- Diagonais consecutivas , paralelos a diagonais , representam a mesma região em ambas as sequências.
- Pode usarUma sequência gerencia a si mesma, para que fragmentos repetidos na sequência possam ser encontrados . Essa matriz pontilhada deve ser simétrica e ter uma diagonal principal. Na direção horizontal ou vertical, o segmento de sequência correspondente à linha paralela curta paralela à diagonal principal é a parte repetida ; o número de ocorrências da linha paralela incluindo a diagonal principal é o número de repetições .
- Descubra repetições em tandem (
tandem repeat
):
como Seq1: FASABCABCABCTHE
◆repetir vezes: Dentro da meia diagonal , o número de todas as linhas paralelas equidistantes incluindo a diagonal principal .
◆repetir unidade: A seqüência correspondente à linha paralela mais curta .
◆ A repetição em tandem curta (short tandem repeat,STR
) também é chamada de DNA microssatélite , que é um tipo de repetição em tandem de DNA amplamente presente em genomas eucarióticos. Consiste em uma seqüência central de 2-6bp , e o número de repetições é geralmente de 15 a 30 vezes . O STR é altamente polimórfico, ou seja, existem diferenças individuais no número de repetições , e essa diferença geralmente segue a lei mendeliana de herança codominante no processo de herança genética , por isso é amplamente utilizado nos campos de identificação individual forense e teste de paternidade.
- Ferramenta de gerenciamento on-line Dotlet : Dotlet precisa instalar o java.
Veja o vídeo para mais detalhes : Comparação par a par de sequências: método de ponto-02 P34
2.5 Comparação par a par de sequências: método de alinhamento de sequência (quantitativo)
- Alinhamento de sequência (
alignment
), também chamado de alinhamento, alinhamento, alinhamento, etc. Um algoritmo específico é usado para encontrar o esquema de inserção de espaço e permutação de sequência que produz a maior pontuação de similaridade entre duas ou mais sequências. - Comparação das sequências s e t : Organize as duas sequências de s e t para cima e para baixo, insira espaços ( espaços ,
gap
) em determinadas posições e, em seguida, compare a correspondência de caracteres em cada posição por vez, para descobrir o arranjo e a inserção de espaços nos quais as duas sequências produzem o escore máximo de similaridade.
Alinhamento e Algoritmos Pairwise
- alinhamento global(alinhamento global): Usado para comparar duas sequências de comprimento semelhante . Algoritmo de Needlernan-Wunsch Em 1970, Saul Needleman e Christian Wunsch aplicaram pela primeira vez o algoritmo de programação dinâmica para o alinhamento global de duas sequências, que mais tarde foi chamado de algoritmo de Needleman-Wunsch.
Veja o vídeo para mais detalhes : Comparação par a par de sequências: Sequence Alignment-02 Global Alignment P37
- alinhamento local(alinhamento local): usado para comparar duas sequências , uma longa e uma curta . Em 1981, Temple Smith e Michael Waterman realizaram pesquisas sobre alinhamento local e produziram o algoritmo Smith-Waterman.
Veja o vídeo para mais detalhes : Comparação par a par de sequências: Sequence Alignment-03 Local Alignment P38
2.6 Consistência e Semelhança
- Se duas sequênciaso mesmo comprimento:
Identidade (identidade) = (número de caracteres consistentes/ comprimento de comparação global ) × 100%
de similaridade (semelhança) = (número de caracteres consistentes e semelhantes/comprimento de comparação global) × 100%
- Se duas sequênciascomprimento diferente:
Identidade (identidade) = (número de caracteres consistentes/comprimento de comparação global) × 100%
de semelhança (semelhança) = (número de caracteres consistentes e semelhantes/comprimento de comparação global) × 100%
- Independentemente de o comprimento das duas sequências ser o mesmo, um alinhamento global das duas sequências deve ser realizado primeiro e, em seguida, seu grau de identidade e semelhança é calculado com base nos resultados do alinhamento e no comprimento do alinhamento.
2.7 Ferramenta online de alinhamento de sequência dupla
Ferramenta global de alinhamento de sequência pareada EMBL
-
Para obter detalhes, consulte o vídeo : Ferramenta de alinhamento de sequência de pares on-line-01 P40
Para obter detalhes, consulte o vídeo : Ferramenta de alinhamento de sequência de pares on-line-02 Tipo de lacuna e configuração de pontuação P41 -
EMBL → Alinhamento Global → Agulha → inserir/carregar 2 sequências a serem alinhadas
-
Configurações de parâmetros Mais opções :
- MATRIX: Selecione BLOSUM-62 por padrão ou selecione por parentesco.
- GAP OPEN: O valor da penalidade quando ocorre a primeira vaga, o padrão é maior que a penalidade do GAP EXTEND.
- GAP EXTEND: O valor da penalidade quando há vários intervalos consecutivos (exceto o primeiro intervalo), a penalidade padrão é menor que GAP OPEN.
- Quando a penalidade do GAP OPEN é maior que a do GAP EXTEND , as vagas são concentradas , e o custo de abertura da primeira vaga é alto, mas vagas contínuas são estimuladas.
Caso : Sabe-se que a maioria das duas sequências são semelhantes, e a região funcional de uma sequência está ausente na outra sequência. É necessário descobrir a região funcional ausente por meio da comparação de sequências e selecionar a vacância concentrada . - A penalidade do GAP OPEN é menor as vagas são dispersas e o custo das vagas contínuas é alto, portanto vagas curtas são incentivadas.
Caso : Comparando sequências homólogas, sabe-se que as duas sequências são muito semelhantes, têm estruturas e funções semelhantes e selecionam lacunas dispersas . - Se o resultado não for o esperado , basta manter os parâmetros padrão .
- END GAP PENALTY: A penalidade no final do GAP, o padrão é falso.
Ferramenta de alinhamento emparelhado local EMBL
- Veja o vídeo para mais detalhes : Online Dual Sequence Alignment Tool-03 P42
- EMBL → Alinhamento Local → Água → Inserir/Carregar 2 sequências a serem alinhadas → Enviar
- A parte que não corresponde (vermelho) em ambas as extremidades da sequência 1 é diretamente ignorada no resultado da comparação; a parte que é adicionada no final da
sequência 2 também é diretamente ignorada
- Alinhamento global vs. alinhamento local:
- Outras ferramentas online de alinhamento pairwise
nome do software | tipo de comparação |
---|---|
EMBL | Global/Local |
PIR | Global |
Lalign | Global/Local |
LAGÃ | Global |
AlignMe | Alinhamento de Proteínas de Membrana |
MCALIGN | Alinhamento de sequências de DNA não codificantes |
bioferramentas | Global/Local |
2.8 Pesquisa BLAST
- O BLAST (Basic Local Alignment Search Tool) é o programa de pesquisa de banco de dados mais usado atualmente.
- O objetivo do BLAST são os pares de fragmentos . O chamado par de fragmentos refere-se a um par de subsequências em duas sequências dadas, que são iguais em comprimento e podem formar uma correspondência completa sem lacunas.
- O princípio básico do BLAST : BLAST primeiro encontra todos os pares de fragmentos de sequência cujo grau de correspondência excede um certo limite entre a sequência de detecção e a sequência alvo e, em seguida, estende os pares de fragmentos de acordo com um determinado limite de similaridade para obter um certo comprimento de fragmentos de similaridade e, finalmente, gera pares de alta pontuação (HSPs). O BLAST modificado permite a inserção de lacunas.
Tipos de BLAST
- BLAST é na verdade um termo geral para um grupo de ferramentas integradas. Ele não só pode ser usado para pesquisar diretamente bancos de dados de sequências de proteínas e bancos de dados de sequências de ácidos nucleicos, mas também pode traduzir as sequências de ácidos nucleicos pesquisadas em sequências de proteínas e depois pesquisar, ou vice-versa versa, para melhorar a eficiência da pesquisa.
Blastp
: Pesquise bancos de dados de sequências de proteínas com sequências de proteínas (comumente usadas)Blastn
: Pesquise bancos de dados de sequências de ácidos nucleicos com sequências de ácidos nucleicos (comumente usados)Blastx
: Pesquise o banco de dados de sequências de proteínas após traduzir a sequência de ácido nucleico em sequência de proteínas por 6 cadeiastblastn:
Use a sequência de proteínas para pesquisar o banco de dados de sequências de ácidos nucleicos, e a sequência de ácidos nucleicos no banco de dados deve ser traduzida em sequências de proteínas por 6 cadeias antes da pesquisa.tblastx
: Pesquise o banco de dados de sequência de ácido nucleico após traduzir a sequência de ácido nucleico em uma sequência de proteína de acordo com 6 cadeias e pesquise a sequência de ácido nucleico no banco de dados após traduzir a sequência de proteína em 6 cadeias . (Para sequências recém-descobertas)- De acordo com o algoritmo de busca :
标准 BLAST
,PSI-BLAST
,PHI-BLAST
etc.
EXPLOSÃO padrão
- Veja o vídeo para mais detalhes : BLAST Search-03 Operação Prática P46
- Resultados BLAST :
Total score
(pontuação da correspondência) eQuery cover
(cobertura) determinam a cor e o comprimento da sequência correspondente, respectivamente .
E value
(Valor esperado): Quanto mais próximo o valor E estiver de zero , mais provável será que a sequência de entrada seja a mesma sequência que a sequência atual .- Os resultados correspondentes são classificados de acordo com o valor E de pequeno a grande . À medida que o valor E aumenta , a razão inversa
Total score
diminui gradualmente, mas o grau de consistência não é completamente inversamente proporcional ao valor E (porque o BLAST não executou uma sequência de pares alinhamento para melhorar a velocidade, sacrificando uma certa Precisão. A concordância na tabela é obtida após a conclusão da pesquisa BLAST e o alinhamento pairwise das 50 sequências encontradas).Ident
PSI-BLAST (Big Net Search)
- Às vezes, uma pesquisa BLAST básica não é suficiente.Por exemplo, você deseja coletar uma enorme família de proteínas por meio de uma sequência de proteínas .Se você executar uma pesquisa básica do BLAST, encontrará apenas as sequências que estão muito próximas da sequência de pesquisa e não encontrará nenhuma outra sequência distante .
PSI-BLAST
(BLAST Iterado por Posição Específica, BLAST Iterado por Posição Específica )
O recurso do PSI-BLAST é usar a matriz de ponderação específica da posição (Matriz de Pontuação Específica à Posição,PSSM
) para pesquisar o banco de dados a cada vez e, em seguida, usar os resultados da pesquisa para reconstruir o PSSM e, em seguida, use o novo O PSSM pesquisa o banco de dados novamente e assim por diante (iteração) até que nenhum novo resultado seja gerado. (encontrar amigos de amigos)- Veja o vídeo para mais detalhes : BLAST SEARCH-04 PSI BLAST P47
- A primeira rodada de resultados da pesquisa é a mesma do BLAST padrão.
- Clique em Ir para a segunda rodada de pesquisa (você pode especificar o primeiro número de colunas para listar os resultados da pesquisa)
PHI-BLAST (pesquisa exata)
-
Veja o vídeo para mais detalhes : BLAST SEARCH-05 PHI-BLAST P48
-
PHI-BLAST
(BLAST iniciado por ocorrência de padrão, BLAST de reconhecimento de padrão ): Uma sequência semelhante à sequência de entrada e em conformidade com um padrão específico pode ser encontrada. -
Por exemplo, o motivo do local de N-glicosilação (motivo do local de N-glicosilação) sempre obedece ao seguinte padrão específico: comece com Asn(N), seguido por qualquer aminoácido exceto Pro§, seguido por Ser(S) ou Thr(T ), seguido por qualquer aminoácido, exceto Pro.
- Pesquisar com expressões regulares:N{P}[ST]{P}
- Um padrão correspondente escrito em expressões regulares: {L}GEx [GAS] [LIVM]x(3,7)
{}
Representa a correspondência de qualquer coisa, exceto dentro de chaves ( exceto... )[]
Representa a correspondência de qualquer conteúdo entre colchetes ( um deles )x
representar qualquer personagemx(3,7)
Representa 3-7 x caracteres- Por exemplo : VGEAAMPRI está em conformidade VGEAAYPRI não está em conformidade
-
Esse padrão de sequência pode representar o local de uma modificação pós-traducional, o local ativo de uma enzima ou o domínio estrutural ou funcional de uma família de proteínas.
-
PHI-BLAST e PSI-BLAST podem ser usados em combinação
Outro BLAST
- Veja o vídeo para mais detalhes : BLAST Search-06 Other BLAST P49
- SmartBLAST : Os resultados da pesquisa condensada incluem as três sequências mais semelhantes no banco de dados para a sequência de entrada e as duas sequências mais semelhantes nas espécies mais bem estudadas que podem mostrar alguma relação evolutiva .
- Ferramentas de pesquisa gratuitas na Internet (use a diferença de horário para escolher diferentes ferramentas BLAST)
Localização | servidor | link do site |
---|---|---|
EUA | NCBI | http://www.ncbi.nlm.nih.gov/BLAST |
Europa | ExPASy | http://web.expasy.org/blast |
Europa | Uniprot | http://www.uniprot.org/blast/ |
Japão | DDBJ | http://blast.ddbj.nig.ac.jp |
WU-BLAST
WU significa Universidade de Washington. É mais sensível que o NCBI-BLAST e mais flexível no algoritmo de inserção de gaps.- Smith e Waterman (
SSEARCH
): Um pouco mais lento, mas mais preciso que o BLAST . FASTA
: Um pouco lento, mas mais preciso que o BLAST para comparação de sequências de DNA .BLAT
: Usado para pesquisar pequenas sequências (como cDNA, etc.) em grandes genomas.
2.9 Introdução ao Alinhamento de Múltiplas Sequências
Alinhamento Múltiplo de Sequências - Aplicações e Algoritmos
-
O alinhamento múltiplo é um alinhamento global de duas ou mais sequências biológicas.
-
Os principais usos do alinhamento de sequência múltipla :
- Confirmação : Se uma seqüência desconhecida pertence a uma determinada família .
- Estabelecimento : Árvore filogenética , visualiza a relação entre espécies ou sequências.
- Reconhecimento de padrão : Alguns fragmentos de seqüência particularmente conservados geralmente correspondem a regiões funcionais importantes, e esses fragmentos conservados podem ser encontrados por meio de alinhamento de seqüência múltipla .
- Empurre o desconhecido do conhecido : faça um modelo de fragmentos de sequência conhecidos por terem funções especiais por meio de vários alinhamentos de sequência e, em seguida, especule se os fragmentos de sequência desconhecidos também têm essa função com base no modelo .
- Outros: prever a estrutura secundária da proteína/RNA , etc.
-
Algoritmos para Alinhamento de Múltiplas Sequências : Todas as ferramentas atuais de alinhamento de múltiplas sequências não são perfeitas e todas usam um algoritmo aproximado. (Observe a tendência e a posição geral por meio do alinhamento de várias sequências, sacrificando a precisão)
-
Notas sobre o alinhamento de múltiplas sequências :
- Muitas sequências não aguentam. Geralmente 10-15 sequências, de preferência não mais do que 50 sequências.
- Sequências muito distantes não podem ser toleradas. Para um grupo de sequências cuja similaridade de sequência entre dois pares é inferior a 30% , será problemático realizar o alinhamento de múltiplas sequências.
- Sequências muito próximas não podem ser toleradas. Para sequências com similaridade de sequência maior que 90% , não importa quantas sejam, é igual a apenas uma.
- Sequências curtas não aguentam. O alinhamento de várias sequências suporta um conjunto de sequências com aproximadamente o mesmo comprimento , e sequências individuais muito curtas são causadoras de problemas.
- Sequências com domínios repetidos não são toleradas. A maioria dos programas de alinhamento de múltiplas seqüências irá falhar ou até travar se as seqüências contiverem domínios repetitivos .
-
Existem várias sugestões para o nome da sequência :
- Não coloque " espaço " no nome , use "_" ao invés de "espaço".
- Não use caracteres especiais (como chinês, @, #, &, ^, etc.).
- O primeiro nome não deve exceder 15 caracteres de comprimento .
- Em um conjunto de sequências, não tenha sequências com o mesmo nome .
- Se você não nomeá-lo de acordo com os pontos acima, a ferramenta de alinhamento de sequência múltipla modificará o nome da sequência sem notificá-lo .
2.10 Ferramenta Online de Alinhamento de Múltiplas Sequências
-
A ferramenta de alinhamento de sequência múltipla mais comumente usada da Clustal
-
Uma das mais recentes ferramentas de alinhamento de múltiplas sequências do TCOFFEE
-
Uma das ferramentas de alinhamento de múltiplas sequências mais rápidas do MUSCLE
-
Alguns sites que fornecem vários alinhamentos de sequência online
Nome do site | localização do servidor | link do site |
---|---|---|
EBI | Clustal-Omega | http://www.ebi.ac.uk/Tools/msa/clustalo/ |
Expasy | Clustal W | http://www.ch.embnet.org/software/ClustalW.html |
Sf-Clustal | Clustal O/W2 | http://www.clustal.org/ (somente download) |
EBI | café | http://www.ebi.ac.uk/Tools/msa/toffee |
TCC FFEE | café | http://www.fofee.org/ |
EBI | Músculo | http://www.ebi.ac.uk/Tools/msa/muscle/ |
MÚSCULO | Músculo | http://www.drive5.com/muscle/ (somente download) |
EMBL
-
Veja o vídeo para mais detalhes : Online Multiple Sequence Alignment Tool-01 EMBL P52
-
ORDER
A entrada de sequência criada automaticamente durante o alinhamento alinhado gera os resultados na sequência original da sequência de entrada
-
Download Alignment File
-
Show Colors
Vermelho: Hidrofóbico (vermelho)
Azul: Ácido (azul)
Magenta: Básico (magenta)
Verde: Hidroxil+amina+básico (verde)
Cinza: Outros (cinza)
-
No final de cada linha de resultados de comparação, há marcas pontilhadas,As regiões densamente marcadas são as regiões conservadas entre essas sequências。
símbolo significado * Uma coluna que é completamente conservada, ou seja, os resíduos desta coluna são idênticos . : Os resíduos nesta linha têm tamanho molecular aproximadamente semelhante e a mesma hidrofilicidade e hidrofobicidade, ou seja, os resíduos nesta linha são iguais ou semelhantes . · Durante a evolução, o tamanho molecular e a hidrofilicidade e hidrofobicidade dos resíduos são preservados até certo ponto, mas ocorrem substituições entre resíduos diferentes. ( semelhantes e diferentes ) (em branco) Uma coluna que não é nada conservadora ( nada semelhante ).
Result Summary
Phylogenetic Tree
NOTA: Esta não é uma verdadeira árvore filogenética .
- Para obter uma árvore filogenética,
Alignments
envie os resultados da comparação para um software especializado em árvores filogenéticasSend to ClustalW2_Phylogeny
em formato .
café
-
Veja o vídeo para mais detalhes : Online Multiple Sequence Alignment Tool-02 Tcoffee P53
-
Tcoffee http://tcoffee.crg.cat
é uma ferramenta de alinhamento de múltiplas sequências, seu algoritmo é semelhante ao da série Clustal, sua precisão é um pouco maior que a da série Clustal , mas seu tempo de cálculo também é um pouco maior que o da série Série Clustal. -
Tcoffee está disponível online em muitos sites
SIB http://tcoffee.vital-it.ch
EBI http://www.ebi.ac.uk/Tools/msa/tcoffee
CNRS http://www.igs.cnrs-mrs . fr/Tcoffec/tcoffee_cgi/index.cgi
Max-Planck http://toolkit.tucebingen.mpg.dc/t_coffec
CBSU http://cbsuapps.tc.cornell.edu/t_coffec.aspx
EMBnet http://www.es . embnet.org/Scrvices/MolBio/t-coffee -
Protein
Alinhamentos estruturais (Expresso): Vários alinhamentos de sequência que adicionam informações estruturais às sequências.
Combine alinhadores populares (M-Coffee): Combine os resultados de várias ferramentas de alinhamento em uma.
Proteínas transmembrana (PSI/TM-Coffee): Um alinhamento de sequência múltipla projetado para proteínas transmembrana .
Extensão de homologia (PSI-Coffee): Um alinhamento de sequência múltipla projetado para sequências distantes .
-
Expresso : Um alinhamento de seqüência múltipla que adiciona informações estruturais às seqüências .
Quanto menos informações fornecidas, maior o tempo de comparação, é necessário deixar um e-mail e aguardar os resultados.
A cor do resultado da comparação representa a qualidade do resultado da comparação, vermelho, amarelo, verde e azul, piorando gradativamente.
Formato para salvar vários alinhamentos de sequência
- Veja o vídeo para mais detalhes : Online Multiple Sequence Alignment Tool-03 Multiple Sequence Alignment Storage Format P54
- Múltiplos formatos de armazenamento : formato de página da web , formato clustal (alinhamento de várias sequências), formato fasta (escreva um e depois escreva o próximo), formato phylip (para construção de árvores)
- Se não houver nenhum formato que eu queira no formato de saída da ferramenta de comparação, você pode usar software de terceiros para conversão de formato , como:
fmtseq : http://evol.mcmaster.ca/Pise/5.a/fmtseq. htmlhttp
: https://www.bioinformatics.org/JaMBW/1/2
2.11 Edição e Publicação de Múltiplos Alinhamentos de Sequência
- Para exibir os resultados do alinhamento de múltiplas seqüências em cores e editá-los manualmente , um editor de resultados de alinhamento de múltiplas seqüências foi desenvolvido .
- Jalview é um editor particularmente comumente usado. http://www.jalview.org
- Veja o vídeo para detalhes : Edição e Publicação de Múltiplos Alinhamentos de Sequência-01-02 Jalview P55-56
- Inicie rapidamente o JalView a partir dos resultados de alinhamento de múltiplas sequências EMBL . Mas o Jalview com início rápido não é totalmente funcional !
- Baixe para instalação local (precisa de java)
- Importar arquivo clustal de resultado de alinhamento de várias sequências
- Esquema de cores comum da série Clustal
- Reparar defeitos locais : ajuste manual para local
- Quebra automática, definir fonte
- Ativar/desativar linhas de comentários
Função de análise básica
- Veja o vídeo para mais detalhes : Editando e Publicando Múltiplos Alinhamentos de Sequência-02 Jalview P56
- Classificando de acordo com várias regras e fazendo um alinhamento global de pares de sequências para qualquer par de sequências
- Crie uma árvore filogenética para um conjunto selecionado de sequências
- Prever a estrutura secundária de uma sequência de proteínas
- Salve o alinhamento da sequência como uma imagem
- Ferramenta de Embelezamento de Alinhamento de Múltiplas Sequências
nome | url | características |
---|---|---|
JalViewGenericName | http://www.jalview.org | JAVA, incorporável em páginas da web |
sombra da caixa | http://www.ch.embnet.org/software/BoX_form.html | Bom em desenho preto e branco |
ESPrit | http://lespript.ibcp.fr/ESPript/ESPript | Poderoso, impressionante |
MView | http://bio-mview.sourceforge.net | Bom em converter para código-fonte HTML |
2.12 Encontrando Regiões Conservadas
Mapa de ID de sequência
- Veja o vídeo para mais detalhes : Encontrando Regiões Conservadas-01 P57
- O logotipo da sequência (logotipo da sequência) é uma forma gráfica de desenhar sequencialmente os resíduos que aparecem em cada posição no alinhamento da sequência. O acúmulo de resíduos em cada posição reflete a identidade dos resíduos naquela posição . O tamanho do glifo correspondente a cada resíduo é proporcional à freqüência de ocorrência do resíduo naquela posição . masO tamanho do caractere gráfico não é igual à porcentagem de frequência(Caso contrário, cada coluna deve ter a mesma altura), mas o resultado da transformação após cálculo estatístico simples.
- O tamanho do caractere gráfico não é igual à porcentagem de frequência, caso contrário, a altura total de cada coluna de letras deve ser a mesma, porque o valor da entropia está envolvido no cálculo da altura da letra, quanto mais caótica for uma coluna de letras, maior será o valor da entropia e menores serão as letras; quanto mais regular, menor o valor da entropia e mais curtas as letras high .
WebLogo 3
- Um software popular para criar diagramas de logotipo de sequência: WebLogo 3 http://weblogo.threeplusone.com/
- Crie um WebLogo , como inserir várias sequências de promotores
Motivo de sequência: MEME
- Veja o vídeo para mais detalhes : Encontrando Regiões Conservadas-02 MEME P58
- Existem fragmentos de sequência com padrões específicos em sequências de ácidos nucleicos/proteínas , e esses fragmentos são chamados de motivos de sequência (
motif
). Motivos de sequência estão intimamente relacionados com funções biológicas. - O MEME é um software que pode descobrir automaticamente motivos de seqüência de um conjunto de DNA relacionado ou seqüências de proteínas . http://meme-suite.org
- Carregue a sequência original , sem necessidade de fazer várias comparações de sequência com antecedência
- Vários formatos para retornar resultados
- Clique
more
na seta abaixo↓
para ver o logotipo da sequência ampliada para obter informações específicas do motivo
- A seta à direita
→
pode enviar o motivo para outro software ou banco de dados para pesquisa de similaridade de sequência com base no motivo .
banco de dados de impressão digital PRINTS
-
Veja o vídeo para mais detalhes : Encontrando Regiões Conservadas-03 IMPRESSÕES P59
-
Uma impressão digital de proteína (Prints) é um conjunto de motivos de sequência conservados usados para caracterizar as características de famílias de proteínas . Esses motivos são obtidos a partir de resultados de alinhamento de múltiplas sequências, e eles não são adjacentes na sequência de aminoácidos, mas na estrutura tridimensional, eles podem ser intimamente combinados.
-
PRINTS http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/ é um banco de dados de impressões digitais de sequências de proteínas , que armazena as impressões digitais da maioria das famílias de proteínas que foram descobertas até agora. Para uma proteína desconhecida, simplesmente observar se sua sequência se encaixa em um mapa familiar pode classificá-la e prever sua função .
-
Direct PRINTS access
: Existem muitas maneiras de encontrar a impressão digital da proteína
-
TRANSFERRIN
Informações de impressão digital
-
View alignment
Visualize os vários alinhamentos de sequência usados para criar a impressão digital
-
View Structure
Tomando como exemplo a estrutura de uma determinada proteína da família, a posição do motivo na estrutura tridimensional é exibida online! [Insira a descrição da imagem aqui](https://img-blog.csdnimg.cn/382c942eed77489e85d7994241b2d8c7.png#pic_center=600x)
-
-
PRINTS search
FPScan
Correspondência de impressão digital : procure por impressões digitais que correspondam a uma sequência