[Notas de estudo] Comparação de sequências de Bioinformática-02 da Universidade de Shandong

Endereço do Curso : Bioinformática, Shandong University


2. Comparação de sequência

2.1 Entendendo a sequência

sequência é uma string string.

Formato FASTA:
primeira linha: sinal de maior que mais nome ou outros comentários
Após a segunda linha: 60 letras por linha (também são 80, não necessariamente)

2.2 Semelhança de sequência

  • Sequência semelhante → estrutura semelhante → função semelhante

  • Prevê a estrutura e função de proteínas de estrutura e função desconhecidas

  • Identidade e similaridade de sequência :

    Consistência (identidade): Se duas sequências tiverem o mesmo comprimento, sua identidade é definida como a porcentagem do número de resíduos idênticos em suas posições correspondentes ao comprimento total.

    Semelhança : Se duas sequências têm o mesmo comprimento, sua similaridade é definida como o número de resíduos semelhantes e idênticos em suas posições correspondentes e a porcentagem do comprimento total.

    A relação quantificada de semelhança de pares de resíduos é definida por uma matriz de pontuação de substituição .

2.3 Matriz de pontuação de substituição

Matriz de pontuação de substituição (matriz de substituição): Uma matriz que reflete a taxa de substituição mútua entre resíduos , que descreve a relação quantitativa entre resíduos semelhantes entre si. Dividido em matriz de pontuação de substituição de DNA e matriz de pontuação de substituição de proteína.

3 comunsseqüência de dnaA matriz de pontuação de substituição para

  • Matriz de equivalência (matriz unitária): A matriz de pontuação de substituição mais simples, onde a pontuação correspondente entre os mesmos1 nucleotídeos é , e a pontuação de substituição entre diferentes0 nucleotídeos é . Como não contém informações físicas e químicas de bases e não trata diferentes substituições de maneira diferente, raramente é usado na comparação real de sequências .
  • Matriz de transição-transversão (matriz de transição-transversão): As bases dos ácidos nucléicos são divididas em dois tipos de acordo com as características da estrutura do anel, uma é purina (A/G) com dois anéis; a outra é pirimidina (C/T), com apenas um anel. Se a substituição das bases do DNA mantiver o número do loop constante , é uma transição , se o número do loop mudar , é uma transversão . Durante a evolução,As transições ocorrem com muito mais frequência do que as transversões. Para refletir isso, geralmente a pontuação para transições nesta matriz é -1, e a pontuação para transversões é -5.
  • Matriz BLAST : Após um grande número de comparações reais, verifica-se que, se os dois nucleotídeos comparados tiverema mesma pontuação e vice-versa , o efeito da comparação é melhor. Esta matriz é amplamente utilizada para comparação de sequências de DNA .+5-4
    insira a descrição da imagem aqui

3 comunsproteínaMatriz de pontuação de substituição para sequências

  • Matriz de equivalência (matriz unitária): Igual à matriz de equivalência de DNA, a pontuação correspondente entre os mesmos aminoácidos é 1. As substituições entre diferentes aminoácidos foram pontuadas como 0. Raramente é usado no alinhamento de sequência real.

  • Matriz PAM (Dayhoff Mutation Data Matrix): A matriz PAM é baseada em princípios evolutivos. Se duas substituições de aminoácidos são freqüentes , indicando que a natureza é fácil de aceitar tais substituições, então este par de substituições de aminoácidos deve pontuar alto . A matriz PAM é atualmente um dos métodos de pontuação mais utilizados na comparação de sequências de proteínas. A matriz PAM-1 básica reflete o valor de uma mutação por cem aminoácidos produzidos pela evolução (obtida por métodos estatísticos). O PAM-1 é multiplicado por ele mesmo por n vezes, e o PAM-n pode ser obtido, ou seja, mais mutações ocorreram . ( Escolha uma matriz PAM adequada de acordo com a relação próxima entre as sequências a serem comparadas. Se a relação próxima for distante , ou seja, houver muitas mutações , maior é n, caso contrário, menor é n. )
    Matriz PAM-250: O valor na diagonal é a pontuação do aminoácido correspondente; em outras posições, uma pontuação ≥0 significa que o par de aminoácidos correspondente é um aminoácido semelhante .
    insira a descrição da imagem aqui

  • Matriz BLOSUM (matriz de substituição de blocos): A matriz BLOSUM obtém os elementos da matriz através de sequências com relacionamentos distantes. A matriz PAM-1 é calculada com base no alinhamento de sequências com alta similaridade (>85%), e aquelas matrizes com longa distância evolutiva, como PAM-250, são obtidas multiplicando PAM-1 por ele mesmo. Ou seja, a similaridade da matriz BLOSUM égerada com base em dados reais , enquanto a matriz PAM é extrapolada por meio da automultiplicação da matriz . Assim como a matriz PAM, a matriz BLOSUM também possui números diferentes, comoBLOSUM-80indicar que a matriz é calculada a partir de sequências com grau de consistência ≥ 80% . Da mesma forma,significa que a matrizé calculada a partir de sequências com grau de consistência ≥ 62% . BLOSUM-62
    BLOSUM-62: O valor na diagonal é a pontuação do aminoácido correspondente ; em outras posições, uma pontuação ≥0 significa que o par de aminoácidos correspondente é um aminoácido semelhante .
    insira a descrição da imagem aqui

P1: Escolher PAM-1 ou PAM-250?

insira a descrição da imagem aqui

Q2: Escolha PAM-?

insira a descrição da imagem aqui

  • Para a comparação entre sequências distantes , como o PAM-250 é calculado , sua precisão é limitada e o BLOSUM-45 apresenta mais vantagens .
  • Para a comparação entre sequências intimamente relacionadas , há pouca diferença nos resultados de alinhamento feitos com a matriz PAM ou BLOSUM .
  • Mais comumente usado : BLOSUM-62

★ 2 outros tiposproteínaMatriz de Pontuação de Substituição para Alinhamento de Sequência

  • Matriz de código genético (genetic code matrix, GCM): a matriz de código genético é calculada porobtido pelo número de mudanças de códon necessárias para converter um aminoácido em outro, o valor da matriz corresponde ao preço pago correspondentemente .
    ◆ Se a alteração de uma base pode alterar o códon de um aminoácido para outro aminoácido, o custo de substituição desses dois aminoácidos é 1;
    ◆ Se duas bases precisam ser alteradas, o custo de substituição é 2;
    ◆ Então Por exemplo, se os três os códons de Met para Tyr precisam ser alterados, o custo é de 3.
    ◆ A matriz do código genético é frequentemente usada para calcular a distância evolutiva , e sua vantagem é que o resultado do cálculo pode ser usado diretamente para desenhar a árvore evolutiva , mas raramente é usado no alinhamento da sequência de proteínas (especialmente o alinhamento da sequência de proteínas com baixo grau de similaridade) .
    insira a descrição da imagem aqui

  • Matriz hidrofóbica : Obtém-se uma matriz de pontuação de acordo com a alteração da hidrofobicidade antes e depois da substituição dos resíduos de aminoácidos . Se as propriedades hidrofóbicas de uma substituição de aminoácido não mudam muito , a pontuação da substituição é alta , caso contrário, a pontuação da substituição é baixa.
    insira a descrição da imagem aqui

2.4 Comparação par a par de sequências: método dos pontos

insira a descrição da imagem aqui

  • Método ponto : o mesmo ponto.
  • Diagonais consecutivas , paralelos a diagonais , representam a mesma região em ambas as sequências.
    insira a descrição da imagem aqui
  • Pode usarUma sequência gerencia a si mesma, para que fragmentos repetidos na sequência possam ser encontrados . Essa matriz pontilhada deve ser simétrica e ter uma diagonal principal. Na direção horizontal ou vertical, o segmento de sequência correspondente à linha paralela curta paralela à diagonal principal é a parte repetida ; o número de ocorrências da linha paralela incluindo a diagonal principal é o número de repetições .
    insira a descrição da imagem aqui
  • Descubra repetições em tandem ( tandem repeat):
    como Seq1: FASABCABCABCTHE
    repetir vezes: Dentro da meia diagonal , o número de todas as linhas paralelas equidistantes incluindo a diagonal principal .
    repetir unidade: A seqüência correspondente à linha paralela mais curta .
    A repetição em tandem curta (short tandem repeat, STR) também é chamada de DNA microssatélite , que é um tipo de repetição em tandem de DNA amplamente presente em genomas eucarióticos. Consiste em uma seqüência central de 2-6bp , e o número de repetições é geralmente de 15 a 30 vezes . O STR é altamente polimórfico, ou seja, existem diferenças individuais no número de repetições , e essa diferença geralmente segue a lei mendeliana de herança codominante no processo de herança genética , por isso é amplamente utilizado nos campos de identificação individual forense e teste de paternidade.
    insira a descrição da imagem aqui
  • Ferramenta de gerenciamento on-line Dotlet : Dotlet precisa instalar o java.
    Veja o vídeo para mais detalhes : Comparação par a par de sequências: método de ponto-02 P34
    insira a descrição da imagem aqui

2.5 Comparação par a par de sequências: método de alinhamento de sequência (quantitativo)

  • Alinhamento de sequência ( alignment), também chamado de alinhamento, alinhamento, alinhamento, etc. Um algoritmo específico é usado para encontrar o esquema de inserção de espaço e permutação de sequência que produz a maior pontuação de similaridade entre duas ou mais sequências.
  • Comparação das sequências s e t : Organize as duas sequências de s e t para cima e para baixo, insira espaços ( espaços , gap) em determinadas posições e, em seguida, compare a correspondência de caracteres em cada posição por vez, para descobrir o arranjo e a inserção de espaços nos quais as duas sequências produzem o escore máximo de similaridade.
    insira a descrição da imagem aqui

Alinhamento e Algoritmos Pairwise

  • alinhamento global(alinhamento global): Usado para comparar duas sequências de comprimento semelhante . Algoritmo de Needlernan-Wunsch Em 1970, Saul Needleman e Christian Wunsch aplicaram pela primeira vez o algoritmo de programação dinâmica para o alinhamento global de duas sequências, que mais tarde foi chamado de algoritmo de Needleman-Wunsch.
    Veja o vídeo para mais detalhes : Comparação par a par de sequências: Sequence Alignment-02 Global Alignment P37
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui
  • alinhamento local(alinhamento local): usado para comparar duas sequências , uma longa e uma curta . Em 1981, Temple Smith e Michael Waterman realizaram pesquisas sobre alinhamento local e produziram o algoritmo Smith-Waterman.
    Veja o vídeo para mais detalhes : Comparação par a par de sequências: Sequence Alignment-03 Local Alignment P38
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui

2.6 Consistência e Semelhança

  • Se duas sequênciaso mesmo comprimento:
    Identidade (identidade) = (número de caracteres consistentes/ comprimento de comparação global ) × 100%
    de similaridade (semelhança) = (número de caracteres consistentes e semelhantes/comprimento de comparação global) × 100%
    insira a descrição da imagem aqui
  • Se duas sequênciascomprimento diferente:
    Identidade (identidade) = (número de caracteres consistentes/comprimento de comparação global) × 100%
    de semelhança (semelhança) = (número de caracteres consistentes e semelhantes/comprimento de comparação global) × 100%
    insira a descrição da imagem aqui
  • Independentemente de o comprimento das duas sequências ser o mesmo, um alinhamento global das duas sequências deve ser realizado primeiro e, em seguida, seu grau de identidade e semelhança é calculado com base nos resultados do alinhamento e no comprimento do alinhamento.

2.7 Ferramenta online de alinhamento de sequência dupla

Ferramenta global de alinhamento de sequência pareada EMBL

  • Para obter detalhes, consulte o vídeo : Ferramenta de alinhamento de sequência de pares on-line-01 P40
    Para obter detalhes, consulte o vídeo : Ferramenta de alinhamento de sequência de pares on-line-02 Tipo de lacuna e configuração de pontuação P41

  • EMBL → Alinhamento Global → Agulha → inserir/carregar 2 sequências a serem alinhadas
    insira a descrição da imagem aqui

  • Configurações de parâmetros Mais opções :

    • MATRIX: Selecione BLOSUM-62 por padrão ou selecione por parentesco.
    • GAP OPEN: O valor da penalidade quando ocorre a primeira vaga, o padrão é maior que a penalidade do GAP EXTEND.
    • GAP EXTEND: O valor da penalidade quando há vários intervalos consecutivos (exceto o primeiro intervalo), a penalidade padrão é menor que GAP OPEN.
    • Quando a penalidade do GAP OPEN é maior que a do GAP EXTEND , as vagas são concentradas , e o custo de abertura da primeira vaga é alto, mas vagas contínuas são estimuladas.
      Caso : Sabe-se que a maioria das duas sequências são semelhantes, e a região funcional de uma sequência está ausente na outra sequência. É necessário descobrir a região funcional ausente por meio da comparação de sequências e selecionar a vacância concentrada .
    • A penalidade do GAP OPEN é menor as vagas são dispersas e o custo das vagas contínuas é alto, portanto vagas curtas são incentivadas.
      Caso : Comparando sequências homólogas, sabe-se que as duas sequências são muito semelhantes, têm estruturas e funções semelhantes e selecionam lacunas dispersas .
    • Se o resultado não for o esperado , basta manter os parâmetros padrão .
    • END GAP PENALTY: A penalidade no final do GAP, o padrão é falso.
      insira a descrição da imagem aqui
      insira a descrição da imagem aqui

Ferramenta de alinhamento emparelhado local EMBL

  • Veja o vídeo para mais detalhes : Online Dual Sequence Alignment Tool-03 P42
  • EMBL → Alinhamento Local → Água → Inserir/Carregar 2 sequências a serem alinhadas → Enviar
  • A parte que não corresponde (vermelho) em ambas as extremidades da sequência 1 é diretamente ignorada no resultado da comparação; a parte que é adicionada no final da
    sequência 2 também é diretamente ignorada
    insira a descrição da imagem aqui
  • Alinhamento global vs. alinhamento local:
    insira a descrição da imagem aqui
  • Outras ferramentas online de alinhamento pairwise
nome do software tipo de comparação
EMBL Global/Local
PIR Global
Lalign Global/Local
LAGÃ Global
AlignMe Alinhamento de Proteínas de Membrana
MCALIGN Alinhamento de sequências de DNA não codificantes
bioferramentas Global/Local

2.8 Pesquisa BLAST

  • O BLAST (Basic Local Alignment Search Tool) é o programa de pesquisa de banco de dados mais usado atualmente.
  • O objetivo do BLAST são os pares de fragmentos . O chamado par de fragmentos refere-se a um par de subsequências em duas sequências dadas, que são iguais em comprimento e podem formar uma correspondência completa sem lacunas.
  • O princípio básico do BLAST : BLAST primeiro encontra todos os pares de fragmentos de sequência cujo grau de correspondência excede um certo limite entre a sequência de detecção e a sequência alvo e, em seguida, estende os pares de fragmentos de acordo com um determinado limite de similaridade para obter um certo comprimento de fragmentos de similaridade e, finalmente, gera pares de alta pontuação (HSPs). O BLAST modificado permite a inserção de lacunas.
    insira a descrição da imagem aqui

Tipos de BLAST

  • BLAST é na verdade um termo geral para um grupo de ferramentas integradas. Ele não só pode ser usado para pesquisar diretamente bancos de dados de sequências de proteínas e bancos de dados de sequências de ácidos nucleicos, mas também pode traduzir as sequências de ácidos nucleicos pesquisadas em sequências de proteínas e depois pesquisar, ou vice-versa versa, para melhorar a eficiência da pesquisa.
    insira a descrição da imagem aqui
  • Blastp: Pesquise bancos de dados de sequências de proteínas com sequências de proteínas (comumente usadas)
  • Blastn: Pesquise bancos de dados de sequências de ácidos nucleicos com sequências de ácidos nucleicos (comumente usados)
  • Blastx: Pesquise o banco de dados de sequências de proteínas após traduzir a sequência de ácido nucleico em sequência de proteínas por 6 cadeias
  • tblastn:Use a sequência de proteínas para pesquisar o banco de dados de sequências de ácidos nucleicos, e a sequência de ácidos nucleicos no banco de dados deve ser traduzida em sequências de proteínas por 6 cadeias antes da pesquisa.
  • tblastx: Pesquise o banco de dados de sequência de ácido nucleico após traduzir a sequência de ácido nucleico em uma sequência de proteína de acordo com 6 cadeias e pesquise a sequência de ácido nucleico no banco de dados após traduzir a sequência de proteína em 6 cadeias . (Para sequências recém-descobertas
  • De acordo com o algoritmo de busca : 标准 BLAST, PSI-BLAST, PHI-BLASTetc.

EXPLOSÃO padrão

  • Veja o vídeo para mais detalhes : BLAST Search-03 Operação Prática P46
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui
  • Resultados BLAST :
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui
  • Total score(pontuação da correspondência) e Query cover(cobertura) determinam a cor e o comprimento da sequência correspondente, respectivamente .
    insira a descrição da imagem aqui
  • E value(Valor esperado): Quanto mais próximo o valor E estiver de zero , mais provável será que a sequência de entrada seja a mesma sequência que a sequência atual .
  • Os resultados correspondentes são classificados de acordo com o valor E de pequeno a grande . À medida que o valor E aumenta , a razão inversaTotal score diminui gradualmente, mas o grau de consistência não é completamente inversamente proporcional ao valor E (porque o BLAST não executou uma sequência de pares alinhamento para melhorar a velocidade, sacrificando uma certa Precisão. A concordância na tabela é obtida após a conclusão da pesquisa BLAST e o alinhamento pairwise das 50 sequências encontradas).Ident
    insira a descrição da imagem aqui

PSI-BLAST (Big Net Search)

  • Às vezes, uma pesquisa BLAST básica não é suficiente.Por exemplo, você deseja coletar uma enorme família de proteínas por meio de uma sequência de proteínas .Se você executar uma pesquisa básica do BLAST, encontrará apenas as sequências que estão muito próximas da sequência de pesquisa e não encontrará nenhuma outra sequência distante .
  • PSI-BLAST(BLAST Iterado por Posição Específica, BLAST Iterado por Posição Específica )
    O recurso do PSI-BLAST é usar a matriz de ponderação específica da posição (Matriz de Pontuação Específica à Posição, PSSM) para pesquisar o banco de dados a cada vez e, em seguida, usar os resultados da pesquisa para reconstruir o PSSM e, em seguida, use o novo O PSSM pesquisa o banco de dados novamente e assim por diante (iteração) até que nenhum novo resultado seja gerado. (encontrar amigos de amigos
  • Veja o vídeo para mais detalhes : BLAST SEARCH-04 PSI BLAST P47
  • A primeira rodada de resultados da pesquisa é a mesma do BLAST padrão.
    insira a descrição da imagem aqui
  • Clique em Ir para a segunda rodada de pesquisa (você pode especificar o primeiro número de colunas para listar os resultados da pesquisa)
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui

PHI-BLAST (pesquisa exata)

  • Veja o vídeo para mais detalhes : BLAST SEARCH-05 PHI-BLAST P48

  • PHI-BLAST(BLAST iniciado por ocorrência de padrão, BLAST de reconhecimento de padrão ): Uma sequência semelhante à sequência de entrada e em conformidade com um padrão específico pode ser encontrada.

  • Por exemplo, o motivo do local de N-glicosilação (motivo do local de N-glicosilação) sempre obedece ao seguinte padrão específico: comece com Asn(N), seguido por qualquer aminoácido exceto Pro§, seguido por Ser(S) ou Thr(T ), seguido por qualquer aminoácido, exceto Pro.

    • Pesquisar com expressões regulares:N{P}[ST]{P}
    • Um padrão correspondente escrito em expressões regulares: {L}GEx [GAS] [LIVM]x(3,7)
    • {}Representa a correspondência de qualquer coisa, exceto dentro de chaves ( exceto... )
    • []Representa a correspondência de qualquer conteúdo entre colchetes ( um deles )
    • xrepresentar qualquer personagem
    • x(3,7)Representa 3-7 x caracteres
    • Por exemplo : VGEAAMPRI está em conformidade VGEAAYPRI não está em conformidade
  • Esse padrão de sequência pode representar o local de uma modificação pós-traducional, o local ativo de uma enzima ou o domínio estrutural ou funcional de uma família de proteínas.
    insira a descrição da imagem aqui

  • PHI-BLAST e PSI-BLAST podem ser usados ​​em combinação
    insira a descrição da imagem aqui

Outro BLAST

  • Veja o vídeo para mais detalhes : BLAST Search-06 Other BLAST P49
    insira a descrição da imagem aqui
  • SmartBLAST : Os resultados da pesquisa condensada incluem as três sequências mais semelhantes no banco de dados para a sequência de entrada e as duas sequências mais semelhantes nas espécies mais bem estudadas que podem mostrar alguma relação evolutiva .
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui
  • Ferramentas de pesquisa gratuitas na Internet (use a diferença de horário para escolher diferentes ferramentas BLAST)
Localização servidor link do site
EUA NCBI http://www.ncbi.nlm.nih.gov/BLAST
Europa ExPASy http://web.expasy.org/blast
Europa Uniprot http://www.uniprot.org/blast/
Japão DDBJ http://blast.ddbj.nig.ac.jp
  • WU-BLASTWU significa Universidade de Washington. É mais sensível que o NCBI-BLAST e mais flexível no algoritmo de inserção de gaps.
  • Smith e Waterman ( SSEARCH): Um pouco mais lento, mas mais preciso que o BLAST .
  • FASTA: Um pouco lento, mas mais preciso que o BLAST para comparação de sequências de DNA .
  • BLAT: Usado para pesquisar pequenas sequências (como cDNA, etc.) em grandes genomas.

2.9 Introdução ao Alinhamento de Múltiplas Sequências

Alinhamento Múltiplo de Sequências - Aplicações e Algoritmos

  • O alinhamento múltiplo é um alinhamento global de duas ou mais sequências biológicas.
    insira a descrição da imagem aqui

  • Os principais usos do alinhamento de sequência múltipla :

    1. Confirmação : Se uma seqüência desconhecida pertence a uma determinada família .
    2. Estabelecimento : Árvore filogenética , visualiza a relação entre espécies ou sequências.
    3. Reconhecimento de padrão : Alguns fragmentos de seqüência particularmente conservados geralmente correspondem a regiões funcionais importantes, e esses fragmentos conservados podem ser encontrados por meio de alinhamento de seqüência múltipla .
    4. Empurre o desconhecido do conhecido : faça um modelo de fragmentos de sequência conhecidos por terem funções especiais por meio de vários alinhamentos de sequência e, em seguida, especule se os fragmentos de sequência desconhecidos também têm essa função com base no modelo .
    5. Outros: prever a estrutura secundária da proteína/RNA , etc.
  • Algoritmos para Alinhamento de Múltiplas Sequências : Todas as ferramentas atuais de alinhamento de múltiplas sequências não são perfeitas e todas usam um algoritmo aproximado. (Observe a tendência e a posição geral por meio do alinhamento de várias sequências, sacrificando a precisão)
    insira a descrição da imagem aqui

  • Notas sobre o alinhamento de múltiplas sequências :

    1. Muitas sequências não aguentam. Geralmente 10-15 sequências, de preferência não mais do que 50 sequências.
    2. Sequências muito distantes não podem ser toleradas. Para um grupo de sequências cuja similaridade de sequência entre dois pares é inferior a 30% , será problemático realizar o alinhamento de múltiplas sequências.
    3. Sequências muito próximas não podem ser toleradas. Para sequências com similaridade de sequência maior que 90% , não importa quantas sejam, é igual a apenas uma.
    4. Sequências curtas não aguentam. O alinhamento de várias sequências suporta um conjunto de sequências com aproximadamente o mesmo comprimento , e sequências individuais muito curtas são causadoras de problemas.
    5. Sequências com domínios repetidos não são toleradas. A maioria dos programas de alinhamento de múltiplas seqüências irá falhar ou até travar se as seqüências contiverem domínios repetitivos .
  • Existem várias sugestões para o nome da sequência :

    1. Não coloque " espaço " no nome , use "_" ao invés de "espaço".
    2. Não use caracteres especiais (como chinês, @, #, &, ^, etc.).
    3. O primeiro nome não deve exceder 15 caracteres de comprimento .
    4. Em um conjunto de sequências, não tenha sequências com o mesmo nome .
    5. Se você não nomeá-lo de acordo com os pontos acima, a ferramenta de alinhamento de sequência múltipla modificará o nome da sequência sem notificá-lo .

2.10 Ferramenta Online de Alinhamento de Múltiplas Sequências

  • A ferramenta de alinhamento de sequência múltipla mais comumente usada da Clustal

  • Uma das mais recentes ferramentas de alinhamento de múltiplas sequências do TCOFFEE

  • Uma das ferramentas de alinhamento de múltiplas sequências mais rápidas do MUSCLE

  • Alguns sites que fornecem vários alinhamentos de sequência online

Nome do site localização do servidor link do site
EBI Clustal-Omega http://www.ebi.ac.uk/Tools/msa/clustalo/
Expasy Clustal W http://www.ch.embnet.org/software/ClustalW.html
Sf-Clustal Clustal O/W2 http://www.clustal.org/ (somente download)
EBI café http://www.ebi.ac.uk/Tools/msa/toffee
TCC FFEE café http://www.fofee.org/
EBI Músculo http://www.ebi.ac.uk/Tools/msa/muscle/
MÚSCULO Músculo http://www.drive5.com/muscle/ (somente download)

EMBL

  • Veja o vídeo para mais detalhes : Online Multiple Sequence Alignment Tool-01 EMBL P52

  • ORDER

    A entrada de sequência criada automaticamente durante o alinhamento alinhado gera os resultados na sequência original da sequência de entrada
    insira a descrição da imagem aqui

  • Download Alignment File
    insira a descrição da imagem aqui

  • Show Colors
    Vermelho: Hidrofóbico (vermelho)
    Azul: Ácido (azul)
    Magenta: Básico (magenta)
    Verde: Hidroxil+amina+básico (verde)
    Cinza: Outros (cinza)
    insira a descrição da imagem aqui

  • No final de cada linha de resultados de comparação, há marcas pontilhadas,As regiões densamente marcadas são as regiões conservadas entre essas sequências

    símbolo significado
    * Uma coluna que é completamente conservada, ou seja, os resíduos desta coluna são idênticos .
    : Os resíduos nesta linha têm tamanho molecular aproximadamente semelhante e a mesma hidrofilicidade e hidrofobicidade, ou seja, os resíduos nesta linha são iguais ou semelhantes .
    · Durante a evolução, o tamanho molecular e a hidrofilicidade e hidrofobicidade dos resíduos são preservados até certo ponto, mas ocorrem substituições entre resíduos diferentes. ( semelhantes e diferentes )
    (em branco) Uma coluna que não é nada conservadora ( nada semelhante ).

insira a descrição da imagem aqui

  • Result Summary
    insira a descrição da imagem aqui
  • Phylogenetic TreeNOTA: Esta não é uma verdadeira árvore filogenética .
    insira a descrição da imagem aqui
  • Para obter uma árvore filogenética, Alignmentsenvie os resultados da comparação para um software especializado em árvores filogenéticas Send to ClustalW2_Phylogeny em formato .
    insira a descrição da imagem aqui

café

Formato para salvar vários alinhamentos de sequência


2.11 Edição e Publicação de Múltiplos Alinhamentos de Sequência

  • Para exibir os resultados do alinhamento de múltiplas seqüências em cores e editá-los manualmente , um editor de resultados de alinhamento de múltiplas seqüências foi desenvolvido .
  • Jalview é um editor particularmente comumente usado. http://www.jalview.org
  • Veja o vídeo para detalhes : Edição e Publicação de Múltiplos Alinhamentos de Sequência-01-02 Jalview P55-56
  • Inicie rapidamente o JalView a partir dos resultados de alinhamento de múltiplas sequências EMBL . Mas o Jalview com início rápido não é totalmente funcional !
    insira a descrição da imagem aqui
  • Baixe para instalação local (precisa de java)
    insira a descrição da imagem aqui
  • Importar arquivo clustal de resultado de alinhamento de várias sequências
    insira a descrição da imagem aqui
  • Esquema de cores comum da série Clustal
    insira a descrição da imagem aqui

    insira a descrição da imagem aqui
  • Reparar defeitos locais : ajuste manual para local
    insira a descrição da imagem aqui
  • Quebra automática, definir fonte
    insira a descrição da imagem aqui
  • Ativar/desativar linhas de comentários
    insira a descrição da imagem aqui

Função de análise básica

  1. Classificando de acordo com várias regras e fazendo um alinhamento global de pares de sequências para qualquer par de sequências
    insira a descrição da imagem aqui
  2. Crie uma árvore filogenética para um conjunto selecionado de sequências
    insira a descrição da imagem aqui
  3. Prever a estrutura secundária de uma sequência de proteínas
    insira a descrição da imagem aqui
  4. Salve o alinhamento da sequência como uma imagem
    insira a descrição da imagem aqui
  • Ferramenta de Embelezamento de Alinhamento de Múltiplas Sequências
nome url características
JalViewGenericName http://www.jalview.org JAVA, incorporável em páginas da web
sombra da caixa http://www.ch.embnet.org/software/BoX_form.html Bom em desenho preto e branco
ESPrit http://lespript.ibcp.fr/ESPript/ESPript Poderoso, impressionante
MView http://bio-mview.sourceforge.net Bom em converter para código-fonte HTML

2.12 Encontrando Regiões Conservadas

Mapa de ID de sequência

  • Veja o vídeo para mais detalhes : Encontrando Regiões Conservadas-01 P57
  • O logotipo da sequência (logotipo da sequência) é uma forma gráfica de desenhar sequencialmente os resíduos que aparecem em cada posição no alinhamento da sequência. O acúmulo de resíduos em cada posição reflete a identidade dos resíduos naquela posição . O tamanho do glifo correspondente a cada resíduo é proporcional à freqüência de ocorrência do resíduo naquela posição . masO tamanho do caractere gráfico não é igual à porcentagem de frequência(Caso contrário, cada coluna deve ter a mesma altura), mas o resultado da transformação após cálculo estatístico simples.
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui
  • O tamanho do caractere gráfico não é igual à porcentagem de frequência, caso contrário, a altura total de cada coluna de letras deve ser a mesma, porque o valor da entropia está envolvido no cálculo da altura da letra, quanto mais caótica for uma coluna de letras, maior será o valor da entropia e menores serão as letras; quanto mais regular, menor o valor da entropia e mais curtas as letras high .

WebLogo 3

  • Um software popular para criar diagramas de logotipo de sequência: WebLogo 3 http://weblogo.threeplusone.com/
  • Crie um WebLogo , como inserir várias sequências de promotores
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui

Motivo de sequência: MEME

  • Veja o vídeo para mais detalhes : Encontrando Regiões Conservadas-02 MEME P58
  • Existem fragmentos de sequência com padrões específicos em sequências de ácidos nucleicos/proteínas , e esses fragmentos são chamados de motivos de sequência ( motif). Motivos de sequência estão intimamente relacionados com funções biológicas.
  • O MEME é um software que pode descobrir automaticamente motivos de seqüência de um conjunto de DNA relacionado ou seqüências de proteínas . http://meme-suite.org
  • Carregue a sequência original , sem necessidade de fazer várias comparações de sequência com antecedência
    insira a descrição da imagem aqui
  • Vários formatos para retornar resultados
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui
  • Clique morena seta abaixo para ver o logotipo da sequência ampliada para obter informações específicas do motivo
    insira a descrição da imagem aqui
  • A seta à direita pode enviar o motivo para outro software ou banco de dados para pesquisa de similaridade de sequência com base no motivo .
    insira a descrição da imagem aqui

banco de dados de impressão digital PRINTS

  • Veja o vídeo para mais detalhes : Encontrando Regiões Conservadas-03 IMPRESSÕES P59

  • Uma impressão digital de proteína (Prints) é um conjunto de motivos de sequência conservados usados ​​para caracterizar as características de famílias de proteínas . Esses motivos são obtidos a partir de resultados de alinhamento de múltiplas sequências, e eles não são adjacentes na sequência de aminoácidos, mas na estrutura tridimensional, eles podem ser intimamente combinados.

  • PRINTS http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/ é um banco de dados de impressões digitais de sequências de proteínas , que armazena as impressões digitais da maioria das famílias de proteínas que foram descobertas até agora. Para uma proteína desconhecida, simplesmente observar se sua sequência se encaixa em um mapa familiar pode classificá-la e prever sua função .

  • Direct PRINTS access: Existem muitas maneiras de encontrar a impressão digital da proteína
    insira a descrição da imagem aqui
    insira a descrição da imagem aqui

    • TRANSFERRINInformações de impressão digital
      insira a descrição da imagem aqui

    • View alignmentVisualize os vários alinhamentos de sequência usados ​​para criar a impressão digital
      insira a descrição da imagem aqui

    • View StructureTomando como exemplo a estrutura de uma determinada proteína da família, a posição do motivo na estrutura tridimensional é exibida online! [Insira a descrição da imagem aqui](https://img-blog.csdnimg.cn/382c942eed77489e85d7994241b2d8c7.png#pic_center=600x)

  • PRINTS search

    • FPScan Correspondência de impressão digital : procure por impressões digitais que correspondam a uma sequência
      insira a descrição da imagem aqui
      insira a descrição da imagem aqui
      insira a descrição da imagem aqui
      insira a descrição da imagem aqui
      insira a descrição da imagem aqui

Acho que você gosta

Origin blog.csdn.net/zea408497299/article/details/125103668
Recomendado
Clasificación