Por que a predição gênica em eucariotos é mais difícil do que em procariotos?

O slideshow foi denunciado.

Seu SlideShare está sendo baixado. ×

Por que a predição gênica em eucariotos é mais difícil do que em procariotos?

Por que a predição gênica em eucariotos é mais difícil do que em procariotos?

Professor em School of Agricultural and Veterinary Science, São Paulo State University

Mais Conteúdo rRelacionado

Por que a predição gênica em eucariotos é mais difícil do que em procariotos?
Por que a predição gênica em eucariotos é mais difícil do que em procariotos?

Por que a predição gênica em eucariotos é mais difícil do que em procariotos?
Por que a predição gênica em eucariotos é mais difícil do que em procariotos?

Por que a predição gênica em eucariotos é mais difícil do que em procariotos?
Por que a predição gênica em eucariotos é mais difícil do que em procariotos?

  1. 1. Predição Gênica Daniel Guariz Pinheiro Laboratório de Bioinformática Departamento de Tecnologia Faculdade de Ciências Agrárias e Veterinárias de Jaboticabal (FCAV) Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP)
  2. 2. Tópicos • Introdução à Predição Gênica – Predição gência em procariotos • Prokka – Introdução a Hidden Markov Models (HMMs) – Predição gênica em eucariotos • Augustus • maker2
  3. 3. PREDIÇÃO GÊNICA Bioinformática
  4. 4. Predição Gênica • Após sequenciamento genômico e a montagem do genoma, imediatamente o próximo passo é a identificação dos genes. • Isso implica em encontrar a localização, definir as estruturas de exons e introns e a região codificadora (ORF). – Desafio é realizar essa tarefa com 100% de acurácia somente in silico • Problema de reconhecimento de padrões – Sequências codificadoras nem sempre possuem motivos conservados, – Características sutis, difícies de serem detectadas
  5. 5. Soluções atuais • Características distintas de genes em eucariotos e procariotos – Predição gênica em procariotos têm obtido bastante sucesso – Predição gênica em eucariotos têm resultados apenas satisfatórios • Foco aqui: genes codificadores de proteínas
  6. 6. Categorias • ab-initio – Predição a partir das sequências genômicas • Sinais gênicos – trincas (codons) de início e de parada; – sítios relacionados ao processo de encadeamento de exons; – sítios de ligação de fatores de transcrição; – sítio de ligação de ribossomo; – sinais e sítios de poliadenilação (poly-A); – a estrutura de trincas restringe a região codificadora até a trinca de parada. • Descrição estatística de composição de genes codificadores de proteínas – Modelos de Markov (HMM) • baseada em homologia – Predição a partir de alinhamentos de genes conhecidos. • A correspondência entre sequências (em especial de proteínas) de genes conhecidos (até mesmo de outras espécies) podem ser evidências extremamente úteis para detectar regiões codificadoras. • Sequências de transcritomas (cDNAs sequenciados) podem ser evidências de regiões de exons. – Evidência experimental! • consenso – Utiliza ambas as abordagens, combinando resultados de predições
  7. 7. PREDIÇÃO GÊNICA EM PROCARIOTOS Bioinformática
  8. 8. Estrutura gênica (Procariotos)
  9. 9. Estrutura gênica em Procariotos • Bactérias e Arqueias – Pequenos genomas • 0,5 to 10 Mbp (1Mbp=106 bp). – Alta densidade gênica • > 90% genoma contém sequências codificadoras de proteínas. • Poucas sequências repetitivas; – A ORF em geral não é interrompida (não há presença de introns, ou são muito raros - introns tipo I) – Bactérias, a maioria dos genes têm um start codon ATG (AUG em mRNA) que codifica metionina, ocasionalmente, GTG e TTG podem ser usados alternativamente, porém a Metionina é o aminoácido na primeira posição. • Esses codons podem aparecer no meio da proteína e portanto não devem ser o único indicativo de início da ORF – Shine Delgarno (sítio de ligação do ribossomo) – Há 3 codons de terminação da tradução, porém alguns genes são transcritos em operons (transcritos policistrônicos) – Operons possuem um terminador de transcrição
  10. 10. Início da Tradução (procariotos) • Uma sequência conservada de 6 nucleotídeos, conhecida como sequência de Shine Dalgarno (SD), ou sítio ligador de ribossomo (RBS), ou sítio de reconhecimento de ribossomo (RRS), é sempre encontrada umas poucas bases acima (5') do códon de iniciação (a montante). – Bactérias – Arquéias – Alguns cloroplastos e mitocôndrias • Esta sequência pode parear com algumas bases do rRNA 16S da sub-unidade menor do ribossomo procarioto. A interação entre os dois RNAs é fundamental para a eficiência do início da tradução e ainda oferece uma oportunidade para regular a tradução, por exemplo, através de proteínas que se ligam ao RBS, bloqueando-o. 5′–GGAGGU–3′ Gráfico logos de 149 RBS de E. coli. Tom Schneider, "A Gallery of Sequence Logos".
  11. 11. Terminadores Mecanismo independente de Rô Há a formação de um grampo no RNA nascente que interage com a proteína NusA (fator de elongação da transcrição) e estimula a liberação do complexo de transcrição da RNA polimerase. Mecanismo dependente de Rô A proteína Rô (helicase - separa o híbrido RNA/DNA) reconhece sítio rut (ricos em C), interage com o complexo RNA polimerase para estimular a liberação do transcrito.
  12. 12. Determinação convencional de uma ORF • Tradução nos 6 possíveis quadros de leitura, 3 na orientação direta e 3 na complementar reversa. • Identificação das regiões sugestivas de ORFS, ou seja, que possuem em um dos quadros mais do que 30 codons sem interrupção por stop codons. • start codon e sequência Shine-Delgarno aumentam o poder da predição. • Essa sequência traduzida se possuir correspondência em bancos de dados de proteínas, aumenta ainda mais o valor da predição.
  13. 13. Código Genético Universal - Universalidade: um determinado códon corresponde ao mesmo aminoácido na maioria dos organismos. Existem algumas exceções quando se consideram reinos diferentes de seres vivos e na Mitocôndria.
  14. 14. Exceções Triptofano Isoleucina Metionina Arginina Glicina
  15. 15. Viés de uso de códon • Viés de uso de códon refere-se a diferenças na frequência de ocorrência de códons sinônimos na codificação de DNA – Análises para diferentes organismos • https://hive.biochemistry.gwu.edu/cuts/about
  16. 16. Frequência de Uso do Codon Código Genético Degenerado 64 codons diferentes (3 codons de parada) e 20 aminoácidos; • codons distintos podem codificar o mesmo aminoácido (sinônimos) Humano (Homo sapiens) AAG – 58% AAA – 42% Camungo (Mus musculus) AAG – 61% AAA – 39% Codon Usage bias Diferença na frequência de ocorrência de codons sinônimos Característica Evolutiva: Otimização da tradução em diferentes espécies Relacionado à maquinaria de tradução (pool de tRNAs) Codon Usage para Lisina: Bactéria Sdy (Shigella dysenteriae) AAG – 25% AAA – 75% Bactéria Eco (Escherichia coli) AAG – 26% AAA - 74 %
  17. 17. Codon usage bias (viés no uso de trincas) https://doi.org/10.1038/nrm.2017.91
  18. 18. Abordagens • Avaliação da não aleatoriedade da distribuição de nucleotídeos – Composição de nucleotídeos na terceira posição do codon em uma região codificadora • Dois métodos consistentes (podem ser usados em conjunto) – GC bias (viés na composição de GC) » G/C > A/T (Maior composição de GC) – TESTCODE [GCG package] » Nucleotídeos na terceria posição do codon tendem a se repetir primeiras abordagens
  19. 19. Modelo de Markov (cadeia de Markov) • Teoria das probabilidades – modelo de Markov é um modelo estocástico usado para modelar sistemas que mudam aleatoriamente. • Modelagem de Processos estocásticos: processos não determinísticos, em que há flutuação de estados seguem uma determinada distribuição de probabilidades com relação, em geral, ao tempo. – Cadeias de Markov » Estados discretos » A distribuição de probabilidade do próximo estado depende apenas do estado atual e não na sequência dos que o precederam. • Suposição: os estados futuros dependem apenas do estado atual, não dos eventos que ocorreram antes dele. Cadeia de Markov simples 2 estados (A e E) e as probabilidades associdas à transição de estados
  20. 20. Exemplo prático • Dia ensolarado, chuvoso, nublado
  21. 21. Cadeia de Markov para sequências biológicas • Cada caracter (letra) representando um estado e ligado a outro com uma probabilidade de transição.
  22. 22. Ordem em Modelos de Markov • Um modelo de Markov descreve a probabilidade de uma distribuição de nucleotídeos (ou aminoácidos) em uma sequência, no qual a probabilidade condicional de uma posição particular, depende das k posições anteriores (ordem). • sequence position depends on k previous positions. • zero-order Markov model – A probabilidade de um estado independente do estado anterior; • Descreve uma sequência aleatória, em que cada resíduo ocorre com a mesma frequência; • first-order Markov model – A probabilidade de um estado dependente do estado imediatamente anterior; • Descreve uma sequência com dois resíduos ligados, ocorrendo simultâneamente (ex.: ilhas CpG); • second-order Markov model – A probabilidade de um estado dependente dos dois estados anteriores; • Descreve uma sequência com três resíduos ligados, ocorrendo simultâneamente (ex.: códons); – Em sequências codificadoras de proteínas, a frequência de ocorrência de trímeros únicos deve ser distinta de uma região não codificadora ou mesmo uma sequência aleatória. • higher orders of Markov models – A probabilidade de um estado dependente dos k estados anteriores; – Quanto mais longo é o oligômero (k), menos aleatória é a sequência, mais acurada é a identificação • Descreve uma sequência complexa (ex.: predição gênica)
  23. 23. Preditor Gênico simplificado (procariotos)
  24. 24. Hidden Markov Models • Nos modelos de Markov, todos os estados em uma sequência linear são diretamente observáveis. – Podem haver estados não observáveis que interferem nas transições. – Modelos mais sofisticados: HMMs • Combina dois ou mais cadeias de Markov, com somente uma cadeia consistindo de estados observáveis e outra com estados não observáveis com influência no processo
  25. 25. Exemplo de HMMs • Exemplo: Alinhamento com Gaps – Gaps não correspondem a resíduos observáveis, mas claramente influenciam na transição entre estados observáveis.
  26. 26. Probabilidades • Probabilidade de Transição – Em um HMM, assim como em uma cadeia de Markov, a probabilidade de transitar de um estate a outro (transition probability). • Probabilidade de Emissão – Cada estado pode ser composto por um conjunto de elementos ou símbolos. Sequência de nucleotídeos, há 4 símbolos: A, T, G e C em cada estado. Para aminoácidos, são 20 símbolos. – A probabilidade associada a cada símbolo em cada estado é chamada de probabilidade de emissão (emission probability). • Probabilidade Total – Para o cálculo da probabilidade total de um caminho no modelo, as transições, emissões, das camadas observáveis, assim como das camadas escondidas (“hidden”) devem ser levadas em conta. HMM simples para representar (ou gerar) uma sequência
  27. 27. Predição Gênica e Anotação
  28. 28. PROkaryotic DYnamic programming Gene-finding ALgorithm • Conjunto de genomas curados • Aprendizado das propriedades desses genomas – Uso preferencial de codons – Motivo RBS – Viés no GC – Estatísticas de hexâmeros – … • Utiliza programação dinâmica e um sistema de escore baseado no parâmetros aprendidos com os genes identificados nos genomas curados
  29. 29. PREDIÇÃO GÊNICA EM EUCARIOTOS Bioinformática
  30. 30. Estrutura gênica em Eucariotos • Genomas nucleares são muito maiores que os de procariotos – 10 Mbp a 670 Gbp (1Gbp = 109 bp( – Baixa densidade gênica • Humanos ~3% do genoma codifica genes, com 1 gene a cada 100 kbp em média. • Regiões intergênicas ricas em elementos repetitovos e elementos transponíveis – Gene é estruturado como um mosaico de peças que se combinam chamadas exons e separadas por regiões intragênicas (introns) que não são codificadoras. – Após a transcrição, o transcrito primário sofre processamentos para se obter um RNA maduro • 5' CAP (metilação do resíduo inicial do transcrito - RNA); • Encadeamento de exons (Splicing) - Complexo de RNA-proteínas: Spliceosome; – Podendo ocorrer um encadeamento alternativo de exons - Alternative Splicing; » Diversidade de proteínas a partir de um mesmo gene • Poliadenilação 3' – Adição de ~250 Adeninas na porção 3' do transcrito » Controlado por um sinal de poly-A a partir de um motivo levemente conservado com uma sequência consenso CAATAAA(T/C).
  31. 31. Estrutura do gene (eucarioto)
  32. 32. Predição de genes eucarióticos
  33. 33. Encadeamento de exons (Splicing)
  34. 34. Sítios canônicos de splicing • Podem ser utilizados para delimitação das bordas exon- intron
  35. 35. Modelos estatísticos • Modelos estatísticos implementados para procariotos podem também serem treinados para eucariotos – Composição de nucleotídeos, viés de codons, frequência de hexâmeros, etc. • diferencial com relação às regiões não codificadoras. • Maioria dos vertebrados utilizam a trinca ATG como codon de início de tradução e têm uma sequência conservada chamada de Kozak. • Há uma alta densidade de dinucleotídeos CG próxima ao sítio de início de transcrição, chamadas de ilhas CpG ( o p indica ligação fosfodiéster ), isso contribui para identificação deste sítio
  36. 36. Sítios de reconhecimento (eucariontes) • A decisão pelo uso de um determinado códon AUG fica dependente de sua proximidade com o cap da extremidade 5' do mRNA. – Os nucleotídeos próximos ao AUG funcional também têm influência e uma sequência de consenso em mamíferos já foi identificada (sequência Kozak - 5'- ACCAUGG-3' para o códon de iniciação; • A base A inicial desta sequência parece ser muito importante para o início da síntese protéica). • Se o ribossomo não identificar o primeiro AUG na sequência, ele poderá seguir até o segundo ou o terceiro. Isto produz proteínas diferentes a partir de um único transcrito. em geral com o mesmo quadro de leitura (ver mais adiante o significado desta expressão), mas sem os primeiros aminoácidos. Gráficos logo 954 sequências de mRNA bovino [Harhay et al., 2005] Quanto maior é a entropia das bases em determinada posição, menor é a altura das letras.
  37. 37. Ilhas CpG • Região do genoma com alta frequências de dinucleotídeos CG comparada ao resto do genoma – Possui ao menos 200bp e porcentagem de GC maior que 50% – Frequentemente estão no início de um gene – As Citosinas podem estar metiladas • Regulação da transcrição
  38. 38. HMM para Ilhas CpG
  39. 39. Ferramentas ab-initio • Baseiam-se em características das sequências – sinais gênicos • sítios canônicos de splicing • start e stop codon • sinal de poli-A • ... – conteúdo gênico • Estatística – distribuição não-aleatória de nucleotídeos – frequência de hexâmeros – ... • Exemplos » HMM » Redes Neurais » Análise Discriminante
  40. 40. Predição usando HMM • GENSCAN – http://hollywood.mit.edu/GENSCAN.html – HMM de quinta ordem • Frequência de hexâmeros • sinais gênicos (codons de iniciação, TATA box, sinal poli-A , etc) – Exons putativos ganham um score (P) representando a probabilidade de ser um exon verdadeiro • P > 0,5 como confiável • exons are assigned a probability score (P) of being a – Treinado com sequências de vertebrados, Arabidopsis e milho. • Extensivamente usado para identificação de genes humanos
  41. 41. GENSCAN (Modelo HMM)
  42. 42. GENSCAN
  43. 43. Predição gênica em Eucariotos • http://bioinf.uni-greifswald.de/augustus/
  44. 44. Espécies (Modelos Gênicos)
  45. 45. Predição usando homologia • Baseados no fato de que as estruturas e sequências de exons são altamente conservados entre espécies relacionadas. – Assume que as sequências estão corretas • Sequências de cDNA da mesma espécie ou proteínas da mesma espécie ou e espécies relacionadas • Evidência experimental – Restrições • Necessita de sequências homólogas no banco de dados • Novos genes em novas espécies não podem ser detectadas
  46. 46. Ferramentas que utilizam homologia • GenomeThreader – http://genomethreader.org/ – Baseado em similaridade cDNA/EST e/ou sequências de proteínas – Bayesian Splice Site Models (BSSMs) • GenomeScan – http://hollywood.mit.edu/genomescan.html – Combina resultado do GENSCAN com similaridades usando BLAST – O usuário provê sequência de DNA genômico e proteínas de espécies relacionadas. – O DNA genômico é traduzido nos 6 quadros de leitura para obter as possíveis ORFs e então essas sequências traduzidas são comparadas com as sequências de proteínas. • EST2Genome – http://www.bioinformatics.nl/cgi-bin/emboss/est2genome – Utiliza alinhamentos de sequências de cDNA com DNA genômico para determinar bordas exon-intron – Vantagem: Não necessita treinamento de modelo – Desvantagem: Sequências de fragmentos de cDNA frequentemente contêm erros e introns podem também não terem sido eliminados antes da etapa de transcrição reversa
  47. 47. Utilização de suporte de dados de RNA-Seq • Exemplo – Fgenesh++R • Combina ab-initio (Fgenesh++) e mapeamento de dados RNA-Seq
  48. 48. Mapeamento de dados RNA-Seq
  49. 49. Abordagens Consenso • Utilizam uma combinação de diversas evidências – Abordagens por homologia • Mapeamento de sequências – Proteínas – trechos de sequêncis de cDNA – leituras RNA-Seq – Abordagens ab-initio • Múltiplos programas – HMM – Rede Neural – LDA ou QDA – Coordenadas gênicas
  50. 50. BRAKER2 • BRAKER2 é uma extensão do BRAKER1 o qual permite uma automatização do treinamento de preditores gênicos GeneMark-EX e AUGUSTUS a patir de dados de RNA-Seq e/ou informação de homologia, e capaz de integrar essas evidências na predição.
  51. 51. Ferramenta que utiliza consenso • maker2 – https://www.yandell-lab.org/software/maker.html
  52. 52. Avaliação de Performance • Sensibilidade • Especificidade Sensibilidade alta mas especificadade baixa predição excessiva (overpredict) Sensibilidade baixa mas especificade baixa conservador (conservative) - menor poder de predição
  53. 53. Coeficiente de correlação • Único parâmetro que combina sensibilidade e especificidade para uma medida de acurácia – Variação de -1 a +1 • -1 significa predição sempre incorreta • +1 significa predição sempre correta
  54. 54. Comparação
  55. 55. CONSIDERAÇÕES FINAIS Conclusão
  56. 56. Conclusão • As análises de Bioinformática contribuem para estimar um resultado, a avaliação e decisão acerca desta estimativa é tarefa do analisador/avaliador, portanto, ele deve reunir o máximo de evidências para afirmar o resultado.
  57. 57. Referências • Xiong, J. (2006). Essential bioinformatics. New York: Cambridge University Press. • Guigó, R., Agarwal, P., Abril, J. F., Burset, M., & Fickett, J. W. (2000). An assessment of gene prediction accuracy in large DNA sequences. Genome research, 10(10), 1631–1642. doi:10.1101/gr.122800
  58. 58. Daniel Guariz Pinheiro

Quais são as diferenças entre o genoma Procarioto e Eucarioto?

Procariotosgenomas pequenos, circulares, poucos genes, operons e unidades genéticas acessórias. Eucariotosgenomas grandes, lineares, muitos genes, sem operons e sem unidades genéticas acessórias. Eucariotos apresentam genomas mais complexos que os procariotos. A diferença é clássica.

Quais as principais diferenças do DNA de Procariotos e eucariotos no que diz respeito à estrutura condensação e mecanismo de replicação?

As diferenças entre os mecanismos de replicação do DNA em pro e eucariontes são devidas em parte ao maior tamanho do DNA eucariótico, mas também à maneira como ele está empacotado com proteínas, na forma de nucleossomos.

Como ocorre o controle da expressão gênica em Procariotos e em eucariotos?

A regulação da expressão gênica eucariótica pode ocorrer na transcrição, no processamento ou na tradução. Como em procariotos, a expressão de genes em euca- riotos requer a transcrição de DNA em RNA e a subse- quente tradução desse RNA em polipeptídios.

Quais são as principais características da estrutura de genes de Procariotos e eucariotos?

A estrutura geral dos genes de Procariotos e Eucariotos é muito semel- hante, uma vez que nos dois casos há seqüências reguladoras que antecedem a região codificante e seqüências terminadoras que delimitam o final do gene. Assim um gene, seja qual for sua origem, tem inicio e fim (figura1).