EFERedação de Ciência

Poucos meses depois de se ter declarado a pandemia de covid-19 no início de 2020, os cientistas sequenciaram o genoma do vírus, o SARS-CoV-2, mas muitos genes codificadores de proteínas ainda eram desconhecidos. Agora, um estudo de genómica comparativa gerou o mapa genético mais exato e completo do vírus.

Feito por investigadores do Massachusetts Institute of Technology (MIT) e publicado esta terça-feira na revista Nature Communications, o estudo confirmou vários genes codificadores de proteínas e descobriu que outros -que tinham sido propostos como genes- não codificavam nenhuma proteína.

"Conseguimos utilizar esta poderosa abordagem genómica comparativa de assinaturas evolutivas para descobrir o verdadeiro conteúdo de codificação proteica funcional deste genoma de enorme importância", observa Manolis Kellis, autor principal do estudo e professor de informática no MIT e membro do Broad Institute of MIT e Harvard.

Numa segunda parte do estudo, a equipa de investigação também analisou cerca de 2.000 mutações que surgiram no SARS-CoV-2 desde o início da pandemia, permitindo-lhes avaliar a importância destas mutações e a sua capacidade de escapar ao sistema imunitário ou de se tornarem mais infeciosas.

Sabia-se que, com quase 30.000 bases de RNA, o genoma do SARS-CoV-2 tinha várias regiões que codificam genes de proteínas e outras das quais havia suspeitas mas que não tinham sido definitivamente classificadas.

Para determinar que partes do genoma do SARS-CoV-2 contêm realmente genes, os investigadores recorreram à genómica comparativa, comparando o SARS-CoV-2 (que pertence a um subgénero de vírus chamado Sarbecovírus, que infecta morcegos) com o SARS-CoV (que causou o surto da SARS de 2003) e 42 estirpes de sarbecovírus de morcegos.

Assim, confirmaram seis genes codificadores de proteínas no genoma do SARS-CoV-2, para além dos cinco que estão bem estabelecidos em todos os coronavírus.

Determinaram também que a região que codifica um gene chamado ORF3a codifica também um gene adicional, o ORF3c, que tem bases de RNA que se sobrepõem ao ORF3a mas estão num quadro de leitura diferente, o que é raro em grandes genomas mas comum em muitos vírus e, no caso do SARS-CoV-2, ainda não se sabe que função tem.

Os investigadores também demostraram que cinco outras regiões que tinham sido propostas como possíveis genes não codificam proteínas funcionais, e descartaram que ainda haja outras por descobrir.

Além disso, os autores descobriram que muitos artigos anteriores utilizavam não só conjuntos incorretos de genes, mas também nomes por vezes contraditórios, pelo que num artigo de acompanhamento recentemente publicado na revista Virology, apresentaram recomendações para nomear os genes do SARS-CoV-2.

No estudo, os investigadores também analisaram mais de 1.800 mutações que surgiram no SARS-CoV-2 e descobriram que, na maioria dos casos, genes que evoluíram rapidamente antes da pandemia continuaram a fazê-lo, e aqueles que tendiam a evoluir lentamente mantiveram essa tendência.

Além disso, analisaram as mutações que surgiram em variantes preocupantes, tais como as estirpes britânicas, brasileiras e sul-africanas, e descobriram que muitas das mutações que tornam essas variantes mais perigosas estão na proteína do espigão, o que ajuda o vírus a espalhar-se rapidamente e a evitar o sistema imunitário.

No entanto, cada uma destas variantes tem "mais de 20 outras mutações, e é importante saber quais podem fazer algo e quais não podem", diz Irwin Jungreis, autor principal do estudo e investigador do MIT.

Para os autores, estes dados poderão ajudar outros cientistas a centrar a sua atenção nas mutações que parecem ter efeitos mais significativos na infecciosidade do vírus.