Familia de proteínas

Una familia de proteínas es un grupo de proteínas relacionadas evolutivamente, y con frecuencia es prácticamente un sinónimo de familia génica. El término no se debe confundir con familia usado en el sentido taxonómico.

Las proteínas de una familia descienden de un antepasado común y típicamente poseen estructuras tridimensionales, funciones y secuencias similares. A pesar de que es difícil evaluar la significatividad de la similitud funcional o funcional, se ha desarrollado un marco aceptable para evaluar la significatividad de la similitud entre un grupo de secuencias empleando métodos de alineamiento de secuencias. Es muy improbable que las proteínas que no comparten un antepasado común muestren una similitud de secuencias estadísticamente significativa, lo que hace del alineamiento de secuencias una herramienta poderosa para identificar a los miembros de las familias de proteínas.

Actualmente se han definido más de 60 000 familias de proteínas,^[1] aunque la ambigüedad en la definición de lo que es una "familia de proteínas" conduce a que los diferentes investigadores varíen ampliamente esta cifra.

Terminología y uso

Como sucede con muchos términos biológicos, el uso del término "familia de proteínas" depende en alguna medida del contexto. Puede indicar grandes grupos de proteínas con el menor nivel posible de similitud de secuencia detectable, o grupos muy reducidos de proteínas con secuencia prácticamente idéntica, función y estructura tridimensional, o cualquier grupo entre ambos extremos. Para distinguir entre estas situaciones, Dayhoff introdujo el concepto de superfamilia de proteínas.^[2]^[3]^[4] Se han acuñado otros términos como "clase de proteínas", "grupo de proteínas" y "subfamilia de proteínas" a lo largo de los años, pero todos ellos sufren de las mismas ambigüedades de uso. Un uso corriente es que las superfamilias contienen familias, las cuales a su vez constan de subfamilias. Es improbable que se acuerde una definición exacta, y por tanto es una tarea del lector discernir cómo se usan exactamente estos términos dentro de un contexto particular.

Dominios proteicos y motivos conformacionales

El concepto de "familia de proteínas fue concebido en un momento en el que se conocían muy pocas estructuras y secuencias de proteínas. En aquellos tiempos, se trataba de proteínas primariamente pequeñas y de un solo dominio como la mioglobina, la hemoglobina y el citocromo c. Desde entonces se ha comprobado que muchas proteínas comprenden múltiples unidades estructurales y funcionales independientes denominados dominios. Debido al "re-arreglo evolutivo" (shuffling), los diferentes dominios de una proteína evolucionan de forma independiente. Esto ha conducido en los años recientes a prestar atención a las familias de proteínas.^{[cita requerida]} Se ha dedicado una cantidad de recursos en la red para identificar y catalogar estos dominios (ver un listado al final del presente artículo).

Las regiones de cada proteína tienen diferentes restricciones (rasgos críticos para la estructura y función de la proteína). Por ejemplo, el sitio activo de una enzima requiere que determinados residuos de aminoácidos tengan una orientación tridimensional precisa.^{[cita requerida]} Por otra parte, una interfaz de unión proteína-proteína puede constar de una amplia superficie con restricciones en la hidrofobicidad o polaridad de los residuos de aminoácidos. Las regiones funcionalmente restringidas de las proteínas evolucionan más lentamente que las regiones sin restricción, como bucles superficiales, dando lugar a bloques discernibles de secuencias conservadas cuando se compara las secuencias de una familia de proteínas.^{[cita requerida]} Esos bloques son habitualmente designados como "motivos, aunque se emplean muchos otros términos, (bloques, firmas, huellas, etc.)^{[cita requerida]} También existe un gran número de recursos en línea dedicados a identificar y catalogar motivos proteicos (ver una lista al final del artículo).

Uso e importancia de las familias de proteínas

A medida que aumenta el número de proteínas secuenciadas y aumenta el interés en el análisis proteómico, va en progreso el esfuerzo para organizar las proteínas en familias y describir los dominios y motivos que los componen. Una identificación de confianza de las familias de proteínas es crítica para el análisis filogenético, anotación funcional y exploración de la diversidad de la función de las proteínas en una rama filogénica dada. La Enzyme Function Initiative (EFI) está utilizando familias y superfamilias de proteínas como base para el desarrollo de una estrategia basada en secuencia/función para una asignación funcional a gran escala de enzimas de función desconocida.^[5]

Los medios algorítmicos para establecer las familias de proteínas a gran escala se basan en una noción de la similitud. La mayor parte de las ocasiones, el único tipo de similitud al que se tiene acceso es al de secuencia.

Recursos para la investigación de familias de proteínas

Existen muchas bases de datos biológicas que registran ejemplos de familias de proteínas y permiten a los usuarios identificar las proteínas recientemente caracterizadas como pertenecientes a una familia conocida. He aquí algunos ejemplos.

Pfam - Base de datos de alineamientos de familias estructurales y HMMs.
PROSITE - Base de datos de dominios proteicos, familias y sitios funcionales.
PIRSF - Sistema de clasificación de superfamilias.
PASS2 -Alineamiento de proteínas como superfamilias estructurales. v2 - PASS2@NCBS^[6]
SUPERFAMILY - Biblioteca de HMMs que representan superfamilias y base de datos de anotaciones de familias y superfamilias de todos los organismos completamente secuenciados.
SCOP y CATH - clasificaciones de estructuras proteicas en superfamilias, familias y dominios.

Véase también

Referencias

↑ Kunin, Victor; Cases, Ildefonso; Enright, Anton J.; de Lorenzo, Victor; Ouzounis, Christos A. (2003). «Myriads of protein families, and still counting». Genome Biology 4 (2): 401. ISSN 1474-760X. PMID 12620116. doi:10.1186/gb-2003-4-2-401. Consultado el 22 de septiembre de 2024.
↑ Dayhoff, M. O. (Diciembre de 1974). «Computer analysis of protein sequences». Federation Proceedings 33 (12): 2314-2316. ISSN 0014-9446. PMID 4435228. Consultado el 22 de septiembre de 2024.
↑ M. O. Dayhoff; P. J. McLaughlin; W. C. Barker; L. T. Hunt (abril de 1975). «Evolution of sequences within protein superfamilies». Naturwissenschaften (en inglés) 62: 154-161. doi:10.1007/BF00608697.
↑ Dayhoff, M. O. (Agosto de 1976). «The origin and evolution of protein superfamilies». Federation Proceedings 35 (10): 2132-2138. ISSN 0014-9446. PMID 181273. Consultado el 22 de septiembre de 2024.
↑ John A. Gerlt; Karen N. Allen; Steve C. Almo; Richard N. Armstrong; et. al. (14 de octubre de 2011). «The Enzyme Function Initiative». Biochemistry (en inglés) 50 (46): 9950-9962. doi:10.1021/bi201312u.
↑ A. Gandhimathi; Anu G. Nair; R. Sowdhamini (enero de 2012). «PASS2 version 4: an update to the database of structure-based sequence alignments of structural domain superfamilies». Nucleic Acids Research (en inglés) 40. ISSN 0305-1048. PMID 22123743.

Datos: Q417841

[1] Kunin, Victor; Cases, Ildefonso; Enright, Anton J.; de Lorenzo, Victor; Ouzounis, Christos A. (2003). «Myriads of protein families, and still counting». Genome Biology 4 (2): 401. ISSN 1474-760X. PMID 12620116. doi:10.1186/gb-2003-4-2-401. Consultado el 22 de septiembre de 2024.

[2] Dayhoff, M. O. (Diciembre de 1974). «Computer analysis of protein sequences». Federation Proceedings 33 (12): 2314-2316. ISSN 0014-9446. PMID 4435228. Consultado el 22 de septiembre de 2024.

[3] M. O. Dayhoff; P. J. McLaughlin; W. C. Barker; L. T. Hunt (abril de 1975). «Evolution of sequences within protein superfamilies». Naturwissenschaften (en inglés) 62: 154-161. doi:10.1007/BF00608697.

[4] Dayhoff, M. O. (Agosto de 1976). «The origin and evolution of protein superfamilies». Federation Proceedings 35 (10): 2132-2138. ISSN 0014-9446. PMID 181273. Consultado el 22 de septiembre de 2024.

[5] John A. Gerlt; Karen N. Allen; Steve C. Almo; Richard N. Armstrong; et. al. (14 de octubre de 2011). «The Enzyme Function Initiative». Biochemistry (en inglés) 50 (46): 9950-9962. doi:10.1021/bi201312u.

[6] A. Gandhimathi; Anu G. Nair; R. Sowdhamini (enero de 2012). «PASS2 version 4: an update to the database of structure-based sequence alignments of structural domain superfamilies». Nucleic Acids Research (en inglés) 40. ISSN 0305-1048. PMID 22123743.

[1]

[2]

[3]

[4]

[5]

[6]