UniProt
UniProt (Universal Protein) é unha base de datos accesible gratuitamente, de alta calidade e completa de información de secuencias de proteínas e as súas funcións, na cal moitas das entradas proceden de proxectos de secuenciación de xenomas. Contén unha gran cantidade de información sobre as funcións biolóxicas das proteínas derivada da literatura científica. As principais bases de datos que están incluídas en UniProt son: Swiss-Prot, TrEMBL (estas dúas forman parte de UniProtKB), UniParc, UniRef, e UniMes.[1]
O consorcio UniProt
editarUniProt é un consorcio que comprende o Instituto Europeo de Bioinformática (European Bioinformatics Institute, EBI), o Instituto Suízo de Bioinformática (Swiss Institute of Bioinformatics, SIB), e o Recurso de Información de Proteínas (Protein Information Resource, PIR). O EBI está localizado no Wellcome Trust Genome Campus en Hinxton, Reino Unido, e alberga un gran recurso de bases de datos informáticas e servizos. O SIB, ten sede en Xenebra, Suíza, e mantén os servidores de ExPASy (Expert Protein Analysis System, Sistema de Análise de Proteíns Experto) que é un recurso central de ferramentas proteómicas e bases de datos. O PIR, está albergado na Fundación de Investigación Biomédica Nacional (National Biomedical Research Foundation, NBRF) do Centro Médico da Universidade de Georgetown en Washington, D.C., Estados Unidos, e é herdeiro da antiga base de datos de secuencias de proteínas chamada Atlas de Secuencias e Estruturas de Proteínas de Margaret Dayhoff, que se empezou a publicar en 1965.[2] En 2002, o EBI, o SIB, e o PIR uniron as súas forzas formando o consorcio UniProt.[3]
Historia de UniProt
editarCada un dos membros do consorcio está moi implicado no mantemento da base de datos de proteínas e na súa anotación. Ata hai pouco, o EBI e o SIB en conxunto producían as bases de datos Swiss-Prot e TrEMBL, mentres que o PIR xeraba a Base de datos de Secuencias de Proteínas (Protein Sequence Database, PIR-PSD).[4][5][6] Estas bases de datos coexistían tendo prioridades diferentes en canto á cobertura na secuencia de proteínas e na anotación.
Swiss-Prot creouna en 1986 Amos Bairoch e desenvolveuna o Instituto Suízo de Bioinformática e seguidamente desenvolveuna Rolf Apweiler no Instituto Europeo de Bioinformática.[7][8][9] Swiss-Prot ten como obxectivo proporcionar secuencias fiables de proteínas asociadas cun alto nivel de anotación (como son a descrición da función da proteína, a súa estrutura de dominios, as modificacións postraducionais, variantes etc.), un nivel mínimo de redundancia, e un alto nivel de integración con outras bases de datos. Porén, co tempotivo que recoñecerse que os datos de secuencias estaban xerándose a un ritmo que excedía a capacidade de Swiss-Prot para tratalos, creouse entón TrEMBL (Translated EMBL Nucleotide Sequence Data Library, Biblioteca de Datos de Secuencias de Nucleótidos de EMBL Traducidas) para proporcionar anotacións automatizadas desas proteínas que non estaban en Swiss-Prot. Mentres tanto, o PIR mantiña a mencionada PIR-PSD e bases de datos relacionadas, incluíndo a base de datos de proteínas e familias proteicas revisadas iProClass.
Os membros do consorcio xuntaron os seus recursos solapados e experiencias, e lanzaron finalmente UniProt en decembro de 2003.[10]
Organización das bases de datos de UniProt
editarO corazón de UniProt está formado por catro bases de datos: UniProtKB (que se subdivide en Swiss-Prot e TrEMBL), UniParc, UniRef, e UniMes.
UniProtKB
editarUniProt Knowledgebase (UniProtKB) é unha base de datos de proteínas parcialmente revisada por expertos, que consta de dúas seccións: UniProtKB/Swiss-Prot (que conteñen entradas anotadas manualmente, revisadas) e UniProtKB/TrEMBL (que contén entradas anotadas automaticamente e non revisadas).[11] En marzo de 2014 saíu a edición "2014_03" de UniProtKB/Swiss-Prot, que contiña 542.782 entradas de secuencias (que constaban de 193.019.802 aminoácidos obtidos a partir de 226.896 referencias) e a edición "2014_03" de UniProtKB/TrEMBL contiña 54.247.468 de entradas de secuencias (que constaban de 17.207.833.179 aminoácidos).[12][13]
UniProtKB/Swiss-Prot
editarUniProtKB/Swiss-Prot é unha base de datos de secuencias non redundantes anotadas manualmente. Combina información extraída da literatura científica con análises computacionais avaliadas por un biocurador. O obxectivo de UniProtKB/Swiss-Prot é proporcionar toda a información relevante coñecida sobre unha determinada proteína. A anotación é revisada regularmente para manterse ao día dos novos descubrimentos científicos que se vaian producindo. A anotación manual dunha entrada implica a análise detallada da secuencia de proteínas e da literatura científica.[14]
As secuencias do mesmo xene e da mesma especie fusiónanse na mesma entrada da base de datos. Identifícanse as diferenzas entre secuencias, e a súa causa é documentada (por exemplo splicing alternativo, variación natural, sitios de iniciación da tradución incorrectos, límites de exóns incorrectos, mutacións de cambio de pauta de lectura, e conflitos non identificados). Na anotación das entradas de UniProtKB/Swiss-Prot utilízase un conxunto de ferramentas de análises de secuencias. As predicións feitas por computador son avaliadas manualmente, e os resultados relevantes son seleccionados para a súa inclusión na entrada. Estas predicións inclúen as modificacións postraducionais, os dominios transmembrana e a topoloxía, péptidos sinal, identificación de dominios, e clasificación das familias proteicas.[14][15]
As publicacións relevantes identifícanse buscando nas bases de datos como PubMed. Lese o texto completo de cada artigo, e a información é extraída e engadida á entrada. As anotacións que se fan atendendo á información da literatura científica inclúen, entre outras, as seguintes:[10][14][15]
- Nomes de proteínas e xenes
- Función
- Información específica de encimas, como a actividade catalítica, cofactores e residuos catalíticos
- Localización subcelular
- Interaccións proteína-proteína
- Patróns de expresión
- Localización e papeis exercidos polos dominios e sitios significativos
- Sitios para a unión de ións, substratos e cofactores
- Formas variantes da proteína producidas por variacións xenéticas naturais, edición do ARN, splicing alternativo, procesamento proteolítico, e modificacións postraducionais.
As entradas anotadas pasan por un control de calidade antes da súa inclusión en UniProtKB/Swiss-Prot. Cando se dispón dun dato novo, as entradas son actualizadas.
UniProtKB/TrEMBL
editarUniProtKB/TrEMBL contén rexistros analizados computacionalmente de alta calidade, que son enriquecidos cunha anotación automática. Esta base de datos creouse en resposta ao incremento do fluxo de datos resultante do progreso dos proxectos xenoma, xa que o proceso de anotación manual levaba moito tempo e traballo en UniProtKB/Swiss-Prot e non podía ser ampliado para incluír todas as secuencias de proteínas dispoñibles.[10] As traducións de secuencias codificantes anotadas na base de datos de secuencias nucleotídicas EMBL-Bank/GenBank/DDBJ son procesadas automaticamente e introducidas en UniProtKB/TrEMBL. UniProtKB/TrEMBL tamén contén secuencias procedentes de PDB, e da predición de xenes, incluíndo Ensembl, RefSeq e CCDS.[16]
UniParc
editarUniProt Archive (UniParc) é unha base de datos completa e non redundante, que contén todas as secuencias de proteínas procedentes das principais bases de datos de secuencias dispoñibles publicamente.[17] A información dunha proteína pode encontrarse en varias bases de datos distintas, e en moitas copias na mesma base de datos. Para evitar a redundancia, UniParc almacena cada secuencia única só unha vez. As secuencias idénticas son fusionadas, sen importar se proceden da mesma ou de diferente especie. A cada secuencia dáselle un identificador único e estable (UPI), o que fai posible identificar a mesma proteína en diferentes bases de datos fonte. UniParc contén só secuencias de proteínas, sen anotación. As referencias cruzadas das bases de datos nas entradas de UniParc permiten que se obteña máis información sobre a proteína das bases de datos fonte. Cando as secuencias da base de datos fonte cambian, estes cambios son monitorizados por UniParc e arquívase a historia de todos os cambios.
Bases de datos de fontes
editarActualmente UniParc contén secuencias de proteínas das seguintes bases de datos consultables polo público:
- INSDC EMBL-Bank/DDBJ/GenBank (bases de datos de secuencias de nucleótidos)
- Ensembl
- Oficina de Patentes Europea (EPO)
- FlyBase: repositorio primario de datos moleculares e xenéticos para a familia dos inectos drosofílidos (FlyBase)
- H-Invitational Database (H-Inv)
- International Protein Index (IPI)
- Oficina de Patentes do Xapón (JPO)
- Protein Information Resource (PIR-PSD)
- Protein Data Bank (PDB)
- Protein Research Foundation (PRF) [1]
- RefSeq
- Saccharomyces Genome Database (SGD)
- The Arabidopsis Information Resource (TAIR)
- TROME [2][Ligazón morta]
- Oficina de Patentes dos Estados Unidos (USPTO)
- UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot protein isoforms, UniProtKB/TrEMBL
- Vertebrate and Genome Annotation Database (VEGA)
- WormBase
UniRef
editarOs UniProt Reference Clusters (UniRef) constan de tres bases de datos de conxuntos agrupados de secuencias de proteínas de UniProtKB e rexistros seleccionados de UniParc.[18] A base de datos UniRef100 combina secuencias idénticas e fragmentos de secuencia (de cada organismo) nunha soa entrada de UniRef. Móstranse a secuencia dunha proteína representativa, os números de acceso de todas as entradas fusionadas e as ligazóns aos correspondentes rexistros de UniProtKB e UniParc. As secuencias UniRef100 agrúpanse usando o algoritmo CD-HIT para así construír UniRef90 e UniRef50.[18][19] Cada grupo está composto por secuencias que teñen polo menos un 90% ou 50% de identidade de secuencia, respectivamente, coa secuencia máis longa. Agrupar as secuencias reduce significativamente o tamaño da base de datos, o que permite facer buscas de secuencias máis rapidamente.
UniRef está dispoñible no sitio FTP de UniProt.
UniMes
editarA base de datos UniProt Metagenomic and Environmental Sequences (UniMES) é un repositorio desenvolvido especificamente para datos metaxenómicos e ambientais.[20] As proeínas preditas deste conxunto de datos combínanse coa clasificción automática por InterPro para aumentar a información orixinal con análises posteriores.
UniProtKB contén secuencias de proteínas de especies coñecidas, datos procedentes de estudos metaxenómicos de mostras ambientais (é dicir, microorganismos non cultivados), polo que a especie pode non ser coñecida ou non foi aínda identificada. UniMES foi especialmente desenvolvida para tratar este tipo de datos. Os datos de UniMES non están incluídos en UniProtKB nin en UniRef, pero inclúense en UniParc.[20] En xullo de 2012, UniMES contiña só datos da Expedición de Mostraxe Oceánica Global (Global Ocean Sampling Expedition, GOS).[21] Os datos de mostras ambientais contidos nesta base de datos non están presentes nin en UniProt Knowledgebase nin en UniProt Reference Clusters.
As agrupacións de UniMES proporcionan conxuntos agrupados (unimes_cluster100
e unimes_cluster90
) de secuencias en dúas resolucións (100% e >90%). En unimes_cluster100
, as secuencias idénticas e subfragmentos de unimes.fasta
sitúanse nun só agrupamento. O unimes_cluster90
constrúese agrupando secuencias representativas unimes_cluster100
(a secuencia máis longa nun agrupamento) usando o algoritmo CD-HIT,[19] de modo que cada agrupamento está composto de secuencias que teñen polo menos unha identidade de secuencia do 90%, coa secuencia representativa. Nestes ficheiros están presentes só as secuencias representativas dos agrupamentos.
UniMES está dispoñible no sitioFTP de UniProt[Ligazón morta].
Financiamento de UniProt
editarUniProt finánciase con fondos procedentes do National Human Genome Research Institute, os National Institutes of Health (NIH) dos Estados Unidos, a Comisión Europea, o goberno federal suízo por medio da Oficina Federal de Educación e Ciencia, NCI-caBIG, e o Departamento de Defensa.[11]
Notas
editar- ↑ Uniprot, C. (2010). "Ongoing and future developments at the Universal Protein Resource". Nucleic Acids Research 39 (Database issue): D214–D219. PMC 3013648. PMID 21051339. doi:10.1093/nar/gkq1020.
- ↑ Dayhoff, Margaret O. (1965). Atlas of protein sequence and structure. Silver Spring, Md: National Biomedical Research Foundation.
- ↑ "Copia arquivada". Arquivado dende o orixinal o 24 de setembro de 2015. Consultado o 29 de setembro de 2015.
- ↑ O'Donovan, C.; Martin, M. J.; Gattiker, A.; Gasteiger, E.; Bairoch, A.; Apweiler, R. (2002). "High-quality protein knowledge resource: SWISS-PROT and TrEMBL". Briefings in bioinformatics 3 (3): 275–284. PMID 12230036. doi:10.1093/bib/3.3.275.
- ↑ Wu, C. H.; Yeh, L. S.; Huang, H.; Arminski, L.; Castro-Alvear, J.; Chen, Y.; Hu, Z.; Kourtesis, P.; Ledley, R. S.; Suzek, B. E.; Vinayaka, C. R.; Zhang, J.; Barker, W. C. (2003). "The Protein Information Resource". Nucleic Acids Research 31 (1): 345–347. PMC 165487. PMID 12520019. doi:10.1093/nar/gkg040.
- ↑ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, M. C.; Estreicher, A.; Gasteiger, E.; Martin, M. J.; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003". Nucleic Acids Research 31 (1): 365–370. PMC 165542. PMID 12520024. doi:10.1093/nar/gkg095.
- ↑ Bairoch, A.; Apweiler, R. (1996). "The SWISS-PROT protein sequence data bank and its new supplement TREMBL". Nucleic Acids Research 24 (1): 21–25. PMC 145613. PMID 8594581. doi:10.1093/nar/24.1.21.
- ↑ Bairoch, A. (2000). "Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!". Bioinformatics 16 (1): 48–64. PMID 10812477. doi:10.1093/bioinformatics/16.1.48.
- ↑ Séverine Altairac, "Naissance d’une banque de données: Interview du prof. Amos Bairoch Arquivado 12 de xullo de 2010 en Wayback Machine.". Protéines à la Une Arquivado 21 de xuño de 2011 en Wayback Machine., August 2006. ISSN 1660-9824.
- ↑ 10,0 10,1 10,2 Apweiler, R.; Bairoch, A.; Wu, C. H. (2004). "Protein sequence databases". Current Opinion in Chemical Biology 8 (1): 76–80. PMID 15036160. doi:10.1016/j.cbpa.2003.12.004.
- ↑ 11,0 11,1 Uniprot, C. (2009). "The Universal Protein Resource (UniProt) in 2010". Nucleic Acids Research 38 (Database issue): D142–D148. PMC 2808944. PMID 19843607. doi:10.1093/nar/gkp846.
- ↑ Estatísticas de UniProtKB/SwissProt
- ↑ "Estatíticas de UniProtKB/TrEMBL". Arquivado dende o orixinal o 01 de outubro de 2015. Consultado o 29 de setembro de 2015.
- ↑ 14,0 14,1 14,2 Annotation of UniProtKB
- ↑ 15,0 15,1 Apweiler, R.; Bairoch, A.; Wu, C. H.; Barker, W. C.; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; Lopez, R.; Magrane, M.; Martin, M. J.; Natale, D. A.; o’Donovan, C.; Redaschi, N.; Yeh, L. S. (2004). "UniProt: The Universal Protein knowledgebase". Nucleic Acids Research 32 (90001): 115D–1119. PMC 308865. PMID 14681372. doi:10.1093/nar/gkh131.
- ↑ Where do UniProtKB sequences come from
- ↑ Leinonen, R.; Diez, F. G.; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "UniProt archive". Bioinformatics 20 (17): 3236–3237. PMID 15044231. doi:10.1093/bioinformatics/bth191.
- ↑ 18,0 18,1 Suzek, B. E.; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, C. H. (2007). "UniRef: Comprehensive and non-redundant UniProt reference clusters". Bioinformatics 23 (10): 1282–1288. PMID 17379688. doi:10.1093/bioinformatics/btm098.
- ↑ 19,0 19,1 Li, W.; Jaroszewski, L.; Godzik, A. (2001). "Clustering of highly homologous sequences to reduce the size of large protein databases". Bioinformatics (Oxford, England) 17 (3): 282–283. PMID 11294794. doi:10.1093/bioinformatics/17.3.282.
- ↑ 20,0 20,1 Uniprot, C. (2007). "The Universal Protein Resource (UniProt)". Nucleic Acids Research 36 (Database issue): D190–D195. PMC 2238893. PMID 18045787. doi:10.1093/nar/gkm895.
- ↑ Yooseph, S.; Sutton, G.; Rusch, D. B.; Halpern, A. L.; Williamson, S. J.; Remington, K.; Eisen, J. A.; Heidelberg, K. B.; Manning, G.; Li, W.; Jaroszewski, L.; Cieplak, P.; Miller, C. S.; Li, H.; Mashiyama, S. T.; Joachimiak, M. P.; Van Belle, C.; Chandonia, J. M.; Soergel, D. A.; Zhai, Y.; Natarajan, K.; Lee, S.; Raphael, B. J.; Bafna, V.; Friedman, R.; Brenner, S. E.; Godzik, A.; Eisenberg, D.; Dixon, J. E.; Taylor, S. S. (2007). "The Sorcerer II Global Ocean Sampling Expedition: Expanding the Universe of Protein Families". PLoS Biology 5 (3): e16. PMC 1821046. PMID 17355171. doi:10.1371/journal.pbio.0050016.