Bioconductor
Bioconductor | |
Ultima versiune | 3.17 (26 aprilie 2023 | )
---|---|
Scris în | R |
Sistem de operare | Linux, macOS, Windows |
Platformă | R programming language |
Tip | Bioinformatics |
Licență | Artistic License 2.0(d) |
Prezență online | |
//www.bioconductor.org/ | |
Modifică date / text |
Bioconductor este un proiect software gratuit, open source și de dezvoltare deschisă pentru analiza și înțelegerea datelor genomice generate experimental în laborator de biologie moleculară.
Bioconductor se bazează pe programarea statistică în limbajul R, însă include contribuții în alte limbaje de programare. Acesta are două lansări în fiecare an, sincronizate cu versiunile semestriale ale R. În orice moment, există o versiune de lansare care se potrivește versiunii lansate a lui R și o versiune de dezvoltare care se potrivește versiunii de dezvoltare a lui R. Majoritatea utilizatorilor vor găsi versiunea de lansare adecvată nevoilor lor. În plus, există numeroase pachete de adnotare a genomului disponibile, care sunt în principal, dar nu exclusiv, orientate către diverse tipuri de microarray-uri.
În timp ce metodele de calcul continuă să fie dezvoltate pentru a interpreta datele biologice, proiectul Bioconductor este un depozit de software open source care găzduiește o gamă largă de instrumente statistice dezvoltate în mediul de programare R. Folosind o gamă bogată de caracteristici statistice și grafice în R, multe pachete Bioconductor au fost dezvoltate pentru a satisface diverse nevoi de analiză a datelor. Utilizarea acestor pachete oferă o înțelegere de bază a limbajului de programare R. Ca urmare, R și pachetele Bioconductor, care au o putere computațională mare, sunt folosite de majoritatea biologilor, care beneficiază semnificativ de capacitatea lor de a analiza seturile de date. Toate aceste rezultate oferă biologilor acces ușor la analiza datelor genomice fară a necesita expertiza în programare.
Proiectul a fost început în toamna anului 2001 și este supervizat de echipa de bază Bioconductor, cu sediul în principal la Centrul de Cercetare a Cancerului Fred Hutchinson, cu alți membri provenind din instituții internaționale.
Pachete
[modificare | modificare sursă]Majoritatea componentelor Bioconductor sunt distribuite ca pachete în R, care sunt module adiționale pentru R. Inițial, majoritatea pachetelor software Bioconductor s-au concentrat pe analiza Affymetrix(d) cu un singur canal și microarray-uri ADNc / Oligo(d) cu două sau mai multe canale. Pe măsură ce proiectul s-a maturizat, domeniul funcțional al pachetelor software s-a extins pentru a include analiza tuturor tipurilor de date genomice, cum ar fi datele SAGE, secvențe sau SNP.
Scopuri
[modificare | modificare sursă]Obiectivele generale ale proiectelor sunt:
- Oferă acces pe scară largă la o gamă largă de metode statistice și grafice puternice pentru analiza datelor genomice.
- Facilitează includerea metadatelor biologice în analiza datelor genomice, de exemplu, date din literatură din PubMed, date de adnotări din LocusLink/ Entrez.
- Furnizează o platformă software comună care permite dezvoltarea și implementarea rapidă a software-ului conectabil, scalabil și interoperabil.
- Oferă înțelegerea științifică suplimentară prin producerea de documentație de înaltă calitate și cercetare reproductibilă(d).
- Formează cercetătorii cu privire la metodele computaționale și statistice pentru analiza datelor genomice.
Caracteristici principale
[modificare | modificare sursă]- Documentare și cercetare reproductibilă(d). Fiecare pachet Bioconductor conține cel puțin o vignetă - un document care oferă o descriere textuală, orientată spre sarcini, a funcționalității pachetului. Aceste viniete vin sub mai multe forme. Multe sunt simple „ How-to ” care sunt concepute pentru a demonstra cum poate fi realizată o anumită sarcină cu software-ul pachetului respectiv. Altele oferă o imagine de ansamblu mai detaliată a pachetului sau chiar ar putea discuta probleme generale legate de pachet. În viitor, proiectul Bioconductor urmărește să furnizeze viniete care nu sunt legate în mod specific de un pachet, ci mai degrabă demonstrează concepte mai complexe. Ca și în cazul tuturor aspectelor proiectului Bioconductor, utilizatorii sunt încurajați să participe la acest efort.
- Metode statistice și grafice. Proiectul Bioconductor își propune să ofere acces la o gamă largă de metode statistice și grafice puternice pentru analiza datelor genomice. Sunt disponibile pachete de analiză pentru: preprocesarea datelor Affymetrix(d) și Illumina, matrici cDNA ; identificarea genelor exprimate diferențial ; analize teoretice grafice; afișarea datelor genomice. În plus, sistemul de pachete ale limbajului R însuși oferă implementări pentru o gamă largă de tehnici statistice și grafice de ultimă generație, inclusiv modelare liniară și neliniară, analiza cluster, predicție, reeșantionare, analiză de supraviețuire și analiza serii de timp.
- Adnotarea genomului. Proiectul Bioconductor oferă software pentru asocierea microarray-urilor și a altor date genomice în timp real la metadate biologice din baze de date web, cum ar fi GenBank(d), LocusLink și PubMed (pachet de adnotare). De asemenea, sunt furnizate funcții pentru încorporarea rezultatelor analizei statistice în rapoarte HTML cu link-uri către resurse WWW de adnotare. Instrumente software sunt disponibile pentru asamblarea și procesarea datelor de adnotare genomică, din baze de date precum GenBank(d), Gene Ontology Consortium, LocusLink, UniGene(d), UCSC Human Genome Project și altele cu pachetul AnnotationDbi. Pachetele de date sunt distribuite pentru a oferi mapări între diferiți identificatori de sondă (de exemplu, ID-uri Affy, LocusLink, PubMed ). De asemenea, pot fi asamblate biblioteci de adnotări personalizate. Acest proiect conține, de asemenea, câteva funcții de analiză genomică și filogenetică (ex. ggtree, pachete phytools.).
- Sursa deschisă. Proiectul Bioconductor are un angajament față de disciplina open source completă, cu distribuție prin intermediul unei platforme asemănătoare SourceForge.net. Se așteaptă ca toate contribuțiile să existe sub o licență open source, cum ar fi Artistic 2.0, GPL2 sau BSD. Există multe motive diferite pentru care software-ul open-source este benefic pentru analiza datelor microarray și pentru biologia computațională în general. Motivele includ:
- Pentru a oferi acces deplin la algoritmi și implementarea acestora
- Pentru a facilita îmbunătățirea software-ului prin remedierea erorilor și plug-in-uri
- Încurajarea bunelor practici științifice de calcul și statistică prin furnizarea de instrumente și instrucțiuni adecvate
- Pentru a oferi un banc de lucru de instrumente care să permită cercetătorilor să exploreze și să extindă metodele utilizate pentru analiza datelor biologice
- Să se asigure că comunitatea științifică internațională este proprietara instrumentelor software necesare pentru a efectua cercetări
- Să conducă și să încurajeze sprijinul comercial și dezvoltarea acelor instrumente care au succes
- Să promoveze cercetarea reproductibilă prin furnizarea de instrumente deschise și accesibile cu care să desfășoare acea cercetare (cercetarea reproductibilă este diferită de verificarea independentă)
- Dezvoltare deschisă. Utilizatorii sunt încurajați să devină dezvoltatori, fie contribuind cu pachete compatibile cu Bioconductor, fie prin documentație. În plus, Bioconductor oferă un mecanism de conectare între diferite grupuri cu obiective comune pentru a stimula colaborarea pe software, eventual la nivelul dezvoltării partajate.
Repere
[modificare | modificare sursă]Fiecare versiune a Bioconductor este dezvoltată pentru a funcționa cel mai bine cu o versiune aleasă de R. [1] Pe lângă remedieri și actualizări de erori, o nouă ediție adaugă de obicei pachete. Tabelul de mai jos mapează o versiune Bioconductor cu o versiune R și arată numărul de pachete software Bioconductor disponibile pentru acea versiune.
Versiune | Data de lansare | Număr de pachete | Dependența R |
---|---|---|---|
3.17 | 26 Apr 2023 | 2230 | R 4.3 |
3.16 | 2 Noi 2022 | 2183 | R 4.2 |
3.14 | 27 Oct 2021 | 2083 | R 4.1 |
3.11 | 28 Apr 2020 | 1903 | R 4.0 |
3.10 | 30 Oct 2019 | 1823 | R 3.6 |
3.8 | 31 Oct 2018 | 1649 | R 3.5 |
3.6 | 31 Oct 2017 | 1473 | R 3.4 |
3.4 | 18 Oct 2016 | 1296 | R 3.3 |
3.2 | 14 Oct 2015 | 1104 | R 3.2 |
3.0 | 14 Oct 2014 | 934 | R 3.1 |
2.13 | 15 Oct 2013 | 749 | R 3.0 |
2.11 | 3 Oct 2012 | 610 | R 2.15 |
2.9 | 1 Noi 2011 | 517 | R 2.14 |
2.8 | 14 Apr 2011 | 466 | R 2.13 |
2.7 | 18 Noi 2010 | 418 | R 2.12 |
2.6 | 23 Apr 2010 | 389 | R 2.11 |
2.5 | 28 Oct 2009 | 352 | R 2.10 |
2.4 | 21 Apr 2009 | 320 | R 2.9 |
2.3 | 22 Oct 2008 | 294 | R 2.8 |
2.2 | 1 Mai 2008 | 260 | R 2.7 |
2.1 | 8 Oct 2007 | 233 | R 2.6 |
2.0 | 26 Apr 2007 | 214 | R 2.5 |
1.9 | 4 Oct 2006 | 188 | R 2.4 |
1.8 | 27 Apr 2006 | 172 | R 2.3 |
1.7 | 14 Oct 2005 | 141 | R 2.2 |
1.6 | 18 Mai 2005 | 123 | R 2.1 |
1.5 | 25 Oct 2004 | 100 | R 2.0 |
1.4 | 17 Mai 2004 | 81 | R 1.9 |
1.3 | 30 Oct 2003 | 49 | R 1.8 |
1.2 | 29 Mai 2003 | 30 | R 1.7 |
1.1 | 19 Oct 2002 | 20 | R 1.6 |
1.0 | 1 Mai 2002 | 15 | R 1.5 |
Resurse
[modificare | modificare sursă]- Gentleman, R.; Carey, V.; Huber, W.; Irizarry, R.; Dudoit, S. (). Bioinformatics and Computational Biology Solutions Using R and Bioconductor. Springer. ISBN 978-0-387-25146-2.
- Gentleman, R. (). R Programming for Bioinformatics. Chapman & Hall/CRC. ISBN 978-1-4200-6367-7.
- Hahne, F.; Huber, W.; Gentleman, R.; Falcon, S. (). Bioconductor Case Studies. Springer. ISBN 978-0-387-77239-4.
- Gentleman, Robert C.; Carey, Vincent J.; Bates, Douglas M.; Bolstad, Ben; Dettling, Marcel; Dudoit, Sandrine; Ellis, Byron; Gautier, Laurent; Ge, Yongchao (). „Bioconductor: open software development for computational biology and bioinformatics”. Genome Biology(d). 5 (10): R80. doi:10.1186/gb-2004-5-10-r80. PMC 545600 . PMID 15461798.
Note
[modificare | modificare sursă]- ^ „Bioconductor – Release Announcements”. bioconductor.org. Bioconductor. Accesat în .
Vezi și
[modificare | modificare sursă]- Biologie computațională
- Pachetele limbajului R
- Bioinformatica
- Lista de software de bioinformatică open source
- R (limbaj de programare)
- Affymetrix, o platformă tehnologică de microarray
Legături externe
[modificare | modificare sursă]- Site web oficial
- The R Project GNU R is a programming language for statistical computing.
- Bioconductor Releases
- The community of the Debian GNU/Linux distribution strives towards an automated building of BioConductor packages Arhivat în , la Wayback Machine. for their distribution. BioKnoppix and Quantian are projects extending Knoppix that have contributed bootable Debian GNU/Linux CDs providing BioConductor installations.