Proyecto NAR database
I. Introducción
The NAR online Molecular Biology Database Collection es una colección de bases de datos de acceso abierto y online, dedicada a bases de datos biológicas que trata temas de biología molecular, en especial ácidos nucleicos (Wikipedia, 2022). La Colección NAR es publicada anualmente por la Revista Nucleic Acids Research (NAR) y mantenida por Oxford Academy.
La Colección NAR utiliza un sistema de clasificación donde se organizan las bases de datos en categorías y subcategorías. Cada categoría agrupa las bases de datos sobre un tema específico.
En la edición del año 2022 la colección contó con 1645 entradas, clasificadas en 15 categorías y 43 subcategorías (Rigden & Fernández, 2022). Algunas bases de datos no están asignadas a ninguna categoría y otras bases de datos están asignadas a múltiples categorías.
El proyecto NAR database es un proyecto colaborativo y multidisciplinario que es investigado en el Laboratorio de Bioinformación bajo la línea de investigación BIObits, es un subproyecto de BioDBs y del wikiproyecto Bases de datos de Biociencias. El proyecto consiste en recopilar, analizar y curar las bases de datos de la Colección NAR y disponerlas en un formato amigable y abierto al público.
II. Objetivos
- Conocer, organizar y reunir las bases de datos indexadas en la Colección NAR
- Disponer las bases de datos en un formato amigable y público para que sean fácilmente encontradas y usadas por la comunidad que trabaja con biociencias, como investigadores, profesores, estudiantes y hasta curiosos.
III. Método
Todas las actividades realizadas dentro del proyecto NAR database están orientadas a curar las bases de datos de la Colección NAR. La curación consistió en seleccionar, transformar y difundir la información relacionada con la Colección NAR y se desarrolló en tres etapas:
Etapa 1. Se recabó literatura sobre biodatos y biología molecular, así como información acerca de bases de datos y ontologías de biología molecular de la Colección NAR. La etapa consistió de los siguientes pasos:
- Se identificaron cuántas bases de datos hay en la Colección NAR.
- Se identificaron la(s) categoría(s) asignadas a cada base de datos.
- Se estudió el sistema de clasificación de la Colección NAR.
Etapa 2. Se analizó y recuperó información relacionada con las bases de datos pertenecientes a la Colección para realizar la curación. La etapa consistió de los siguientes pasos:
- Se identificaron inconsistencias en las bases de datos
- bases repetidas
- bases no vigentes (OFF)
- bases fusionadas
- Se hizo un registro de las bases de datos OFF
- Se estudiaron las categorías y subcategorías de la Colección
Etapa 3. Se emplearon herramientas para hacer pública la información de bases de datos y ontologías para biología molecular. En este proceso se seleccionó, transformó y difundió la información analizada y recuperada en las etapas anteriores.
- Se registraron las categorías de la Colección NAR como ítems en wikidata
- Se registraron las subcategorías de la Colección NAR como ítems en wikidata
- Se registraron las bases de datos vigentes como ítems en wikidata
- Se hicieron anotaciones con información de las categorías, subcategorías y bases de datos en Hypothes.is
IV. Herramientas
Una de las principales herramientas para lograr los objetivos del proyecto fue wikidata, una base de conocimiento colaborativa donde se puede describir, compartir y procesar información bajo una licencia de dominio público (Wikipedia, 2022). La segunda herramienta utilizada fue Hypothes.is, un proyecto de software de código abierto donde se pueden realizar anotaciones en cualquier contenido accesible en la web en un formato amigable y abierto a todo público (Wikipedia, 2022).
V. Resultados preliminares
Actualmente, se tienen 453 anotaciones de bases de datos curadas hechas en Hypothes.is con las etiquetas: #NARdb, #Biodatabases y #wikidata. En wikidata existen 634 registros de bases de datos de la Colección NAR que se pueden consultar con el servicio de consulta de wikidata.
También se pueden consultar información adicional, detalles y avances del Proyecto NAR databases en la página del wikiproyecto Bases de datos de Biociencias/NAR.
Al tratarse de un proyecto en curso todos los días hay actualizaciones en los registros de bases de datos en ambas herramientas
VI. Perspectivas a futuro
Se espera que al término del proyecto se tengan disponibles y reunidas todas las bases de datos de la Colección NAR en wikidata e Hyphotes.is, y además puedan ser consultadas abiertamente. Como se mencionó anteriormente, el Proyecto NAR database es un proyecto colaborativo y multidisciplinario, en él trabajan biólogos, actuarios, computólogos y matemáticos que han logrado unir y amalgamar habilidades y talentos para enriquecer y acelerar el desarrollo del mismo. Aunque se trata de un proyecto en curso se pueden ver los resultados de los talentos grupales aplicados a un mismo fin: lograr ciencia colaborativa, abierta y de utilidad.
VII. Créditos
Asesor
Layla Michán Aguirre
laylamichan@ciencias.unam.mx
https://sites.google.com/bioinformacion.org/bioinformacion/Home
Coordinación
Nubia Getsemaní Casillas López
nubia.getsemani@ciencias.unam.mx
Equipo de curadores
Jacqueline Paredes Sánchez
jacqueline.pa@ciencias.unam.mx
Bryan Ali Salgado Constantino
elvis.stek@ciencias.unam.mx
Yessica Galicia Pérez
yessicagp@ciencias.unam.mx
Jeanete Moreno Manzano
tenajmm@ciencias.unam.mx
Delia González Marín
delia.gonzalez.marin@gmail.com
Minerva María Romero Pérez
mineromero2901@ciencias.unam.mx
Nubia Getsemaní Casillas López
nubia.getsemani@ciencias.unam.mx
Soporte técnico
José Victorino Ruíz Lavida
victorinolavida@ciencias.unam.mx
Fernando Moctezuma Soto
ciencias.unam@ciencias.unam.mx