En recientes estudios, se ha indicado que el 90% de la totalidad de los datos a nivel mundial se ha creado en los últimos dos años, capturando, almacenando, procesando y proveyendo diez o más veces la información que todos los años anteriores de la humanidad. Las actuales estimaciones indican que la cantidad de datos que se generaron en el 2018 alcanzó los 33 zettabytes (un zettabyte o ZB equivale a 1.000 millones de terabytes), equivalente a 16 veces más que lo generado en los 10 años anteriores. Este Big Bang de datos continúa acelerándose, y se espera que para el año 2025 supere los 175 zettabytes, quintuplicando la cantidad del 2018.
Este nuevo escenario de gran producción de información, nos obliga a mejorar nuestra capacidad de toma de decisiones basadas en datos, como factor relevante en las políticas públicas, sector privado y comunidad en general. Un buen uso y análisis de los datos provee la posibilidad de conocer características o Insights de sus acciones, ya sea para comprender un suceso, sus causas y anticipar sus repercusiones. De esta forma, habilita la utilización de los datos para tomar decisiones con bases sólidas y confiables. Sin embargo, este nuevo escenario trae consigo la necesidad de desarrollar los mecanismos necesarios de captura, almacenamiento, procesamiento, seguridad y disponibilización de los datos, así como la capacidad para usarlos de manera simple y amplia. Esta capacidad de adquirir datos, comprenderlos, procesarlos, extraer valor de ellos, visualizarlos, y comunicarlos, será una habilidad enormemente importante en las próximas décadas.
La Ciencia de Datos (Data Science) puede definirse como el uso de datos para lograr objetivos específicos mediante el diseño o la aplicación de métodos computacionales para inferencia o predicción[1]. Esto considera el estudio de datos, de dónde provienen, qué representan y las formas en que pueden transformarse en valiosos aportes y recursos para crear estrategias científicas, comerciales y sociales. Este es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de los (grandes volúmenes de) datos. Algunas de las características de la Ciencia de Datos son:
El Data Observatory (DO) está orientado al desarrollo y promoción de data sets (conjunto de datos) nacionales relevantes en los ámbitos de competencia, así como al desarrollo de soluciones innovadoras que aporten valor en las áreas de la ciencia, economía y sociedad, a través del manejo de datos e innovación de soluciones. En particular, las principales acciones en esta área son las siguientes.