En recientes estudios se ha indicado que el 90% de la totalidad de los datos a nivel mundial se ha creado en los últimos dos años, capturando, almacenando, procesando y proveyendo diez o más veces la información que todos los años anteriores de la humanidad. Las actuales estimaciones indican que la cantidad de datos que se generaron en el 2018 alcanzó los 33 zettabytes (un zettabyte o ZB equivale a 1.000 millones de terabytes), equivalente a 16 veces más que lo generado en los 10 años anteriores. Este Big Bang de datos continúa acelerándose, y se espera que para el año 2025 supere los 175 zettabytes, quintuplicando la cantidad del 2018.

Este nuevo escenario de gran producción de información, nos obliga a mejorar nuestra capacidad de toma de decisiones basadas en datos, como factor relevante en las políticas públicas, sector privado y comunidad en general. Un buen uso y análisis de los datos provee la posibilidad de conocer características o Insights de sus acciones, ya sea para comprender un suceso, sus causas y anticipar sus repercusiones. De esta forma, habilita la utilización de los datos para tomar decisiones con bases sólidas y confiables. Sin embargo, este nuevo escenario trae consigo la necesidad de desarrollar los mecanismos necesarios de captura, almacenamiento, procesamiento, seguridad y disponibilización de los datos, así como la capacidad para usarlos de manera simple y amplia. Esta capacidad de adquirir datos, comprenderlos, procesarlos, extraer valor de ellos, visualizarlos, y comunicarlos, será una habilidad enormemente importante en las próximas décadas.

La Ciencia de Datos (Data Science) puede definirse como el uso de datos para lograr objetivos específicos mediante el diseño o la aplicación de métodos computacionales para inferencia o predicción[1]. Esto considera el estudio de datos, de dónde provienen, qué representan y las formas en que pueden transformarse en valiosos aportes y recursos para crear estrategias científicas, comerciales y sociales. Este es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de los (grandes volúmenes de) datos. Algunas de las características de la Ciencia de Datos son:

  1. Alcanzar objetivos específicos: según el dominio y el contexto, puede significar exploración, descubrimiento, toma de decisiones, predicción, optimización u objetivos y tareas similares;
  2. Diseñar o aplicar: representa actividades como el diseño, comprensión o examen de métodos de inferencia (por ejemplo, el estudio del aprendizaje de datos en el aprendizaje automático [ML]) o la aplicación de métodos en un contexto de problema particular (por ejemplo, utilizando análisis estadístico o métodos de inferencia);
  3. Métodos computacionales: se refiere al uso de computadoras para realizar una búsqueda directa o para ayudar a un humano a formular u optimizar un modelo;
  4. Inferencia o predicción: esto incluye la formulación automatizada de hipótesis, la exploración automatizada de definiciones de nuevos atributos o representaciones, etc., así como producir un modelo predictivo optimizado sin necesariamente obtener información sobre cómo funciona;
  5. Datos (estructurados o no): esto requiere la adquisición, limpieza, transformación, estimación de calidad, curatoría, seguridad y provisión de datos.

[1] Usama Fayyad and Hamit Hamutcu, Toward Foundations for Data Science and Analytics: A Knowledge Framework for Professional Standards, Jun 30, 2020 (https://hdsr.mitpress.mit.edu/pub/6wx0qmkl/release/2)

El Data Observatory (DO) está orientado al desarrollo y promoción de data sets (conjunto de datos) nacionales relevantes en los ámbitos de competencia, así como al desarrollo de soluciones innovadoras que aporten valor en las áreas de la ciencia, economía y sociedad, a través del manejo de datos e innovación de soluciones. En particular, las principales acciones en esta área son las siguientes.

  1. Desarrollo de data sets. El DO adquirirá y gestionará data sets de distintas industrias y sectores, para lo que se analizarán las distintas ofertas que existan, en términos de exploración y visualización; y desarrollará distintas herramientas de acceso y gobernanza para maximizar la explotación de conjuntos de datos de alto valor, combinando modos de acceso público y otros.
  2. Desarrollo de soluciones. El DO y sus miembros crearán soluciones a los desafíos que surjan del análisis de los conjuntos de datos valiosos que se irán adquiriendo. Como es sabido, los datos no solo sirven para analizarlos, sino también para crear diferentes respuestas y modelos predictivos a los desafíos existentes utilizando la información procesada. El objetivo de estas soluciones será crear valor para la comunidad más allá del campo de origen de los datos.