Dark data
En la era de la información, las organizaciones recopilan constantemente grandes cantidades de datos. Pero en la mayoría de los casos, los datos recopilados se almacenan sin llegar a ser analizados. Estos datos, que existen, pero no se utilizan, se denominan dark data.
Bajo la división Arsys Cloud Solutions, diseñamos Soluciones a tu medida.
¿Qué es el dark data?
El dark data es un conjunto de datos que no son accesibles o no son conocidos por la organización. Puede tratarse de datos incompletos, que no han sido analizados, que son secretos o que no han sido recopilados (todavía). Lo esencial para que entendamos el término de dark data es que es relativo. Que los datos sean “dark” o no depende de la relación de esos datos respecto a una determinada organización.
El dark data es especialmente relevante en relación con la gestión de big data. Se generan continuamente tantos datos que a menudo no se pueden procesar y analizar a tiempo. En las palabras del estadístico británico David Hand:
“En tiempos de big data, es fácil pensar que tenemos toda la información que necesitamos para tomar buenas decisiones. Pero, de hecho, los datos nunca son completos y pueden representar solo la punta del iceberg”
(“In the era of big data, it is easy to imagine that we have all the information we need to make good decisions. But in fact the data we have are never complete, and may be only the tip of the iceberg.”)
- David Hand
Veamos cuatro situaciones concretas. Dark data pueden ser:
- Datos cuya existencia se desconoce
- Datos sujetos a incertidumbres
- Datos que se almacenan sin utilizar
- Datos que ni siquiera se han llegado a recopilar
De los cuatro escenarios, diferenciamos además dos casos distintos:
- La organización es consciente de que faltan datos, que están incompletos o que están sujetos a incertidumbre.
Este caso es el menos problemático de los dos. Si la organización es consciente de que los datos de los que dispone pueden ser únicamente la punta del iceberg, podrá tomar contramedidas y adaptarse a la situación. La organización puede intentar completar los datos recopilados o evaluar los datos que sí están disponibles con respecto a las incertidumbres.
- La organización no es consciente de que faltan datos o supone que los datos que ha recolectado están completos.
Este caso es el más peligroso de los dos. Si la organización asume que tiene una imagen completa de la situación basándose en los datos que ha recopilado, está operando bajo una suposición falsa. Las conclusiones extraídas de datos incompletos conducen a decisiones ineficientes.
En tiempos de big data y de data mining, las organizaciones se esfuerzan en extraer toda la información posible de los datos que recopilan.
¿Qué son los datos realmente?
El término “datos” está en boca de todos desde la explosiva difusión de las tecnologías de la información. Utilizado por políticos, representantes de empresas y científicos por igual; sin embargo, el concepto sigue siendo confuso para muchas personas. Esto se debe a que los datos no son de naturaleza física, sino un concepto abstracto.
Los datos no son lo mismo que la información
En primer lugar, tengamos en cuenta que los datos son una manifestación de la información. En realidad, los datos son los elementos más pequeños que componen la información. De la misma forma que los átomos son los elementos más pequeños que componen la materia o que los fotones son los elementos más pequeños que componen la energía.
Utilizamos el término “información” aquí como un término abstracto, al igual que la materia y la energía. Cuando hablamos de información en plural, nos referimos a expresiones concretas.
Cada dato, por sí mismo, carece de sentido. Solo la interpretación de varios datos permite obtener información útil. Para entenderlo, piensa en los datos como si fueran letras individuales. Una sola letra, por ejemplo, la letra “A”, no tiene significado por sí misma. Solo cuando se combinan varias letras se obtiene una palabra como, por ejemplo, “Manzana”. Aquí, además, el orden es decisivo, ¿o te sirve de algo la palabra “zaanMan”?
La información es, por tanto, un conjunto de datos agrupados en estructuras y separados entre sí. Después de agruparlos, el proceso de interpretación depende del contexto. Esto significa que una serie de datos puede ser interpretada de diferentes formas, lo que puede dar lugar a varios significados. Piensa de nuevo en la palabra “Manzana”. En lugar de combinar las letras individuales para formar una palabra, podríamos contar las letras. El resultado sería una información diferente basada en los mismos datos.
Imaginemos la totalidad de los datos de una organización como una montaña. Y que el reto consiste en extraer información útil de la montaña de datos. A diferencia de una montaña física, donde los materiales valiosos solo se pueden extraer una vez, la información útil puede, en principio, extraerse varias veces de una montaña de datos. Cada vez que se extrae la información depende del contexto y de la perspectiva.
La jerarquía de la información
Si la información se compone de datos, como la materia se compone de átomos, es natural suponer que existen otras estructuras superiores. De hecho, existe una jerarquía de la información: los datos están en la parte inferior, seguidos por la información y finalmente por el conocimiento.
El conocimiento consiste en información interconectada. Para ello, hay una ponderación de las unidades individuales de información. Algunas unidades son primarias, otras secundarias. Para el conocimiento es crucial el concepto de referencia, que hoy se conoce como (hyper)-link: determinada información que remite a otra unidad de conocimiento. Ejemplos de conocimiento son las entradas de Wikipedia, las recetas y los procesos documentados.
A partir del conocimiento, nace la inteligencia. Permite obtener conclusiones y reconocer patrones a partir del conocimiento aprendido y la experiencia adquirida. Los nuevos conocimientos se crean a partir de la definición y prueba de nuevas hipótesis. Para la inteligencia es crucial la información ejecutable o, en otras palabras: el código. Pueden ser algoritmos o heurísticas. Mientras que los datos, la información y el conocimiento son inertes, la inteligencia requiere un entorno de ejecución. Las células, los organismos, los ordenadores y las redes son sistemas que muestran inteligencia.
El nivel más alto en la jerarquía de la información es la sabiduría. La sabiduría es la suma del conocimiento y la inteligencia. La sabiduría permite evaluar diferentes vías para encontrar una solución equilibrada. Las preguntas interesantes no son tanto el “qué” (datos, información) o el “cómo” (conocimiento, inteligencia), sino el “por qué” y el “para qué”. Un buen ejemplo de sabiduría es una biblioteca. Esto no solo incluye el conocimiento en forma de libros y otros medios, sino también la inteligencia en forma de personal y sistemas de índices.
- Control total de datos
- Fácil de administrar
- Agrega fácilmente aplicaciones y herramientas de colaboración
¿Cómo se produce el dark data?
Los procesos organizativos que se apoyan en los métodos modernos de procesado de la información producen datos constantemente. Una cierta proporción de todos los datos recopilados se convierte en dark data, pues la información de que los datos existen se pierde o falta desde el principio. También puede ocurrir que el conocimiento de cómo se pueden analizar los datos no esté disponible.
El dark data se presenta de varias formas. En las palabras de la experta en marketing Sky Cassidy:
“El dark data es un conjunto de datos que las empresas recopilan y conservan como parte de los procesos empresariales habituales sin intención de analizarlos ni de deshacerse de ellos. Esto incluye archivos de registro web, estadísticas de visitas a la página web, grabaciones de cámaras de vigilancia, correos electrónicos de antiguos empleados y mucho más.”
(“So as for Dark data, it’s all the information companies collect in their regular business processes, don’t use, have no plans to use, but will never throw out. It’s web logs, visitor tracking data, surveillance footage, email correspondences from past employees, and so much more.”)
- Sky Cassidy
El dark data surge de los datos olvidados o que ya no son accesibles
Una gran parte del dark data consiste en datos a los que ya no se puede acceder porque se han olvidado o porque no se dispone de las herramientas de acceso.
Los empleados almacenan continuamente datos en sus dispositivos privados y de empresa. Estos datos caen rápidamente en el olvido y se convierten en dark data. Los datos de las memorias USB y los discos duros externos, así como las bases de datos internas de los dispositivos móviles y de sobremesa retirados, forman parte del dark data tanto como los datos de los archivos adjuntos en correos electrónicos y bases de datos no utilizadas.
La escalabilidad casi infinita es una de las ventajas de la nube, pero al mismo tiempo también su talón de Aquiles. Con la ayuda del almacenamiento en la nube, es posible seguir acumulando datos sin llegar a un límite fijado, lo que tienta a los empleados a recopilar cantidades ilimitadas de datos. Si el frenesí de recopilación de datos se produce al margen de procesos estrictamente regulados, suelen resultar en dark data.
Cuando los datos se almacenan digitalmente, hay que hacerlo teniendo en cuenta la seguridad y la protección de los datos. Los datos están encriptados, los sistemas están protegidos con accesos por medio de autenticación. Pero ¿qué ocurre si se olvida la contraseña de acceso o no se encuentra la clave? En ambos casos, deja de haber acceso a los datos; se pierde la posibilidad de acceder a la información que contiene.
No obstante, existe otro peligro, el de perder el acceso a los datos que realmente son necesarios. Esto puede ocurrir si los datos ya no se encuentran accesibles. Si, por ejemplo, se trata de un formato de archivo propietario, puede ser necesario utilizar un programa especial para leerlo. Sin embargo, puede ocurrir que el programa ya no esté disponible en la versión requerida. Esto significa que los datos permanecen atrapados en el vendor lock-in.
El dark data surge de datos incompletos o desactualizados
El dark data no solo está formado por los datos a los que no se tiene acceso. También incluye datos incompletos o desactualizados. Volvamos a escuchar al estadístico David Hand:
“Dark data son datos que faltan. Puede que quieras los datos de hoy, pero solo tienes los de ayer. Tal vez tengas una muestra sesgada o te falten algunos casos de la muestra de los datos. O, tal vez, los valores medidos son inexactos, pues no existe un instrumento de medición perfecto”.
(“Dark data are data you don't have. This might be because you want today's data, but all you have is yesterday's. It might be because your sample is distorted, perhaps certain types of cases are missing. It might be because the recorded values are inaccurate – after all, no measurement instrument is perfect.”)
- David Hand
Recuerda que los datos son el nivel más bajo dentro de la jerarquía de la información. Las imprecisiones y desviaciones de los datos se manifiestan en los niveles de información superiores. Esto suele provocar efectos en cascada: pequeñas desviaciones provocan grandes cambios. Por lo tanto, los datos incompletos pueden tener repercusiones importantes.
Lo mismo ocurre con los datos desactualizados. Por ejemplo, consideremos la geolocalización de un usuario, que se almacena como parte de un conjunto de datos. Dado que la geolocalización cambia constantemente a medida que el usuario se desplaza, la información que recoge la geolocalización solo puede ser útil si los datos se analizan en tiempo real. Por ejemplo, si quieres hacer una oferta a un usuario basada en su ubicación, debes hacerla mientras el usuario esté todavía en ese lugar.
El dark data surge de datos que no han sido analizados
Una gran parte del dark data consiste en datos que se han recopilado y almacenado, pero no se han analizado. Un volumen especialmente elevado de dark data procede de fuentes que generan datos automáticamente. Esto incluye los sensores, así como los archivos de registro y las estadísticas de visitas de las páginas web. Los datos generados se almacenan a menudo durante largos periodos de tiempo sin que se extraiga y analice la información que contienen.
Algunos datos están disponibles en formatos que requieren procedimientos complejos para su evaluación. Esto incluye tanto los textos contenidos en archivos de imagen como las palabras habladas en archivos de audio. En general, las imágenes digitales contienen una gran cantidad de información que solo puede automatizarse con métodos modernos de inteligencia artificial. El reconocimiento y la clasificación de patrones se utilizan para identificar y asignar los objetos representados en los datos de las imágenes. Dado que estos enfoques son todavía relativamente nuevos, la mayor parte del contenido de imágenes almacenado en todo el mundo es seguramente dark data.
En otro caso, el dark data surge de datos existentes, pero no analizados. Es decir, si los datos solo se almacenan y conservan para cumplir con un archivado a prueba de auditoría, pero sin ninguna intención de ser analizados. El estadístico David Hand describe el problema de una manera muy acertada:
“Puede incluso ocurrir que los datos existan pero no hayan sido examinados. Que los datos se pudran poco a poco en un enorme almacén de datos porque solo se recopilaron por cumplir con la normativa”.
(“It might even be that the data are available, but unexamined, gently decaying in a giant data warehouse, unlooked at because they were collected purely for compliance reasons.”)
- David Hand
El dark data surge de datos que aún no han sido recopilados
Además de los tipos de dark data comentados anteriormente, existe otro tipo. Este último tipo tiene un carácter más teórico puesto que, en este caso, los datos aún no se han recopilado. Naturalmente, estos datos (aún no existentes) no están a la vista de la organización, que es ajena a ellos. Por ello también cuentan como dark data.
El estadístico David Hand traza una analogía con la astrofísica y su conocida “materia oscura”:
“Al igual que gran parte del universo se compone de materia oscura, invisible para nosotros pero no obstante presente, el universo de la información está lleno de dark data que ignoramos, asumiendo el riesgo que eso conlleva”.
(“Just as much of the universe is composed of dark matter, invisible to us but nonetheless present, the universe of information is full of Dark data that we overlook at our peril.”)
-David Hand
¿Por qué el dark data es un problema?
El dark data supone un problema para empresas y otras organizaciones. Hay varias razones para ello. Aquí solo hablamos de los casos en los que los datos realmente existen y excluimos los casos en los que los datos aún no existen.
El almacenamiento de dark data es improductivo
El almacenamiento de cualquier tipo de datos requiere recursos. Esto incluye, en particular, el espacio de almacenamiento y la energía suministrada por el proveedor, lo que conlleva unos costes que asume la organización a la que le pertenecen los datos. Por tanto, la organización suele esforzarse en almacenar únicamente los datos que tiene pensado analizar.
La eficiencia se define como el cociente entre el beneficio y el esfuerzo. Si se obtiene un alto beneficio con poco esfuerzo, se habla de alta eficiencia. Por otro lado, un beneficio bajo con un esfuerzo alto significa que la eficiencia es baja.
Eficiencia = Beneficio / Esfuerzo
Se supone que los datos son útiles, aunque el uso real del dark data es limitado. Sin embargo, hay que hacer un esfuerzo continuo para almacenar esos datos. En consecuencia, el almacenamiento de dark data es ineficiente.
No se puede encontrar la aguja de la información en el pajar del dark data
Imaginemos la totalidad de los datos de una organización como un iceberg. En este caso la mayoría de los datos son dark data. Desgraciadamente, los datos útiles no se acumulan en la superficie. Más bien, se mezclan con el dark data y no pueden separarse fácilmente. Para encontrar datos útiles, hay que buscar en todo el iceberg.
Debido a la enorme masa de dark data, la información útil permanece oculta. A menudo no está claro si los datos tienen algún valor. La falta de datos o los datos incorrectos conducen a información incorrecta. El dark data influye, pues, en las conclusiones que se extraen de la información disponible. Esto limita el comportamiento de la organización.
Nadie sabe todo lo que contiene el dark data
El dark data es, por definición, opaco. Nunca se puede estar seguro de si contiene información útil ni información sensible que pueda caer en manos equivocadas.
Los datos suelen almacenarse durante largos periodos de tiempo. El dark data es poco productivo para la organización. A menudo, hay una falta de motivación para proteger los datos. Los datos almacenados no utilizados se olvidan fácilmente. Esto hace que sea más probable encontrar dark data inadecuadamente protegido.
En principio, los datos siempre pueden contener información sujeta a una protección especial. En la mayoría de los casos, cada dato individualmente es inofensivo; mientras que, por el contrario, sí se puede extraer información sensible de grandes volúmenes de datos. Por ejemplo, se pueden crear perfiles de movimiento a partir de los datos de localización recopilados durante largos periodos de tiempo. Por lo tanto, la pérdida de dark data supone un alto riesgo de daños.
Además de la filtración de datos sensibles, existe otro riesgo asociado al dark data. Esto se debe a que es posible que estos datos no puedan ser recuperados por el disaster recovery después de un fallo. Imaginemos un sistema que funcione sin problemas. En principio se cree que todos los componentes son conocidos, los cuales mantienen los cloud backups. Pero resulta que nadie sabía que uno de los componentes estaba compuesto por dark data. Por lo que, al restablecer el sistema, falta una parte crítica. En el peor de los casos, se pueden producir fallos de sistemas importantes.
El dark data es difícil de eliminar
Es difícil gestionar una montaña de datos. El dark data puede contener información útil o sensible. Puede haber períodos específicos que definan el plazo mínimo de almacenamiento de los datos dentro de la empresa. Así que no es fácil deshacerse de los datos de cualquier manera.
Esta situación es más o menos similar a la de los residuos peligrosos, que son difíciles o imposibles de separar. Si una tonelada de residuos contiene un gramo de material altamente tóxico, toda la tonelada se trata como residuo peligroso. Así que los datos siguen almacenándose y la montaña de datos sigue creciendo. Lo que supone un aumento en el coste de almacenamiento.