Si bien es cierto que la información por sí misma no es el poder, éste se logra con el uso adecuado de aquella para generar conocimiento. A su vez, la información se alcanza con la interpretación de los datos —basada en un cambio de condiciones y con el paso del tiempo — e incluye patrones, relaciones y significado de los datos mismos. Los datos comprenden hechos, representaciones o mecanismos por los cuales es posible identificar y medir algunos aspectos del mundo que nos rodea, pero que por sí solos no aportan valor. Y datos son lo que se obtiene mediante la observación, la experiencia, la transmisión oral o la comunicación, ya sea visual, escrita, eléctrica, radial o electrónica. En el ciberespacio, la información (datos duros, o sea, sin elaborar) están en forma digital o binaria.
Hoy en día, la información y el conocimiento están al alcance de cualquier usuario de la Tecnología para la Información y la Comunicación (TIC) sin restricción alguna, para explotar en su propio beneficio y el de su comunidad la información y el conocimiento que existen libres en el ciberespacio (red y nube). Ello como resultado de que el mundo se ha hecho plano o parejo, como señala el periodista y teórico estadounidense Thomas Friedman en su libro The World is Flat. El verdadero conocimiento que agrega valor al trabajo intelectual se producirá en los próximos cinco minutos.
Detrás de los datos
En la actualidad, casi todas las acciones de las personas conectadas dejan una estela de datos, “migajas” (como los denomina Alex Pentland del MIT Media Lab) que son visibles y aptas para su aprovechamiento incluso por terceros. La datificación de productos es evidente: videos, música, imágenes y hasta sensaciones táctiles pueden ser transformados en lenguaje binario para convertirse en elementos almacenables, transportables, procesables y analizables.
La cantidad de información digitalizada ha crecido exponencialmente, auspiciada por el aumento de las tendencias en la TIC como la mayor disponibilidad de dispositivos móviles, la demanda de transparencia en las actividades gubernamentales y comerciales, el uso de la nube (Cloud Computing), el Internet de las Cosas (IoT), la digitalización de libros y revistas, y la amplia variedad de videojuegos. La tecnología digital domina claramente sobre las analógicas, ya que desde 2007 el 99.9% de la información generada está en formato digital; al contrario, sólo el 0.007% de la información del planeta se encuentra en papel.
Según estimaciones de la consultoría Sogeti, de 2006 a 2013 se han generado más datos de los que la humanidad había producido en todo su recorrido anterior, tránsito que es soportado por 1,000 millones de dispositivos conectados. Y la explosión no ha hecho más que comenzar: para 2020 circularán por el mundo 35.2 zettabytes frente a los 1.8 zettabytes alcanzados en 2011.
Además, la velocidad a la que los datos se generan es vertiginosa: cada minuto se envían 200 millones de correos electrónicos, se realizan 4 millones de búsquedas en Google y se suben 72 horas de videos en YouTube (Pulido, 2014). Un panorama general del ambiente digital prevalente lo provee el portal Worldmeter, en el que los datos se actualizan al momento (información al 31 de octubre de 2017):
Concepto | Volumen |
Libros publicados en 2017 | 2.1 millones |
Periódicos en circulación hoy | 222.6 millones |
Teléfonos celulares vendidos en las últimas horas | 2.6 millones |
Computadoras vendidas en 2017 | 288.6 millones |
Dinero destinado a videojuegos el día de hoy | US$98.5 millones |
Usuarios de internet en el mundo | 376.2 millones |
Correos electrónicos enviados diariamente | 108,070.7 millones |
Entradas de blogs escritas hoy | 2.3 millones |
Tweets enviados hoy | 307.8 millones |
Búsquedas en Google efectuadas hoy | 2,494.7 millones |
Esta situación ha dado lugar a que se hable de que nos enfrentamos a una “marea”, un “océano”, un “diluvio”, un “tsunami” o una “tempestad” de datos, resultante de su proliferación en diversos órdenes, fuentes y canales que están disponibles para destinatarios genéricos o específicos.
¿De dónde viene esta marea?
La consultora Gartner lo define como “aquellos recursos informáticos que se caracterizan por alto volumen, velocidad y variedad, que requieren formas de procesamiento innovadoras y eficientes para mejorar el conocimiento y la toma de decisiones”. Dichas peculiaridades dieron lugar a que Doug Laney de la misma consultoría las definiera como “las 3 V del Big Data” (volumen, velocidad y variedad), a las que otros expertos han añadido veracidad, variabilidad y valor.
Algunas de las principales fuentes generadoras de la marea de datos son:
- Redes sociales
- Blogs y páginas web
- Geolocalizadores (GPS)
- Aplicaciones de mensajería y correo electrónico
- Motores de búsqueda
- Dispositivos móviles con acceso a internet (teléfonos inteligentes, tabletas y computadoras)
- Aplicaciones para visualizar películas y programas de televisión
- Gestión de datos a través de la nube (Cloud Computing)
- Portales gubernamentales impulsados por la iniciativa de gobiernos abiertos y la exigencia ciudadana de transparencia
- Archivos de texto
- Contenido multimedia
- Drones
- Servicios financieros online y uso de cajeros automáticos
- Ciudades, hogares y transportes inteligentes
- Datos Abiertos
- Dispositivos de escucha y video-vigilancia
- Dispositivos de monitoreo adheridos al cuerpo humano (wearables)
- e-Commerce
- Videojuegos
- Registros médicos y monitoreo de pacientes
- Sensores tipo contador inteligente (Internet de las Cosas o IoT)
- Tarjetas de crédito, débito y fidelidad usadas en compras
- Uso generalizado de computadoras en red
Los datos por sí mismos carecen de valor práctico. Para alcanzar valor económico, la marea de datos requiere procesamiento, análisis, interpretación de resultados y traducción a un lenguaje fácil de entender y de aprovechar por quienes tienen la facultad de tomar decisiones. El proceso de valorización y comunicación de los resultados requiere expertos con competencias y habilidades especiales, quienes son llamados en la actualidad científicos de datos. Ellos deben tener formación no sólo en ciencias computacionales, sino también en estadística, matemáticas, economía, administración, finanzas y otras, dependiendo de las áreas en que trabajen.
Potencial de la datificación
En palabras de Andreas Weigend, ex jefe científico de Amazon, “los datos son el nuevo petróleo, no sólo por su valor económico sino también porque, como el petróleo, necesitan ser refinados y depurados para que aporten valor”. Para la OCDE (Organización para la Cooperación y el Desarrollo Económicos), el Big Data “genera sustancial valor debido a la innovación y eficiencia, algo de lo cual es pasado a los consumidores”.
The McKinsey Global Institute considera que “puede jugar un significativo papel económico que beneficia no sólo al comercio privado, sino también a la economía nacional y, por ende, a la de sus ciudadanos”. Por otro lado, en opinión de Smolan y Erwitt, autores del libro The Human Face of Big Data, éste “constituye una extraordinaria revolución de la que mucha gente piensa que puede tener un impacto tan importante en el progreso de la humanidad como el que internet tuvo en las dos últimas décadas”.
Este nivel de importancia del Big Data ha sido logrado en función de la dinámica evolución de la TIC en las áreas de:
- Digitalización progresiva de la actividad humana
- Disminución del costo de los dispositivos tecnológicos
- Capacidad de almacenamiento de datos constantemente en aumento y de la reducción de sus costos operativos
- Velocidad de procesamiento de datos incrementada en forma significativa
- Trabajo en paralelo y compartido que es posible con dispositivos enlazados (Cluster Computing)
- Ciencia de Datos, nueva especialidad profesional de surgimiento incipiente
7 ámbitos de uso del Big Data
ECONOMÍA
- Crea valor agregado mediante innovación, productividad y crecimiento.
- Abre la posibilidad de nuevos modelos de negocios, productos y servicios.
- Favorece las decisiones informadas en tiempo real.
- Estimula la competitividad dinámica en los negocios.
- Mejora el desempeño, la operatividad y la rentabilidad empresarial.
- Permite la operación on demand que mejora servicio, ahorro en inventarios y satisfacción al consumidor.
- Optimiza la cadena de suministros y operación de maquinaria.
- Ayuda a conocer mejor al consumidor y contribuye a una mejor segmentación del mercado.
GOBIERNO
- Impulsa el gobierno abierto con información, transparencia y colaboración ciudadana.
- Permite monitorear el gasto gubernamental y la corrupción.
- Influye en el establecimiento de las ciudades inteligentes (Smart Cities).
- Incentiva la consulta y participación de los ciudadanos para mejorar los servicios.
- Simplifica la elaboración de censos poblacionales, económicos y sociales.
- Apoya actividades agropecuarias con información sobre temperatura, humedad, luminosidad, condiciones para comercialización de productos y disponibilidad de insumos.
- Genera información sobre empleo, desastres naturales, brotes epidémicos, seguridad y terrorismo, entre muchos otros.
SOCIAL
- Promueve la gestión de servicios en el hogar (casa inteligente o Smart Home).
- Permite conocer cómo se comunican los individuos y sus relaciones con el entorno.
- Ofrece bienestar colectivo y contribuye al trabajo comunitario (por ejemplo, en desastres naturales).
- Mejora la seguridad y la calidad de vida.
- Facilita la preparación de programas de prevención del delito y numerosos beneficios a los sectores más vulnerables.
- Disminuye la realización de fraudes y otras actividades criminales.
SALUD
- Monitoreo de atención sanitaria en hospitales y en población abierta (Smart Healthcare). También a pacientes ambulatorios con wearables
- Desarrollo de programas preventivos
- Optimización de asignación de recursos en función de las necesidades
- Vigilancia epidemiológica
- Observación del patrón genético de los individuos para el descubrimiento temprano de alteraciones
EDUCACIÓN
- Evaluación del rendimiento escolar de manera personalizada, lo que posibilita identificar a tiempo a estudiantes con problemas académicos y a los de mayor aprovechamiento para otorgarles becas, en caso de que sea necesario
- Empleo de plataformas e-Learning (educación a distancia, no presencial y online)
- Disminución de la tasa de abandono
- Mejora de programas educativos y planes de estudio
- Optimización del uso de los recursos
INVESTIGACIÓN
- Determinación en tiempo real de flujos de tráfico terrestre, marítimo o aéreo
- Desarrollo de la ciencia como el caso del descubrimiento del Bosón de Higgs o la secuencia del genoma humano
- Condiciones internas de volcanes
- Producción y trayectoria de huracanes y tsunamis
- Comportamiento de los individuos o grupos mediante interacciones en internet
- Compartición en tiempo real de datos entre practicantes de una disciplina o de diferentes campos científicos (Crowdsourcing).
- Ciencia ciudadana donde los voluntarios recogen datos como parte de una investigación centralizada
MEDIO AMBIENTE
- Predicción de terremotos, maremotos, lluvias torrenciales y otros desastres naturales
- Monitoreo de producción y prevalencia de contaminantes en la atmósfera, tierra y cuerpos de agua
- Vigilancia de grupos de animales en peligro de extinción
- Alternativas energéticas no contaminantes
- Monitoreo de flujos migratorios
Sus limitaciones en la mira
Aunque constituye una herramienta para extraer valor de la marea que circula en el ciberespacio, el Big Data no es una panacea para resolver los muchos problemas creados por el quehacer humano. Tiene inconvenientes que deben tomarse en cuenta para su utilización:
- El volumen y la variedad de los datos, así como la velocidad con la que se generan, exige la disponibilidad de hardwares y softwares específicos, y cada vez más robustos para su procesamiento.
- Es indispensable comprobar la fiabilidad de los datos que se analizan con el objeto de que los resultados tengan valor práctico.
- Aprovechar esta marea requiere profesionistas altamente capacitados: científico de datos, escasos en la actualidad.
- El análisis es muy útil para obtener correlaciones en grandes poblaciones de datos; por ello no puede detectar comportamientos individuales o de minorías. También presenta ciertos riesgos como exclusión de grupos poblacionales sin acceso a internet, robo de identidad, afectación a la privacidad, pérdida de identidad, entre otros.
- Comúnmente los grandes volúmenes de datos se acompañan de mucho ruido (información inútil, irrelevante y a veces engañosa).
- Los resultados del análisis tienen vigencia, es decir, su validez está determinada por el tiempo, pues los datos se encuentran en cambio permanente y demandan actualización de los resultados.
- La operación de los centros de datos, particularmente los centralizados, necesita cantidades enormes de energía eléctrica. Además, la huella de carbono generada por los centros de datos representa el 17% de la producida por todos los dispositivos tecnológicos.
Este artículo se publicó en el número 18 de la revista impresa y digital