- Martes, 08 Octubre 2013
Hay más de 5.000 millones de usuarios móviles, cada mes se comparten más de 30.000 millones de contenidos en Facebook, existen billones de páginas Web, se hacen miles de millones de búsquedas diarias en Google, Facebook tiene más de 900 millones de usuarios, Twitter tiene más de 200 millones de usuarios, se suben más de 24 horas de vídeo cada segundo en Youtube, etc. [1].
Las cifras de crecimiento son impresionantes: según datos de la consultora IDC [2], el universo de los datos digitales se duplicará cada año, hasta alcanzar los 40.000 exabytes en 2020. Y esto es sólo el principio, pues en el año 2020 se esperan más de 50.000 millones de dispositivos conectados, dando lugar a la nueva era de comunicaciones conocida por la Internet de las cosas o “Internet of the things”. Dado el gran potencial de información que se encuentra detrás de este grandísimo volumen de datos, no es de extrañar que “big data” se haya convertido en una de las principales tendencias del sector TIC (Tecnologías de la Información y la Comunicación), generando una gran controversia y discusión en torno a cómo se explorarán las oportunidades de negocio y ventajas competitivas que representa, así como los desafíos que conlleva el crecimiento exponencial de los datos digitales y su explotación, tanto a nivel tecnológico, como regulatorio e incluso legal.
Características de big data
“Big data” (cuya traducción al castellano, muy poco utilizada, sería “grandes datos”) hace referencia a los sistemas de información y comunicaciones que manipulan grandes conjuntos de datos (datasets). La definición establecida por TechAmerica es [3]: “Big data es un término que hace referencia a grandes volúmenes de datos, variables y complejos, a alta velocidad; que requieren de avanzadas tecnologías que permitan la captura, almacenamiento, distribución, gestión y análisis de la información”. Esta definición es deliberadamente subjetiva: por ejemplo, no aclarara cuán grandes tienen que ser los volúmenes de datos (gigabytes, terabytes, petabytes, etc.). Así, a medida que evoluciona la tecnología, la cantidad de datos que puede ser considerada como “big data”, también va cambiando. Es más, el tamaño también depende del sector en cuestión, pues se puede tener un conjunto no demasiado elevado de datos, pero que pueden dar lugar a combinaciones muy complejas y variadas. Por ejemplo, la correlación de los cientos de miles de sensores de un avión es “big data”, ya que aunque el “dataset” no es elevado, cada uno de ellos produce medidas a muy alta velocidad y éstas deben ser correladas con el resto para dar lugar a información útil.
“Big data” se caracteriza a menudo por las conocidas como cuatro “Vs” [3]:
Volumen (volumen)
Hace referencia a la cantidad de datos generados y que deben ser capturados, analizados y gestionados para tomar decisiones. El auge de la telefonía móvil y las redes sociales y el crecimiento del número de dispositivos con capacidad de conectarse a Internet (teléfonos inteligentes, tabletas, sensores, cámaras IP, etc.), generan cantidades enormes de datos, que no paran de crecer siguiendo la Ley de Moore.
Velocidad (velocity)
Hace referencia a la rapidez con la que los datos son producidos o cambiados. Cada vez es más importante, para mejorar los procesos de decisión, que los datos sean accesibles y analizados en tiempo real. El incremento de la velocidad se debe al aumento de las fuentes de datos, los mayores anchos de banda en la parte de conectividad y la mayor potencia de computación de los dispositivos generando datos.
Variedad (variety)
El crecimiento de información viniendo de nuevas fuentes de datos, tanto desde dentro como fuera de la organización, genera retos en los departamentos de tecnologías de la información. Según varios estudios, sólo el 15% de la información actual está estructurada, que es aquella que se almacena fácilmente en bases de datos relacionales u hojas de cálculo, con sus tradicionales filas y columnas. Es decir, el 85% está desestructurada (videos, audio, social media, blogs, chat, e-mail, tweets, clicks, sensores, etc.), lo cual supone grandes retos para generar significado con las herramientas de inteligencia de negocio convencionales.
Valor (value)
La calidad los datos podría ser mala o indefinida, debido a inconsistencias e incongruencias, ambigüedades, latencia, etc. Las decisiones en “big data” deben estar basadas en datos fiables, trazables y justificables. Además, es importante considerar el potencial de interacción entre los datos producidos por distintas fuentes, pudiéndose generar información muy útil de combinaciones con resultados impredecibles.
Tecnología big data
Los tradicionales sistemas de gestión de bases de datos (SGBD) trabajaban con información estructurada y relacional. Las herramientas tradicionales no estaban diseñadas para analizar conjuntos de datos no estructurados y masivos y procedentes de fuentes diversas de las que se pueden obtener patrones escondidos, correlaciones desconocidas, etc.
Los sistemas “big data” constituyen la evolución natural de estos sistemas, trabajando con información más compleja que cumple las 4 Vs. Los entornos de programación de “big data destacan por su potencia en el análisis estadístico y gráfico. Las decisiones humanas tendrán un soporte en base a sofisticados algoritmos de simulación automatizados, lo cual mejorará el proceso de toma de decisiones, reduciendo los riesgos y permitiendo detectar valiosas revelaciones que de otro modo permanecerían ocultas. Mediante “big data” es posible probar infinidad de escenarios de simulación “qué pasa si…”, considerando un amplio abanico de datos demográficos, temporales, geográficos, etc., que pueden adaptarse a cambios en tiempo real.
Evidentemente, esto supone la adopción de nuevas tecnologías. Así, del lenguaje SQL se ha pasado a lenguajes y herramientas basadas en MapReduce (originario de Google) [4], como Hadoop, un entorno de programación “opensource” concebido por Yahoo y actualmente soportado por Apache [hadoop.apache.org]. Se han escrito implementaciones de librerías de MapReduce en diversos lenguajes de programación como C++, Java o Python. Además, de un único servidor de grandes prestaciones, en “big data” se recurre a arquitecturas clúster tipo anillo o similares con servidores estándar de menores prestaciones, que trabajan de forma distribuida, buscando reducir costes y mejorar la disponibilidad. Cuando se trabaja con datos distribuidos, estas tecnologías no mueven los datos, lo cual sería muy costoso y lento. En vez de hacer “backups”, se mantienen una serie de réplicas en distintos servidores. Así, en vez de procesar los datos desde un lugar central, se distribuyen los programas en los distintos servidores y se ejecutan en paralelo (map), consolidando posteriormente los resultados (reduce).
Entre los principales fabricantes de aplicaciones “big data”, nos encontramos con: EMC, IBM, Oracle, SAP, Teradata, etc. En concreto, Oracle destaca por su capacidad de ofrecer soluciones completas: almacenamiento, servidores, máquina virtual, sistema operativo, base de datos, middleware, aplicaciones, etc.; que pueden ser instaladas en los propios “data center” del cliente, en una “cloud” pública o privada, o siguiendo un modelo mixto.
Beneficios de big data para los operadores de telecomunicaciones
Los sectores que más se están beneficiando actualmente de “big data” son los de tecnologías de la información y electrónica, sector financiero, el de seguros y la Administración pública. Las grandes empresas y organizaciones, sobre todo las Web 2.0 (Amazon, Google, Facebook, Linkedin, Twitter, etc.), han sido las primeras en aprovechar “big data” para reducir costes, mejorar su productividad, mejorar su servicio de atención al cliente, desarrollar nuevos productos y servicios, etc. [1]; sin embargo, la tecnología es aplicable prácticamente a cualquier industria y cada vez más asequible para pequeñas y medianas empresas. En paralelo al crecimiento de “big data”, se ha producido un “boom” del mercado de análisis predictivo. Las empresas entienden la oportunidad de utilizar “big data” para incrementar el conocimiento de sus negocios, competidores y clientes. Las empresas pueden utilizar modelos de análisis predictivo para reducir riesgos, tomar mejores decisiones y proporcionar experiencias de cliente más personalizadas [5].
Para las operadoras de telecomunicaciones, “big data” va a suponer nuevas inversiones, pues aumentará el tráfico de las redes y la demanda de sistemas “cloud”. También son necesarios nuevos conocimientos, plataformas hardware, herramientas software y procesos operativos y comerciales. Sin embargo, “big data” es también una poderosa tecnología que pueden explotar para ganar cuota de mercado y mejorar la percepción del cliente, crecer en ingresos y rentabilidad, y optimizar operaciones. Así, “big data supone grandes retos para las operadoras, pero también una gran oportunidad.
Los operadores pueden obtener información muy importante sobre sus clientes, desde localización a incluso intereses personales, pero aún por diversos motivos, no han podido extraer todo el valor estratégico de dichos datos. Los datos son tanto estructurados (perfil del cliente, peticiones de servicios, tarificación, incidencias técnicas generadas, etc.), no estructurados (documentos, vídeos, imágenes, contenido Web, localización, presencia, DPI, señalización SIP/Diameter/SS7, logs, grabaciones del “contact center”, etc.) y parcialmente estructurados (perfil del cliente enriquecido con CDRs o “call data records” e información externa como blogs, foros, redes sociales, etc.). Mediante DPI (Deep Packet Inspection), pueden saber cuánto ancho de banda utiliza el usuario, cuándo se conecta, qué sitios Web visita, qué aplicaciones utiliza, etc. Incluso podrían obtener información adicional en tiempo real sobre los gustos e intereses del cliente, si bien actualmente se encuentran limitados por cuestiones legislativas sobre privacidad y confidencialidad. Toda esta información adquirida de diversas fuentes tiene que ser organizada y luego analizada para dar soporte a la toma de decisiones.
La consultora Ovum corrobora en un reciente informe [6] el papel cada vez más creciente que tiene “big data” para el sector “telco”. Esta tecnología permite a las operadoras, por ejemplo, predecir y reducir el ratio de abandono de clientes, impulsar la fidelidad de éstos mediante ofertas especiales y/o que combinen diversos productos y proporcionar servicios personalizados. No obstante, se trata de una tecnología que aún debe implantarse en mayor medida, si las operadoras quieren rentabilizar económicamente los datos de sus clientes. De hecho, según señala Ovum, uno de los principales retos de las operadoras es renovar su tradicional infraestructura de tecnologías de la información, y ser más flexibles, imitando el modelo de sus competidores OTTs [7], que pueden ofrecer nuevos servicios sin grandes inversiones y en muy poco tiempo.
La operadora española Telefónica siempre es una de las operadoras con más visión de futuro, lo cual se está demostrando también con su aproximación a “big data”. Telefónica Digital creó en Octubre de 2012 una nueva unidad de negocio global, Telefónica Dynamic Insights, para el desarrollo de ofertas comerciales para empresas privadas y organismos públicos, basadas en el propio “big data” del Grupo Telefónica.
El primer producto en ser lanzado al mercado, en concreto en Reino Unido, es “Smart Steps”, que utiliza datos agregados y totalmente anónimos de la red móvil. Estos datos permitirán a las empresas privadas y organismos públicos medir, comparar y comprender qué factores influyen en el número de personas que visitan un determinado lugar en cualquier momento. De este modo, los establecimientos comerciales pueden realizar ofertas puntuales adaptadas a cada una de sus tiendas y determinar las mejores localizaciones y los formatos más apropiados para la apertura de nuevas tiendas. “Smart Steps” podrá ayudar asimismo a los ayuntamientos a valorar los resultados en materia de afluencia de público de diferentes iniciativas como, por ejemplo, la respuesta de los ciudadanos a la disponibilidad de zonas de parking gratuito en diferentes zonas de la ciudad o la afluencia de personas a ferias y mercadillos. Telefónica Dynamic Insights está desarrollando también productos analíticos destinados a empresas de sectores muy variados, como la protección contra el fraude y la tecnología “smart city”, incluida la gestión de tráfico.
Autor:
Autor: Ramón Jesús Millán Tejedor
Bibliografía
[1] “Big data: The next frontier for innovation, competition and productivity”. McKinsey Global Institute, McKinsey&Company, Mayo 2011.
http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation
[2] “For Big Data Analytics There’s No Such Thing as Too Big. The Compelling Economics and Technology of Big Data Computing”. Forsyth Communications, Marzo 2012.
http://www.cisco.com/en/US/solutions/ns340/ns517/ns224/big_data_wp.pdf
[3] “Demystifying Big Data. A practical guide to transforming the business of Government”. TechAmerica Foundation
http://breakinggov.com/documents/demystifying-big-data-a-practical-guide-to-transforming-the-bus/
[4] “MapReduce: Simplified Data Processing on Large Clusters” Jeffrey Dean y Sanjay Ghemawat, Communications of the ACM - 50th anniversary issue 1958 – 2008, Volume 51 Issue 1, Enero 2008.
http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/mapreduce-osdi04.pdf
[5] “The Forrester Wave: Big Data Predictive Analytics Solutions”. Mike Gualtieri, Forrester, Enero 2013.
http://www.forrester.com/The+Forrester+Wave+Big+Data+Predictive+Analytics+Solutions+Q1+2013/fulltext/-/E-RES85601
[6] “Big Data Analytics and the Telco: How telcos can monetize customer data”. Clare McCarthy y Shagun Bali, Ovum, Mayo 2013.
http://ovum.com/research/big-data-analytics-and-the-telco/
[7] “Over-The-Top vs Operadoras: la competencia se intensifica”. Ramón Millán, Dintel - Alta Dirección nº III-1, Dintel, 2012.
http://www.ramonmillan.com/documentos/competenciaoperadoresvsott.pdf