La ubicuidad de los grandes datos es tal que Gartner la abandonó de su Ciclo de Hype de Tecnologías Emergentes en 2015. A través de los sectores, las empresas están luchando para que cada función «impulsada por los datos», y no hay escasez de empresas alineadas para ayudarles. La gran industria de análisis de datos, dedicada a ayudar a las grandes empresas a aprovechar los petabytes de información que ahora generan y almacenan, tiene un valor de US $ 122.000 millones y está creciendo.
La premisa básica de la oferta de la industria es la siguiente: Ocultos en esa enorme masa de datos empresariales son patrones latentes. Si sólo pudieras interpretar tus datos correctamente, como un explorador que descifra un antiguo pergamino, serías capaz de desenterrar estos preciosos secretos comerciales. Se necesitan herramientas de software analítico especialista para descifrar el código. Los datos grandes, diversos, dispares y desordenados entran en estas herramientas, y las «ideas accionables» salen.
Aquí hay un juego que puedes jugar en casa: Busca en línea una historia real de cómo los grandes análisis de datos produjeron una pieza de inteligencia «oculta» o «inesperada», basada en la acción del negocio, con resultados comerciales cuantificables Expresado en una de las principales monedas del mundo). Puede que sólo detecte una ausencia conspicua de estudios de casos concretos para validar esta cadena de «datos-insight-acción-valor» como un concepto.
En la versión original de ese juego, popular entre los trabajadores de oficina de jaded a mediados de los años 2000, los jugadores buscarían ejemplos de bloggers que hicieron tanto dinero de los blogs que dejaron sus trabajos para blog a tiempo completo (en casa, en una hamaca, con Un daiquiri). Los jugadores del veterano notaron eventual que hay solamente un tema que blogging lucrativo bastante para apoyar tal cambio de la forma de vida – cómo hacer una vida de su blog así que usted puede parar el 9-5.
Al hacer clic a través de las páginas de «desbloquear el valor de sus grandes datos!», Un cínico podría sospechar que el mejor (y tal vez sólo) método de derivar el valor de los grandes datos es entrar en el negocio de decirle a la gente cómo obtener valor de su Grandes datos.
Todo lo que sucedió es que las innovaciones tecnológicas en la capacidad de manejo de datos (hechas por compañías como Google para lidiar con la escala y la complejidad de la Web 2.0) saltaron temporalmente por delante de nuestro progreso en el aprendizaje de cómo aplicarlas – progreso que hacemos a través de la experimentación.
En el ínterin, las empresas han incumplido a aprovechar los grandes datos exactamente de la misma manera que anteriormente utilizaron datos pequeños: para la información y la inteligencia de negocios. Después de invertir en herramientas diseñadas para analizar los datos a escala, han sido recompensados con paneles interactivos que lo visualizan. Se trata básicamente de gráficos generados automáticamente, muy similares a los informes Excel y PowerPoint que los ejecutivos crearon manualmente en 2005, pero mucho más bonitos y costosos. Es fácil ver por qué este enfoque no ha cumplido con la gran promesa de datos.
En primer lugar, para que un cerebro humano débil interprete conjuntos de datos grandes y complejos, los conjuntos de datos deben primero hacerse «más pequeños» a través de la agregación, el resumen, la descripción y la presentación, que no entiende el punto.
En segundo lugar, sólo hay un límite natural en la medida en que tener información sobre su negocio va a ayudarle a ganar en ella. Los datos de una empresa son simplemente la impresión digital dejada por las transacciones del mundo real. Normalmente, la minería que los datos internos validarán las hipótesis básicas sobre las que se basa el negocio («obtenemos ganancias en nuestras tiendas de moda de lujo cuando están ubicadas en áreas ricas»). En el peor de los casos, puede hacer que se sienta incómodo por socavar totalmente los supuestos básicos sin sugerir un plan de respaldo – («pensamos que la gente compraba helado en impulso cuando hace calor y soleado afuera, resulta que estábamos equivocados»).
Las grandes empresas han absorbido la tecnología de estilo de Google, pero sólo están empezando a adoptar el estilo de Google de pensamiento junto a ella. Los algoritmos de traducción aprendidos por la máquina, hechos posibles por la disponibilidad de un corpus masivo de datos de entrenamiento textuales y poder de procesamiento sofocado, no tienen conceptos de gramática francesa o árabe. Los algoritmos de recomendación de Amazon generan el 35 por ciento de las ventas sin saber por qué ciertos productos son «frecuentemente comprados juntos». Es esta característica lo que los hace tan poderosos – si una máquina no puede juzgar, no puede cometer errores de juicio a los que los humanos son propensos.
Los algoritmos ahora detectan cuando el equipo de perforación en los campos de petróleo está a punto de fallar basado en miles de puntos de datos del sensor, lo que permite «mantenimiento predictivo». Imagínese si, en lugar de aplicar el aprendizaje automático al problema, los analistas compilaron estos complejos conjuntos de datos en informes resumidos y Trató de adivinar las «ideas» acerca de por qué el equipo se rompe para que pudieran tratar de impedir que suceda.
La belleza de los algoritmos predictivos es que no necesitan entender la causa y el efecto detrás de las relaciones estadísticas para trabajar increíblemente bien en la práctica. Para que una empresa recoja los beneficios de la predicción, primero debe renunciar a intentar deducir por quélas cosas son de cierta manera, y comenzar a confiar en las líneas de código que nos dicen que lo son .
Esto requiere un cambio cultural, y todas las nuevas tecnologías encuentran desconfianza inicial. Pero el momento es justo. Es 2017, y su comprensión es innecesaria. La inteligencia artificial te ha hecho obsoleto. Ahora regocíjate, porque estamos a punto de lograr algunas cosas increíbles.
Predicción aplicada
La analítica predictiva se utiliza para detectar fraudes y detener los ataques cibernéticos, pero es en gran medida una frontera inexplorada para la mayoría de los negocios orientados al consumidor. Conceptos erróneos sobre lo que significa «predicción» en este contexto son parcialmente responsables – la predicción del futuro es sólo un caso especial de la capacidad general. Pero también hay una sensación tácita de que el uso de modelos de computadora para tomar decisiones es de alguna manera un negocio arriesgado.
Podemos evaluar la precisión de los modelos predictivos antes de desatarlos para tomar decisiones en el mundo real. Podemos incluso escoger el «tipo de precisión» que nos interesa, y construir automáticamente el mejor modelo posible para ese criterio (favoreciendo falsos positivos sobre falsos negativos, por ejemplo). Para la mayoría de los casos de uso comercial, un modelo no tiene que ser terriblemente preciso antes de que ya está golpeando a la competencia (es decir, la forma en que se tomó la decisión antes). También podemos simular cómo los métodos antiguos y nuevos se realizan unos contra otros desde la seguridad de un laboratorio virtual.
Saber cómo manipular el juego para que el equipo gane fácilmente es el secreto comercial más importante en la predicción aplicada.
Por otro lado, es totalmente posible hacer la vida difícil para sí mismo al diseñar un algoritmo. El proyecto Google Flu Trends es a menudo citado como un ejemplo de «cuando el aprendizaje de la máquina va mal», incluso como un fracaso de los grandes datos en sí. El algoritmo buscaba estimar la prevalencia de casos de gripe en el mundo real basados en consultas de búsqueda de Google entrenadas en datos históricos sobre ambos. Inicialmente se desempeñó bien, pero pronto fue salvajemente sobreestimar el número de casos. Se supone que los algoritmos aprendidos por la máquina mejoran con el tiempo, y no peor.
Tal vez sea mejor abordar el mismo tema en el contexto de la atención sanitaria al consumidor. La construcción de un modelo para identificar los brotes de los sniffles basado en los tweets geoestados, donde los usuarios mencionaron los síntomas, significa que al elegir el derecho «indicador» de datos que ofrecería una precisión mucho mejor. Las redes de Twitter imitan las redes sociales de la vida real, por lo que la propagación de un error contagioso alrededor de una comunidad de personas se refleja allí.
Pero lo que realmente hizo la diferencia fue la elección de qué predecir. El algoritmo de Google trató de estimar el número de personas afectadas por un brote de gripe – el otro sólo tenía que predecir el momento y el lugar. Saber cómo manipular el juego para que el equipo gane fácilmente es el secreto comercial más importante en la predicción aplicada.
Hemos apenas arañado la superficie de lo que es posible con aplicaciones comerciales de inteligencia artificial. Para progresar, los líderes empresariales necesitan dar un paso hacia el futuro al designar las partes de su empresa que están preparados para hacer verdaderamente «impulsado por los datos» y entregarlos a la ciencia.