shadow

Cuatro tendencias de big data y AI a las que echarles un ojo

big-dataExisten algunas tendencias emergentes de big data y de AI que podrían afectarle a usted y a su centro de datos más pronto que tarde:

Donde hay una chispa (Spark)… Apache Spark está reemplazando al básico Hadoop MapReduce en los trabajos de big data sensibles a la latencia, con sus consultas en memoria, en tiempo real y el rápido aprendizaje automático a escala. Y con construcciones de datos y lenguajes conocidos y amigables con los analistas, Spark lo pone todo al alcance de todos nosotros, los tipos de hackers regulares. En cuanto a la producción a prueba de balas, no está completamente horneada. Pero la versión dos de Spark acaba de salir a mediados de 2016, y se está solidificando rápidamente. Aun así, este ecosistema en rápido movimiento y las potenciales “siguiente gran cosa”, como Apache Flink, ya están volteando las cabezas.

Hace unos años, todas estas cosas de big data e AI requerían científicos de datos con nivel de doctorado. En respuesta, algunas empresas creativas intentaron hacer cortocircuito a esos raros y caros geeks de matemáticas, fuera del bucle analítico corporativo estándar, y proporcionar al analista de inteligencia de negocios orientado a hojas de cálculo un acceso directo a big data.

Hoy en día, como con Spark, el análisis de big data está finalmente al alcance del ingeniero promedio o del técnico de programación. El geek de TI promedio todavía puede tener que aplicarse con algún estudio serio, pero puede lograr un gran éxito creando valor organizacional masivo. En otras palabras, ahora hay un gran y creciente punto medio en el que los científicos inteligentes que no son de datos pueden ser muy productivos con el aprendizaje automático, incluso en flujos de big data y datos en tiempo real. Plataformas como Spark están proporcionando acceso a datos más accesible a través de lenguajes de programación de nivel superior, como Python y R.

Podemos ver enfoques aún más fáciles emergentes con nuevos productos analíticos de apuntar y hacer clic, de arrastrar y soltar, de empresas como Dataiku o Cask. Para lograr los objetivos de big data y de AI, todavía necesita entender los conceptos de extracción, transformación y carga (ETL), y qué es y qué puede hacer el aprendizaje automático, pero ciertamente ya no necesita programar álgebra lineal paralela de bajo nivel en MapReduce.

La gestión del flujo de datos ahora encabeza la pila de gestión de sistemas de TI. En un nivel inferior, todos estamos familiarizados con la gestión de almacenamiento de datos en silos, que está abajo en la capa de infraestructura. Pero los nuevos paradigmas están permitiendo que TI administre los datos por sí misma y datos fluyen como recursos de gestión de sistemas de primera clase, al igual que la red, el almacenamiento, el servidor, la virtualización y las aplicaciones.

Por ejemplo, los lagos de datos empresariales y los flujos de big data de producción, de extremo a extremo, necesitan un monitoreo de datos profesional, administración, solución de problemas, planificación y arquitectura. Al igual que otras áreas de gestión de sistemas, los flujos de datos pueden tener sus propios acuerdos de nivel de servicio, objetivos de disponibilidad, objetivos de rendimiento, insuficiencias de capacidad y problemas de seguridad. Y los datos que fluyen tienen procedencia, linaje, veracidad y un montón de metadatos relacionados para seguir de forma dinámica.

Mucho de esto puede parecer familiar a los expertos de TI de larga data. Pero este es un mundo nuevo, y proporcionar big data y flujos de big data con su propio enfoque de gestión de sistemas tiene un verdadero mérito, a medida que los datos crecen más, y más rápido.

Recientemente escribí acerca de cómo el clásico profesional de TI con silos podría pensar en crecer su carrera; la gestión de big data sería una dirección de carrera interesante. Nuevos proveedores, como StreamSets, están abordando esta área de frente, mientras que otros que comenzaron con más ETL y productos de catálogo de lago de datos y seguridad están evolucionando en esta dirección.

Ya viene la super escala vertical. Aquellos de nosotros que tenemos mucho en el mundo de TI sabemos que hay dos megatendencias que circulan de ida y vuelta: centralizar vs. distribuir, y la escala vertical vs. la escala horizontal. Claro, cada nuevo ciclo utiliza tecnología más reciente y aporta un sabor distintivo, pero si retrocede lo suficiente, puede ver una frecuencia cíclica.

Big data ha estado apuntando hacia la escala horizontal sobre hardware comercial por una década. Ahora, está rebotando un poco hacia la escala vertical. Para ser justos, es realmente una escala vertical dentro de las redes de escala, pero una nueva cosecha de unidades de procesamiento gráfico (GPU) está poniendo el foco en nodos más grandes, y no necesariamente básicos. Por ejemplo, Kinetica trabajó con IBM en un sistema personalizado de cuatro Nvidia GPU/1 TB de RAM para alimentar su base de datos de big data, de consulta rápida y ágil; no se necesita pre-indexación estática. Y Nvidia recientemente lanzó un poderoso dispositivo de 8 GPU DGX-1, diseñado especialmente para el aprendizaje profundo.

No tengo ninguna duda de que esta tendencia aún no ha terminado de girar hacia adelante y hacia atrás, aunque podría dar lugar a una mayor conexión entre big data y AI. Las aplicaciones de la internet de las cosas van a empujar un poco las oportunidades de big data hacia el borde, lo que significa una super escala horizontal por definición. Como siempre, un enfoque práctico probablemente utilizará tanto escala vertical, como escale horizontal en nuevas combinaciones (¿cuántas personas mantenían mainframes que ahora pueden ejecutar miles de máquinas virtuales, cada una capaz de soportar un número desconocido de contenedores?).

Eventualmente, todos los datos serán grandes datos, y el aprendizaje automático –y las capacidades más amplias de AI– se aplicará en todas partes para optimizar dinámicamente casi todo. Teniendo en cuenta el poder fácilmente disponible para cualquier persona a través de la computación en nube, la inminente explosión de las fuentes de datos de internet de las cosas y los algoritmos cada vez más accesibles, las posibilidades de big data y la AI se están volviendo reales en nuestras vidas.

El centro de datos de un futuro cercano puede ser pronto un anfitrión convergente de todos los datos que una organización puede reunir, alimentado continuamente por flujos de datos en tiempo real, soportando tanto sistemas transaccionales de registro y sistemas oportunistas de compromiso, y todos impulsados por tanta inteligencia automatizada como sea posible. El número de startups de gestión de TI empresarial promocionando el aprendizaje automático como parte de su propuesta de valor aumenta diariamente.


Fuente: Sears Data Center En Español

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Digíta la respuesta para comentar *