LinuxParty
Databricks, el servicio de análisis de big data fundado por los desarrolladores originales de Apache Spark, anunció hoy que llevará su proyecto de código abierto Delta Lake para construir lagos de datos a la Fundación Linux y bajo un modelo de gobierno abierto. La compañía anunció el lanzamiento de Delta Lake a principios de este año y, aunque todavía es un proyecto relativamente nuevo, ya ha sido adoptado por muchas organizaciones y ha encontrado el respaldo de compañías como Intel, Alibaba y Booz Allen Hamilton.
"En 2013, tuvimos un pequeño proyecto donde agregamos SQL a Spark en Databricks [...] y lo donamos a la Fundación Apache", me dijo el CEO y cofundador de Databricks, Ali Ghodsi. “Con el paso de los años, lentamente la gente ha cambiado la forma en que realmente aprovechan Spark y solo en el último año más o menos, realmente comenzó a darse cuenta de que hay un nuevo patrón que está surgiendo y Spark se está utilizando de una manera completamente diferente de lo que quizás teníamos planeado inicialmente ".
Este patrón, dijo, es que las empresas toman todos sus datos y los colocan en lagos de datos y luego hacen un par de cosas con estos datos, el aprendizaje automático y la ciencia de datos son los obvios. Pero también están haciendo cosas que se asocian más tradicionalmente con los almacenes de datos, como la inteligencia empresarial y los informes. El término que Ghodsi usa para este tipo de uso es "Lake House". Cada vez más, Databricks está viendo que Spark se está utilizando para este propósito y no solo para reemplazar a Hadoop y hacer ETL (extraer, transformar, cargar). "Este tipo de patrones de Lake House que hemos visto emerger cada vez más y queríamos duplicarlo".
( TechCrunch )
