OneLake, Lakehouse y Data Warehouse: qué es cada uno y cuándo usarlos

Antes de usar las herramientas de Microsoft Fabric, necesitás tener claros tres conceptos clave: OneLake, Lakehouse y Data Warehouse. Acá los desarmo uno por uno.

Jimena Cambronero
Microsoft Fabric OneLake Lakehouse Data Warehouse Data Engineering Data Analytics

Antes de meternos de lleno en las herramientas de Microsoft Fabric — los Dataflows, las Pipelines, los Notebooks — hay tres conceptos que necesitamos tener claros. No porque sean difíciles, sino porque todo lo demás se apoya sobre ellos. Son como los cimientos de una casa: no los ves cuando estás viviendo adentro, pero si no están bien puestos, tarde o temprano algo hace ruido.

Esos tres conceptos son OneLake, Lakehouse y Data Warehouse. Y sí, estamos todos de acuerdo en que los nombres se parecen entre sí lo suficiente como para generar confusión. Vamos a desarmarlos uno por uno.

OneLake: el único almacenamiento que necesitás

Empecemos por la base de todo.

OneLake es el sistema de almacenamiento unificado de Microsoft Fabric. Es el lugar donde viven todos los datos de tu organización dentro de Fabric. Si, todos. Sin excepción.

Una buena forma de imaginarlo sería pensar en OneLake como el OneDrive de los datos. Así como OneDrive es el lugar donde guardamos todos tus archivos personales y podemos acceder a ellos desde cualquier dispositivo, OneLake es el lugar donde se guardan todos los datos de la organización y cualquier componente de Fabric puede acceder a ellos desde ahí.

Pero hay algo que lo hace especialmente poderoso: en OneLake, cada dato se guarda una sola vez. No hay copias, no hay sincronizaciones, no hay cinco versiones del mismo archivo con nombres ligeramente distintos (ventas_final.xlsx, ventas_final_v2.xlsx, ventas_ESTE_si.xlsx, todos sabemos de qué hablamos 😅). Un dato entra a OneLake y desde ahí lo podemos leer Power BI, Spark, SQL y cualquier otra herramienta de Fabric, sin necesidad de moverlo ni duplicarlo.

Técnicamente, OneLake almacena los datos en formato Delta Parquet, un formato abierto, eficiente y muy usado en el mundo de los datos modernos. Esto tiene una ventaja concreta: los datos son accesibles también desde herramientas externas a Fabric que soporten este formato, lo que evita quedar atrapada en un ecosistema cerrado.

Cómo se organiza OneLake

OneLake existe a nivel de organización: cada empresa tiene exactamente uno. Dentro de él, los datos se organizan en workspaces (áreas de trabajo), y dentro de cada workspace en elementos como Lakehouses y Warehouses.

Es una jerarquía simple: OneLake → Workspace → Lakehouse o Warehouse → Tablas y archivos.

Lo que más me voló la cabeza de OneLake

Cuando entendí de verdad lo que significa que todos los componentes de Fabric lean desde el mismo lugar, algo hizo click. Antes, trabajar con datos en múltiples herramientas implicaba estar todo el tiempo copiando datos de un lado a otro, preocupándose por si las versiones estaban sincronizadas, y rezando para que el reporte de Power BI mostrara los mismos números que la tabla de Spark. Con OneLake, ese problema desaparece. Todos están mirando exactamente la misma fuente.

Lakehouse: lo mejor de dos mundos

Ahora que sabemos que OneLake es el almacenamiento, el Lakehouse es una de las formas de organizar y acceder a los datos que están ahí dentro.

Un Lakehouse en Fabric combina dos tipos de almacenamiento que antes vivían separados: el Data Lake y el Data Warehouse. De ahí el nombre — Lake + House.

¿Qué es un Data Lake? Un repositorio donde podés guardar datos de cualquier tipo y formato: archivos CSV, JSON, imágenes, logs, tablas estructuradas, lo que sea. Es muy flexible pero no está optimizado para consultas analíticas rápidas.

¿Qué es un Data Warehouse? Un almacén de datos estructurado y optimizado para consultas analíticas. Es muy rápido para responder preguntas de negocio, pero requiere que los datos tengan un formato bien definido y no acepta mucha variedad.

El Lakehouse toma lo mejor de cada uno: la flexibilidad del Data Lake para almacenar cualquier tipo de dato, y las capacidades analíticas del Data Warehouse para consultarlos con SQL de forma eficiente.

Cómo funciona en la práctica

Un Lakehouse tiene dos secciones principales:

  • Files (archivos): donde podés guardar datos en crudo, en cualquier formato. CSV, Parquet, JSON, Excel — todo bienvenido. Es el equivalente a la carpeta de archivos de un Data Lake tradicional.

  • Tables (tablas): donde viven los datos estructurados en formato Delta, listos para ser consultados con SQL o con Spark. Cuando cargás datos y los convertís en tablas, aparecen acá.

Y acá viene algo muy útil: el Lakehouse incluye automáticamente un SQL Endpoint — una interfaz que te permite consultar las tablas con SQL estándar, sin necesidad de saber Spark ni Python. Ideal para analistas que vienen del mundo SQL y quieren acceder a los datos sin aprender un lenguaje nuevo.

Quién usa el Lakehouse

El Lakehouse es la opción favorita de los ingenieros de datos que trabajan con Python o Spark, pero también es muy útil para equipos mixtos donde conviven distintos perfiles. El ingeniero escribe los datos con Spark, el analista los consulta con SQL a través del SQL Endpoint, y Power BI los consume con Direct Lake — todos trabajando sobre los mismos datos sin pisarse.

Data Warehouse: el SQL de toda la vida, pero en la nube

El Data Warehouse de Fabric es exactamente lo que su nombre sugiere: un almacén de datos relacional, optimizado para consultas analíticas, que se maneja completamente con T-SQL — el dialecto SQL de Microsoft.

Si alguna vez trabajaste con SQL Server, Azure Synapse o cualquier base de datos relacional, el Data Warehouse de Fabric te va a resultar muy familiar. Tablas con esquema definido, vistas, procedimientos almacenados, restricciones — todo el toolset clásico del mundo SQL, ahora integrado dentro de Fabric.

La gran diferencia respecto a un Data Warehouse tradicional es que en Fabric el almacenamiento y el procesamiento están separados. Esto tiene una implicación práctica importante: pagás por el procesamiento solo cuando lo usás, no de forma fija. Para organizaciones con cargas de trabajo variables — mucha actividad en ciertos períodos y casi nada en otros — esto puede ser significativamente más económico.

Quién usa el Data Warehouse

El Data Warehouse es la opción ideal para equipos que trabajan exclusivamente con SQL y no necesitan la flexibilidad de Spark. Si tu equipo tiene analistas e ingenieros SQL, si los datos siempre llegan estructurados y con esquema conocido, y si necesitás procedimientos almacenados o lógica SQL avanzada, el Data Warehouse es tu lugar.

Lakehouse vs Data Warehouse: cuál elegir

Acá está la pregunta que todo el mundo hace — y con razón, porque las diferencias no son obvias a primera vista. La respuesta corta es: depende de tu equipo y de tus datos.

Elegí el Lakehouse cuando…

  • Tu equipo trabaja con Python o Spark
  • Los datos llegan en formatos variados (CSV, JSON, Parquet, tablas)
  • Necesitás flexibilidad para cambiar el esquema sin procesos complejos
  • Querés combinar ingeniería de datos con ciencia de datos sobre los mismos datos
  • Estás construyendo una arquitectura por capas (Bronze, Silver, Gold)

Elegí el Data Warehouse cuando…

  • Tu equipo trabaja principalmente con SQL y no necesita Spark
  • Los datos son siempre estructurados con esquema conocido y estable
  • Necesitás procedimientos almacenados o lógica SQL avanzada
  • El modelo de datos está bien definido desde el principio

Y si tengo un equipo mixto

Una práctica muy habitual en Fabric es usar el Lakehouse como almacenamiento principal — por su flexibilidad — y exponer las tablas a través del SQL Endpoint para que los analistas SQL las consulten sin necesidad de saber Spark. Es lo mejor de los dos mundos para equipos donde conviven distintos perfiles.

Los tres juntos: cómo encajan en la práctica

Para cerrar, veamos cómo funcionan OneLake, Lakehouse y Data Warehouse juntos en un escenario real.

Imaginá una empresa que quiere analizar sus ventas. El flujo sería algo así:

Los datos de ventas llegan desde el ERP y se cargan en un Lakehouse dentro de OneLake. Ahí se organizan por capas: primero en crudo tal como llegan, después limpios y estandarizados, y finalmente agregados y listos para el análisis.

El equipo de finanzas, que trabaja exclusivamente con SQL, toma esos datos ya procesados y los carga en un Data Warehouse donde construyen el modelo dimensional clásico con sus procedimientos almacenados y vistas de negocio.

Power BI lee directamente desde OneLake — sin importar si los datos están en el Lakehouse o en el Warehouse — y genera los reportes que consume el equipo comercial.

Tres componentes, un solo almacenamiento, cero copias. Eso es lo que hace que Fabric sea diferente.

Resumen rápido para no perderse

  • OneLake → el almacenamiento único de toda la organización. La base de todo. No se “usa” directamente — es la infraestructura sobre la que se apoyan el Lakehouse y el Warehouse.
  • Lakehouse → flexible, acepta cualquier tipo de dato, accesible con Spark y SQL. Ideal para ingenieros de datos y equipos mixtos.
  • Data Warehouse → estructurado, T-SQL completo, esquema estricto. Ideal para equipos SQL puros.

Con estos tres conceptos claros, el resto de Fabric empieza a tener mucho más sentido. En el próximo artículo vamos a ver cómo los Dataflows Gen2 cargan datos en el Lakehouse — que es exactamente donde todo esto cobra vida en la práctica. 🧉


¿Tenés dudas sobre cuál de los dos elegir para tu caso de uso? Escribime en LinkedIn y lo charlamos. Estas decisiones de arquitectura parecen pequeñas al principio, pero después se agradece haberlas pensado bien desde el arranque.

Compartir este artículo:

Sobre la autora

Jimena Cambronero

Jimena Cambronero

Consultora de Data Analytics especializada en Power BI y Microsoft Fabric. Apasionada por los datos, el análisis y compartir conocimiento con la comunidad.

Volver a Mininotas