¿Qué es un mapa de profundidad (depth map)?

Un mapa de profundidad es una imagen en escala de grises que codifica por píxel la distancia estimada a la cámara: los píxeles claros están cerca, los oscuros lejos. Se utiliza en [visión por computador](https://es.wikipedia.org/wiki/Visi%C3%B3n_artificial) y en gráficos 3D para derivar información espacial a partir de una foto 2D — para simular bokeh, hacer compositing, crear efectos AR o servir como mapa de alturas en software 3D.

¿La herramienta funciona sin conexión y sin registro?

Sí. En el primer acceso, el navegador descarga una vez el modelo de IA (unos 19 MB en la variante rápida, unos 50 MB en la nítida). Después, todas las estimaciones de profundidad se ejecutan completamente sin conexión desde la caché del navegador. Sin registro, sin correo electrónico, sin cookies de terceros.

¿Mi foto sigue siendo privada — se sube a un servidor?

No. La estimación de profundidad se ejecuta exclusivamente en su dispositivo mediante [WebAssembly](https://es.wikipedia.org/wiki/WebAssembly) o [WebGPU](https://developer.mozilla.org/en-US/docs/Web/API/WebGPU_API). La foto no abandona en ningún momento la pestaña del navegador. Solo el modelo de IA se carga una vez desde un repositorio público de modelos — en esa carga no se transmiten datos de imagen, únicamente el archivo del modelo.

¿Qué diferencia hay entre los modelos Rápido y Nítido?

La variante rápida (unos 19 MB) se ejecuta vía WebAssembly en cualquier dispositivo — incluso en smartphones y tabletas antiguos — y ofrece en 3 a 10 segundos un mapa de profundidad utilizable. La variante nítida (unos 50 MB) requiere WebGPU (versiones recientes de Chrome, Edge o Firefox) y produce transiciones más finas en los bordes de los objetos. En navegadores no compatibles, la opción nítida se oculta automáticamente.

¿Qué fiabilidad tiene un mapa de profundidad estimado por IA?

La estimación es una indicación de profundidad relativa, no una medición absoluta en metros. Funciona magníficamente para escenas naturales con separación clara primer plano / fondo (retratos, paisajes, interiores) y peor en imágenes planas y poco texturizadas (paredes uniformes, cielos puros) o frente a ilusiones ópticas. Por el art. 50 del Reglamento europeo de IA, la herramienta muestra sobre cada resultado un aviso: revise antes de usar el mapa para decisiones creativas o técnicas.

¿Qué puedo hacer con el mapa de profundidad?

Usos típicos: efecto bokeh en programas de edición (Photoshop, Affinity, GIMP) mediante máscara de profundidad, compositing entre capas de foto, entrada para software 3D (Blender, Cinema 4D) como mapa de desplazamiento o de alturas, material para [efectos AR](https://es.wikipedia.org/wiki/Realidad_aumentada) y soporte didáctico en cursos de visión por computador. El mapa es un PNG en escala de grises estándar y se importa en cualquier sitio.

Mapa de profundidad desde foto — Depth Map navegador

¿Qué hace la herramienta?

La herramienta genera a partir de una sola foto un mapa de profundidad (depth map) — una imagen en escala de grises que codifica por píxel la distancia estimada a la cámara. Las zonas claras significan «cerca», las oscuras «lejos». El cálculo se ejecuta totalmente en su navegador mediante WebAssembly o WebGPU y una red neuronal especializada, entrenada precisamente para estimación de profundidad monocular — es decir, inferencia de profundidad a partir de una única imagen fija, sin cámara estéreo ni sensor dedicado.

La salida es un PNG completo (sin pérdida), WebP (compacto) o JPG (universal) que lee cualquier programa de edición. Resolución y proporción permanecen idénticas al original; la herramienta escala automáticamente el mapa calculado internamente al tamaño de entrada.

¿Cómo funciona la estimación de profundidad por IA?

Estimar profundidad a partir de una sola imagen es un problema clásico de visión por computador. Los métodos estéreo necesitan dos tomas desde ángulos ligeramente distintos, los sensores Time-of-Flight requieren hardware especial. En una instantánea normal solo hay una imagen 2D — la máquina debe reconstruir qué está delante y qué detrás a partir de pistas indirectas.

El modelo se apoya en patrones aprendidos: escorzo perspectivo (las líneas paralelas convergen en la distancia), coherencia de tamaños (una persona parece mayor en primer plano que a lo lejos), oclusión (un objeto delante de otro está más cerca), gradientes de textura (las estructuras se afinan con la distancia), dispersión atmosférica (los objetos lejanos pierden contraste) y estadísticas de escenas aprendidas en millones de imágenes. El resultado es una información de profundidad relativa — sabe qué está más cerca o más lejos, pero no la distancia absoluta en metros.

Todo el proceso se ejecuta en su navegador. En el primer acceso, el modelo se descarga una vez desde un repositorio público (unos 19 MB en la variante rápida, unos 50 MB en la nítida); después queda en caché y funciona sin conexión. Cada estimación posterior dura 3 a 15 segundos según el dispositivo y el tamaño de la imagen.

¿Cuándo da buenos resultados la herramienta?

Las escenas naturales con estructura clara primer plano / fondo son el punto óptimo. Retratos, paisajes, interiores, escenas de calle, fotografía de arquitectura — donde la imagen muestra una composición espacialmente estructurada, el modelo produce mapas limpios. Las fotos de producto con fondo desenfocado también funcionan bien.

Los casos difíciles caen en tres categorías:

Imágenes planas y poco texturizadas — paredes uniformes, cielos puros, fondos lisos. Al modelo le faltan pistas visuales y el mapa queda plano o ruidoso.
Ilusiones ópticas y trampantojos — ilusiones de profundidad intencionales en pinturas, reflejos en espejos y ventanas pueden confundir al modelo.
Tomas microscópicas o macroscópicas — imágenes de microscopio y astronomía no siguen las pistas naturales de los datos de entrenamiento y dan estimaciones poco fiables.

En tomas cotidianas — fotos de móvil, réflex, tomas con dron — el modelo está en su mundo de entrenamiento y produce resultados utilizables para los usos habituales.

¿Para qué puedo usar un mapa de profundidad?

El mapa es una imagen universal en escala de grises y encaja en muchos flujos:

Simulación de bokeh y desenfoque por profundidad — en programas como Adobe Photoshop, Affinity Photo o GIMP como máscara de profundidad para desenfoque selectivo, para convertir una instantánea de móvil en una imagen con aspecto profesional y fondo suave.
Compositing entre capas de foto — separar primer y segundo plano mediante máscara de profundidad, insertar objetos nuevos de forma espacialmente coherente, falsa profundidad de campo para stock photo.
Modelado 3D — entrada para Blender, Cinema 4D u otro software 3D como mapa de desplazamiento o de alturas, para generar una superficie 3D a partir de una foto 2D.
Efectos AR y VR — efectos basados en profundidad en implementaciones Web-AR, animaciones de paralaje en sitios web, galerías de imágenes inmersivas.
Educación e investigación — mapas de profundidad como material didáctico en cursos de visión por computador, visualización de estructuras espaciales en fotografía de arquitectura.

El mapa no es adecuado para vehículos autónomos, manipulación robótica ni mediciones médicas de profundidad — esos usos requieren sensórica calibrada, no una estimación IA relativa.

Preguntas frecuentes

Lo esencial sobre uso, calidad y privacidad:

¿Cómo genero un mapa de profundidad a partir de una sola foto?

Suba su foto en la herramienta de arriba — el mapa se calcula totalmente en el navegador mediante IA. El modelo estima a partir del contenido de la imagen la profundidad relativa por píxel. No hace falta cámara estéreo ni sensor de profundidad.

¿La herramienta funciona sin conexión?

Sí. En el primer acceso, el navegador descarga una vez el modelo de IA (unos 19 MB). Después, todas las estimaciones siguientes se ejecutan totalmente sin conexión desde la caché.

¿Qué formatos de imagen puedo subir?

Entrada: PNG, JPG, WebP, AVIF y HEIC (fotos de iPhone). El HEIC se decodifica automáticamente antes del cálculo. Salida: PNG, WebP o JPG en escala de grises.

¿Cuánto dura una estimación?

Tras la descarga única del modelo, una estimación dura típicamente entre 3 y 15 segundos — según el dispositivo, la variante elegida y el tamaño de la imagen.

¿Qué herramientas de imagen combinan bien?

Otras herramientas del ecosistema kittokit que se combinan bien con la generación de mapas de profundidad:

Eliminar fondo — recorte por IA, a menudo el paso previo al compositing basado en profundidad.
Ampliar imagen — ampliar antes las imágenes pequeñas para que el mapa de profundidad gane detalle.
Foto a lámina para colorear — transformar fotos en dibujos lineales, complementario a la profundidad.
Convertidor de formato de imagen — convertir mapas de profundidad a otros formatos (PNG sin pérdida a WebP compacto).
Visor EXIF — leer los metadatos originales (cámara, focal, GPS), complementario a la estimación de profundidad.

Privacidad local en el navegador

Las entradas permanecen dentro de la pestaña del navegador. No se envían a servidores de kittokit, no se almacenan y no se usan para seguimiento. Algunas herramientas ML cargan un modelo o un archivo de ejecución la primera vez; esa petición solicita solo la URL del recurso, nunca tu archivo ni tu texto. Al cerrar la página, solo pueden quedar datos de caché del navegador, que puedes borrar en cualquier momento.

Aviso sobre resultados de IA

Esta herramienta crea o evalúa contenido con un modelo de IA. Según el artículo 50 del EU AI Act, el contenido generado o editado con IA debe indicarse de forma transparente cuando se publica. Trata la salida como una estimación, revísala antes de publicarla y no la uses para decisiones críticas sin supervisión profesional.

Mapas de profundidad desde fotos — en el navegador

Cómo funciona

Elegir la foto

Elegir el modelo

Guardar el mapa

Privacidad

¿Cómo usar esta herramienta?