¿Cómo usar esta herramienta?
- Seleccione una imagen o arrástrela (PNG, JPG, WebP, AVIF o HEIC hasta 15 MB)
- Elija modo: Corto (alt-text, máx. 125 caracteres), Largo o Detallado
- Opcional: introduzca contexto de página (p. ej. «página de producto de botas de senderismo») para enfocar la descripción
- Descarga única del modelo en segundo plano (unos 75 MB), después queda en caché
- Copie la descripción o descárguela como .txt
¿Qué hace la herramienta?
La herramienta produce a partir de una imagen una descripción en lenguaje natural — como alt-text corto, como leyenda más larga o como relato de escena detallado. El cálculo se ejecuta completamente en su navegador mediante WebAssembly y una red neuronal especializada entrenada precisamente para tareas de imagen a texto. Hay tres modos: «Corto (alt-text)» entrega una descripción de menos de 125 caracteres, que encaja directamente en el atributo alt de una etiqueta <img>; «Largo» produce una leyenda más amplia para pies de foto y publicaciones en redes sociales; «Detallado» profundiza y describe también el ambiente y los elementos de fondo.
Adicionalmente se incluye una capa de avisos WCAG que comprueba cada resultado en directo contra las recomendaciones de accesibilidad web: contador de caracteres con indicador en semáforo al sobrepasar el límite de 125 caracteres, detección automática de frases redundantes como «imagen de…» y sugerencia en un clic para depurarlas. Esto evita los antipatrones más frecuentes que molestan a los usuarios de lectores de pantalla en la web.
¿Cómo funciona la herramienta?
Describir imágenes es un problema del campo visión por computador — el ordenador debe reconocer a partir de los valores de píxel qué se ve en la imagen y traducirlo en una frase gramaticalmente correcta. Los algoritmos clásicos fallan: reconocen colores, bordes y formas simples, pero no significado. Los modelos modernos de visión y lenguaje resuelven la tarea con una arquitectura en dos pasos — un codificador transforma la imagen en una representación compacta y un decodificador escribe texto a partir de ella.
Todo el proceso se ejecuta en su navegador. En el primer uso, el modelo se carga una vez desde un almacenamiento público de modelos (unos 75 MB en la variante rápida, unos 90 MB en la más precisa), después queda en la caché del navegador y trabaja sin conexión. Cada descripción siguiente dura, según el dispositivo y el modo, entre 3 y 15 segundos. En segundo plano, la imagen se normaliza a un tamaño compatible con el modelo, se pasa por la red codificadora y el decodificador produce, token a token, la frase de descripción.
La herramienta admite dos variantes: la rápida se ejecuta en cualquier dispositivo, incluidos teléfonos y tabletas; la más precisa está pensada para ordenadores de sobremesa modernos y teléfonos recientes, y entrega descripciones tendencialmente más precisas — sobre todo en fotos de producto y escenas con varios objetos.
¿Cuándo entrega la herramienta buenos resultados?
Las fotos con un motivo principal claro son el caso ideal. Retratos, fotos de animales, paisajes, fotos de producto con el sujeto centrado, tomas de interior — siempre que la imagen muestre una escena unívoca, el modelo entrega descripciones útiles. También se benefician las fotos de archivo, las imágenes de blog y las publicaciones en redes sociales.
Resulta difícil en tres casos:
- Marcas, logotipos y texto en la imagen — el modelo rara vez reconoce nombres de marca concretos ni realiza OCR. Para texto dentro de la imagen, nuestra herramienta separada Imagen a texto es la elección adecuada.
- Imágenes muy abstractas o decorativas — patrones, degradados, iconos. Aquí el modelo produce a menudo descripciones demasiado genéricas como «Un patrón colorido». Para imágenes decorativas, basta con
alt=""(alt-text vacío) en la web. - Expectativas de identificación de personas — el modelo describe apariencia y pose, pero no aporta nombres. Es intencional: el reconocimiento facial sería delicado en materia de privacidad; la herramienta se limita a una descripción de contenido neutra.
Cuando los resultados son poco satisfactorios, el campo de contexto opcional ayuda: «Contexto de página: tienda en línea de equipamiento de senderismo» enfoca el modelo en el ámbito lingüístico y temático adecuado, y obtiene descripciones como «Bota de senderismo de cuero marrón con suela roja» en lugar de «Una bota».
¿Por qué sale la descripción en inglés?
Los modelos actualmente disponibles compatibles con navegador se entrenaron sobre un conjunto de datos en inglés (MS-COCO Captions). Por eso, en la v1 la descripción siempre es en inglés — también cuando trabaja en la página en español. Una versión en español está en la hoja de ruta, en cuanto un modelo de visión y lenguaje en español por debajo del umbral de tamaño para navegador (≤100 MB) esté disponible. Para el flujo de trabajo actual, la salida en inglés se puede retrabajar con cualquier herramienta de traducción — o usarse directamente en estilo de redacción en inglés como alt-text en sitios multilingües, ya que el alt-text a menudo se escribe en inglés de todas formas.
Preguntas frecuentes
Las preguntas más frecuentes sobre uso, calidad y privacidad:
¿Cómo se generan alt-text para imágenes automáticamente?
Suba su imagen a la herramienta de arriba — se describe completamente en el navegador con IA. El modo «Corto (alt-text)» entrega una descripción de menos de 125 caracteres, que encaja directamente en alt="…". Gratis, sin registro, sin seguimiento.
¿Qué es un buen alt-text según WCAG?
Un buen alt-text describe el contenido y la función de una imagen en un máximo de 125 caracteres, sin «imagen de…» ni extensión de archivo. La herramienta le avisa automáticamente cuando aparecen estos antipatrones y propone una versión depurada.
¿Funciona el descriptor de IA sin conexión?
Sí. En el primer uso, el navegador descarga una sola vez el modelo de IA (unos 75 MB). Después, todas las descripciones siguientes se ejecutan completamente sin conexión desde la caché del navegador.
¿Qué formatos de imagen se pueden subir?
Entrada: PNG, JPG, WebP, AVIF y HEIC (fotos de iPhone). HEIC se convierte automáticamente antes de que el modelo se ejecute. La salida es texto — archivo .txt o directamente al portapapeles.
¿Cuánto tarda una descripción?
Tras la descarga única del modelo, la descripción dura habitualmente entre 3 y 15 segundos — según el dispositivo, la variante elegida y el modo de detalle. Durante el procesamiento, una barra de progreso muestra el estado actual.
¿Qué herramientas de imagen están relacionadas?
Otras herramientas del ecosistema kittokit que encajan con el tema:
- Imagen a texto (OCR) — leer texto de imágenes, también completamente en el navegador. Use esta herramienta cuando necesite el texto que aparece dentro de la imagen (escaneos, capturas).
- Eliminar fondo — recorte basado en IA, a menudo el paso previo para descripciones de producto limpias.
- Ampliar imagen — llevar imágenes pequeñas a resolución de impresión, antes de generar alt-text.
- Visor EXIF — leer metadatos de la imagen (cámara, GPS, fecha) — complementario a la descripción de contenido.
Privacidad local en el navegador
Las entradas permanecen dentro de la pestaña del navegador. No se envían a servidores de kittokit, no se almacenan y no se usan para seguimiento. Algunas herramientas ML cargan un modelo o un archivo de ejecución la primera vez; esa petición solicita solo la URL del recurso, nunca tu archivo ni tu texto. Al cerrar la página, solo pueden quedar datos de caché del navegador, que puedes borrar en cualquier momento.
Aviso sobre resultados de IA
Esta herramienta crea o evalúa contenido con un modelo de IA. Según el artículo 50 del EU AI Act, el contenido generado o editado con IA debe indicarse de forma transparente cuando se publica. Trata la salida como una estimación, revísala antes de publicarla y no la uses para decisiones críticas sin supervisión profesional.
Última actualización: