Aller au contenu
Runs local · no upload

Générer descriptions d'image automatiquement

Photo dedans, alt-text prêt dehors. Un réseau de neurones spécialisé décrit l'image — directement sur votre appareil, sans que le fichier ne soit jamais uploadé.

Comment ça marche

  1. 01

    Choisir l'image

    Glissez un fichier en drag & drop dans la zone ou choisissez-le depuis l'appareil. PNG, JPG, WebP, AVIF ou HEIC jusqu'à 15 Mo.

  2. 02

    Choisir mode & contexte

    Court pour alt-text avec cap à 125 caractères, Long pour captions SEO, Détaillé pour scènes étoffées. Optionnel : afficher le contexte de page pour que le modèle connaisse le cadre de référence.

  3. 03

    Vérifier et sauvegarder la description

    La sortie apparaît dans un champ texte éditable avec compteur de caractères et avertissements WCAG. Copier directement ou télécharger en .txt.

Confidentialité

Le traitement se passe exclusivement sur votre appareil. Vos images ne quittent pas le navigateur, ne sont pas transmises à des serveurs et sont supprimées après fermeture de l'onglet. L'outil est ainsi utilisable conformément au RGPD — y compris pour photos produit, documents professionnels ou visuels confidentiels.

Les sites web accessibles ont besoin d'alt-texts pour chaque image, les boutiques en ligne veulent des captions produit, et les blogs vivent de légendes optimisées SEO. Vous obtenez les deux en une étape — la description est générée entièrement dans le navigateur par IA, sans que votre photo n'aille sur un serveur. Trois modes : alt-text court avec vérification WCAG, caption longue ou description de scène détaillée.

01 — Mode d’emploi

Comment utiliser cet outil ?

  1. Choisir une image ou la déposer en glisser-déposer (PNG, JPG, WebP, AVIF ou HEIC jusqu'à 15 Mo)
  2. Choisir le mode : Court (alt-text, max. 125 caractères), Long ou Détaillé
  3. Optionnel : saisir un contexte de page (p. ex. « page produit chaussures de randonnée ») pour focaliser la description
  4. Téléchargement unique du modèle en arrière-plan (environ 75 Mo), puis mis en cache
  5. Copier la description ou la télécharger en .txt

Que fait l’outil ?

L’outil produit à partir d’une image une description en langage naturel — sous forme d’alt-text court, de caption plus longue ou de récit de scène détaillé. Le calcul tourne entièrement dans votre navigateur via WebAssembly et un réseau de neurones spécialisé qui a été entraîné exactement pour les tâches image-vers-texte. Trois modes : « Court (alt-text) » livre une description sous 125 caractères, qui tient directement dans l’attribut alt d’une balise <img> ; « Long » produit une caption plus étoffée pour légendes d’image et posts réseaux sociaux ; « Détaillé » va en profondeur et décrit aussi l’ambiance et les éléments d’arrière-plan.

Une couche d’avertissement WCAG est en outre incluse, qui vérifie chaque résultat en direct contre les recommandations Web Accessibility : compteur de caractères avec affichage en feu tricolore au dépassement de la limite de 125 caractères, détection automatique de tournures redondantes comme « image de … » et suggestion en un clic de nettoyage. Cela empêche les anti-patterns les plus fréquents qui dérangent les utilisateurs de lecteurs d’écran sur le web.

Comment fonctionne l’outil ?

Décrire des images est un problème du domaine Computer Vision — l’ordinateur doit reconnaître à partir de valeurs de pixel ce qui est sur l’image, et le traduire en phrase grammaticalement correcte. Les algorithmes classiques échouent : ils reconnaissent couleurs, arêtes et formes simples, mais pas le sens. Les modèles vision-langage modernes résolvent la tâche avec une architecture en deux étages — un encodeur transforme l’image en représentation compacte, un décodeur en écrit du texte.

Tout le processus tourne dans votre navigateur. Au premier appel, le modèle est chargé une fois depuis un stockage de modèle public (environ 75 Mo en variante rapide, environ 90 Mo en plus précise), puis il est dans le cache du navigateur et travaille hors ligne. Chaque description suivante dure selon appareil et modes 3 à 15 secondes. En arrière-plan, l’image est normalisée à une taille compatible avec le modèle, passée à travers le réseau encodeur, et le décodeur produit token par token la phrase de description.

L’outil supporte deux variantes : la rapide tourne sur tout appareil y compris smartphone et tablette, la plus précise est pensée pour desktops modernes et smartphones récents et livre tendanciellement des descriptions plus précises — surtout pour photos produit et scènes avec plusieurs objets.

Quand l’outil livre-t-il de bons résultats ?

Photos avec un motif principal clair sont le sweet spot. Portraits, photos animalières, paysages, photos produit avec sujet centré, prises d’intérieur — partout où l’image montre une scène univoque, le modèle livre des descriptions utilisables. Photos stock, images de blog et posts réseaux sociaux en profitent aussi.

Difficile dans trois cas :

  • Marques, logos, texte dans l’image — le modèle reconnaît rarement des noms de marque concrets ou ne fait pas d’OCR. Pour texte dans l’image, notre outil séparé Image en texte est le bon choix.
  • Images très abstraites ou décoratives — motifs, dégradés, icônes. Ici, le modèle produit souvent des descriptions trop génériques comme « Un motif coloré ». Pour images décoratives, alt="" (alt-text vide) suffit de toute façon sur le web.
  • Attente d’identification de personnes — le modèle décrit apparence et pose, mais ne donne pas de noms. C’est volontaire : la reconnaissance faciale serait délicate au regard du RGPD, l’outil est limité à une description de contenu neutre.

Sur résultats peu satisfaisants, le champ contexte optionnel aide : « Contexte de page : boutique en ligne équipement randonnée » focalise le modèle sur le bon espace lexical et thématique, et vous obtenez à la place des descriptions comme « Chaussure de randonnée en cuir brun avec semelle rouge » au lieu de « Une chaussure ».

Pourquoi la description sort-elle en anglais ?

Les modèles actuellement disponibles compatibles navigateur ont été entraînés sur un jeu de données anglophone (MS-COCO Captions). La description est donc en v1 toujours en anglais — même quand vous travaillez sur la page française. Une version française est sur la roadmap, dès qu’un modèle vision-langage français sous le seuil de taille navigateur (≤100 Mo) sera disponible. Pour le workflow d’aujourd’hui, la sortie anglaise se retravaille avec n’importe quel outil de traduction — ou s’utilise directement en style d’écriture anglais comme alt-text dans des sites multilingues, puisque les alt-texts sont de toute façon souvent écrits en anglais.

Questions fréquentes

Les questions les plus fréquentes sur l’utilisation, la qualité et la confidentialité :

Comment générer des alt-texts pour images automatiquement ?

Chargez votre image dans l’outil ci-dessus — elle est décrite entièrement dans le navigateur par IA. Le mode « Court (alt-text) » livre une description sous 125 caractères, qui tient directement dans alt="…". Gratuit, sans inscription, sans suivi.

Qu’est-ce qu’un bon alt-text selon WCAG ?

Un bon alt-text décrit contenu et fonction d’une image en maximum 125 caractères, sans « image de … » ou extension de fichier. L’outil vous avertit automatiquement quand ces anti-patterns apparaissent, et propose une version nettoyée.

Le descripteur IA fonctionne-t-il hors ligne ?

Oui. Au premier appel, le navigateur télécharge une fois le modèle IA (environ 75 Mo). Ensuite, toutes les descriptions tournent entièrement hors ligne depuis le cache du navigateur.

Quels formats d’image puis-je charger ?

Entrée : PNG, JPG, WebP, AVIF et HEIC (photos iPhone). HEIC est automatiquement dépaqueté avant que le modèle tourne. La sortie est du texte — fichier .txt ou directement dans le presse-papiers.

Combien de temps dure une description ?

Après le téléchargement unique du modèle, la description dure typiquement 3 à 15 secondes — selon appareil, variante choisie et mode de détail. Pendant le traitement, une barre de progression montre l’état actuel.

Quels outils image sont liés ?

Autres outils de l’écosystème kittokit qui collent au sujet :

  • Image en texte (OCR) — lire le texte dans les images, également entièrement dans le navigateur. Utilisez cet outil quand vous avez besoin de texte dans l’image (scans, captures d’écran).
  • Enlever l’arrière-plan — détourage basé IA, souvent l’étape préalable pour des descriptions produit propres.
  • Agrandir image — passer de petites vignettes à la résolution impression, avant de générer des alt-texts.
  • Visionneuse EXIF — lire les métadonnées de l’image (appareil, GPS, date) — complémentaire à la description de contenu.

Confidentialité locale dans le navigateur

Les entrées restent dans l’onglet du navigateur. Elles ne sont pas envoyées aux serveurs kittokit, ne sont pas stockées et ne sont pas utilisées pour le suivi. Certains outils ML chargent un modèle ou un fichier d’exécution au premier usage; cette requête demande seulement l’URL de cet asset, jamais votre fichier ni votre texte. Après la fermeture de la page, seules des données de cache du navigateur peuvent rester, et vous pouvez les supprimer à tout moment.

Note sur les résultats IA

Cet outil crée ou évalue des contenus avec un modèle d’IA. Selon l’article 50 de l’EU AI Act, les contenus générés ou modifiés par IA doivent être indiqués de façon transparente lorsqu’ils sont publiés. Traitez la sortie comme une estimation, relisez-la avant publication et ne l’utilisez pas pour des décisions critiques sans contrôle professionnel.

Dernière mise à jour :

Vous pourriez aussi aimer