Mon image reste-t-elle privée — est-elle chargée sur un serveur ?

Non. L'analyse de l'image se passe exclusivement sur votre appareil via [WebAssembly](https://fr.wikipedia.org/wiki/WebAssembly). L'image ne quitte l'onglet du navigateur à aucun moment. Seul le modèle IA est chargé une fois depuis un stockage de modèle public — aucune donnée d'image n'est transmise, seul le fichier modèle.

Pourquoi la description sort-elle en anglais — même sur la page française ?

Les modèles de description d'image actuellement disponibles compatibles navigateur ont été entraînés sur un jeu de données anglophone (MS-COCO). La description est donc en v1 toujours en anglais — la qualité des traductions françaises depuis cette branche de modèle est encore en deçà de l'original. Un modèle français avec entraînement autonome est en préparation ; dès qu'il passe sous le seuil de taille navigateur (≤100 Mo), l'outil basculera automatiquement.

Puis-je piloter la description avec mon propre contexte ?

Oui. L'outil connaît deux champs de saisie optionnels : « Contexte de page » (p. ex. « page produit chaussures de randonnée ») entre dans le prompt et biaise le modèle vers le thème. « Préfixe d'image » (p. ex. « Logo : » ou « Photo produit : ») est mis sans modification devant la description IA — utile pour des listes d'images qui partagent toutes le même schéma.

Quelle est la fiabilité d'une description d'image générée par IA ?

Une description IA est une estimation, pas un fait. Les modèles modernes reconnaissent objets et scènes avec une bonne précision, mais noms, marques, texte dans l'image et détails peuvent être faux — et peuvent inventer des contenus absents de l'image (« hallucination »). L'outil affiche pour cela au-dessus de chaque sortie un avertissement non-masquable selon l'EU AI Act Art. 50 : à vérifier brièvement avant utilisation, corriger si nécessaire.

Description d'image IA — alt-text dans le navigateur

Que fait l’outil ?

L’outil produit à partir d’une image une description en langage naturel — sous forme d’alt-text court, de caption plus longue ou de récit de scène détaillé. Le calcul tourne entièrement dans votre navigateur via WebAssembly et un réseau de neurones spécialisé qui a été entraîné exactement pour les tâches image-vers-texte. Trois modes : « Court (alt-text) » livre une description sous 125 caractères, qui tient directement dans l’attribut alt d’une balise <img> ; « Long » produit une caption plus étoffée pour légendes d’image et posts réseaux sociaux ; « Détaillé » va en profondeur et décrit aussi l’ambiance et les éléments d’arrière-plan.

Une couche d’avertissement WCAG est en outre incluse, qui vérifie chaque résultat en direct contre les recommandations Web Accessibility : compteur de caractères avec affichage en feu tricolore au dépassement de la limite de 125 caractères, détection automatique de tournures redondantes comme « image de … » et suggestion en un clic de nettoyage. Cela empêche les anti-patterns les plus fréquents qui dérangent les utilisateurs de lecteurs d’écran sur le web.

Comment fonctionne l’outil ?

Décrire des images est un problème du domaine Computer Vision — l’ordinateur doit reconnaître à partir de valeurs de pixel ce qui est sur l’image, et le traduire en phrase grammaticalement correcte. Les algorithmes classiques échouent : ils reconnaissent couleurs, arêtes et formes simples, mais pas le sens. Les modèles vision-langage modernes résolvent la tâche avec une architecture en deux étages — un encodeur transforme l’image en représentation compacte, un décodeur en écrit du texte.

Tout le processus tourne dans votre navigateur. Au premier appel, le modèle est chargé une fois depuis un stockage de modèle public (environ 75 Mo en variante rapide, environ 90 Mo en plus précise), puis il est dans le cache du navigateur et travaille hors ligne. Chaque description suivante dure selon appareil et modes 3 à 15 secondes. En arrière-plan, l’image est normalisée à une taille compatible avec le modèle, passée à travers le réseau encodeur, et le décodeur produit token par token la phrase de description.

L’outil supporte deux variantes : la rapide tourne sur tout appareil y compris smartphone et tablette, la plus précise est pensée pour desktops modernes et smartphones récents et livre tendanciellement des descriptions plus précises — surtout pour photos produit et scènes avec plusieurs objets.

Quand l’outil livre-t-il de bons résultats ?

Photos avec un motif principal clair sont le sweet spot. Portraits, photos animalières, paysages, photos produit avec sujet centré, prises d’intérieur — partout où l’image montre une scène univoque, le modèle livre des descriptions utilisables. Photos stock, images de blog et posts réseaux sociaux en profitent aussi.

Difficile dans trois cas :

Marques, logos, texte dans l’image — le modèle reconnaît rarement des noms de marque concrets ou ne fait pas d’OCR. Pour texte dans l’image, notre outil séparé Image en texte est le bon choix.
Images très abstraites ou décoratives — motifs, dégradés, icônes. Ici, le modèle produit souvent des descriptions trop génériques comme « Un motif coloré ». Pour images décoratives, alt="" (alt-text vide) suffit de toute façon sur le web.
Attente d’identification de personnes — le modèle décrit apparence et pose, mais ne donne pas de noms. C’est volontaire : la reconnaissance faciale serait délicate au regard du RGPD, l’outil est limité à une description de contenu neutre.

Sur résultats peu satisfaisants, le champ contexte optionnel aide : « Contexte de page : boutique en ligne équipement randonnée » focalise le modèle sur le bon espace lexical et thématique, et vous obtenez à la place des descriptions comme « Chaussure de randonnée en cuir brun avec semelle rouge » au lieu de « Une chaussure ».

Pourquoi la description sort-elle en anglais ?

Les modèles actuellement disponibles compatibles navigateur ont été entraînés sur un jeu de données anglophone (MS-COCO Captions). La description est donc en v1 toujours en anglais — même quand vous travaillez sur la page française. Une version française est sur la roadmap, dès qu’un modèle vision-langage français sous le seuil de taille navigateur (≤100 Mo) sera disponible. Pour le workflow d’aujourd’hui, la sortie anglaise se retravaille avec n’importe quel outil de traduction — ou s’utilise directement en style d’écriture anglais comme alt-text dans des sites multilingues, puisque les alt-texts sont de toute façon souvent écrits en anglais.

Questions fréquentes

Les questions les plus fréquentes sur l’utilisation, la qualité et la confidentialité :

Comment générer des alt-texts pour images automatiquement ?

Chargez votre image dans l’outil ci-dessus — elle est décrite entièrement dans le navigateur par IA. Le mode « Court (alt-text) » livre une description sous 125 caractères, qui tient directement dans alt="…". Gratuit, sans inscription, sans suivi.

Qu’est-ce qu’un bon alt-text selon WCAG ?

Un bon alt-text décrit contenu et fonction d’une image en maximum 125 caractères, sans « image de … » ou extension de fichier. L’outil vous avertit automatiquement quand ces anti-patterns apparaissent, et propose une version nettoyée.

Le descripteur IA fonctionne-t-il hors ligne ?

Oui. Au premier appel, le navigateur télécharge une fois le modèle IA (environ 75 Mo). Ensuite, toutes les descriptions tournent entièrement hors ligne depuis le cache du navigateur.

Quels formats d’image puis-je charger ?

Entrée : PNG, JPG, WebP, AVIF et HEIC (photos iPhone). HEIC est automatiquement dépaqueté avant que le modèle tourne. La sortie est du texte — fichier .txt ou directement dans le presse-papiers.

Combien de temps dure une description ?

Après le téléchargement unique du modèle, la description dure typiquement 3 à 15 secondes — selon appareil, variante choisie et mode de détail. Pendant le traitement, une barre de progression montre l’état actuel.

Quels outils image sont liés ?

Autres outils de l’écosystème kittokit qui collent au sujet :

Image en texte (OCR) — lire le texte dans les images, également entièrement dans le navigateur. Utilisez cet outil quand vous avez besoin de texte dans l’image (scans, captures d’écran).
Enlever l’arrière-plan — détourage basé IA, souvent l’étape préalable pour des descriptions produit propres.
Agrandir image — passer de petites vignettes à la résolution impression, avant de générer des alt-texts.
Visionneuse EXIF — lire les métadonnées de l’image (appareil, GPS, date) — complémentaire à la description de contenu.

Confidentialité locale dans le navigateur

Les entrées restent dans l’onglet du navigateur. Elles ne sont pas envoyées aux serveurs kittokit, ne sont pas stockées et ne sont pas utilisées pour le suivi. Certains outils ML chargent un modèle ou un fichier d’exécution au premier usage; cette requête demande seulement l’URL de cet asset, jamais votre fichier ni votre texte. Après la fermeture de la page, seules des données de cache du navigateur peuvent rester, et vous pouvez les supprimer à tout moment.

Note sur les résultats IA

Cet outil crée ou évalue des contenus avec un modèle d’IA. Selon l’article 50 de l’EU AI Act, les contenus générés ou modifiés par IA doivent être indiqués de façon transparente lorsqu’ils sont publiés. Traitez la sortie comme une estimation, relisez-la avant publication et ne l’utilisez pas pour des décisions critiques sans contrôle professionnel.

Générer descriptions d'image automatiquement

Comment ça marche

Choisir l'image

Choisir mode & contexte

Vérifier et sauvegarder la description

Confidentialité

Comment utiliser cet outil ?