IntlPull
Tutorial
10 min read

Générer des sous-titres à partir d'audio gratuitement (Outil IA dans le navigateur)

Créez des sous-titres à partir de fichiers audio ou vidéo en utilisant IntlPull AI directement dans votre navigateur. Pas de téléchargements, 100% privé, complètement gratuit.

IntlPull Team
IntlPull Team
20 Feb 2026, 01:39 PM [PST]
On this page
Summary

Créez des sous-titres à partir de fichiers audio ou vidéo en utilisant IntlPull AI directement dans votre navigateur. Pas de téléchargements, 100% privé, complètement gratuit.

Générer des sous-titres à partir d'audio gratuitement (Outil IA dans le navigateur)

La création de sous-titres nécessitait auparavant des logiciels coûteux, des services de transcription manuels ou des applications desktop maladroites qui téléchargeaient vos fichiers vers des serveurs distants. En 2026, IntlPull AI a révolutionné la génération de sous-titres — et maintenant elle fonctionne entièrement dans votre navigateur.

Ce guide vous montre comment générer des sous-titres de qualité professionnelle à partir de n'importe quel fichier audio ou vidéo en utilisant l'outil Whisper gratuit d'IntlPull basé sur navigateur. Pas de téléchargements. Pas de problèmes de confidentialité. Pas de coûts. Juste glisser, déposer et attendre.

La révolution de la génération de sous-titres

Qu'est-ce qui a changé ?

Trois percées technologiques ont convergé pour rendre la génération de sous-titres dans le navigateur possible :

  1. OpenAI Whisper (2022-2024) : Modèles de reconnaissance vocale de pointe (le moteur derrière IntlPull AI)
  2. WebAssembly (WASM) + WebGPU : Les navigateurs peuvent maintenant exécuter des modèles IA à des vitesses quasi-natives
  3. Transformer.js (2023-2026) : Bibliothèque JavaScript qui package des modèles IA pour l'inférence dans le navigateur

Le résultat : Vous pouvez maintenant générer des sous-titres à partir d'une vidéo de 2 heures sans télécharger un seul octet vers un serveur.

Pourquoi c'est important

Confidentialité : Interviews médicales, formation d'entreprise, contenu confidentiel — aucun tiers ne voit jamais vos fichiers.

Coût : Pas de tarification à la minute. Générez des sous-titres pour 1 000 heures de contenu gratuitement.

Vitesse : Pas de latence de téléchargement/téléchargement. Sur du matériel moderne (Mac M1, GPU récents), la génération s'exécute plus rapidement qu'en temps réel.

Accessibilité : Fonctionne hors ligne après le téléchargement initial du modèle. Parfait pour les réseaux restreints.


Comment fonctionne IntlPull AI dans le navigateur

Voici l'architecture de haut niveau :

1. L'utilisateur télécharge un fichier audio/vidéo
   ↓
2. FFmpeg.wasm extrait la piste audio (si vidéo)
   ↓
3. Audio converti en WAV mono 16kHz (format d'entrée de Whisper)
   ↓
4. IntlPull AI traite l'audio en morceaux
   ↓
5. Le modèle produit la transcription avec timestamps
   ↓
6. JavaScript formate la sortie en SRT ou VTT
   ↓
7. L'utilisateur télécharge le fichier de sous-titres

Tout se passe dans la mémoire de votre navigateur. Le fichier audio ne quitte jamais votre appareil.

Sélection du modèle

L'outil d'IntlPull propose deux modèles IntlPull AI :

ModèleTailleLanguesVitesse (Mac M1)Précision
whisper-tiny.en77 MoAnglais seulement10x temps réel~85% WER
whisper-small490 Mo99 langues3x temps réel~90% WER

WER (Taux d'erreur de mots) : Plus bas est meilleur. 90% WER = 9 mots corrects sur 10.

Recommandation :

  • Contenu anglais, priorité vitesse → whisper-tiny.en
  • Contenu multilingue, priorité qualité → whisper-small
  • Vidéo 1 heure, MacBook Pro M1 :
    • Modèle tiny : ~6 minutes de génération
    • Modèle small : ~20 minutes de génération

Étape par étape : Générer votre premier fichier de sous-titres

Étape 1 : Accéder à l'outil

Naviguez vers intlpull.com/tools/subtitles/generate

Aucun compte ou inscription requis.

Étape 2 : Vérifier la compatibilité du navigateur

Navigateurs recommandés :

  • Chrome/Edge 113+ (meilleur support WebGPU)
  • Firefox 121+ (WebGPU activé dans la config)
  • ⚠️ Safari 17+ (WebGPU expérimental, plus lent)

Accélération matérielle :

  • WebGPU disponible : Utilise votre GPU pour un traitement 5-10x plus rapide
  • Repli sur WASM SIMD : Plus lent mais toujours fonctionnel sur n'importe quel appareil moderne

L'outil détecte automatiquement les capacités de votre navigateur et sélectionne la méthode d'exécution la plus rapide.

Étape 3 : Télécharger votre fichier

Glissez-déposez ou cliquez pour télécharger :

  • Formats audio : MP3, WAV, FLAC, AAC, OGG, M4A
  • Formats vidéo : MP4, MKV, AVI, MOV, WEBM
  • Limite de taille de fichier : 2 Go (environ 10 heures de vidéo)

Fichiers vidéo : L'outil extrait automatiquement la piste audio en utilisant FFmpeg.wasm. La vidéo originale n'est jamais chargée en mémoire (trop grande).

Étape 4 : Configurer les paramètres de génération

Sélection de la langue

Si vous connaissez la langue de votre audio, sélectionnez-la dans le menu déroulant :

  • Anglais (par défaut)
  • Espagnol (Español)
  • Français (Français)
  • Allemand (Deutsch)
  • Chinois mandarin (中文)
  • Japonais (日本語)
  • Coréen (한국어)
  • Et 90+ autres langues

Pourquoi spécifier la langue ? Whisper performe mieux quand le modèle connaît la langue attendue. La détection automatique fonctionne mais est légèrement moins précise.

Sélection du modèle

  • IntlPull AI Tiny (Anglais seulement, plus rapide)
  • IntlPull AI Small (multilingue, meilleure précision)

Nouveaux utilisateurs : Le modèle se télécharge une fois et est mis en cache dans votre navigateur. Les utilisations ultérieures sont instantanées.

Format de sortie

  • SRT (SubRip) : Format le plus compatible, fonctionne sur YouTube/Vimeo/VLC
  • VTT (WebVTT) : Lecteurs vidéo HTML5, meilleures fonctionnalités d'accessibilité

Voir notre guide de comparaison des formats pour plus de détails.

Options avancées

Granularité des timestamps :

  • Niveau mot (par défaut) : Un sous-titre par phrase (2-5 mots)
  • Niveau phrase : Un sous-titre par phrase (meilleure lisibilité mais temps d'affichage plus long)

Ponctuation :

  • Auto-ponctuation (recommandé) : L'IA ajoute virgules, points, points d'interrogation
  • Transcription brute : Pas de ponctuation (utile pour la transcription technique)

Diarisation des locuteurs (expérimental) :

  • Activé : Tente d'identifier différents locuteurs et de les étiqueter
  • Désactivé : Toute transcription traitée comme un seul locuteur

Note : La diarisation des locuteurs ajoute ~20% de temps de traitement et nécessite le modèle small.

Étape 5 : Générer les sous-titres

Cliquez sur "Générer les sous-titres".

Ce qui se passe ensuite :

  1. Chargement du modèle (première fois seulement) : Télécharge et met en cache le modèle AI (30-90 secondes)
  2. Extraction audio (fichiers vidéo seulement) : FFmpeg extrait la piste audio (5-15 secondes)
  3. Prétraitement audio : Convertit en WAV mono 16kHz (1-5 secondes)
  4. Transcription : IntlPull AI traite l'audio en morceaux de 30 secondes avec barre de progression
  5. Post-traitement : Formate les timestamps, applique la ponctuation, valide la structure SRT/VTT

Indicateur de progression : La barre de progression en temps réel montre :

  • Morceau actuel en cours de traitement
  • Temps restant estimé
  • Vitesse de traitement (ratio temps réel)

Conseil de performance : Fermez les autres onglets du navigateur pendant le traitement pour maximiser la RAM et les ressources GPU disponibles.

Étape 6 : Réviser et éditer

Une fois la génération terminée, l'outil affiche :

  • Aperçu côte à côte : Forme d'onde audio + sous-titres générés
  • Éditeur inline : Cliquez sur n'importe quel sous-titre pour éditer le texte ou ajuster le timing
  • Synchronisation de lecture : Cliquez sur un sous-titre pour sauter à ce timestamp dans l'audio

Éditions courantes nécessaires :

  1. Noms propres : L'IA peut mal orthographier les noms, marques, termes techniques
    • Exemple : "open AI" → "OpenAI"
  2. Homophones : Mots qui sonnent pareil mais ont des significations différentes
    • Exemple : "leur" vs "là" vs "l'air"
  3. Ponctuation : Manque parfois ou ajoute une ponctuation incorrecte
  4. Sauts de ligne : Ajuster pour la lisibilité (max 2 lignes par sous-titre)

Raccourcis d'édition :

  • Tab : Passer au sous-titre suivant
  • Shift+Tab : Passer au sous-titre précédent
  • Ctrl+S : Enregistrer les modifications
  • Espace : Lecture/pause audio

Étape 7 : Télécharger vos sous-titres

Cliquez sur "Télécharger SRT" ou "Télécharger VTT" pour enregistrer le fichier.

Convention de nom de fichier : Ajoute automatiquement le code de langue :

  • Original : video.mp4
  • Généré : video.fr.srt

Testez vos sous-titres :

  1. Ouvrez votre vidéo dans VLC Media Player
  2. Glissez-déposez le fichier SRT/VTT sur VLC
  3. Les sous-titres devraient se synchroniser automatiquement et s'afficher
  4. Vérifiez la précision pendant les 2-3 premières minutes

Si le timing est décalé, utilisez l'outil de synchronisation de sous-titres d'IntlPull pour ajuster globalement.


Conseils pour de meilleurs résultats de génération de sous-titres

1. La qualité audio est primordiale

Audio optimal :

  • Voix du locuteur claire
  • Bruit de fond minimal
  • Niveaux de volume cohérents
  • Pas de locuteurs qui se chevauchent

Audio problématique :

  • Musique/effets sonores importants
  • Écho ou réverbération
  • Plusieurs locuteurs simultanés
  • Artefacts de compression à faible débit

Conseil de prétraitement : Si votre audio est bruyant, passez-le d'abord par un filtre de réduction de bruit (la "Réduction de bruit" d'Audacity est gratuite).

2. Gérer la musique de fond

Whisper transcrit parfois les paroles de musique de fond comme de la parole. Solutions :

  • Sections uniquement musicales : Supprimer manuellement les sous-titres pendant la musique d'intro/outro
  • Édition audio : Utiliser un éditeur audio pour baisser (duck) la musique pendant la parole
  • Nettoyage post-génération : Utiliser rechercher/remplacer pour supprimer les erreurs courantes de transcription musicale

3. Contenu multi-locuteurs

Pour les interviews, panels ou conversations :

  • Activer la diarisation des locuteurs si disponible
  • Étiquetage manuel : Après génération, ajouter manuellement les étiquettes de locuteur :
    SRT
    11
    200:00:01,000 --> 00:00:03,500
    3- Animateur : Bienvenue dans l'émission !
    4
    52
    600:00:03,600 --> 00:00:06,000
    7- Invité : Merci de m'avoir reçu.

4. Terminologie technique et jargon

Les données d'entraînement de Whisper incluent du contenu technique, mais il peut avoir des difficultés avec :

  • Acronymes spécifiques au domaine (par exemple, "CI/CD" → "CICD" ou "C I C D")
  • Noms de produits (par exemple, "PostgreSQL" → "Post Gress Q L")
  • Termes techniques non anglais

Solution : Après génération, utiliser rechercher/remplacer pour corriger les erreurs de reconnaissance récurrentes :

  • Chercher : "post gress Q L" → Remplacer : "PostgreSQL"
  • Chercher : "cube control" → Remplacer : "kubectl"

5. Accents et locuteurs non natifs

Whisper gère les accents raisonnablement bien mais la précision chute avec :

  • Accents régionaux forts
  • Locuteurs non natifs avec accents prononcés
  • Alternance de codes (mélange de langues en milieu de phrase)

Atténuation :

  • Sélectionner la langue native du locuteur (même s'il parle français)
  • Utiliser le modèle whisper-small plus grand pour une meilleure précision
  • Prévoir du temps supplémentaire pour les corrections manuelles

6. Contenu long (2+ heures)

Les limites de mémoire du navigateur peuvent devenir un problème avec de très longues vidéos :

Solution de contournement :

  1. Diviser la vidéo en morceaux de 30-60 minutes
  2. Générer les sous-titres pour chaque morceau séparément
  3. Fusionner les fichiers SRT en utilisant un éditeur de texte ou le fusionneur de sous-titres d'IntlPull

Exigences du navigateur et performances

Exigences minimales

ComposantMinimumRecommandé
RAM4 Go8 Go+
CPU2017+ Intel/AMDApple Silicon / Ryzen 5000+
GPUGraphiques intégrésGPU discret (RTX 3060+)
NavigateurChrome 100+Chrome 120+ avec WebGPU
Stockage500 Mo libre1 Go libre (pour cache modèle)

Benchmarks de performance

Génération de sous-titres pour une vidéo de 10 minutes :

AppareilModèleTempsRatio temps réel
MacBook Pro M1tiny.en60 secondes10x
MacBook Pro M1small200 secondes3x
Intel i7-12700 + RTX 3060tiny.en90 secondes6,6x
Intel i7-12700 + RTX 3060small250 secondes2,4x
Intel i5-10400 (sans GPU)tiny.en300 secondes2x
Intel i5-10400 (sans GPU)small800 secondes0,75x

Ratio temps réel : Plus haut est meilleur. 10x = génère des sous-titres 10 fois plus vite que la durée de la vidéo.


Confidentialité : Votre audio ne quitte jamais votre appareil

Comment ça marche

Les services de sous-titres traditionnels (Rev, Otter.ai, YouTube) téléchargent votre audio vers leurs serveurs :

Votre appareil → Transcription serveur → Télécharger résultat

L'outil basé navigateur d'IntlPull :

Votre appareil → (tout se passe localement) → Télécharger résultat

Ce que cela signifie

  • Pas de téléchargement : Le fichier audio reste dans la mémoire du navigateur, jamais transmis
  • Pas de stockage : Les fichiers ne sont jamais écrits sur disque (sauf cache modèle)
  • Pas de journalisation : Aucun enregistrement de ce que vous transcrivez
  • Capable hors ligne : Fonctionne sans internet après téléchargement du modèle

Langues prises en charge (99 au total)

Whisper prend en charge 99 langues avec une précision variable :

Niveau 1 (Excellente précision)

Anglais, Espagnol, Français, Allemand, Italien, Portugais, Néerlandais, Polonais, Turc, Russe, Coréen, Japonais, Chinois mandarin, Cantonais, Indonésien, Malais, Vietnamien, Thaï, Hindi

Niveau 2 (Bonne précision)

Arabe, Hébreu, Grec, Tchèque, Slovaque, Roumain, Hongrois, Finnois, Suédois, Norvégien, Danois, Ukrainien, Bulgare, Croate, Serbe, Catalan, Philippin

Niveau 3 (Précision modérée)

Persan, Ourdou, Bengali, Tamoul, Telugu, Marathi, Gujarati, Swahili, Amharique, Yoruba, Zoulou, Afrikaans, Islandais, Estonien, Letton, Lituanien, Slovène, Albanais, Macédonien, Bosniaque, Gallois, Basque


Conclusion

La génération de sous-titres dans le navigateur utilisant IntlPull AI a rendu la transcription de qualité professionnelle accessible à tous. Pas de coûts, pas de téléchargements, pas de problèmes de confidentialité — juste glisser, déposer et télécharger.

Essayez maintenant : Générer des sous-titres à partir d'audio

Une fois vos sous-titres générés :

  1. Traduire dans d'autres langues
  2. Convertir entre formats
  3. Éditer et synchroniser avec vidéo

Pour les équipes gérant du contenu vidéo à grande échelle, explorez la plateforme TMS d'IntlPull avec collaboration d'équipe, mémoire de traduction et flux de travail automatisés de sous-titres.


Outils connexes :

Tags
subtitles
whisper
ai
speech-to-text
subtitle-generator
audio
2026
IntlPull Team
IntlPull Team
Engineering

Building tools to help teams ship products globally. Follow us for more insights on localization and i18n.