Amélioration d’un pipeline d’analyse IA de réunions et résumés

Fermé · 1 000 € à 10 000 € · 11 offres · 5282 vues · 17 interactions

Faire une offre Publier un projet similaire

Contexte :
Nous avons développé une première version d’une application qui traite les comptes rendus de réunions (visios, enregistrements Teams, etc.) via des technologies d’IA générative.
L’objectif est maintenant d’améliorer de manière significative ce pipeline en combinant des solutions existantes et en optimisant l’expérience utilisateur.
Objectifs de la mission :

1. Transcription & enrichissement audio/vidéo :

Améliorer la qualité des transcriptions à partir des vidéos ou exports Teams.

Fusion intelligente entre la transcription brute fournie par Teams et des solutions alternatives plus performantes (Whisper, AWS Transcribe, etc.).

Gestion des cas où plusieurs interlocuteurs utilisent le même micro (non-identification des speakers) vs. cas où les micros sont distincts.

Possibilité de réassigner ou réorganiser les parties parlées selon les intervenants si possible.

2. Résumé structuré & chapitrage intelligent :

Génération automatique de résumés clairs, organisés par sujet ou chapitre.

Possibilité pour l’utilisateur d’ajuster ou régénérer des résumés selon ses besoins.

Suggestion de chapitres ou points saillants détectés automatiquement.

3. Chatbot sur la transcription :

Implémentation d’un chatbot performant permettant à l’utilisateur de poser des questions sur le contenu de la réunion.

Fonctionnalité de recherche intelligente dans la transcription pour retrouver rapidement une information, même partielle.

4. Synchronisation avec la vidéo/audio originale :

Fonction pour rejouer un extrait audio/vidéo en cliquant sur une phrase ou un segment de la transcription.

Indexation temporelle fiable entre transcription et média original pour permettre un retour précis au moment correspondant.

5. Améliorations UX / Front (optionnel selon compétences) :

Intégration dans une interface web conviviale (si possible, collaboration avec un front-end).

UX pensée pour des utilisateurs non techniques (lecture, clic pour rejouer, résumé visible, filtres, etc.).

Livrables attendus :

Code modulaire (idéalement en Python) et bien documenté du pipeline complet.

Modules de transcription, post-traitement, résumé, interaction (chatbot), et synchronisation.

Exemples de fichiers d’entrée et de sortie (audio/vidéo + transcription enrichie, résumé, chapitres, etc.).

Idéalement, version testable sur un environnement ou déploiement léger.

Profil recherché :

Expérience confirmée avec les outils de transcription vocale (Whisper, AWS Transcribe, Deepgram, etc.).

Solide compréhension des outils d’IA générative (LLMs, embeddings, RAG, etc.).

Compétences en traitement de la vidéo/audio et synchronisation avec du texte.

Connaissances en structuration de résumé automatique, extraction d’informations, NLP.

Capacité à proposer des idées UX ou à collaborer avec un développeur front.

(Bonus) Expérience avec des projets similaires : analyse de réunions, interview intelligence, etc.