Problématique client
Cas client : Pouvoir connaitre des contrats de licence complexes et les comparer facilement
Problématique client
Cette plateforme de streaming spécialisée dans l’apprentissage des langues travaille avec des partenaires du monde entier pour acquérir les droits de séries et films internationaux.
Chaque accord est formalisé dans un contrat PDF, souvent accompagné d’amendements. Ces fichiers sont stockés dans Google Drive, répartis dans des sous-dossiers spécifiques à chaque partenaire.
Avec le temps, la plateforme s’est retrouvée avec des dizaines de contrats à gérer, tous différents, souvent longs et techniques.
Mais aucune solution simple n’existait pour en extraire les informations clés :
-
Combien coûte chaque titre ?
-
Pour quelles plateformes ?
-
Dans quels territoires ?
-
Quels sont les droits exacts concédés ?
L’équipe devait relire chaque contrat à la main pour retrouver une information, ce qui freinait la prise de décision et la validation juridique.
Contexte
Le client n'avait rien pour le moment; il comptait sur la mémoire de ses équipes et de le relecture du contrat.
Ils voulaient gagner du temps, éviter les erreurs, avoir une vision claire de chaque accord sans devoir relire le PDF complet et pouvoir comparer entre contrats.
Mais les contrats variaient énormément :
-
Certains étaient simples (un seul titre, un montant global).
-
D’autres très complexes (plusieurs titres, chacun avec des droits, prix, territoires et dates différents).
Ils avaient besoin d’un système automatisé, précis, stable, et adapté à leur diversité contractuelle.
Défis rencontrés
-
Formats très variés selon les partenaires (terminologie, structure, niveau de détail)
-
Certains documents incluaient plusieurs titres avec des conditions différentes
-
Les prix pouvaient être globaux ou par épisode, selon les cas
-
Les contrats étaient en PDF non éditables, nécessitant un OCR fiable
-
La structure de leur Drive incluait de nombreux sous-dossiers, que les automatisations classiques ne géraient pas bien
-
Airtable rejetait certaines données si mal formatées (ex : erreurs de types, champs imbriqués, sauts de ligne non gérés)
Travail effectué par ActivDev
Ce que nous avons mis en place
1. Collecte intelligente des documents
Chaque jour, l’automatisation parcourt l’ensemble des dossiers du Drive, identifie les nouveaux fichiers PDF, et les récupère même dans les sous-dossiers profonds.
2. Lecture, OCR et extraction des données
Le PDF est d’abord converti en texte via OCR. Ensuite, un agent IA lit le contenu et extrait les champs attendus :
-
Dates, droits, territoires, prix, langues, titres, conditions de renouvellement, etc.
-
Même les détails complexes comme le prix par épisode ou les langues autorisées sont analysés.
L’agent a été prompté pour prendre en compte :
-
La complexité de certains contrats
-
Le fait que plusieurs titres puissent être présents avec des conditions distinctes
-
La nécessité d’un format clair et relisible dans Airtable
3. Enregistrement propre dans Airtable
Avant l’insertion, les données sont :
-
Vérifiées, nettoyées, et adaptées au format Airtable
-
Dédupliquées si un contrat a déjà été traité
- Analysés pour comprendre les termes, milestones, conditions et limitations
Chaque contrat est donc consultable en un clin d’œil, sans ouvrir le PDF et peut être comparé à un autre.
Outils utilisés
-
n8n : pour orchestrer l’automatisation complète
-
Mistral & Gemini : pour extraire le texte des pdfs scannés.
- OpenAI : pour analyser et structurer les informations clés
-
Google Drive API : pour récupérer tous les fichiers, même dans des sous-dossiers
-
Airtable : pour stocker, valider et visualiser les données sous forme structurée
Résultats
Comparaison des contrats en 1 min au lieu de 30