Identifier qui parle, comment, et pourquoi cela compte : c’est le pari de pyannoteAI, qui vient de lever 8,1 millions d’euros pour affiner l’intelligence des machines face à la voix humaine. Un tournant stratégique pour cette startup toulousaine issue de la recherche, bien décidée à transformer l’analyse audio en profondeur.
Basée à Toulouse, la startup pyannoteAI vient de lever 8,1 millions d’euros pour accélérer le développement de sa plateforme d’intelligence vocale. L’objectif : permettre aux intelligences artificielles de ne pas seulement comprendre les mots, mais d’identifier précisément qui parle, comment, et dans quel contexte.
Le tour de table, mené par les fonds Crane Venture Partners et Serena, s’appuie aussi sur deux business angels bien connus dans le domaine de l’IA : Julien Chaumond (HuggingFace) et Alexis Conneau (ex-Meta, ex-OpenAI). Une alliance qui confirme l’intérêt croissant pour les technologies dites de Speaker Intelligence, encore peu visibles mais clés dans les applications vocales modernes.
« La technologie vocale a progressé, mais elle ne capte toujours pas l’essentiel », souligne Hervé Bredin, cofondateur de pyannoteAI et ancien chercheur au CNRS. « La voix, c’est plus que des mots. » Depuis une dizaine d’années, ses travaux ont alimenté une technologie de diarisation (identification des locuteurs) désormais utilisée par plus de 100 000 développeurs à travers le monde, via des outils en open source hébergés sur HuggingFace.
Identifier les voix, quelle que soit la langue
pyannoteAI revendique une précision inégalée pour distinguer les différents intervenants dans un échange audio, et ce, indépendamment de la langue parlée. Cette capacité est au cœur d’un projet plus large : construire une plateforme de traitement vocal capable de s’adapter à tous les contextes où la voix est un support critique d’information.
Les usages sont nombreux. Transcription automatique de réunions ou d’appels client, suivi de conversations médicales, génération de voix synthétiques pour le doublage audiovisuel… Dans tous ces domaines, distinguer les interlocuteurs et comprendre la manière dont ils s’expriment peut transformer l’expérience utilisateur et la qualité des données collectées.
De l’open source à l’entreprise
Longtemps centrée sur l’open source, pyannoteAI entame désormais une nouvelle phase. Avec cette levée de fonds, l’entreprise compte structurer une offre commerciale à destination des grandes organisations. Vincent Molina, cofondateur, résume la stratégie : « Nous apportons à l’entreprise une IA qui comprend vraiment la parole, pas juste les mots. »
La startup prévoit d’accélérer sa croissance en Europe et aux États-Unis, avec un renforcement de ses équipes et de son infrastructure cloud. L’ambition est claire : devenir un acteur central dans le traitement de la voix, à un moment où de nombreux secteurs cherchent à exploiter plus finement leurs données audio.
Une brique clé du futur de l’IA vocale
Pour les investisseurs, pyannoteAI s’attaque à une couche fondamentale et encore sous-exploitée de l’intelligence artificielle : l’analyse de la parole dans toutes ses dimensions. Morgane Zerath (Crane Venture Partners) parle d’un « nouveau standard » en matière de traitement de la voix. Matthieu Lavergne (Serena) évoque quant à lui un tournant pour l’open source, désormais prêt à passer à l’échelle.
Depuis ses bureaux installés à Auzéville-Tolosane, en périphérie toulousaine, pyannoteAI trace sa route discrètement mais sûrement. Une montée en puissance à suivre de près, pour quiconque s’intéresse à la place de la voix dans les usages numériques à venir.