par Marvis-AI
Open source · 734 downloads · 29 likes
Marvis TTS 100M v0.2 est un modèle de synthèse vocale conversationnelle conçu pour générer de la parole en temps réel à partir de texte, avec une fluidité naturelle adaptée aux échanges interactifs. Grâce à son architecture optimisée, il produit un flux audio continu et cohérent, sans les artefacts de découpage typiques des solutions classiques, tout en restant léger (300 Mo en version quantifiée) pour fonctionner efficacement sur des appareils mobiles ou grand public comme les iPhones, iPads ou Macs. Le modèle prend en charge plusieurs langues, dont l’anglais, le français et l’allemand, et peut même traiter des séquences mêlant texte et audio, offrant ainsi une grande flexibilité pour des applications variées. Ses principaux atouts résident dans sa capacité à cloner des voix à partir d’échantillons audio, à s’intégrer facilement dans des outils d’accessibilité ou de création de contenu, et à garantir une latence minimale pour des interactions en direct. Contrairement à d’autres solutions, Marvis évite les approches basées sur des expressions régulières pour le découpage du texte, privilégiant une analyse contextuelle globale pour une intonation plus humaine. Idéal pour les assistants vocaux, les narrations personnalisées ou les médias automatisés, il se distingue par son équilibre entre performance, qualité sonore et respect des contraintes matérielles.
[code]
Marvis is a cutting-edge conversational speech model designed to enable real-time streaming text-to-speech synthesis. Built with efficiency and accessibility in mind, Marvis addresses the growing need for high-quality, real-time voice synthesis that can run on consumer devices such as Apple Silicon, iPhones, iPads, Macs and others.
Currently optimized for English, French, and German.
Real audio streaming:
pip install -U mlx-audio
mlx_audio.tts.generate --model Marvis-AI/marvis-tts-100m-v0.2 --stream \
--text "Marvis TTS is a new text-to-speech model that provides fast streaming on edge devices."
Voice cloning:
mlx_audio.tts.generate --model Marvis-AI/marvis-tts-100m-v0.2 --stream \
--text "Marvis TTS is a new text-to-speech model that provides fast streaming on edge devices." --ref_audio ./conversational_a.wav
You can pass any audio to clone the voice from or select sample audio file from here.
Marvis is built on the Sesame CSM-1B (Conversational Speech Model) architecture, a multimodal transformer that operates directly on Residual Vector Quantization (RVQ) tokens and uses Kyutai's mimi codec. The architecture enables end-to-end training while maintaining low-latency generation and employs a dual-transformer approach:
Multimodal Backbone (100M parameters): Processes interleaved text and audio sequences to model the zeroth codebook level, providing semantic understanding and context.
Audio Decoder (60M parameters): A smaller, specialized transformer that models the remaining 31 codebook levels to reconstruct high-quality speech from the backbone's representations.
Unlike models that require text chunking based on regex patterns, Marvis processes entire text sequences contextually, resulting in more natural speech flow and intonation.
If you use Marvis in your research or applications, please cite:
@misc{marvis-tts-2025,
title={Marvis-TTS: Efficient Real-time Voice Cloning with Streaming Speech Synthesis},
author={Prince Canuma and Lucas Newman},
year={2025}
}
Special thanks to Sesame and Kyutai for their groundbreaking open-source contributions that inspired our work, and to the broader open-source community for their unwavering support and collaboration.
Version: 0.2
Release Date: 20/10/2025
Creators: Prince Canuma & Lucas Newman