Audio Models

Speech recognition, text-to-speech, and audio processing models

12 models available

Whisper Large V3

1.55B9.2OpenAI

State-of-the-art speech recognition model supporting 99 languages with exceptional accuracy.

99 languagesTranscriptionTranslationTimestampsSpeaker detection

Whisper Medium

769M8.5OpenAI

Balanced speech recognition model offering good accuracy with reasonable resource usage.

99 languagesTranscriptionTranslationEfficient

Whisper Small

244M7.8OpenAI

Compact speech recognition for edge deployment and real-time applications.

Fast inferenceLow resource99 languagesEdge deployment

Bark

1B8.1Suno AI

Text-to-audio model generating speech, music, and sound effects.

Text-to-speechMusic generationSound effectsMultilingual

MusicGen

1.5B8Meta

Controllable music generation model creating high-quality audio from text.

Music generationText conditioningMelody conditioningHigh quality

AudioCraft

1.5B8.2Meta

Suite of audio generation models for music, sound effects, and compression.

Music generationSound effectsAudio compressionHigh quality

Seamless M4T

2.3B8.7Meta

Massively multilingual and multimodal translation model.

100 languagesSpeech-to-speechSpeech-to-textText-to-speech

Whisper Tiny

39M7.2OpenAI

Ultra-compact speech recognition for extreme edge deployment.

Ultra-fastTiny sizeEdge deployment99 languages

Whisper Base

74M7.5OpenAI

Balanced speech recognition model for general use.

FastBalanced99 languagesEfficient

Tortoise TTS

1B8.4Tortoise Team

High-quality text-to-speech with voice cloning capabilities.

Voice cloningHigh qualityExpressiveNatural

Coqui XTTS

500M8.2Coqui

Multilingual text-to-speech with voice cloning in 17 languages.

17 languagesVoice cloningFastHigh quality

Riffusion

0.98B7.7Riffusion

Stable Diffusion fine-tune for music generation via spectrograms.

Music generationSpectrogram-basedFastCreative