Téléphonie temps réel
Le canal téléphonie permet à un pipeline betool de prendre ou de passer des appels. Audio temps réel, transcription streaming, synthèse vocale low-latency, interruption (barge-in) supportée.
Architecture
Sous le capot :
- LiveKit assure le transport audio temps réel.
- LiveKit-SIP relie LiveKit à votre trunk opérateur (SIP).
- Un worker dédié orchestre l'appel : ASR (Deepgram, OpenAI Whisper), LLM (Claude, GPT-4o, modèle privé), TTS (ElevenLabs, OpenAI TTS, Azure).
Ce stack est en process séparé du backend principal. Vous ne le configurez pas directement : c'est l'opérateur de votre instance qui pose le pont SIP.
Prérequis
- Un trunk SIP auprès d'un opérateur (Twilio, Voxbone, OVH, Sewan, ou opérateur national).
- Un numéro entrant et / ou la capacité d'émettre des appels sortants.
- Une clé chez un fournisseur ASR et TTS — ou un modèle privé en Enterprise.
Sur le plan Enterprise, betool peut provisionner le trunk SIP et les fournisseurs voix pour vous. Sinon, vous renseignez les credentials dans l'admin.
Mise en place côté admin
- Administration → Téléphonie → Trunks — renseigner les credentials SIP de votre opérateur.
- Administration → Téléphonie → Numéros — associer un numéro à un trunk, puis à un pipeline cible.
- Administration → Modèles voix — choisir l'ASR (entrée) et le TTS (sortie). Les compteurs unitaires sont affichés.
Concevoir un pipeline voix
Un pipeline voix démarre toujours par un nœud Start avec receiver phone_gateway. À partir de là, le pipeline reçoit :
exchange.user_message— chaque tour de parole transcritexchange.intent— intention détectée (si vous activez un agent classifier)exchange.channel.source_type— vautphone_gateway
Les nœuds aval peuvent renvoyer un texte qui sera lu à voix haute par le TTS. Les tools spécialisés voix (barge-in, hangup, transfert, mise en attente musicale) sont automatiquement disponibles aux agents quand le pipeline a phone_gateway en amont.
Bonnes pratiques
- Garder les missions courtes. Le temps de réflexion compte : un agent qui hésite 4 secondes paraît figé au téléphone. Préférez des modèles rapides (Haiku, GPT-4o-mini) sauf pour les tours décisifs.
- Activer le barge-in. L'appelant doit pouvoir couper l'agent. C'est par défaut.
- Limiter les boucles. Un pipeline qui itère plus de 3 fois sur le même tour génère du silence inquiétant pour l'appelant. Surveillez le compteur d'itérations.
Coûts
Voir Tarifs. Indicatif : 200 crédits par minute d'appel + ASR / TTS / LLM. Un appel de 5 minutes coûte typiquement $0.20 à $0.80 selon le modèle LLM choisi.
Limites connues
- Pas (encore) de vidéo.
- Le transfert vers un humain nécessite un trunk SIP supportant le REFER (Twilio OK).
- L'agent ne peut pas (encore) deviner l'identité de l'appelant sans intégration CRM.