Product Craft Bible
Drive-thru y voice ordering
Inicio Verticales Drive-thru y voice ordering
Verticales

Drive-thru y voice ordering

11 reglas soundhound · acrelecmcdonald's-ibm 2024 · wendy's freshaisoundhound · wendy's freshaikardome · hardware drive-thru
169

Drive-thru y voice ordering

11 reglas
1474

Confirmacion visual del pedido antes del cobro

El pedido capturado por voz o touchscreen se muestra en pantalla visible desde el vehiculo antes del cobro. El audio de confirmacion no basta: ruido de motor, trafico y viento interfieren. Pantalla muestra items, cantidades y total; el cliente confirma verbalmente o con boton. Sin confirmacion visual los reclamos en ventana de entrega aumentan dramaticamente.

soundhound · acrelec
Preferir
Tu pedido
Ticket #2841
Big Mac combo$8.99
Papas grandes$2.50
Coca cola$1.99
Total$13.48
¿Es correcto?
Evitar
🎤
"¿Confirmas tu pedido?"
Cliente con motor encendido + lluvia: no escucha bien
+38% reclamos en pickup
1475

Cancelacion de ruido y mic direccional al conductor

El sistema de voz usa cancelacion activa de ruido y microfonos direccionales apuntados al conductor. McDonald's con IBM (terminado 2024) fallo en parte por baja precision en entornos ruidosos reales, superada en demo pero no en produccion con trafico, lluvia o multiples vehiculos. Wendy's FreshAI (500-600 sucursales en 2025) resuelve esto con hardware dedicado.

mcdonald's-ibm 2024 · wendy's freshai
Preferir
M
🚗
cono al conductor
accuracy 94% · lluvia OK
Evitar
M
trafico
lluvia
motor
otros
1476

Latencia maxima de respuesta de voz: 2 segundos

El sistema responde en menos de 2s desde que el cliente termina de hablar. Por encima de 2s el cliente asume que no escucho y repite, causando duplicados. Por encima de 5s pierde confianza en el canal y busca asistencia humana. Medir latencia end-to-end incluyendo tiempo de red al LLM y vuelta al speaker, no solo procesamiento local.

soundhound · wendy's freshai
Preferir
Latencia end-to-end
Mic captura110ms
LLM edge cache400ms
Procesar580ms
TTS streaming310ms
Evitar
Latencia end-to-end
Mic captura120ms
Red al LLM1.8s
Procesar2.1s
TTS + speaker800ms
1477

Speaker inteligible a 70dB de ruido ambiente

El altavoz produce audio claro a 70dB (trafico moderado). Speakers tinny o de baja potencia son ininteligibles con motor encendido. Volumen auto-ajustable segun nivel de ruido detectado por el mic. La calidad de audio de salida impacta directamente la tasa de errores de orden: un cliente que no entiende la pregunta de up-sell no responde y se pierde la venta.

kardome · hardware drive-thru
Preferir
🔊
Volumen auto: 82dB
Ruido detectado: 78dB → +4dB de cabeza
Evitar
🔊
Volumen fijo: 65dB
Ruido ambiente: 78dB
"¿Que? ¿Repite por favor?"
1478

Fallback humano accesible con boton fisico

Boton fisico o palabra clave clara ("agente", "persona", "ayuda") que conecta a empleado en menos de 10 segundos. El fallback no es falla del sistema: es caracteristica de UX. Sin fallback, pedidos inusuales, necesidades especiales o fallas de reconocimiento generan abandono de lane. Wendy's FreshAI mantiene fallback humano explicito en cada sucursal.

wendy's freshai
Preferir
Intento 2: dilo de otra forma
"Big Mac con extra queso, sin pepinillos"
o si prefieres
📢Hablar con persona (boton rojo)
Evitar
💬
No te entendi.
Intenta de nuevo.
Intento 4 de 4
cliente abandona la cola
1479

Persistencia del orden entre punto de orden y pago

El pedido capturado en el menu board esta disponible identico en la ventana de pago y en la de entrega. Discrepancia entre lo ordenado y lo que aparece en caja es falla de UX aunque sea error de sistema. En lanes con multiples carriles (doble drive-thru), la asignacion pedido-vehiculo debe ser inequivoca: numero de ticket, descripcion del vehiculo, o pantalla de confirmacion en ventana.

soundhound · lane choreography
Preferir
Cola activa
🚗
#A2841 · Honda azul
$14.50
🚗
#B2842 · Toyota rojo
$9.20
Cajero ve foto + ticket · sin preguntar
Evitar
Caja ventana
Orden A · $14.50?
Orden B · $9.20?
"¿Cual orden es del Honda azul?"
Cajero pregunta al cliente · rompe el flow
1480

Sincronizacion omnichannel: mismo pedido en todos los canales

Un pedido iniciado en la app movil debe reconocerse al llegar al drive-thru (por numero, licencia o QR). El cliente no repite el pedido en el punto de entrada. SoundHound y Acrelec implementan esto conectando app, kiosco y POS en un solo registro. Sin omnicanalidad, la pre-orden movil pierde su valor porque el cliente igual re-ordena.

soundhound · acrelec
Preferir
App movil
Pedido #M-2841
Big Mac + papas
Drive-thru
"Hola Juan, tu pedido #M-2841"
Avanza a ventana
Evitar
App movil
Pedido #M-2841
Big Mac + papas
Drive-thru
"Hola, ¿que vas a ordenar?"
No reconoce
×
1481

Confirmacion visual en ventana de pickup

La ventana de entrega muestra confirmacion visible: numero de ticket prominente, resumen de items o foto del bag. Reduce reclamos de "me dieron el pedido equivocado" porque el cliente verifica antes de aceptar. En operaciones por encima de 30 autos/hora la confirmacion visual es mas confiable que la verbal.

acrelec · lane operations
Preferir
Tu orden
#2841
Big Mac combox1
Papas grandesx1
Coca colax1
¿Es correcto? Confirma antes de avanzar
Evitar
🍔
"Aqui esta tu pedido"
Sin verificacion visual del cliente
15% de reclamos post-entrega
1482

Throughput +30% como metrica de exito de voice

Un sistema de voice ordering bien implementado mejora throughput del lane hasta 30% (Wendy's FreshAI). Medir tiempo promedio de orden (primer saludo a confirmacion final) vs baseline humano. Si la voz es mas lenta que el humano, es problema de UX o latencia, no de adopcion. Es la metrica para justificar mantener o retirar el sistema.

wendy's freshai 2025
Preferir
Tiempo medio por orden
Humano
68s
Voice AI
47s (-31%)
Evitar
Tiempo medio por orden
Humano
68s
Voice AI
94s (+38%)
1483

Menu de voz simplificado: 20-30 items, no menu completo

El canal de voz no soporta el 100% del menu. Subconjunto de 20-30 items de alta frecuencia con nombres no ambiguos es mas efectivo que intentar capturar combinaciones complejas. Pedidos complejos (modificadores, alergias, porciones personalizadas) se transfieren al menu visual o al agente humano. La especializacion reduce errores de reconocimiento.

wendy's freshai · specialization principle
Preferir
Vocabulario voz: top 24
Big Mac
Whopper
Combo 1
Papas
Coca
Helado
...
+18 mas
Evitar
Vocabulario voz
Item 1
Item 2
...
Item 312
mods
alergias
combos
x2
1484

Menu board digital sincronizado con vocabulario de voz

Items, precios y disponibilidad del menu board se sincronizan con la base del sistema de voz en tiempo real. Si un item se agota, desaparece del menu visual Y del vocabulario de voz simultaneamente. Discrepancia entre lo visible y lo aceptable genera confusion y retrabajos en caja.

soundhound · menu sync
Preferir
Menu board
sync 14:32
Big Mac combo$8.99
McRib (nuevo!)$6.49
Helado vainilla$2.99
Evitar
Menu board14:32
Big Mac combo$8.99
McRib (nuevo!)$6.49