La inteligencia artificial no es un avance tecnológico que haya aparecido de la noche a la mañana. Sin embargo, es ahora cuando está en boca de todos, generando así un gran debate social. Si bien en este artículo no vamos a tocar las cuestiones que a día de hoy se discuten a pie de calle sobre este tema, sí que vamos a analizar una de las numerosas ventajas que su utilización puede proporcionarle a tu empresa. En este sentido, vamos a hablar de la transcripción de llamadas en tiempo real.
Transcribir llamadas siempre había consistido en expresar por escrito manualmente lo que se decía en una llamada, ya fuese en ese preciso momento o a partir de una grabación. ¿Y por qué es importante? Fácil y sencillo, porque siempre ha servido para potenciar la satisfacción de los stakeholders, en especial, de los clientes. No es lo mismo convertir en documento escrito el contenido y los puntos claves de una conversación telefónica que dejarlos a cargo de nuestra capacidad para recordar. Es decir, cuando un cliente percibe que sus datos, problemas, sugerencias u opiniones son recopilados y tienen un seguimiento en la empresa, su agrado con la misma aumenta. Y cuanto mejor sea la valoración de la experiencia como cliente, mayor será el éxito empresarial.
Inteligencia artificial
¿Y qué ha conseguido la inteligencia artificial? facilitarnos el proceso. Ahora solo tenemos que ocuparnos de hablar por teléfono con nuestros interlocutores; el resto queda en sus manos.
Los avances de la inteligencia artificial, concretamente en el procesamiento natural del lenguaje (NLP) y los grandes modelos del lenguaje (LLM), han dado lugar a sistemas de reconocimiento de voz que permiten automatizar la conversión por escrito de lo que se está diciendo con extrema precisión. Además, estos sistemas de transcripción automática posibilitan una larga lista de aplicaciones asociadas a la misma que maximizan el valor añadido de tu empresa.
A grandes rasgos, podemos decir que hay tres alternativas basadas en inteligencia artificial para realizar las transcripciones automáticas: crear una solución propia utilizando un modelo de código abierto (como es Whisper ASR de OpenAI), a través de APIs (Como la de OpenAI o Google) o contratando un servicio de una empresa que ofrece estas soluciones directamente integradas en las herramientas de comunicación de la empresa (como es Fonvirtual). En este artículo vamos a comparar las opciones y estudiaremos cuales son los pros y contras de cada una para que cada uno pueda valorar cuál se adecúa mejor a las necesidades de su empresa.
Transcripción de llamada a través de un modelo de código abierto
La inteligencia artificial ofrecida por algunos modelos de códigos abiertos destaca por una gran versatilidad y precisión en el reconocimiento de voz. Sus avanzados modelos de lenguaje y el aprendizaje secuencia a secuencia les abren un abanico de posibilidades muy atractivo para las empresas. En efecto, permiten crear una gran variedad de aplicaciones para voz como son los servicios de transcripción, los asistentes virtuales o el análisis del habla, que se traduce en nuevas posibilidades para las interacciones de los usuarios con la tecnología.
Por su naturaleza, el uso de modelos de código abierto ofrece una libertad de adaptación que permite a los desarrolladores modificar el sistema para cubrir necesidades o requisitos específicos. Por ejemplo, permiten una optimización operativa, ya que identifica áreas de mejora y analiza la gestión de recursos para incrementar la eficiencia de las operaciones productivas con el objeto de maximizar los resultados y minimizar los recursos empleados; permiten desbloquear información valiosa que, en la mayoría de ocasiones, se ha pasado por alto; así como permiten predecir nuevas necesidades de los usuarios, las tendencias del mercado o problemáticas que deberían ser erradicadas.
No obstante, también presentan limitaciones. Las empresas deben prever si tienen la suficiente experiencia interna para desarrollar desde cero la aplicación de un modelo de código abierto. Es muy fácil caer en la trampa y no poder escalar lo esperado porque estos modelos son innovadores, pero también intransigentes, y necesitan actualizaciones constantes e importantes dotaciones de recursos de hardware.
¿Cuánto cuesta un modelo de código abierto?
¿Es realmente siempre más barato alojar un modelo de código abierto y utilizarlo que optar por otras opciones? Todo depende del caso concreto de tu empresa. Aunque, por lo general, para aquellas que constan de una red compleja -que necesita transcribir un alto volumen de contenido-, alojar un modelo de código abierto acaba siendo más caro. Se debe tener en cuenta el coste total de propiedad necesario para alojar, optimizar y mantener el modelo de código abierto a escala.
Es cierto que ejecutar un modelo de código abierto es bastante asequible, pero, ¡ojo! Se necesita mucho más para crear una solución interna propia que utilice un software abierto.
Factores a tener en cuenta en el coste total:
- Alojamiento: el coste por hacer funcionar la CPU -responsable de procesar el texto de entrada, aplicar algoritmos de NLP y generar la salida de voz- y las GPU, que se utilizan para acelerar los algoritmos de NLP, es consecuente debido al coste de esos sistemas y a su escasez.
- Capital humano: un alojamiento adecuado requiere al menos dos desarrolladores de software senior, cuyos salarios anuales pueden superar los 80.000 euros. También requiere un científico de datos y un gerente de proyectos, por lo que sus salarios han de ser tenidos en consideración.
- Red: cuanto mayor sea la velocidad de transferencia de datos que requiere la tecnología de voz a texto, mayores serán los costes de la red.
- Autenticación: el proceso de verificación de la identidad de dispositivos y/o usuarios puede incluir un coste adicional sobre el coste de software o hardware. También el pago de certificados de seguridad u otros mecanismos para garantizar la autenticación.
- Seguridad: al hilo con lo anterior, también se debe invertir en el coste de sistemas de detección y prevención de intrusiones, cortafuegos, antivirus u otras medidas de seguridad.
- Mantenimiento: un modelo de código abierto necesita de actualizaciones de software en el tiempo y asistencia técnica.
- Certificación: en caso de querer obtener la certificación oficial de las soluciones propias de reconocimiento de voz y conversión a texto.
Que este precio merezca la pena dependerá de su caso de uso y de las necesidades de su proyecto.
Transcripción de llamada a partir de las APIs
Las APIs son servicios en la nube que ofrecen a los desarrolladores herramientas e interfaces prediseñados para convertir las palabras habladas (audio o vídeo) en texto escrito. Para procesar la entrada de audio y generar salida de texto, emplean una combinación de modelos tradicionales y de aprendizaje profundo, como redes neuronales recurrentes (RNN), redes neuronales convolucionales (CNN) o modelos basados en transformers. En otras palabras, las APIs emplean algoritmos de aprendizaje automático, así como datos de entrenamiento en gran tamaño, para transcribir el lenguaje hablado.
Este modelo, a diferencia del anterior, no requiere una gran infraestructura interna para su mantenimiento. A una API se accede desde cualquier dispositivo con acceso a internet. El desarrollo o las actualizaciones de las mismas no recaen sobre quien las utiliza, sino sobre quien la ofrece. Sin embargo, sí presenta ciertas limitaciones en lo que a tamaño de archivos y latencia se refiere. Por ejemplo, la API de transcripción de audio a texto de OpenAI trabaja con un archivo de audio cuyo peso debe ser inferior a los 25 MB. Esto se traduce en una mayor pérdida de tiempo y en una disminución del rendimiento. En efecto, si superamos la duración del audio, la transcripción queda truncada y se obtiene un resumen con datos incompletos. En otros casos la división del audio es necesaria pudiendo afectar a una pérdida de contexto si tenemos que cortar los ficheros.
Por otro lado, la latencia de la API hace que en muchas ocasiones estos sistemas no sirvan para realizar transcripciones en tiempo real. Las cuales son muy necesarias para determinados servicios empresariales como la traducción o el análisis de conversaciones en tiempo real.
¿Cuánto cuesta transcribir con una API?
Con las APIs nos olvidamos del coste que la instalación, desarrollo y mantenimiento del sistema conlleva. En este caso, el coste reside en las tarifas ofrecidas según la duración de los archivos de audio. Los precios ofrecidos son muy competitivos, y van desde el medio céntimo de euro el minuto por el uso de la API de OpenAI a dos céntimos por minuto en el caso de Google Cloud. Sin embargo, aunque de primeras es muy atractivo, tenemos que considerar cuál es la duración total de lo que solemos transcribir. Esta es una opción muy buena para aquellas empresas con un volumen medio-bajo de archivos de audio que requieran transcripción. Sin embargo, para aquellas que necesitan transcribir videoconferencias o largas conversaciones telefónicas, el precio a pagar se encarece considerablemente.
Transcripción de llamada como servicio ofrecido por una empresa especializada en comunicaciones con inteligencia artificial
Contratar un servicio ofrecido por una empresa especializada en soluciones de comunicaciones basadas en inteligencia artificial, como es Fonvirtual, permite, al igual que las APIs, olvidarse de poseer la infraestructura, el capital humano o la capacidad económica para instalar, desarrollar y mantener actualizado el sistema. Sin embargo, a diferencia de la anterior, ofrece funciones aún más avanzadas. Estas son: la elaboración de resúmenes; la identificación de emociones; la personalización en las interacciones con los clientes, las transcripciones en tiempo real con traducción simultánea en otros idiomas.
El hecho de que todas las comunicaciones de la empresa transiten por sus sistemas permite tener acceso a las conversaciones y poder transcribir en tiempo real conversaciones de llamadas telefónicas o videoconferencias en tiempo real. También mostrarlas en los diferentes interfaces sin que la empresa tenga que manipular o enviar audios.
Además, dado que la centralita virtual se puede integrar con otras herramientas de gestión empresarial, como CRM y software de gestión de proyectos, las transcripciones pueden ser enviadas a esos sistemas en tiempo real para ser explotadas.También puede identificar patrones de conversación sospechosos para proteger contra el fraude. Y, entre otros, permite el cumplimiento de regulaciones como HIPAA o GDPR, que garantizan la privacidad y la confidencialidad de los datos.
La posibilidad de transcribir en tiempo real es una función ideal para aquellas empresas que no solo tienen un gran volumen de archivos de audio, sino que además necesitan rapidez para obtener el contenido y palabras claves de los mismos, como podrían ser aquellas empresas con una alta interacción con los stakeholders.
La transcripción de llamadas es, en el caso de Fonvirtual, una de las muchas soluciones que se ofrecen en su plataforma. Esta plataforma, que se puede ligar a la numeración de la empresa, es una herramienta de comunicación interna y externa por voz, chat y vídeo. Esta puede utilizarse desde cualquier lugar del globo, desde cualquier dispositivo y sin una gran inversión. Por ejemplo, entre una de sus muchas soluciones se encuentra el cobro telefónico con tarjeta de crédito con total seguridad.
¿Cuánto cuesta contratar el servicio de Fonvirtual?
Contratar un servicio como el ofrecido por Fonvirtual permite que nunca haya sorpresas a la hora de pagar. Se trata de un pago periódico por un servicio muy adaptable a las necesidades de tu empresa y sin costes variables.
Comparando los modelos
Para empezar, tenemos que diferenciar que los modelos de código abierto ofrecen una solución que la empresa tiene que instalar, configurar y personalizar para que sea operativa. Las APIs también requieren ciertos desarrollos pero muy sencillos. Y sin embargo el servicio de transcripción de llamadas integrado en la centralita virtual no requiere de desarrollos, personal ni infraestructura. Estas últimas ofrecen un servicio que está en la nube y que integra las capacidades de reconocimiento de voz de la inteligencia artificial en sus aplicaciones y plataformas. Esto permite a las empresas olvidarse de profundizar en las complejidades de los algoritmos de reconocimiento de voz. Así como en la configuración de la infraestructura sin renunciar a las bondades de la inteligencia artificial.
En cuanto a la productividad, la opción de la transcripción integrada en la centralita virtual es la que logra un mayor equilibrio al tiempo que ofrecen opciones personalizables y un rendimiento superior gracias a la optimización que consiguen al aglutinar gran cantidad de clientes. Replicar los modelos optimizados (incluidos LLM y modelos de IA generativa) en modelos de código abierto es todo un desafío.
En cuanto al tiempo de puesta en marcha, en los modelos de código abierto hay que tener en cuenta que crear desde cero una solución holística de inteligencia artificial para reconocimiento de voz puede llevar en torno a un año. Con una API o el servicio ofrecido por una empresa especializada se puede obtener valor de las funciones basadas en inteligencia artificial desde el primer día de implementación.
Por otra parte, al ejecutar y mantener modelos de código abierto, las organizaciones no dependen de un servicio de terceros. Por tanto, tienen un control total del mismo. Especialmente relevante cuando los servidores están fuera de línea. Sin embargo, el ciclo de vida es mucho más corto con el código abierto porque no se obtienen actualizaciones, por lo que debes estar preparado para actualizar el software y el hardware cada dos años.
La transcripción en los modelos de código abierto, al igual que a través de APIs, requiere preparar los audios. Y si queremos transcribir llamadas telefónicas hay que grabar, descargar y enviar. Y es que, aunque no haya limitación de tamaño de archivo en los modelos de código abierto, no siempre se consigue la velocidad de respuesta necesaria. Por su parte, las APIs suelen presentar una limitación en el tamaño del archivo. Esto puede provocar que las transcripciones puedan quedar incompletas o perder calidad si han tenido que ser divididas en varios archivos. En la opción integrada en la centralita, se accede vía web a las transcripciones en tiempo real sin tener que preocuparse de nada.
El uso que la mayoría de las empresas hacen de las transcripciones de llamadas es casi siempre el mismo: conocimiento del cliente, detección de actitudes, etiquetado de conversaciones, detección de oportunidades o riesgos de negocio, toma de notas, realización de resúmenes de conversaciones, formación del personal, etc… Por ello, la transcripción de llamadas integrada en la centralita ofrece también la solución llave en mano de explotación de esa información lo que evita tener que elaborar ese análisis posterior de las transcripciones.
En resumen…
Una solución de transcripción de llamadas hecha con un modelo de código abierto es mucho más elevada que las otras opciones. No obstante, el resultado puede llegar a ser muy potente y totalmente personalizado.
El uso de soluciones a través de API es atractivo económicamente. Tienen un coste variable, requieren cierto desarrollo por parte de la empresa y permite bastante personalización. Sin embargo, están limitadas por aspectos como la latencia, clave si necesitamos que la solución funcione en tiempo real.
Y por último, una solución de transcripción de llamadas integrada en la centralita, como la de Fonvirtual, tiene tarifas muy competitivas y aunque no permite tanta personalización disponen de sistemas de explotación de la información que satisfacen las necesidades de la mayoría de las empresas.