Cómo diseñar funciones de software de voz para el automóvil desde cero
Con la popularización del hardware inteligente en los vehículos, cada vez más vehículos están equipados con funciones de reconocimiento de voz. En la actualidad, la función más importante del sistema del vehículo es la voz del vehículo. He estado expuesto a la función de voz del vehículo durante muchos años. Aquí me gustaría compartir con ustedes cómo planificar y diseñar la función de voz del vehículo desde cero. Perspectiva de un integrador de servicios de voz. Bienvenidos a todos a unirse a nosotros para el intercambio y la discusión.
Las principales empresas de soluciones de tecnología de voz en el mercado de la automoción son: iFlytek, Nuance, Baidu, Speedy, Yunzhisheng, etc. Dado que el alcance y la intensidad de la promoción de los servicios de voz de Tencent en el campo automotriz son relativamente pequeños, los servicios de voz de Tencent son inferiores a los principales proveedores de soluciones del mercado en términos de servicio y calidad. No descartamos la posibilidad de realizar mayores esfuerzos en el futuro. . El servicio de voz de Alibaba se utiliza principalmente en AliOS y actualmente se produce principalmente en masa en modelos Roewe.
Capacidad de reconocimiento de voz——Nota: para automóviles de pasajeros, la tasa de reconocimiento se puede mantener por encima de 95 en espacios reducidos cuando la velocidad del vehículo es inferior a 80 km/h.
Capacidad de síntesis de voz —— Nota: La experiencia altamente antropomórfica reportada por TTS es una prueba de la inversión en I + D, y los efectos de la experiencia real de cada empresa son bastante diferentes
Comprensión del lenguaje hablado en dialecto - Nota: La clave es una alta solidez, de lo contrario la función de voz es simplemente inútil
Reconocimiento semántico - Nota: integración de servicios en línea, las capacidades de integración de servicios de recursos de cada fabricante son básicamente las mismas, con ligeras diferencias
Múltiples rondas de diálogo - Nota: Algunos fabricantes apoyan específicamente Hay varias rondas de diálogo en la escena y, para ser honesto, la experiencia actual no es muy buena
La competencia en el mercado es feroz y hasta ahora no existe un modelo de negocio claro. Todo el mundo está en la etapa de inversión de capital. Las funciones de cada empresa están convergiendo gradualmente y también están cambiando de un proveedor de tecnología pura a una plataforma tecnológica, cambiando su función al proporcionar un proveedor de soluciones general.
Asistente de voz NOMI de NIO
Para proyectos en vehículos con capacidades de desarrollo promedio y bajos requisitos de personalización, al acceder a servicios de voz, básicamente utilizarán soluciones proporcionadas por proveedores de soluciones. SDK de voz para desarrollo secundario, o utilice el APK del proveedor de servicios para una personalización y adaptación sencillas. La ventaja de esto es que puede ahorrar muchos costos de desarrollo y garantizar la calidad del módulo de servicio de voz central.
Vehículo inteligente: una plataforma de sistema altamente integrada que puede soportar mejor escenarios de uso de voz, permitiendo que la trinidad de voz, sistema y vehículo produzca mejores efectos de vinculación.
Espejos traseros inteligentes: generalmente; , se instalan después de la instalación, en comparación con los automóviles inteligentes, el sistema de espejos retrovisores inteligentes es un poco más liviano y se enfoca en brindar más recursos del sistema a la función de grabación de conducción solo será responsable de algunas tareas simples.
HUD inteligente: el recurso principal se centra en la proyección del vehículo, la carretera, la seguridad y otra información durante la conducción, prestando más atención a la calidad de la presentación visual, y la función de voz sirve como una función importante para ayudar. operaciones;
Compañero de altavoz del automóvil: ya sea en un automóvil o en un altavoz doméstico, el servicio de voz es la función principal de un producto de altavoz, y los altavoces del automóvil están más dirigidos a escenas en el espacio del automóvil, enfocándose en múltiples rondas de interacción del usuario La riqueza de la experiencia de conversación y los servicios de vida del automóvil
Diagrama de arquitectura empresarial
Esto involucrará plataformas TSP de construcción propia, proveedores de servicios de voz, fabricantes de hardware y servicios de Internet. proveedores y hardware de terceros Espere múltiples roles. Toda la estructura empresarial se basa en el hardware como soporte y en forma de integración de plataformas de servicios, se empaqueta como un todo y se proporciona a los propietarios finales de automóviles.
Cuando los propietarios de automóviles inician operaciones de voz, el principal punto lógico es determinar si son una plataforma de construcción propia o una plataforma de terceros. Necesitan filtrar los datos, preparar los recursos de servicio en consecuencia y ejecutarlos. y devolver los resultados.
Si no existe una plataforma de recursos de servicio personalizada y de construcción propia, el proceso comercial se puede adaptar adecuadamente. Este diagrama de flujo es solo para su referencia.
La voz en el vehículo se divide principalmente en los siguientes módulos funcionales, que no incluyen funciones semánticas de voz personalizadas, y la parte comercial se ha adaptado en consecuencia.
Todos sabemos que existen dos métodos principales de activación por voz, clic en la interfaz y activación por voz.
Cuando diseñamos el punto de función de activación por voz, determinaremos y registraremos el método de activación por voz durante el paso de inicio. Después de activar el servicio de voz, solicitaremos información y comentarios sobre el estado de inscripción de voz. Se mostrará La parte principal del proceso de reconocimiento será Determinar si la entrada de voz es normal. Si la información de entrada es normal, se solicitará el fondo y se devolverá el resultado de reconocimiento correspondiente. es necesario reiniciar el proceso.
La riqueza de la semántica de la voz en el vehículo afecta directamente a la experiencia de uso directo de la función de voz. Si hay poca semántica compatible, los usuarios sentirán que la función de voz es demasiado simple y no satisface las necesidades de la escena del usuario. Como resultado, perderán su preferencia por la función del producto y dejarán de usar la función de voz. Cómo definir la relación de mapeo entre la satisfacción del usuario y la integridad semántica requiere investigación, análisis y resumen de la experiencia de los usuarios en el proceso de trabajo real para derivar la relación correspondiente entre necesidades y productos.
Escena de navegación
Escena de música/radio
Escena de teléfono
Clase de control del sistema
Clase de control del vehículo
Categoría de servicio personalizada
Como se muestra en la figura siguiente (las piezas se han personalizado según las necesidades comerciales, no las copie mecánicamente), los escenarios correspondientes se pueden subdividir aún más. Por supuesto, hay muchos escenarios semánticos. Se han cubierto los escenarios funcionales centrales para los escenarios montados en vehículos. Es necesario personalizar y desarrollar más escenarios de acuerdo con las necesidades del cliente del mercado del modelo de vehículo. Podemos referirnos a la teoría de la jerarquía de necesidades de Maslow y clasificar las necesidades de la escena en función de escenarios de conducción para guiar nuestra estrategia de diseño semántico.
Ayuda: Hay dos escenarios principales para las indicaciones. El primero es activar la página de inicio mediante voz (no se recomienda si la voz no se muestra globalmente). El segundo es brindar información rápida cuando se usa la voz. falla o está esperando. Ayuda a guiar a los usuarios para que utilicen las funciones de voz correctamente.
Configuración: aquí configurará principalmente las funciones básicas de la voz, como los interruptores de uso común para activar el modo de activación sin activación, las palabras de activación, la lógica de la fuente de voz, la configuración de cambio del paquete de temas de voz, etc.
Como último paso en el proceso de interacción con los usuarios, se puede decir que la función de transmisión de voz está estrechamente relacionada con los usuarios. La transmisión de voz TTS (Text To Speech) utiliza principalmente tecnología de inteligencia artificial para sintetizar de manera inteligente información de texto y traducirla en información de voz para transmitirla a los usuarios, brindando así a los usuarios una experiencia interactiva inteligente y antropomórfica.
Las soluciones industriales actuales para sonidos sintetizados por IA se basan más en el procesamiento secundario de materiales de voz básicos grabados. En esencia, no pueden romper con las limitaciones de la grabación de materiales de voz básicos. La calidad de los paquetes de voz es limitada. Las mejoras son relativamente lentas. Por lo tanto, dado que la función TTS está sujeta a las capacidades integrales del proveedor de servicios en términos de diseño del producto, en términos de integración de funciones del producto, nos centraremos más en cómo mejorar mejor la experiencia del diálogo interactivo de voz.
El principal requisito del diálogo persona-computadora es el intercambio de información. En segundo lugar, la experiencia interactiva del diálogo puede hacer que el usuario se sienta feliz. Finalmente, al completar toda la etapa del diálogo, hay una buena orientación y. estrategias para evitar errores, de modo que pueda garantizar que se pueda brindar más empoderamiento cuando se satisfagan las necesidades del usuario, y se puedan utilizar estrategias de desvío para reducir la mala experiencia de los usuarios cuando no se puedan satisfacer las necesidades del usuario.
En lo que respecta a la situación general actual de las funciones de voz, el estado general y el rendimiento de los productos de voz para vehículos no están muy maduros. La aplicación de la inteligencia artificial aún se encuentra en la etapa de aplicación primaria. hacer un mejor uso de la tecnología AI para mejorar la calidad del servicio, cómo mejorar la experiencia interactiva de múltiples rondas a través de la tecnología PNL y cómo enriquecer mejor los recursos de contenido de la plataforma, todo esto requiere más inversión en recursos y mucho tiempo para mejorar lentamente.
Este artículo presenta más información sobre el diseño funcional principal y el análisis de escenarios de uso del software de voz en el vehículo, principalmente para ayudar a todos a comprender mejor la voz en el vehículo. Cómo hacer que la voz funcione de manera más efectiva para mejorar la experiencia y la satisfacción del usuario requiere una investigación y un diseño diferenciados más profundos basados en las necesidades reales de cada negocio y las características del grupo de usuarios objetivo.