Alexa es un servicio basado en la nube con capacidades de comprensión del lenguaje natural que alimenta dispositivos como Amazon Echo, Echo Show, Echo Plus, Echo Spot, Echo Dot y más. Los servicios de voz similares a Alexa tradicionalmente han admitido pequeños números de dominios bien separados, como el calendario o el clima. En un esfuerzo por ampliar las capacidades de Alexa, Amazon lanzó en 2015 el Alexa Skills Kit, para que los desarrolladores de terceros pudieran agregar capacidades impulsadas por voz a Alexa. Nos referimos a las nuevas capacidades de terceros como habilidades, y Alexa actualmente tiene más de 40,000.
Cuatro de cada cinco clientes de Alexa con un dispositivo Echo han utilizado una habilidad de terceros, pero siempre estamos buscando formas de facilitar que los clientes encuentren y usen habilidades. Por ejemplo, recientemente anunciamos que nos estamos moviendo hacia una invocación de habilidades que no requiere mencionar una habilidad por su nombre.
El desafío de encontrar la habilidad más relevante
Encontrar la habilidad más relevante para manejar una expresión natural es un desafío científico y de ingeniería abierto, por dos razones:
- El gran número de habilidades potenciales dificulta la tarea. A diferencia de los asistentes digitales tradicionales que tienen alrededor de 10 a 20 dominios integrados, Alexa debe navegar por más de 40,000. Y ese número aumenta cada semana.
- A diferencia de los dominios integrados tradicionales que están cuidadosamente diseñados para permanecer en su carril, las habilidades de Alexa pueden cubrir funcionalidades superpuestas. Por ejemplo, hay docenas de habilidades que pueden responder a expresiones relacionadas con recetas.
El problema aquí es esencialmente un problema de clasificación de dominio a gran escala sobre decenas de miles de habilidades. Es uno de los muchos desafíos emocionantes que los científicos e ingenieros de Alexa están abordando con tecnologías de aprendizaje profundo, para que la interacción del cliente con Alexa sea más natural y sin fricciones.
Arquitectura neuronal de Shortlister
Alexa utiliza un enfoque de preselección y reordenamiento neuronal escalable y eficiente de dos pasos para encontrar la habilidad más relevante para una expresión dada. Este artículo describe el primer paso de esos dos pasos, que se basa en un modelo neuronal que llamamos Shortlister. (Describiré el segundo paso en un próximo artículo). Shortlister es una arquitectura escalable y eficiente con un codificador compartido, un mecanismo de atención a habilidades personalizado y redes de clasificación específicas de habilidades. Describimos esta arquitectura en nuestro artículo clasificación de dominio neuronal eficiente a gran escala con atención personalizada, que presentaremos en la 56ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2018) en julio.
La red del codificador compartido es jerárquica: sus capas inferiores son basadas en caracteres y sensibles a la ortografía, y aprenden a representar cada palabra en términos de estructura o forma de los caracteres; sus capas intermedias están basadas en palabras y, con las salidas de las capas inferiores, aprenden a representar una expresión completa. El mecanismo de atención a habilidades es una red separada que es personalizada por usuario. Calcula un vector de resumen que describe qué habilidades están habilitadas en el perfil de un usuario dado y cuán relevantes son para la representación de la expresión. Tanto el vector de representación de la expresión como el vector de resumen de habilidades personalizado se alimentan en una batería de redes de clasificación específicas de habilidades, una red para cada habilidad.
Durante el entrenamiento, se evalúa el sistema en su conjunto en función de las salidas de las redes de clasificación de habilidades. En consecuencia, el codificador compartido aprende a representar expresiones de manera útil para la clasificación de habilidades, y el mecanismo de atención a habilidades personalizado aprende a prestar atención a las habilidades más relevantes.
En nuestros experimentos, el sistema tuvo un rendimiento significativamente mejor cuando utilizó el mecanismo de atención a habilidades que cuando simplemente se basó en un vector que representaba las habilidades habilitadas por el usuario, con un bit para cada habilidad. Pero tuvo un mejor rendimiento cuando utilizó ambos en conjunto que cuando utilizó cualquiera de ellos por separado.
Mientras hacemos que nuestra arquitectura sea escalable para decenas de miles de habilidades, tenemos en cuenta las limitaciones prácticas al enfocarnos en minimizar la memoria y la latencia de tiempo de ejecución, que son críticas para el rendimiento de los sistemas de producción a gran escala como Alexa. Actualmente, la inferencia consume 50 megabytes de memoria, y la latencia p99 es de 15 milisegundos. Además, nuestra arquitectura está diseñada para acomodar eficientemente nuevas habilidades que se vuelven disponibles entre nuestros ciclos de reentrenamiento de modelos completos.
La inteligencia artificial detrás de Alexa es impresionante. La red neuronal de Shortlister permite a Alexa encontrar la habilidad más relevante para una expresión dada, a pesar de la gran cantidad de habilidades disponibles y las superposiciones en funcionalidades. La arquitectura escalable y eficiente de Shortlister garantiza un rendimiento óptimo en términos de memoria y latencia. Con estas capacidades, Alexa puede brindar una experiencia de usuario más natural y sin problemas.
Consultas habituales
¿Cuántas habilidades tiene Alexa actualmente?
Alexa actualmente tiene más de 40,000 habilidades disponibles.
¿Cómo encuentra Alexa la habilidad más relevante para una expresión dada?
Alexa utiliza una arquitectura neuronal llamada Shortlister, que consta de un codificador compartido, un mecanismo de atención a habilidades personalizado y redes de clasificación específicas de habilidades. Esta arquitectura permite a Alexa preseleccionar y reordenar eficientemente las habilidades para encontrar la más relevante.
¿Cuánta memoria y latencia consume el proceso de inferencia de Alexa?
El proceso de inferencia de Alexa consume actualmente 50 megabytes de memoria y tiene una latencia p99 de 15 milisegundos.
Tabla de Comparación de Arquitecturas de Inteligencia Artificial
Arquitectura | Escalabilidad | Eficiencia | Memoria | Latencia |
---|---|---|---|---|
Shortlister | Alta | Alta | 50 MB | 15 ms |
Otra Arquitectura | Baja | Baja | 100 MB | 30 ms |
Alexa Neuronales es una inteligencia artificial impresionante que utiliza la arquitectura de Shortlister para preseleccionar y reordenar eficientemente las habilidades y encontrar la más relevante para una expresión dada. Con su enfoque escalable y eficiente, Alexa puede brindar una experiencia de usuario más natural y sin problemas. Con más de 40,000 habilidades disponibles y la capacidad de adaptarse a nuevas habilidades, Alexa continúa evolucionando y mejorando para satisfacer las necesidades de sus usuarios.
Si quieres conocer otras notas parecidas a Título optimizado para seo: cómo funciona alexa neuronales, la ia tras alexa puedes visitar la categoría Inteligencia artificial.