Google presenta gemini: la ia multimodal más poderosa

En la carrera por liderar la tecnología de inteligencia artificial, Google ha presentado su última creación: Gemini, una IA multimodal que promete ser la más poderosa y capaz hasta ahora. Desarrollada por el equipo de DeepMind y Google Research, Gemini es capaz de trabajar, combinar y entender diferentes tipos y formatos de información, incluyendo texto, imágenes, audio, video y lenguajes de código.

La multimodalidad de Gemini se traduce en diversas aplicaciones prácticas. Por ejemplo, si la IA ve una foto de tomates y pasta, puede ofrecer una receta para cocinarlos. Si ve una foto de dos ovillos de lana, puede dar consejos para hacer ganchillo. Y mientras analiza un video, puede sugerir canciones que se ajusten a las imágenes. Aunque en su primera fase, Gemini solo responderá con texto o código, Google tiene grandes planes para su desarrollo futuro.

Índice
  1. Los tamaños de Gemini y su flexibilidad
  2. Los resultados y capacidades de Gemini
  3. Acceso a la inteligencia artificial de Google

Los tamaños de Gemini y su flexibilidad

Gemini está diseñada para funcionar en cualquier dispositivo, desde smartphones hasta centros de datos. Para lograr esta flexibilidad y omnipresencia, Google lanzará tres versiones de Gemini: Nano, Pro y Ultra.

La versión Nano está pensada para ejecutarse directamente en teléfonos móviles, mientras que las versiones Pro y Ultra ofrecen capacidades y potencia escalables, aunque requieren una infraestructura más robusta. La versión más poderosa, Gemini Ultra, estará disponible a partir de enero.

Los resultados y capacidades de Gemini

Google ha destacado los resultados obtenidos por Gemini en pruebas de referencia, demostrando su superioridad frente a otros modelos de IA. Según Demis Hassabis, CEO de DeepMind, Gemini ha superado a sus rivales en la mayoría de las pruebas y ha demostrado ser tan buena como los mejores expertos humanos en diversas materias.

En la prueba MMLU (comprensión masiva del lenguaje multitarea), Gemini obtuvo una calificación del 90,04%, mientras que GPT-4, el modelo desarrollado por OpenAI, logró un 86%. En el examen matemático GSM8K, Gemini obtuvo un 94,4% frente al 92% de GPT-Sin embargo, en el examen matemático más avanzado, MATH, Gemini obtuvo un 53,2% frente al 52,9% de GPT-

Google también ha destacado que Gemini tiene los controles de seguridad más exhaustivos y detallados hasta el momento, con revisores que detectan contenido sensible y expertos independientes para evitar sesgos peligrosos. Además, Gemini es considerado el modelo de lenguaje más eficiente desarrollado por Google.

Acceso a la inteligencia artificial de Google

Para acceder a la inteligencia artificial de Google, existen diferentes opciones dependiendo de la aplicación deseada. Para probar Bard, la IA capaz de generar contenido a través de texto, es necesario solicitar acceso en la página bard.google.com. Aunque actualmente solo está disponible en inglés, japonés y coreano.

inteligencia artificial google - Cómo probar Bard de Google

Para acceder a las funciones de inteligencia artificial en aplicaciones como Gmail, Drive y Doc, es posible solicitar acceso en la página labs.withgoogle.com. Estas funciones aún no están abiertas al público en general, pero están disponibles para cuentas de trabajo de Google Workspace.

Con Gemini, Google busca recortar distancias con OpenAI y Microsoft en la competición por liderar la inteligencia artificial. Aunque Microsoft ha obtenido buenos resultados en sus divisiones de servicios en la nube, Google espera que Gemini sea capaz de cambiar el escenario y demostrar su superioridad en esta tecnología.

Si quieres conocer otras notas parecidas a Google presenta gemini: la ia multimodal más poderosa puedes visitar la categoría Inteligencia artificial.

Subir