Google está dando que hablar con Gemini, su suite insignia de modelos, aplicaciones y servicios de IA generativa. Pero, ¿qué es Gemini? ¿Cómo se puede utilizar? ¿Y cómo se compara con otras herramientas de IA generativa como ChatGPT de OpenAI, Llama de Meta y Copilot de Microsoft ?
Para que sea más fácil mantenerse al día con los últimos desarrollos de Gemini, hemos elaborado esta práctica guía, que mantendremos actualizada a medida que se publiquen nuevos modelos de Gemini, características y noticias sobre los planes de Google para Gemini.
Indice
¿Qué es Google Gemini?
El 6 de diciembre de 2023, Google DeepMind anunció Gemini 1.0. Tras su lanzamiento, Google lo describió como su conjunto más avanzado de modelos de lenguaje grandes (LLM), reemplazando así al Pathways Language Model (PaLM 2), que debutó en mayo del mismo año.
Gemini define una familia de LLM multimodales capaces de comprender textos, imágenes, vídeos y audio. También se dice que es capaz de realizar tareas complejas de matemáticas y física, además de poder generar código de alta calidad en varios lenguajes de programación.
Hasta hace poco, el procedimiento estándar para desarrollar modelos multimodales consistía en entrenar componentes individuales para diversas modalidades y luego ensamblarlos para imitar algunas de las funciones. En ocasiones, estos modelos se destacan en la realización de ciertas tareas, como describir imágenes, pero tienen problemas con el razonamiento más sofisticado y complejo.
Gemini fue diseñado para ser multimodal de forma nativa; por lo tanto, fue entrenado previamente en varias modalidades desde el principio. Para refinar aún más su eficacia, Google lo perfeccionó con datos multimodales adicionales.
En consecuencia, Gemini es significativamente más capaz que los modelos multimodales existentes a la hora de comprender y razonar sobre una amplia gama de datos desde cero. También afirman que las capacidades de Gemini son «de vanguardia en casi todos los ámbitos».
Cabe señalar que la ética y la legalidad de entrenar modelos con datos públicos, en algunos casos sin el conocimiento o el consentimiento de los propietarios de los datos, son confusas. Google tiene una política de indemnización por IA para proteger a ciertos clientes de Google Cloud de demandas en caso de que las enfrenten, pero esta política contiene excepciones. Procede con cautela, en particular si tienes la intención de utilizar Gemini con fines comerciales.
Diferencia entre las aplicaciones Gemini y los modelos Gemini
Gemini es independiente y distinto de las aplicaciones de Gemini en la web y en dispositivos móviles.
Las aplicaciones Gemini son clientes que se conectan a varios modelos de Gemini y les agregan una interfaz similar a la de un chatbot. Piensa en ellas como interfaces para la IA generativa de Google, análogas a ChatGPT y la familia de aplicaciones Claude de Anthropic.
En Android, la aplicación Gemini reemplaza a la aplicación Google Assistant existente. Y en iOS, las aplicaciones Google y Google Search funcionan como clientes de Gemini de esa plataforma.
En Android, recientemente también se hizo posible abrir la superposición de Gemini sobre cualquier aplicación para hacer preguntas sobre lo que hay en la pantalla (por ejemplo, un video de YouTube). Solo mantén presionado el botón de encendido de un teléfono inteligente compatible o di «Hola Google»; verás que aparece la superposición.
Las aplicaciones de Gemini pueden aceptar imágenes, así como comandos de voz y texto (incluidos archivos como PDF y, próximamente, videos, ya sea cargados o importados desde Google Drive) y generar imágenes. Como es de esperar, las conversaciones con las aplicaciones de Gemini en dispositivos móviles se transfieren a Gemini en la Web y viceversa si inicias sesión en la misma cuenta de Google en ambos lugares.
Características principales
Las características principales del modelo Gemini incluyen:
1. Comprensión de textos, imágenes, audio y más
La IA multimodal es un nuevo paradigma de IA que está ganando terreno en el que se combinan distintos tipos de datos con múltiples algoritmos para lograr un mayor rendimiento. Gemini aprovecha este paradigma, lo que significa que se integra bien con varios tipos de datos. Puede introducir imágenes, audio, texto y otros tipos de datos, lo que da como resultado interacciones de IA más naturales.
2. Confiabilidad, escalabilidad y eficiencia
Gemini aprovecha los chips TPUv5 de Google, lo que lo hace cinco veces más potente que GPT-4. Su procesamiento más rápido permite a Gemini abordar tareas complejas con relativa facilidad y gestionar múltiples solicitudes simultáneamente.
3. Razonamiento sofisticado
Gemini se entrenó con un enorme conjunto de datos de texto y código. Esto garantiza que el modelo pueda acceder a la información más actualizada y brindar respuestas precisas y confiables a tus consultas. Según Google, el modelo supera a los humanos de nivel experto y GPT-4 de OpenAI en varias pruebas de inteligencia (por ejemplo, el punto de referencia MMLU).
4. Codificación avanzada
Gemini 1.0 puede comprender, explicar y generar código de alta calidad en los lenguajes de programación más utilizados, como Python, Java, C++ y Go; esto lo convierte en uno de los modelos básicos líderes para la codificación a nivel mundial.
El modelo también se destaca en varios puntos de referencia de codificación, incluido HumanEval, un estándar de la industria muy respetado para evaluar el rendimiento en tareas de codificación. También tuvo un buen desempeño en el conjunto de datos interno y externo de Google, que aprovecha el código generado por el autor en lugar de información de la web.
5. Responsabilidad y seguridad
Se agregaron nuevas protecciones a los principios y políticas de inteligencia artificial de Google para tener en cuenta las capacidades multimodales de Gemini. Google afirma: «Gemini tiene las evaluaciones de seguridad más completas de cualquier modelo de inteligencia artificial de Google hasta la fecha, incluidas las de sesgo y toxicidad».
También dijeron que han «realizado una investigación novedosa en áreas de riesgo potencial como ciberdelito, persuasión y autonomía, y han aplicado las mejores técnicas de prueba adversarial de Google Research para ayudar a identificar problemas de seguridad críticos antes de la implementación de Gemini».
Versiones de Gémini
El modelo viene en cuatro versiones diferentes, que varían en tamaño y complejidad:
Géminis 1.0 Ultra
Según Google, Gemini 1.0 Ultra es el modelo más grande para realizar tareas altamente complejas. La compañía afirma que es el primer modelo que supera a los expertos humanos en una evaluación comparativa que cubre temas como física, derecho y ética. El modelo se está incorporando a varios de los productos más populares de Google, incluidos Gmail, Docs, Slides y Meet. Por $19,99 al mes, los usuarios pueden acceder a Gemini 1.0 Ultra a través del servicio Gemini Advanced.
Géminis 1.5 Pro
Gemini 1.5 Pro es el modelo de nivel medio diseñado para comprender consultas complejas y responderlas rápidamente, y es adecuado para «una amplia gama de tareas» gracias a una ventana de contexto ampliada para mejorar la memoria y el recuerdo. Una versión especialmente entrenada de Pro potencia el chatbot de IA Gemini y está disponible a través de la API de Gemini en Google AI Studio y Google Cloud Vertex AI.
Géminis 1.0 Nano
Una versión mucho más pequeña de los modelos Pro y Ultra, Gemini 1.0 Nano está diseñada para ser lo suficientemente eficiente como para realizar tareas directamente en dispositivos inteligentes, en lugar de tener que conectarse a servidores externos. 1.0 Nano actualmente potencia funciones del Pixel 8 Pro como Resumir en la aplicación Grabadora y Respuesta inteligente en la aplicación de teclado virtual Gboard.
Géminis 1.5 Flash
El último miembro de la familia Gemini, Gemini 1.5 Flash, es una versión más pequeña de 1.5 Pro y está diseñado para realizar acciones mucho más rápido que sus contrapartes Gemini. 1.5 Flash fue entrenado por 1.5 Pro, recibiendo las habilidades y el conocimiento de 1.5 Pro. Como resultado, este modelo tiene la ventana de contexto para manejar tareas pesadas y, al mismo tiempo, sirve como una alternativa más rentable a los modelos más grandes.
¿Cómo puedes acceder a Gémini?
Desde el 13 de diciembre de 2023, los desarrolladores y clientes empresariales pueden acceder a Gemini Pro a través de la API de Gemini en Google AI Studio o Google Cloud Vertex AI.
Google AI Studio es un IDE basado en navegador disponible de forma gratuita que los desarrolladores pueden usar para crear prototipos de modelos generativos y ejecutar aplicaciones fácilmente mediante una clave API. Google Cloud Vertex, por otro lado, es una plataforma de IA completamente administrada que ofrece todas las herramientas necesarias para crear y usar IA generativa.
Según Google, «Vertex AI permite la personalización de Gemini con un control total de los datos y se beneficia de las funciones adicionales de Google Cloud para la seguridad, la protección, la privacidad y la gobernanza y el cumplimiento de los datos de la empresa».
A través de AICore, una nueva característica del sistema con Android 14, los desarrolladores de Android, a partir de los dispositivos Pixel 8 Pro, pueden construir con Gemini Nano, el modelo más eficiente para tareas en el dispositivo.
Gémini avanzado
Las aplicaciones Gemini no son el único medio para conseguir la ayuda de los modelos Gemini con las tareas. Lentamente, pero con seguridad, las funciones de Gemini se están abriendo camino en las aplicaciones y servicios básicos de Google, como Gmail y Google Docs.
Para aprovechar la mayoría de estas funciones, necesitarás el plan Google One AI Premium. Técnicamente, el plan AI Premium es parte de Google One, cuesta $20 y brinda acceso a Gemini en las aplicaciones de Google Workspace, como Documentos, Presentaciones, Hojas de cálculo y Meet. También habilita lo que Google llama Gemini Advanced, que lleva los modelos Gemini más sofisticados de la empresa a las aplicaciones Gemini.
Los usuarios de Gemini Advanced también obtienen extras aquí y allá, como acceso prioritario a nuevas funciones, la capacidad de ejecutar y editar código Python directamente en Gemini y una «ventana de contexto» más grande. Gemini Advanced puede recordar el contenido de aproximadamente 750.000 palabras en una conversación (o 1.500 páginas de documentos) y razonar sobre ellas. Eso se compara con las 24.000 palabras (o 48 páginas) que puede manejar la aplicación Gemini estándar.
Otra característica exclusiva de Gemini Advanced es la planificación de viajes en la Búsqueda de Google, que crea itinerarios de viaje personalizados a partir de indicaciones.
Gemini también está disponible para clientes corporativos en todos los servicios de Google a través de dos planes: Gemini Business (un complemento para Google Workspace) y Gemini Enterprise. El primero cuesta tan solo $20 por usuario al mes, y Gemini Enterprise, que agrega toma de notas de reuniones y subtítulos traducidos, así como clasificación y etiquetado de documentos, tiene un precio de $30 o más por usuario al mes.
Gemini en Gmail, Docs, Chrome, herramientas de desarrollo y más
En Gmail, Gemini se encuentra en un panel lateral que permite escribir correos electrónicos y resumir hilos de mensajes. Encontrarás el mismo panel en Documentos, donde te ayuda a escribir y refinar tu contenido y a generar nuevas ideas. Gemini en Presentaciones genera diapositivas e imágenes personalizadas. Y Gemini en Hojas de cálculo de Google realiza un seguimiento y organiza los datos, creando tablas y fórmulas.
El alcance de Gemini también se extiende a Drive, donde puede resumir archivos y brindar información breve sobre un proyecto. Mientras tanto, en Meet, Gemini traduce subtítulos a otros idiomas.
Gemini llegó recientemente al navegador Chrome de Google en forma de una herramienta de escritura con inteligencia artificial. Puedes usarla para escribir algo completamente nuevo o reescribir un texto existente. Google dice que tendrá en cuenta la página web en la que te encuentras para hacer recomendaciones.
En otros lugares, encontrarás indicios de Gemini en los productos de base de datos de Google, herramientas de seguridad en la nube y plataformas de desarrollo de aplicaciones, así como en aplicaciones como Google Photos (donde Gemini maneja consultas de búsqueda en lenguaje natural), YouTube (donde ayuda a generar ideas para videos) y el asistente para tomar notas NotebookLM.
Extensiones y gemas de Gemini
Los usuarios de Gemini Advanced pueden crear gemas, chatbots personalizados impulsados por modelos de Gemini. Las gemas se pueden generar a partir de descripciones en lenguaje natural (por ejemplo, «Eres mi entrenador de carrera. Dame un plan de carrera diario») y compartirlas con otros o mantenerlas privadas.
Las gemas están disponibles en computadoras de escritorio y dispositivos móviles en 150 países y en la mayoría de los idiomas. Con el tiempo, podrán aprovechar un conjunto ampliado de integraciones con los servicios de Google, incluidos Google Calendar, Tasks, Keep y YouTube Music, para completar tareas personalizadas.
Las aplicaciones de Gemini en la web y en dispositivos móviles pueden aprovechar los servicios de Google a través de lo que Google llama “extensiones de Gemini”. Actualmente, Gemini se integra con Google Drive, Gmail y YouTube para responder a consultas como “¿Podrías resumir mis últimos tres correos electrónicos?”. Más adelante, Gemini podrá realizar acciones adicionales con Google Calendar, Keep, Tasks, YouTube Music y Utilities, las aplicaciones exclusivas de Android que controlan funciones del dispositivo como temporizadores y alarmas, controles multimedia, la linterna, el volumen, Wi-Fi, Bluetooth, etc.
Casos de uso de Gemini
Los modelos Gemini de Google pueden realizar diversas tareas en varias modalidades, como comprensión de texto, audio, imágenes y videos.
La combinación de diferentes modalidades para comprender y generar resultados también es posible gracias a la naturaleza multimodal de Gemini.
Algunos ejemplos de casos de uso de Gemini incluyen:
Chats de voz en profundidad de Gemini Live
Una nueva experiencia llamada Gemini Live, exclusiva para los suscriptores de Gemini Advanced, permite a los usuarios tener chats de voz “en profundidad”. Está disponible en las aplicaciones de Gemini en dispositivos móviles y en los Pixel Buds Pro 2, donde se puede acceder incluso cuando el teléfono está bloqueado.
Si activas Gemini Live, podrás interrumpir a Gemini mientras el chatbot esté hablando para hacerle una pregunta aclaratoria, y este se adaptará a tus patrones de habla en tiempo real. Y, más adelante, Gemini podrá ver y responder a tu entorno, ya sea a través de fotos o videos capturados por las cámaras de tu teléfono inteligente.
Live también está diseñado para funcionar como una especie de entrenador virtual, que te ayuda a ensayar para eventos, a generar ideas, etc. Por ejemplo, Live puede sugerir qué habilidades destacar en una próxima entrevista de trabajo o de prácticas, y puede dar consejos sobre cómo hablar en público.
Generación de imágenes mediante Imagen 3
Los usuarios de Gemini pueden generar obras de arte e imágenes utilizando el modelo Imagen 3 integrado de Google.
Google afirma que Imagen 3 puede comprender con mayor precisión los mensajes de texto que traduce en imágenes en comparación con su predecesor, Imagen 2 , y es más “creativo y detallado” en sus generaciones. Además, el modelo produce menos artefactos y errores visuales, y es el mejor modelo de Imagen hasta el momento para la representación de texto.
Google se vio obligada a pausar la capacidad de Gemini para generar imágenes de personas después de que los usuarios se quejaran de imprecisiones históricas. Pero en agosto de este añi, la empresa volvió a introducir la generación de personas para ciertos usuarios, específicamente los usuarios de habla inglesa registrados en uno de los planes pagos de Gemini de Google como parte de un programa piloto.
Resumen de texto
Los modelos Gemini pueden resumir el contenido de varios tipos de datos. El modelo Gemini “integra reescrituras y un generador para imitar las técnicas de reescritura de oraciones y abstracción, respectivamente”.
En concreto, Gemini selecciona de forma adaptativa si reescribir una oración específica de un documento o genera una oración de resumen completamente desde cero. Los resultados de los experimentos revelaron que el enfoque utilizado por Gemini superó a los métodos de referencia de reescritura y abstractividad pura en tres conjuntos de datos de referencia.
Generación de texto
Gemini puede generar entradas de texto en respuesta a una solicitud del usuario; este texto también puede ser controlado por una interfaz de chatbot de preguntas y respuestas. Por lo tanto, Gemini se puede implementar para gestionar consultas de clientes y ofrecer asistencia de una manera natural pero atractiva, lo que puede liberar las responsabilidades de los agentes humanos para que se dediquen más a tareas complejas y mejoren la satisfacción del cliente.
También se puede utilizar para la escritura creativa, como la coautoría de una novela, la escritura de poesía en diversos estilos o la generación de guiones para películas y obras de teatro. Esto puede aumentar significativamente la productividad de los escritores creativos y reducir la tensión causada por el bloqueo del escritor.
Traducción de texto y procesamiento de audio
Gracias a sus amplias capacidades multilingües, los modelos Gemini pueden comprender y traducir más de 100 idiomas diferentes. Según Google, Gemini supera el rendimiento de vanguardia de Chat GPT-4V «en una variedad de parámetros de referencia multimodales», como el reconocimiento automático de voz (ASR) y la traducción automática de voz.
Análisis y generación de código
Los desarrolladores pueden utilizar Gemini para resolver tareas de codificación complejas y depurar su código. El modelo es capaz de comprender, explicar y generar en los lenguajes de programación más utilizados, como Python, Java, C++ y Go.
Gémini vs GPT-4
La pregunta obvia que suele surgir a continuación es: «¿Cómo se compara Gémini con GPT-4 ?»
Ambos modelos tienen conjuntos de características similares y pueden interactuar con texto, imágenes, videos, audio y datos de código e interpretarlos, lo que permite a los usuarios aplicarlos a diversas tareas.
Los usuarios de ambas herramientas tienen la opción de verificar los datos, pero la forma en que lo hacen es diferente. Mientras que GPT-4 de OpenAI proporciona enlaces a las fuentes de las afirmaciones que realiza, Gemini permite a los usuarios realizar una búsqueda en Google para confirmar la respuesta haciendo clic en un botón.
También es posible ampliar ambos modelos con extensiones adicionales, aunque el modelo Gemini de Google es mucho más limitado.
Por ejemplo, es posible utilizar herramientas de Google como vuelos, mapas, YouTube y su gama de aplicaciones Workspace con Gemini. En cambio, hay una selección mucho más amplia de complementos y extensiones disponibles para GPT-4 de OpenAI, la mayoría de los cuales son creados por terceros. La creación de imágenes sobre la marcha también es posible con GPT-4; Gemini está diseñado para poder ofrecer esa funcionalidad, pero de momento no puede hacerlo.
Por otro lado, los tiempos de respuesta de Gemini son más rápidos que los de GPT-4, que ocasionalmente puede verse ralentizado o interrumpido por completo debido al gran volumen de usuarios en la plataforma.
Gémini para adolescentes
En junio, Google presentó una experiencia Gemini enfocada en adolescentes, que permite a los estudiantes registrarse a través de sus cuentas escolares de Google Workspace for Education.
Gemini, una plataforma enfocada en los adolescentes, tiene “políticas y salvaguardas adicionales”, incluido un proceso de incorporación personalizado y una “guía de conocimientos sobre IA” para (como lo expresa Google) “ayudar a los adolescentes a usar la IA de manera responsable”. Por lo demás, es casi idéntica a la experiencia estándar de Gemini, hasta con la función de “doble verificación” que revisa la web para ver si las respuestas de Gemini son precisas.
Gémini en los dispositivos domésticos inteligentes
Un número cada vez mayor de dispositivos fabricados por Google utilizan Gemini para lograr una funcionalidad mejorada, desde Google TV Streamer hasta Pixel 9 y 9 Pro y el nuevo Nest Learning Thermostat.
En Google TV Streamer, Gemini usa tus preferencias para seleccionar sugerencias de contenido para tus suscripciones y resumir reseñas e incluso temporadas completas de TV.
En el último termostato Nest (así como en los altavoces, cámaras y pantallas inteligentes Nest), Gemini pronto reforzará las capacidades conversacionales y analíticas de Google Assistant.
Los suscriptores del plan Nest Aware de Google a finales de este año obtendrán una vista previa de las nuevas experiencias impulsadas por Gemini, como descripciones de IA para las grabaciones de la cámara Nest, búsqueda de videos en lenguaje natural y automatizaciones recomendadas. Las cámaras Nest comprenderán lo que está sucediendo en las transmisiones de video en tiempo real, mientras que la aplicación complementaria Google Home mostrará videos y creará automatizaciones del dispositivo a partir de una descripción (por ejemplo, «Haz que mi termostato Nest encienda la calefacción cuando llegue a casa del trabajo todos los martes»).
Además, a finales de este año, Google Assistant recibirá algunas actualizaciones en los dispositivos domésticos inteligentes de la marca Nest y otros dispositivos para que las conversaciones resulten más naturales. Se están preparando voces mejoradas, además de la capacidad de hacer preguntas de seguimiento y comunicarse con más facilidad.
Preguntas frecuentes
¿Para qué se puede utilizar Google Gemini?
Gemini es una herramienta de inteligencia artificial que puede responder preguntas, resumir textos y generar contenido. También se conecta a otros servicios de Google como Gmail, Docs y Drive para funcionar como un potenciador de la productividad. Y, como Gemini es multimodal, sus capacidades abarcan texto, imágenes y audio. Por lo tanto, además de generar lenguaje escrito natural, puede transcribir discursos, crear obras de arte, analizar videos y más, según Google.
¿Es Gemini mejor que GPT-4?
Según Google, Gemini Ultra (la versión más avanzada del modelo) superó a GPT-4 en la mayoría de los parámetros académicos más utilizados en la investigación y el desarrollo de modelos lingüísticos, así como en varias tareas multimodales. Pero los márgenes fueron estrechos, lo que indica que Gemini Pro (el modelo más pequeño que impulsa el chatbot Gemini) probablemente no supere a GPT-4.
¿Google Gemini es gratuito?
Gemini Pro, el modelo de gama media de Google, está disponible de forma gratuita en gemini.google.com. También hay una aplicación móvil gratuita. Por 19,99 dólares al mes, los usuarios pueden acceder a Gemini Ultra, el modelo más potente, a través del servicio Gemini Advanced.
¿Cómo acceder a Google Gemini?
Para acceder a la versión gratuita de Google Gemini, los usuarios de teléfonos inteligentes pueden descargar la aplicación Gemini y los usuarios de Android pueden sustituir Gemini por Google Assistant. Para utilizar Gemini en forma de chatbot, los usuarios pueden dirigirse a gemini.google.com. Aquellos que quieran acceder a Gemini Ultra, deben suscribirse al servicio Gemini Advanced.
Conclusión
El nuevo conjunto de modelos de lenguaje grandes (LLM) multimodales de Google, Gemini, es el sucesor de LaMDA y PaLM 2. Lo describen como su conjunto de LLM más avanzado capaz de comprender textos, imágenes, videos, audio y tareas complejas como matemáticas y física. Gemini también es capaz de generar código de alta calidad en muchos de los lenguajes de programación más populares.
El modelo ha alcanzado una capacidad de última generación en diversas tareas, y muchos en Google creen que representa un avance significativo en cómo la IA puede ayudar a mejorar nuestra vida diaria.