Contrariando rumores sobre um adiamento para o ano que vem, o Google anunciou a chegada do seu novo modelo fundacional Gemini nesta quarta-feira (6). A nova tecnologia é multimodal, chega integrada ao Bard, consegue ensinar matemática e criar códigos de programação, será oferecida nativamente no Android e deve chegar à Busca em 2024.
Gemini é descrito como o modelo “mais capaz e geral” do Google, capaz de “entender, operar e combinar” texto, código, áudio, imagens e vídeo. Essa capacidade multimodal nata promete melhor compreensão, raciocínio e habilidades de codificação.
Capacidades do Gemini 1.0
- Multimodalidade: O Gemini foi treinado desde o início em diferentes modalidades, utilizando os processadores TPU 4 e TPU v5e do Google. Isso permite uma compreensão mais sofisticada e habilidades de raciocínio avançadas.
- Exemplos de Uso: Google demonstrou o Gemini processando 200.000 artigos científicos, filtrando os relevantes e resumindo os dados em cerca de uma hora. Além disso, Gemini pode entender, explicar e gerar código de alta qualidade em Python, Java, C++, e Go.
Variações do Gemini
Gemini está disponível em três tamanhos diferentes:
- Gemini Ultra: O modelo mais grande e capaz, ideal para tarefas complexas.
- Gemini Pro: Melhor modelo para uma ampla gama de tarefas.
- Gemini Nano: Modelo mais eficiente para tarefas em dispositivos.
Performance
- Comparação com GPT-4: Gemini Ultra superou o GPT-4 em benchmarks baseados em texto, avaliando raciocínio, matemática e código. Além disso, foi o primeiro modelo a superar especialistas humanos em compreensão de linguagem multitarefa massiva (MMLU), com 90,0% de eficácia.
- Testes Multimodais: Gemini Ultra superou o GPT-4V em testes envolvendo imagens, vídeos e áudio.
Segurança e Confiabilidade
- Avaliações de Segurança: O Gemini passou pelas avaliações de segurança mais abrangentes de qualquer modelo de IA do Google, com novas proteções para lidar com suas capacidades multimodais, combatendo viés e toxicidade.
Acessibilidade e Futuro
- Bard com Gemini Pro: Já disponível, oferecendo raciocínio avançado, planejamento e escrita, além de compreensão e resumo de conteúdo.
- Gemini Ultra: Estará disponível no início do próximo ano, após verificações de confiança e segurança.
- Integração com Outros Produtos Google: Gemini será integrado ao Google Search, Chrome, Duet AI e Ads, mostrando uma redução de 40% na latência da experiência gerativa de pesquisa (SGE).
No momento do lançamento, o Gemini no Bard estará disponível em mais de 170 países, porém apenas no idioma inglês. Para testá-lo, portanto, você deve ir às configurações da sua Conta Google (myaccount.google.com/language) e escolher esta língua como padrão — lembrando que isso altera o idioma em todos os serviços associados ao seu perfil.
Esta inovação sinaliza um avanço significativo na tecnologia de IA e reafirma o Google como um líder no campo da inteligência artificial.