Caímos dentro do filme HER: conheça o novo GPT-4o, mais humano do que nunca

A inteligência artificial (IA) tem avançado a passos largos nos últimos anos, revolucionando a maneira como interagimos com a tecnologia. A recente inovação da OpenAI, o GPT-4o, promete levar essa interação a um novo nível, trazendo uma experiência de comunicação com máquinas mais natural e intuitiva. O GPT-4o é uma evolução notável no campo da IA, capaz de entender e gerar conteúdo em texto, áudio e imagem em tempo real.

O que torna o GPT-4o um marco na IA?

Multimodalidade em Tempo Real

O GPT-4o, apelidado de “Omni” por sua capacidade omnimodal, é o primeiro modelo da OpenAI capaz de processar diversas formas de entrada e saída – texto, áudio e imagens – em tempo real. Isso significa que o modelo pode, por exemplo, ouvir uma pergunta, visualizar uma imagem relacionada e responder verbalmente quase instantaneamente, em uma média de 320 milissegundos, uma velocidade comparável ao tempo de reação humana em conversações.

Avanços em Compreensão e Geração de Conteúdo

Comparado a seus predecessores, o GPT-4o demonstra um salto significativo na compreensão de áudio e visão, mantendo o alto desempenho em textos em inglês e melhorando substancialmente em textos em outros idiomas. Além disso, a eficiência do modelo foi aprimorada, tornando-o 50% mais barato e duas vezes mais rápido que o modelo anterior, o GPT-4 Turbo.

Capacidades visuais: estou com cara de quê?

Interações Mais Naturais e Humanas

Antes do GPT-4o, a interação por voz com o ChatGPT envolvia um processo de três etapas, com modelos distintos para transcrição de áudio para texto, processamento do texto e conversão de texto para áudio. O GPT-4o simplifica essa cadeia com um único modelo treinado de ponta a ponta, permitindo uma interpretação mais fiel do tom de voz, múltiplos falantes, ruídos de fundo e, inclusive, a geração de risadas e canto, marcando um avanço rumo a uma interação mais fluida e natural com máquinas.

Tradução em tempo real

Engajamento e Acessibilidade

Com o GPT-4o, a OpenAI não só avança na técnica como também na democratização do acesso a tecnologias de ponta. O modelo está sendo disponibilizado na versão gratuita do ChatGPT e para usuários do plano Plus, com limites de mensagens até cinco vezes maiores, além de uma versão alpha do modo Voz para o ChatGPT Plus nas próximas semanas.

Apresentando o cachorro

Limitações e Segurança

Apesar dos avanços, a OpenAI destaca a importância da responsabilidade no desenvolvimento e na aplicação do GPT-4o. O modelo foi projetado com segurança integrada em todas as modalidades e passou por uma avaliação rigorosa para minimizar riscos em ciber segurança, persuasão e autonomia do modelo. Avaliações externas e ajustes pós-treinamento são partes essenciais desse processo, visando aprimorar continuamente a segurança na interação com o GPT-4o.

Entonações (contando histórias)

O lançamento do GPT-4o é um marco impressionante na trajetória da OpenAI e no campo da inteligência artificial como um todo, prometendo transformar a maneira como interagimos com a tecnologia. Com suas capacidades abrangentes e multimodais, o GPT-4o pavimenta o caminho para um futuro onde a comunicação entre humanos e máquinas seja tão fluida e natural quanto a comunicação humana.