Os Melhores Artigos do NeurIPS 2025

As Olimpíadas de aprendizado de máquina acabaram de terminar, e os vencedores estão abordando as perguntas que mantêm os cientistas de IA acordados à noite.
Melhores artigos NeurIPS 2025, inovação em IA. Melhores artigos NeurIPS 2025, inovação em IA.
Já se perguntou quais avanços em IA os pesquisadores realmente acham que importam? As Olimpíadas de aprendizado de máquina acabaram de terminar, e os vencedores estão abordando as perguntas que mantêm os cientistas de IA acordados à noite.

NeurIPS, abreviação de Neural Information Processing Systems, é basicamente o Oscar da pesquisa em IA. Todo mês de dezembro, milhares de pesquisadores se reúnem para compartilhar trabalhos de ponta. Conseguir uma aprovação aqui é difícil. Ganhando o prêmio de Melhor Trabalho? Isso define a carreira.

Os sete vencedores deste ano abordam desde por que os modelos de IA soam todos iguais até como finalmente podemos construir redes neurais verdadeiramente profundas. Vamos analisar o que eles realmente descobriram.

Os vencedores:

Os vencedores:

Mente Colmeia Artificial

(Universidade de Washington, CMU, Instituto Allen):

Cérebro digital conectado a instituições acadêmicas.

  • Lembra como todo mundo dizia que era possível obter resultados de IA diversos apenas ajustando as configurações de temperatura ou usando vários modelos? Errado.
  • Essa equipe testou 70+ modelos de linguagem e encontrou algo perturbador: todos geram respostas assustadoramente semelhantes.
  • Fazer a mesma pergunta criativa para o ChatGPT, Claude e Gemini? Você terá variações sobre o mesmo tema.
  • Pior ainda, modelos individuais se repetem constantemente. Os pesquisadores chamam isso de “efeito Mente Colmeia Artificial”; A IA está fazendo tudo soar igual.

Por que isso importa: Se você tem usado IA para brainstorming e sente que as sugestões estão ficando repetitivas, você não está imaginando coisas. Esse problema é mais profundo do que qualquer um imaginava, e resolvê-lo exigirá mudanças fundamentais na forma como os modelos são treinados e avaliados.

Atenção Limitada para Grandes Modelos de Linguagem

(da equipe Alibaba Qwen):

Atenção guiada para modelos de linguagem grandes.

  • A equipe descobriu que adicionar um pequeno ajuste — um “gate” após o mecanismo de atenção (pense nisso como um filtro inteligente) — torna os LLMs consistentemente melhores.
  • Eles testaram isso em 30+ variações com modelos de até 15 bilhões de parâmetros.
  • A melhor parte = já está sendo lançado no Qwen3-Next, e o código é open source.
  • Juízes do NeurIPS disseram que isso será “amplamente adotado”, o que, em termos acadêmicos, significa “todo mundo vai usar isso.”

Por que isso importa: Nos próximos 6 a 12 meses, espere que essa técnica apareça no GPT-5, Gemini 2.0 e outros modelos de próxima geração. Suas conversas com IA vão ficar mais coerentes, especialmente em conversas mais longas.

Redes de 1000 Camadas para RL Auto-Supervisionado

(equipe de pesquisadores):

Ilustração de redes com camadas para aprendizado autossupervisionado.

  • A maioria dos modelos de aprendizado por reforço usa de 2 a 5 camadas. Esses pesquisadores perguntaram: e se formos muito mais fundo?
  • Eles construíram redes com até 1.024 camadas para robôs aprendendo a alcançar metas sem qualquer orientação humana.
  • Resultado: desempenho 2 a 50 vezes melhor. Acontece que o RL pode escalar como modelos de linguagem — você só precisa de coragem para tentar.

Por que isso importa: Isso abre a porta para que robótica e agentes autônomos finalmente alcancem os modelos de linguagem em capacidade. Espere ver robôs e agentes de IA muito mais capazes que possam aprender tarefas complexas sem instrução humana passo a passo.

Por que Modelos de Difusão Não Memorizam

(equipe de pesquisa):

Modelos de difusão entendem estrutura, não memorizam.

  • Geradores de imagens de IA treinam com milhões de imagens. Então por que eles simplesmente não fazem cópias exatas? Este artigo descobriu isso matematicamente.
  • Existem duas escalas de tempo durante o treinamento: uma fase inicial em que o modelo aprende a criar boas imagens, e uma fase posterior em que começa a memorizar.
  • Crucialmente, a fase de memorização cresce linearmente com o tamanho do conjunto de dados, criando um ponto ideal para parar o treinamento antes que o overfitting comece.
  • É como se o modelo tivesse um despertador embutido que diz “pare de aprender antes de começar a trapacear.”

Por que isso importa: Isso explica por que Midjourney, DALL-E e Stable Diffusion podem gerar imagens novas em vez de copiar dados de treinamento. Compreender essa dinâmica ajudará a construir modelos generativos melhores e mais seguros.

Documentos de Vice-Campeonato:

O aprendizado por reforço realmente incentiva o raciocínio?

Spoiler: na verdade, não.

Inteligência artificial comparando aprendizado por reforço e raciocínio.

  • Essa equipe testou se o treinamento de RL realmente cria novas habilidades de raciocínio em LLMs ou apenas otimiza os caminhos que o modelo base já conhecia.
  • Resposta: o teto do modelo base é o teto do modelo treinado.
  • O RL torna os modelos mais eficientes em encontrar boas respostas, mas não expande o que eles podem fundamentar para raciocinar.
  • É como ensinar estratégias para alguém fazer prova—ele vai se sair melhor no teste, mas ainda não aprendeu material novo.

Por que isso importa: Isso desafia o hype atual em torno do RLHF e dos modelos de raciocínio. Se você quer uma IA realmente mais inteligente, precisa de modelos base melhores e dados de treinamento, não apenas mais RL em modelos existentes.

Limites Ótimos de Erro para Aprendizagem Online Transdutiva:

Aprendizado online transdutivo com IA e conhecimento.

  • Resolve um problema teórico de 30 anos sobre quantos erros um algoritmo de aprendizado comete quando tem acesso a dados não rotulados.
  • A matemática é complexa, mas a punchline = dados não rotulados te dá uma aceleração quadrática (melhoria da raiz quadrada) em relação ao aprendizado padrão.
  • Isso é uma grande vitória teórica.

Por que isso importa: Isso fornece suporte teórico para o uso de grandes quantidades de dados não rotulados, que é exatamente o que alimenta os modelos de fundação atuais.

Superposição Produz Escalonamento Neural Robusto:

  • Finalmente explicou por que modelos maiores funcionam melhor.
  • O segredo = “Superposição”, ou a capacidade dos modelos de representar mais características do que possuem dimensões ao empacotar informações de forma inteligente.
  • Quando os modelos fazem isso de forma forte, a perda escala inversamente ao tamanho em quase qualquer distribuição de dados.
  • Isso reforça as leis de escalamento da chinchila e explica por que a tendência de “maior é melhor” se mantém.

Por que isso importa: Isso reforça por que as empresas continuam construindo modelos maiores e valida as leis de escala da chinchila. Espere que a tendência de “maior é melhor” continue no futuro próximo.

Também no NeurIPS: A Descoberta da Memória do Google

Enquanto os prêmios ganharam manchetes, o Google discretamente abandonou pesquisas potencialmente revolucionárias: Titans e MIRAS, arquiteturas que dão aos modelos de IA memória real de longo prazo.

Modelos atuais batem em um limite com o comprimento do contexto. Você pode fornecer milhões de tokens para Claude ou GPT, mas eles têm dificuldade para realmente lembrar e usar todas essas informações de forma eficaz. Titans resolve isso com uma “métrica surpresa” — basicamente ensinando a IA a lembrar como os humanos.

Veja como funciona: humanos rapidamente esquecem coisas rotineiras, mas lembram de eventos surpreendentes. Titans faz o mesmo. Ao processar texto, ele fica sempre perguntando “essa informação nova é surpreendente comparada ao que eu já sei?” Surpresa alta? Guarde permanentemente. Surpresa baixa? Pula isso.

Exemplo: Se você está lendo um relatório financeiro e de repente aparece uma frase sobre cascas de banana, aquele enorme sinal surpresa diz ao modelo “isso é estranho e importante — lembre-se.” Mas se o relatório menciona “lucros trimestrais” pela décima vez, o modelo diz “entendido, vamos seguir em frente.”

Os resultados são impressionantes: Titans lida com 2+ milhões de contextos de tokens e supera o GPT-4 em tarefas de contexto extremamente longo, apesar de ter muito menos parâmetros. Ele combina a velocidade dos modelos recorrentes com a precisão dos transformadores.

Por que isso importa: A IA atual esquece o contexto constantemente. Pedir para Claude analisar um documento de 200 páginas e referenciar algo da página 5? Pode não perceber. Arquiteturas no estilo Titans poderiam permitir uma IA que realmente se lembre de tudo o que você discutiu, de cada documento compartilhado, de cada preferência que você mencionou — em milhões de palavras de contexto.

Nos próximos 6 a 12 meses, espere que variações dessa abordagem comecem a aparecer nos modelos de produção. O Google já está construindo sobre isso com o “Hope”, uma versão automodificável que pode otimizar sua própria memória.

Quanto aos melhores artigos…

O mecanismo de atenção com portão já está em produção. O problema da mente coletiva vai levar os pesquisadores a desenvolver modelos que diversificam deliberadamente os resultados. E a escala de profundidade do RL pode desbloquear uma nova geração de robôs e agentes capazes.

Se você usa ferramentas de IA diariamente, fique atento a modelos que explicitamente anunciem diversidade nos resultados ou capacidades de raciocínio mais profundas; Esses jornais apenas traçaram o roteiro para o que vem a seguir.