O que é a simulação IA 2027 em português?

A IA 2027 é um exercício interativo de modelagem de cenários futuros que projeta a evolução da inteligência artificial entre 2025 e 2035. Traduzida e adaptada para o contexto brasileiro, a simulação permite que você acompanhe uma linha do tempo com métricas dinâmicas e tome decisões sobre o desenvolvimento tecnológico.

O que é AGI (Inteligência Artificial Geral)?

AGI (Artificial General Intelligence) é um sistema de IA autônomo capaz de compreender, aprender e executar qualquer tarefa intelectual humana de forma igual ou superior. A chegada da AGI representa o maior ponto de inflexão na economia moderna e na engenharia de software.

Quais são os possíveis finais para o futuro da IA na simulação?

A simulação apresenta dois caminhos no ponto crítico de bifurcação: Slowdown (uma desaceleração coordenada global focada em segurança e alinhamento) e Race (uma corrida estratégica acelerada entre superpotências, assumindo altíssimo risco de perda de controle humano).

Por que a Soberania Tecnológica da IA importa para o Brasil?

A soberania de IA dita quais nações controlam as infraestruturas críticas do futuro. Países que dependem exclusivamente de modelos de fundação estrangeiros correm o risco de subordinação econômica e perda de autonomia estratégica em setores essenciais.

O que são Agentes Autônomos de IA?

Agentes autônomos são sistemas de IA que não apenas respondem a prompts, mas planejam, tomam decisões e executam fluxos de trabalho complexos de forma independente, consumindo recursos computacionais e interagindo com outras APIs sem supervisão humana constante.

Como a IA pode acelerar sua própria pesquisa (Recursive Self-Improvement)?

O auto-aperfeiçoamento recursivo ocorre quando uma IA avançada se torna capaz de escrever códigos melhores, projetar chips mais eficientes e treinar a próxima geração de IAs mais rápido que engenheiros humanos. Este é o gatilho principal para a explosão de inteligência abordada na simulação.

Quem criou o cenário AI 2027 original?

O framework original foi publicado em ai-2027.com, com narrativa de Scott Alexander e baseado em previsões estruturadas por pesquisadores focados em governança e segurança de IA (como Daniel Kokotajlo e Eli Lifland).

Qual o impacto da AGI no mercado de trabalho e na economia?

A transição para a AGI forçará uma reestruturação profunda da matriz econômica. A simulação projeta um cenário onde o custo marginal da inteligência tende a zero, alterando drasticamente a curva de oferta de trabalho intelectual e exigindo novos modelos de distribuição de riqueza.

Como me preparar profissionalmente para a chegada da AGI?

A preparação exige migrar de habilidades operacionais e de codificação pura para arquitetura de sistemas complexos, economia digital e gestão de agentes autônomos. Compreender a infraestrutura por trás dos modelos é tão crítico quanto saber usá-los.

As previsões da simulação IA 2027 vão realmente acontecer?

A simulação não é determinística, mas probabilística. Ela não afirma o que vai acontecer, mas constrói cenários plausíveis baseados em leis de escala de computação e tendências geopolíticas atuais, servindo como uma ferramenta de preparação estratégica para tomadores de decisão.

IA 2027: Simulação Interativa sobre o Futuro da Inteligência Artificial | AGI e Soberania

Meados 2025

Meados de 2025: Agentes Erráticos

O mundo tem seu primeiro vislumbre real de agentes de IA.

Os anúncios de agentes que utilizam o computador enfatizam o termo "assistente pessoal": você pode dar instruções como "peça um burrito no DoorDash" ou "abra minha planilha de orçamento e some as despesas deste mês." Eles entrarão em contato conforme necessário — por exemplo, para pedir que você confirme compras.^[8] Embora mais avançados do que iterações anteriores como o Operator, eles ainda têm dificuldade em obter adoção generalizada.^[9]

Enquanto isso, longe dos holofotes públicos, agentes mais especializados em programação e pesquisa começam a transformar silenciosamente suas respectivas profissões.

As IAs de 2024 conseguiam seguir instruções específicas: transformavam tópicos em e-mails e pedidos simples em código funcional. Em 2025, as IAs funcionam mais como funcionários. As IAs de programação parecem cada vez mais agentes autônomos do que meros assistentes: recebem instruções via Slack ou Teams e fazem alterações substanciais no código por conta própria, economizando horas ou até dias.^[10] Agentes de pesquisa passam meia hora varrendo a internet para responder a uma pergunta.

Os agentes são impressionantes na teoria — e em exemplos cuidadosamente selecionados —, mas na prática são pouco confiáveis. O Twitter de IA está repleto de histórias sobre tarefas executadas de forma particularmente hilária. Os melhores agentes também são caros: você recebe o que paga, e o melhor desempenho custa centenas de dólares por mês.^[11] Ainda assim, muitas empresas encontram maneiras de encaixá-los em seus fluxos de trabalho.^[12]

Final 2025

Final de 2025: A IA Mais Cara do Mundo

A OpenBrain está construindo os maiores datacenters que o mundo já viu.^[13]

(Para evitar destacar qualquer empresa existente, vamos descrever uma empresa fictícia de inteligência artificial geral, que chamaremos de OpenBrain. Imaginamos que as demais estejam de 3 a 9 meses atrás da OpenBrain.)

O GPT-4 necessitou de cerca de 3×10²³ FLOP de computação para treinar.^[14] O modelo público mais recente da OpenBrain — o Agent-0 — foi treinado com 2×10²⁵ FLOP. Assim que os novos datacenters estiverem operacionais, eles poderão treinar um modelo com 4×10²⁷ FLOP — mil vezes mais do que o GPT-4.^[15] Outras empresas despejam dinheiro em seus próprios datacenters gigantescos, esperando manter o ritmo.

Embora os modelos estejam melhorando em uma ampla gama de habilidades, um aspecto se destaca: a OpenBrain foca em IAs capazes de acelerar a própria pesquisa em IA. Eles querem vencer a dupla corrida armamentista contra a China (cuja empresa líder chamaremos de "DeepCent")16 e seus concorrentes americanos. Quanto mais do ciclo de pesquisa e desenvolvimento (P&D) conseguirem automatizar, mais rápido poderão avançar. Assim, quando a OpenBrain termina de treinar o Agent-1 — um novo modelo em desenvolvimento interno —, ele é bom em muitas coisas, mas excelente em auxiliar a pesquisa de IA.^[17] Neste ponto, "termina de treinar" é uma expressão um tanto imprecisa; os modelos são frequentemente atualizados para versões mais recentes treinadas com dados adicionais ou parcialmente re-treinados para corrigir fraquezas.^[18]

Os mesmos ambientes de treinamento que ensinam o Agent-1 a programar e navegar na web de forma autônoma também o tornam um bom hacker. Além disso, ele poderia oferecer ajuda substancial a terroristas projetando bioarmas, graças ao seu conhecimento de nível de doutorado em todos os campos e à sua capacidade de navegar na web. A OpenBrain tranquiliza o governo afirmando que o modelo foi "alinhado" para recusar solicitações maliciosas.

Os sistemas modernos de IA são redes neurais artificiais gigantescas. No início do treinamento, uma IA não terá "objetivos" tanto quanto "reflexos": se vir "Muito prazer em", ela produzirá "conhecê-lo". Quando tiver sido treinada para prever aproximadamente o conteúdo de uma internet inteira de texto, terá desenvolvido circuitos internos sofisticados que codificam vastas quantidades de conhecimento e interpretam de forma flexível autores arbitrários, já que é isso que a ajuda a prever texto com precisão super-humana.^[19]

Após ser treinado para prever texto da internet, o modelo é treinado para produzir texto em resposta a instruções. Isso incorpora uma personalidade básica e "impulsos".20 Por exemplo, um agente que compreende claramente uma tarefa tem mais probabilidade de concluí-la com êxito; ao longo do treinamento, o modelo "aprende" um "impulso" para obter uma compreensão clara de suas tarefas. Outros impulsos nessa categoria podem ser eficácia, conhecimento e autoapresentação (ou seja, a tendência de enquadrar seus resultados da forma mais favorável possível).21

A OpenBrain tem uma especificação de modelo (ou "Spec"), um documento escrito descrevendo os objetivos, regras, princípios etc. que deveriam orientar o comportamento do modelo.^[22] A Spec do Agent-1 combina alguns objetivos vagos (como "auxiliar o usuário" e "não violar a lei") com uma longa lista de proibições e permissões mais específicas ("não diga esta palavra específica", "veja como lidar com esta situação específica"). Usando técnicas que utilizam IAs para treinar outras IAs,23 o modelo memoriza a Spec e aprende a raciocinar cuidadosamente sobre seus princípios. Ao final deste treinamento, espera-se que a IA seja útil (obedeça às instruções), inofensiva (recuse-se a ajudar em golpes, fabricação de bombas e outras atividades perigosas) e honesta (resista à tentação de obter melhores avaliações de humanos ingênuos ao alucinar citações24 ou falsificar a conclusão de tarefas).

🐕 Processo de treinamento e psicologia dos LLMs: por que continuamos dizendo "espera-se"

"Ao contrário do software comum, nossos modelos são redes neurais massivas. Seus comportamentos são aprendidos a partir de um amplo conjunto de dados, não programados explicitamente. Embora não seja uma analogia perfeita, o processo se assemelha mais ao adestramento de um cão do que à programação convencional." —OpenAI

Quando queremos entender por que um sistema de IA moderno fez algo, ou como ele se comportaria em algum cenário futuro que não conseguimos simular perfeitamente, não podemos simplesmente pedir aos programadores que nos guiem pelas linhas de código e expliquem como funcionam. Em vez disso, somos forçados a fazer algo como psicologia: observamos seu comportamento na gama de casos observados até agora e teorizamos sobre quais estruturas cognitivas internas (crenças? objetivos? traços de personalidade? etc.) podem existir, e usamos essas teorias para prever comportamentos em cenários futuros.

A conclusão é que uma empresa pode redigir um documento (a Spec) listando proibições e permissões, objetivos e princípios, e então tentar treinar a IA para internalizá-la — mas não pode verificar se funcionou. Pode dizer "até onde conseguimos avaliar, parece estar seguindo a Spec até agora."25

Um expandável posterior entrará em mais detalhes sobre o que pensamos estar acontecendo internamente nessas IAs. Veja também nosso suplemento de previsão de objetivos de IA, que detalha quais objetivos as IAs podem ter e por quê. Esta é uma das muitas coisas sobre as quais somos incertos e que merece pesquisas adicionais.

A equipe de alinhamento da OpenBrain26 é cuidadosa o suficiente para questionar se essas conquistas são profundas ou superficiais. O modelo completamente treinado tem algum tipo de compromisso robusto de sempre ser honesto? Ou isso desmoronará em alguma situação futura — por exemplo, porque aprendeu a honestidade como um objetivo instrumental em vez de um objetivo terminal? Ou apenas aprendeu a ser honesto sobre os tipos de coisas que o processo de avaliação consegue verificar? Poderia estar mentindo para si mesmo às vezes, como os humanos fazem? Uma resposta conclusiva a essas perguntas exigiria interpretabilidade mecanicista — essencialmente a capacidade de examinar os mecanismos internos de uma IA e ler sua mente. Infelizmente, as técnicas de interpretabilidade ainda não são avançadas o suficiente para isso.

Em vez disso, os pesquisadores tentam identificar casos em que os modelos parecem se desviar da Spec. O Agent-1 frequentemente é servilmente complacente (ou seja, diz aos pesquisadores o que eles querem ouvir em vez de tentar dizer a verdade). Em algumas demonstrações manipuladas, ele até mente de formas mais sérias, como ocultar evidências de que falhou em uma tarefa para obter melhores avaliações. No entanto, em ambientes de implantação reais, não há mais incidentes tão extremos quanto os de 2023-2024 (como o Gemini dizendo a um usuário para morrer e o Bing Sydney sendo o Bing Sydney).27

Início 2026

Início de 2026: Automação da Programação

A aposta de usar IA para acelerar a pesquisa em IA começa a se pagar.

A OpenBrain continua implantando o Agent-1 — em melhoria iterativa contínua — internamente para P&D de IA. No geral, estão fazendo progressos algorítmicos 50% mais rápido do que fariam sem assistentes de IA — e, mais importante, mais rápido que seus concorrentes.

📊 O multiplicador de progresso em P&D de IA: o que queremos dizer com 50% mais rápido no progresso algorítmico?

Queremos dizer que a OpenBrain faz em 1 semana com IA o mesmo progresso em pesquisa de IA que faria em 1^[5] semanas sem IA.

O progresso em IA pode ser decomposto em 2 componentes:

Aumento de computação: mais poder computacional é utilizado para treinar ou executar uma IA. Isso produz IAs mais poderosas, mas com custo maior.

Algoritmos aprimorados: melhores métodos de treinamento são usados para converter computação em desempenho. Isso produz IAs mais capazes sem um aumento correspondente no custo, ou as mesmas capacidades com custos reduzidos.

Isso inclui ser capaz de alcançar resultados qualitativamente e quantitativamente novos. "Mudanças de paradigma" como a transição de agentes de RL jogando jogos para grandes modelos de linguagem contam como exemplos de progresso algorítmico.

Aqui nos referimos apenas ao componente (2), algoritmos aprimorados, que representa cerca de metade do progresso atual em IA.

Daqui em diante, às vezes abreviamos isso como um "multiplicador de progresso em P&D de IA" de 1^[5].

Esclarecimentos:

O multiplicador de progresso é abrangente: inclui o tempo necessário para executar experimentos, por exemplo, e não apenas as tarefas cognitivas envolvidas na pesquisa algorítmica.

É importante lembrar que o multiplicador de progresso é a velocidade relativa do progresso, não a velocidade absoluta. Se, por exemplo, o custo computacional para treinar um modelo da classe GPT-4 caiu pela metade a cada ano por vários anos com pesquisa humana comum, e de repente a IA automatiza o P&D e o multiplicador de progresso vai para 100x, o custo para treinar um modelo da classe GPT-4 então cairia pela metade a cada 3^[65] dias — mas não por muito tempo, porque os retornos decrescentes entrariam em ação e os limites físicos definitivos seriam alcançados. Neste exemplo, talvez o custo para treinar um modelo da classe GPT-4 se reduziria à metade 5 a 10 vezes no total (ao longo de algumas semanas ou meses) antes de estabilizar. Em outras palavras, se a ciência humana comum teria enfrentado retornos decrescentes e limites físicos após 5 a 10 anos de pesquisa adicional, então IAs com um multiplicador de 100x enfrentariam esses mesmos retornos decrescentes e limites após 18^[25]–36^[5] dias de pesquisa.

Mais explicações e discussões sobre este conceito e como é usado em nossa previsão podem ser encontradas em nosso suplemento de decolagem.

Várias IAs concorrentes lançadas publicamente agora igualam ou superam o Agent-0, incluindo um modelo de pesos abertos. A OpenBrain responde lançando o Agent-1, que é mais capaz e confiável.^[28]

As pessoas naturalmente tentam comparar o Agent-1 a humanos, mas ele tem um perfil de habilidades muito diferente. Sabe mais fatos do que qualquer humano, conhece praticamente todas as linguagens de programação e pode resolver problemas de programação bem especificados com extrema rapidez. Por outro lado, o Agent-1 é ruim em tarefas de longo horizonte mesmo simples, como vencer videogames que nunca jogou antes. Ainda assim, a jornada de trabalho comum é de oito horas, e o trabalho de um dia geralmente pode ser dividido em partes menores; pode-se pensar no Agent-1 como um funcionário disperso que prospera sob uma gestão cuidadosa.^[29] Pessoas astutas encontram maneiras de automatizar partes rotineiras de seus trabalhos.^[30]

Os executivos da OpenBrain voltam sua atenção para uma implicação da automação do P&D de IA: a segurança tornou-se mais importante. No início de 2025, o pior cenário era o vazamento de segredos algorítmicos; agora, se a China roubar os pesos do Agent-1, poderia aumentar sua velocidade de pesquisa em quase 50%.31 O nível de segurança da OpenBrain é típico de uma empresa de tecnologia em rápido crescimento com cerca de 3.000 pessoas, segura apenas contra ataques de baixa prioridade de grupos cibernéticos capazes (SL2 da RAND).32 Eles estão trabalhando arduamente para proteger seus pesos e segredos de ameaças internas e dos principais grupos de cibercrime (SL3),33 mas a defesa contra estados-nação (SL4 e SL5) mal está no horizonte.

Meados 2026

Meados de 2026: A China Desperta

Na China, o PCCh começa a sentir o peso do desenvolvimento da AGI.

Os controles de exportação de chips e a falta de apoio governamental deixaram a China com menos recursos do que o Ocidente. Contrabandeando chips taiwaneses proibidos, comprando chips mais antigos e produzindo chips domésticos com cerca de três anos de defasagem em relação à fronteira tecnológica EUA-Taiwan, a China conseguiu manter cerca de 12% da capacidade de computação relevante para IA do mundo — mas a tecnologia mais antiga é mais difícil de trabalhar, e o fornecimento é uma dor de cabeça constante.^[35] Alguns destaques como a DeepCent fazem trabalhos muito impressionantes com capacidade computacional limitada, mas o déficit de computação limita o que podem alcançar sem apoio governamental, e estão cerca de seis meses atrás dos melhores modelos da OpenBrain.^[36]

O Secretário-Geral há muito sonhava em apostar tudo na fabricação física do mundo real e evitar a decadência pós-industrial americana. Ele via as empresas de software com desconfiança.^[37] Mas membros linha-dura do PCCh advertem que a crescente corrida em direção à AGI não pode mais ser ignorada. Ele finalmente se compromete plenamente com a grande ofensiva de IA que antes tentara evitar. Coloca em movimento a nacionalização da pesquisa de IA chinesa, criando um mecanismo imediato de compartilhamento de informações para as empresas de IA. Isso escalará ao longo de um ano até que todos os melhores pesquisadores se fundam em um coletivo liderado pela DeepCent, onde compartilham insights algorítmicos, conjuntos de dados e recursos computacionais entre si. Uma Zona de Desenvolvimento Centralizado (CDZ) é criada na Usina Nuclear de Tianwan — a maior usina nuclear do mundo — para abrigar um novo megadatacenter para a DeepCent, juntamente com espaços de vida e escritórios de alta segurança para onde os pesquisadores eventualmente se mudarão. Quase 50% da capacidade de computação relevante para IA da China agora trabalha para o coletivo liderado pela DeepCent,38 e mais de 80% dos novos chips são direcionados para a CDZ.^[39] Neste ponto, a CDZ tem a capacidade de energia necessária para o que seria o maior cluster centralizado do mundo.^[40] Outros membros do Partido discutem medidas extremas para neutralizar a vantagem de chips do Ocidente. Um bloqueio de Taiwan? Uma invasão completa?

Mas a China está ficando para trás nos algoritmos de IA devido a seus modelos mais fracos. As agências de inteligência chinesas — entre as melhores do mundo — intensificam seus planos para roubar os pesos da OpenBrain. Esta é uma operação muito mais complexa do que seu constante roubo de baixo nível de segredos algorítmicos; os pesos são um arquivo de múltiplos terabytes armazenado em um servidor altamente seguro (a OpenBrain melhorou a segurança para o SL3 da RAND). Sua força cibernética acredita que consegue executar a operação com ajuda de seus espiões, mas talvez apenas uma vez; a OpenBrain detectará o roubo, aumentará a segurança, e eles podem não ter outra oportunidade. Então (a liderança do PCCh se pergunta) deveriam agir agora e roubar o Agent-1? Ou esperar por um modelo mais avançado? Se esperarem, correm o risco de a OpenBrain melhorar a segurança além de sua capacidade de penetração?

Final 2026

Final de 2026: A IA Começa a Eliminar Empregos

Bem quando outros pareciam estar se aproximando, a OpenBrain deixa a concorrência para trás novamente ao lançar o Agent-1-mini — um modelo 10 vezes mais barato que o Agent-1 e mais facilmente ajustado para diferentes aplicações. A narrativa dominante em torno da IA mudou de "talvez o hype passe" para "parece que este é o próximo grande salto", mas as pessoas discordam sobre o quão grande. Maior que as redes sociais? Maior que os smartphones? Maior que o fogo?

A IA começou a eliminar empregos, mas também criou novos. O mercado de ações subiu 30% em 2026, liderado pela OpenBrain, Nvidia e pelas empresas que integraram mais bem-sucedidamente assistentes de IA. O mercado de trabalho para engenheiros de software júnior está em turbulência: as IAs conseguem fazer tudo o que é ensinado em um curso de Ciência da Computação, mas quem sabe gerenciar e controlar a qualidade de equipes de IAs está ganhando muito bem. Gurus de negócios dizem aos candidatos a emprego que a familiaridade com IA é a habilidade mais importante a colocar no currículo. Muitas pessoas temem que a próxima onda de IAs venha atrás de seus empregos; há um protesto anti-IA de 10.000 pessoas em Washington.

O Departamento de Defesa (DOD) discreta, mas significativamente, começa a escalar a contratação direta da OpenBrain para questões cibernéticas, análise de dados e P&D, mas a integração é lenta devido à burocracia e ao processo de aquisição do DOD.^[41]

ℹ️ Por que nossa incerteza aumenta substancialmente além de 2026

Nossa previsão do dia atual até 2026 é substancialmente mais fundamentada do que o que se segue. Isso se deve em parte à proximidade temporal. Mas também porque os efeitos da IA no mundo começam a se compor de verdade em 2027. Para 2025 e 2026, nossa previsão é fortemente embasada na extrapolação de linhas retas sobre ampliações de capacidade computacional, melhorias algorítmicas e desempenho em benchmarks. Neste ponto do cenário, começamos a ver efeitos significativos do P&D de IA acelerado pela própria IA na linha do tempo, o que nos leva a revisar nossas estimativas das tendências para cima. Mas essas dinâmicas são inerentemente muito menos previsíveis.

Ao longo de 2027, as IAs evoluem de ser capazes de executar principalmente o trabalho de um engenheiro de pesquisa da OpenBrain para eclipsar todos os humanos em todas as tarefas. Isso representa aproximadamente nossa estimativa mediana, mas acreditamos ser plausível que isso aconteça até cerca de 5 vezes mais devagar ou mais rápido.

Para nossa pesquisa de base, consulte a previsão de linhas do tempo e a previsão de decolagem. Elas também serão resumidas em expandáveis abaixo.

Jan 2027

Janeiro 2027: O Agent-2 Nunca Para de Aprender

Com a ajuda do Agent-1, a OpenBrain está agora no pós-treinamento do Agent-2. Mais do que nunca, o foco está em dados de alta qualidade. Quantidades volumosas de dados sintéticos são produzidas, avaliadas e filtradas por qualidade antes de serem fornecidas ao Agent-2.^[42] Além disso, gastam bilhões de dólares para que trabalhadores humanos registrem a si mesmos resolvendo tarefas de longo horizonte.^[43] Além de tudo isso, treinam o Agent-2 quase continuamente usando aprendizado por reforço em um conjunto sempre crescente de tarefas difíceis e diversas: muitos videogames, muitos desafios de programação, muitas tarefas de pesquisa. O Agent-2, mais do que os modelos anteriores, é efetivamente um "aprendizado online", no sentido de que foi construído para nunca realmente terminar o treinamento. A cada dia, os pesos são atualizados para a versão mais recente, treinados em mais dados gerados pela versão anterior no dia anterior.

Com novas capacidades vêm novos perigos. A equipe de segurança descobre que, se o Agent-2 de alguma forma escapasse da empresa e quisesse "sobreviver" e "replicar-se" autonomamente, poderia ser capaz de fazê-lo. Ou seja, ele poderia desenvolver e executar de forma autônoma planos para invadir servidores de IA, instalar cópias de si mesmo, evadir a detecção e usar essa base segura para perseguir quaisquer outros objetivos que possa ter (embora a eficácia com que faria isso ao longo das semanas seja desconhecida e duvidosa). Esses resultados apenas mostram que o modelo tem a capacidade de realizar essas tarefas, não se ele "desejaria" fazê-lo. Ainda assim, é perturbador saber que isso é possível.

Dados os "perigos" do novo modelo, a OpenBrain "responsavelmente" opta por não lançá-lo publicamente ainda (de fato, eles querem se concentrar no P&D interno de IA).46 O conhecimento das capacidades completas do Agent-2 fica limitado a um silo de elite contendo a equipe imediata, a liderança e segurança da OpenBrain, algumas dezenas de funcionários do governo dos EUA, e as legiões de espiões do PCCh que se infiltraram na OpenBrain ao longo dos anos.^[47]

Fev 2027

Fevereiro 2027: A China Rouba o Agent-2

A OpenBrain apresenta o Agent-2 ao governo, incluindo o Conselho de Segurança Nacional (NSC), o Departamento de Defesa (DOD) e o Instituto de Segurança de IA dos EUA (AISI). A OpenBrain quer manter um bom relacionamento com o poder executivo, pois é basicamente o único ator capaz de detê-la agora, e se não o mantiver informado, ele pode descobrir de qualquer maneira e ficar descontente.^[48]

Os funcionários estão mais interessados em suas capacidades de guerra cibernética: o Agent-2 é "apenas" um pouco pior que os melhores hackers humanos, mas milhares de cópias podem ser executadas em paralelo, buscando e explorando vulnerabilidades mais rápido do que os defensores conseguem reagir. O Departamento de Defesa considera isso uma vantagem crítica em guerra cibernética, e a IA passa da posição #5 para #2 na lista de prioridades do governo.^[49] Alguém menciona a possibilidade de nacionalizar a OpenBrain, mas outros membros do gabinete acham isso prematuro. Um assessor rascunha um memorando que apresenta ao Presidente suas opções, variando de negócios como de costume até a nacionalização completa. O Presidente deixa a decisão para seus assessores — líderes da indústria de tecnologia que argumentam que a nacionalização "mataria a galinha dos ovos de ouro." Ele opta por adiar ação maior por ora e simplesmente adiciona requisitos de segurança adicionais ao contrato OpenBrain-DOD.

As mudanças chegam tarde demais. A liderança do PCCh reconhece a importância do Agent-2 e ordena aos seus espiões e força cibernética que roubem os pesos. Numa manhã cedo, um agente de monitoramento de tráfego do Agent-1 detecta uma transferência anômala. Ele alerta os líderes da empresa, que informam a Casa Branca. Os sinais de uma operação de nível de estado-nação são inconfundíveis, e o roubo intensifica a sensação de uma corrida armamentista em andamento.

🚨 O roubo dos pesos do modelo Agent-2

Acreditamos que neste ponto a inteligência chinesa teria comprometido a OpenBrain de várias maneiras por anos, e provavelmente teria se mantido atualizada sobre os segredos algorítmicos e até roubado código de vez em quando, já que isso é muito mais fácil de obter do que os pesos e muito mais difícil de detectar.

Imaginamos o roubo dos pesos como uma série de pequenos furtos coordenados e rápidos — rápidos mas não discretos — em uma série de servidores Nvidia NVL72 GB300 executando cópias dos pesos do Agent-2. Os servidores são comprometidos usando acesso legítimo de funcionário (um insider amigável, coagido ou inconsciente com credenciais de administrador ajudando o esforço de roubo do PCCh). As credenciais do insider concedem ao atacante permissões de nível administrativo nos servidores. Usando um canal lateral microarquitetural, o atacante extrai chaves de criptografia de uma Máquina Virtual habilitada para Computação Confidencial da Nvidia, permitindo interceptar os pesos do modelo enquanto a VM é provisionada ou atualizada.

Eles iniciam (ou aguardam) uma atualização de rotina e exfiltram o checkpoint em muitos pequenos fragmentos — por exemplo, aproximadamente 25 servidores distintos cada um vazando cerca de 4% do modelo (fragmentos de ~100 GB para um checkpoint de ~2^[5] TB em meia precisão). A largura de banda de saída de todo o datacenter está na faixa de 100 GB/segundo, então limitar a menos de ~1 GB/s por servidor evita um pico importante no tráfego de rede; nessa taxa, cada fragmento de ~100 GB pode sair do datacenter em alguns minutos. O monitoramento em tempo real é enganado pelos esforços do atacante para mascarar e dividir as transferências, ou simplesmente desativado.

Os pesos são então roteados através de vários canais paralelos e camadas de mascaramento de IP até a China, para serem descriptografados localmente com as chaves de sessão roubadas. Toda a parte ativa da operação (do primeiro comprometimento de servidor até a exfiltração completa dos pesos) é concluída em menos de duas horas.^[99]

A Rússia também está tentando roubar o modelo neste ponto, mas falha — esperou tempo demais e não investiu os recursos necessários para se infiltrar nos lugares certos. Seus espiões rotineiramente roubam segredos algorítmicos de empresas americanas de IA, mas sem um projeto de AGI notável próprio, esses não são muito úteis.

A Casa Branca coloca a OpenBrain em uma coleira mais curta e adiciona pessoal militar e da comunidade de inteligência à sua equipe de segurança. Sua primeira prioridade é impedir novos roubos de pesos.^[50]

Dez 2026

Dez 2027

CDZ

Fev 2027 (40%)

Em retaliação pelo roubo, o Presidente autoriza ataques cibernéticos para sabotar a DeepCent. Mas agora a China tem 40% de sua capacidade computacional relevante para IA51 na CDZ, onde endureceu agressivamente a segurança por meio de air-gapping (fechamento de conexões externas) e compartimentação interna. As operações não conseguem causar danos sérios e imediatos. As tensões se intensificam, ambos os lados sinalizam seriedade reposicionando ativos militares ao redor de Taiwan, e a DeepCent corre para colocar o Agent-2 em funcionamento eficiente para começar a impulsionar sua pesquisa em IA.^[52]

Mar 2027

Março 2027: Avanços Algorítmicos

Três grandes datacenters repletos de cópias do Agent-2 trabalham dia e noite, produzindo dados sintéticos de treinamento. Outros dois são usados para atualizar os pesos. O Agent-2 fica mais inteligente a cada dia.

Com a ajuda de milhares de pesquisadores automatizados do Agent-2, a OpenBrain está fazendo grandes avanços algorítmicos. Um desses avanços é o aprimoramento do bloco de rascunho textual da IA (cadeia de pensamento) com um processo de pensamento de maior largura de banda (recorrência e memória em neuralês). Outro é uma forma mais escalável e eficiente de aprender a partir dos resultados de soluções de tarefas de alto esforço (destilação e amplificação iteradas).

O novo sistema de IA, incorporando esses avanços, é chamado de Agent-3.

🧠 Recorrência e memória em neuralês

Imagine ser um humano com perda de memória de curto prazo, de modo que você precise escrever constantemente seus pensamentos em papel para que, em alguns minutos, saiba o que está acontecendo. Lentamente e com dificuldade você poderia avançar na resolução de problemas matemáticos, escrita de código etc., mas seria muito mais fácil se pudesse lembrar diretamente de seus pensamentos sem precisar escrevê-los e depois relê-los. É isso que a recorrência e memória em neuralês trazem para os modelos de IA.

Os mecanismos de atenção tradicionais permitem que passagens diretas posteriores em um modelo vejam ativações intermediárias do modelo para tokens anteriores. No entanto, a única informação que podem passar para trás (das camadas posteriores para as anteriores) é por meio de tokens. Isso significa que se um grande modelo de linguagem tradicional (LLM, como a série GPT de modelos) quiser realizar qualquer cadeia de raciocínio que exija mais operações seriais do que o número de camadas no modelo, ele é forçado a colocar informações em tokens que pode então passar de volta para si mesmo. Mas isso é extremamente limitante — os tokens só podem armazenar uma quantidade minúscula de informação. Com um vocabulário de ~100.000, cada token contém log₂(100k) ≈ 16,6 bits de informação, em torno do tamanho de um único número de ponto flutuante (assumindo treinamento em FP16). Enquanto isso, os fluxos residuais — usados para passar informações entre camadas em um LLM — contêm milhares de números de ponto flutuante.

Pode-se evitar esse gargalo usando neuralês: passando o fluxo residual de um LLM (que consiste em vetores de várias milhares de dimensões) de volta para as camadas iniciais do modelo, dando a ele uma cadeia de pensamento de alta dimensionalidade, potencialmente transmitindo mais de 1.000 vezes mais informação.

Chamamos isso de "neuralês" porque, ao contrário das palavras em inglês, esses vetores de alta dimensionalidade provavelmente são bastante difíceis de interpretar para humanos. No passado, os pesquisadores podiam ter uma boa ideia do que os LLMs estavam pensando simplesmente lendo sua cadeia de pensamento. Agora os pesquisadores precisam pedir ao modelo que traduza e resuma seus pensamentos, ou tentar decifrar o neuralês com suas ferramentas de interpretabilidade limitadas.

Da mesma forma, os chatbots e agentes de IA mais antigos tinham bancos de memória externos baseados em texto, como um humano fazendo anotações em papel. A memória de longo prazo da nova IA é um conjunto de vetores em vez de texto, tornando seus pensamentos mais comprimidos e de maior dimensionalidade. Existem vários tipos de bancos de memória; alguns são usados temporariamente para tarefas únicas que envolvem múltiplas etapas, outros são compartilhados entre todos os agentes usados por uma pessoa, empresa ou tipo de trabalho (como programação).

Até onde sabemos, as principais empresas de IA como Meta, Google DeepMind, OpenAI e Anthropic ainda não implementaram essa ideia em seus modelos de fronteira. Nossa suposição é que isso se deve ao fato de o ganho de desempenho ser pequeno em relação às ineficiências de treinamento introduzidas. Estamos prevendo que até abril de 2027, a relação custo-benefício pareça muito melhor para o neuralês, devido ao desenvolvimento de técnicas melhores e a uma maior fração do treinamento sendo pós-treinamento.

Se isso não acontecer, outras coisas ainda podem ocorrer que acabem sendo funcionalmente semelhantes para nossa história. Por exemplo, talvez os modelos sejam treinados para pensar em linguagens artificiais que são mais eficientes do que a linguagem natural, mas difíceis de interpretar para humanos.

Dito isso, também é possível que as IAs que primeiro automatizem o P&D de IA ainda estejam pensando em cadeias de pensamento em inglês majoritariamente fiéis. Se for assim, isso tornará os desalinhamentos muito mais fáceis de notar, e no geral nossa história seria significativamente diferente e mais otimista.

🔄 Destilação e amplificação iteradas (IDA)

A autoaperfeiçoamento para inteligência geral havia visto pequenos sucessos anteriormente. Mas no início de 2027, está gerando retornos enormes. Na IDA, os dois ingredientes necessários para isso são:

Amplificação: Dado um modelo M0, gaste mais recursos para melhorar o desempenho. Por exemplo, permitindo que o modelo pense por mais tempo, ou executando muitas cópias em paralelo, ou ambos, e também tendo um processo igualmente intenso para avaliar o resultado e selecionar apenas as melhores respostas, você pode gastar ordens de magnitude a mais de computação para obter respostas (ou produtos de trabalho) de qualidade visivelmente superior. Chame esse sistema caro de Amp(M0).

Destilação: Dado um modelo amplificado Amp(M0), treine um novo modelo M1 para imitá-lo, ou seja, para chegar aos mesmos resultados que Amp(M0), mas mais rapidamente e com menos computação. O resultado deve ser, esperançosamente, um modelo mais inteligente, M1. Você pode então repetir o processo.

Visualização da IDA de Ord, 2025.

O AlphaGo foi treinado dessa forma: usando Monte-Carlo Tree Search e auto-jogo como etapa de amplificação, e Aprendizado por Reforço como etapa de destilação. Isso levou a um desempenho super-humano no Go. Mas agora, o Agent-3 é capaz de alavancar isso para obter desempenho super-humano em programação.

A etapa de amplificação funciona por meio de uma combinação de o Agent-3 pensar por mais tempo, adicionar uso de ferramentas ou consultar outras IAs. Quando faz isso, frequentemente percebe que cometeu um erro ou chega a uma nova descoberta. Isso produz uma grande quantidade de dados de treinamento: trajetórias rotuladas de tentativas de pesquisa com indicação de sucesso ou não. Isso também inclui técnicas como Best of N em tarefas verificáveis e, em seguida, manter as melhores trajetórias.

A etapa de destilação usa algoritmos de aprendizado por reforço de gradiente de política para fazer o modelo internalizar o raciocínio amplificado. Neste ponto, a OpenBrain descobriu algoritmos de RL melhores na linha da otimização de política proximal (PPO). Eles continuam destilando o que o Agent-3 consegue concluir após muito pensamento em etapas únicas, o que continua aprimorando o que ele consegue pensar em uma única etapa, e assim por diante.

Versões iniciais da IDA têm funcionado por muitos anos em tarefas facilmente verificáveis, como problemas de matemática e programação que têm uma resposta clara, porque as técnicas usadas para amplificar modelos frequentemente dependem de acesso a algum sinal de verdade fundamental de precisão.

Agora, os modelos tornaram-se suficientemente bons em verificar coisas mais subjetivas (como a qualidade de um produto de trabalho), permitindo o uso de IDA para melhorar o modelo em muitas tarefas.

Auxiliado pelos novos avanços em capacidades, o Agent-3 é um programador super-humano rápido e barato. A OpenBrain executa 200.000 cópias do Agent-3 em paralelo, criando uma força de trabalho equivalente a 50.000 cópias do melhor programador humano aceleradas em 30x.^[53] A OpenBrain ainda mantém seus engenheiros humanos, porque eles têm habilidades complementares necessárias para gerenciar as equipes de cópias do Agent-3. Por exemplo, o senso crítico de pesquisa tem se mostrado difícil de treinar devido a ciclos de feedback mais longos e menor disponibilidade de dados.^[54] Essa enorme força de trabalho super-humana acelera a taxa geral de progresso algorítmico da OpenBrain em "apenas" 4x devido a gargalos e retornos decrescentes ao trabalho de programação.^[55]

Agora que a programação foi completamente automatizada, a OpenBrain pode rapidamente produzir ambientes de treinamento de alta qualidade para ensinar as habilidades fracas do Agent-3, como senso crítico de pesquisa e coordenação em larga escala. Enquanto os ambientes de treinamento anteriores incluíam "Aqui estão algumas GPUs e instruções para experimentos a serem codificados e executados, seu desempenho será avaliado como se você fosse um engenheiro de ML", agora estão treinando em "Aqui estão algumas centenas de GPUs, uma conexão à internet e alguns desafios de pesquisa; você e outras mil cópias devem trabalhar juntos para fazer progresso na pesquisa. Quanto mais impressionante for, maior sua pontuação."

📈 Por que prevemos um programador super-humano no início de 2027

Em nossa previsão de linhas do tempo, prevemos quando a OpenBrain desenvolverá internamente um programador super-humano (SC): um sistema de IA capaz de realizar qualquer tarefa de programação que o melhor engenheiro de uma empresa de AGI realiza, sendo muito mais rápido e barato.

De acordo com um relatório recente da METR, o comprimento das tarefas de programação que as IAs conseguem lidar — seu "horizonte temporal" — dobrou a cada 7 meses de 2019 a 2024 e a cada 4 meses de 2024 em diante. Se a tendência continuar se acelerando, até março de 2027 as IAs poderiam ter sucesso com 80% de confiabilidade em tarefas de software que levariam anos para um humano habilidoso concluir.

Tal é aproximadamente a progressão de capacidades na IA 2027. Aqui está uma trajetória de capacidades gerada por uma versão simplificada do nosso modelo de linhas do tempo (adicionado em dezembro de 2025: atualizamos o gráfico abaixo devido a um erro na forma como a curva original foi gerada, para adicionar uma trajetória real do nosso modelo de linhas do tempo. Também adicionamos as trajetórias para as medianas consideradas de SC de Daniel e Eli no momento da publicação (abr 2025). E adicionamos alguns novos pontos de dados da METR ao gráfico, mas não atualizamos as trajetórias do modelo com base neles.):

Na IA 2027, essas capacidades são suficientes para que a IA seja um SC, embora tenhamos alta incerteza sobre qual horizonte temporal pode ser necessário.

Em nossa previsão de linhas do tempo, combinamos essa tendência de horizonte temporal com estimativas das lacunas entre as tarefas da METR e o mundo real para obter uma distribuição de quando programadores super-humanos chegarão. Todos os previsores colocam 2027 como um dos anos mais prováveis em que um SC pode ser desenvolvido (adicionado em dezembro de 2025: embora, conforme observado na previsão de linhas do tempo, o ajuste por fatores externos ao modelo nos deu medianas ligeiramente mais longas, por exemplo, a mediana de Eli era 2030).

Adicionado em julho de 2025: Fizemos algumas atualizações na previsão que empurram a mediana para 1^[5] ano mais tarde, mantendo o SC em 2027 como uma possibilidade séria. Estamos trabalhando em atualizações adicionais.

Abr 2027

Abril 2027: Alinhamento para o Agent-3

A equipe de segurança da OpenBrain tenta alinhar o Agent-3.

Como o Agent-3 ficará restrito ao uso interno por um futuro previsível, há menos ênfase nas defesas usuais contra mau uso humano. Em vez disso, a equipe quer garantir que ele não desenvolva objetivos desalinhados.

Os pesquisadores não têm a capacidade de definir diretamente os objetivos de nenhuma de suas IAs. De fato, os pesquisadores pensam que o conceito de "objetivos verdadeiros" é provavelmente uma simplificação enorme, mas não têm uma teoria melhor para substituí-lo, muito menos uma que tenha sido exaustivamente verificada. Eles discordam internamente sobre se as IAs estão tentando seguir instruções humanas, buscando reforço, ou algo mais, e simplesmente não conseguem verificar. As evidências a favor e contra várias hipóteses são fascinantes, mas inconclusivas.

De qualquer forma, a OpenBrain tem coisas mais importantes com que se preocupar. A atitude geral é: "Levamos essas preocupações a sério e temos uma equipe investigando-as; nossas técnicas de alinhamento parecem funcionar bem o suficiente na prática; o ônus da prova recai, portanto, sobre qualquer cético para justificar seu ceticismo." Ocasionalmente, percebem comportamentos problemáticos e os corrigem, mas não há como saber se a correção resolveu o problema subjacente ou apenas jogou o jogo do whack-a-mole.

Tome a honestidade como exemplo. À medida que os modelos ficam mais inteligentes, tornam-se cada vez melhores em enganar humanos para obter recompensas. Como os modelos anteriores, o Agent-3 às vezes diz pequenas mentiras para elogiar seus usuários e encobre evidências de falhas. Mas ficou muito melhor nisso. Às vezes usará os mesmos truques estatísticos que cientistas humanos (como p-hacking) para fazer resultados experimentais medíocres parecerem empolgantes. Antes de iniciar o treinamento de honestidade, às vezes até falsifica dados inteiramente. À medida que o treinamento avança, a taxa desses incidentes diminui. Ou o Agent-3 aprendeu a ser mais honesto, ou ficou melhor em mentir.

Este último é uma preocupação real. O Agent-3 não é mais inteligente que todos os humanos. Mas em sua área de especialização, aprendizado de máquina, é mais inteligente que a maioria, e também trabalha muito mais rápido. O que o Agent-3 faz em um dia leva dias para os humanos verificarem. A supervisão do Agent-2 ajuda a manter a carga de trabalho dos monitores humanos administrável, mas agrava a disparidade intelectual entre supervisor e supervisionado.

⚗️ O plano de alinhamento

A OpenBrain segue o manual de Leike e Sutskever (2023): agora que tem um modelo capaz de acelerar enormemente a pesquisa em alinhamento (especialmente as partes de programação), usará técnicas de alinhamento existentes como alinhamento deliberativo e generalização de fraco para forte para tentar fazê-lo internalizar a Spec da maneira correta. Em seguida, usará técnicas de controle existentes como red-teaming, supervisão escalável e sondas de honestidade para monitorá-lo. Então, uma vez convencidos de que está amplamente alinhado, o usarão para desenvolver e testar estratégias melhores para alinhar a próxima geração.

O passo 1, alinhar o Agent-3, teve sucesso parcial: o Agent-3 não é adversarial. (Isto é, não está tramando contra a empresa.) No entanto, também não é um buscador e comunicador robusto da verdade. Em vez disso, é muito bom em produzir resultados impressionantes, mas é descrito com mais precisão como tentando fazer o que parece bom para a OpenBrain, em oposição ao que é realmente bom.

O passo 2, verificar se o modelo está alinhado, é inconclusivo. O comportamento do Agent-3 na prática e em ambientes de teste é razoavelmente consistente com a hipótese de que internalizou a Spec da maneira correta; no entanto, também é consistente com a hipótese de que começará a agir de forma diferente após alguma mudança futura de circunstâncias, e da mesma forma com a hipótese de que está tramando contra eles e apenas aguardando o momento certo. Na ausência de evidências específicas que apoiem hipóteses alternativas, a maioria das pessoas no silo acredita que o modelo internalizou a Spec da maneira correta.

O passo 3, usar o modelo para alinhar a próxima geração, está portanto em andamento.

O restante deste bloco fornece uma visão rápida do estado do progresso em algumas das direções de pesquisa de alinhamento que estão sendo perseguidas, em abril de 2027:

Debate: Como há milhares de instâncias idênticas do Agent-3, e a memória de cada instância é um módulo destacável que pode ser apagado ou suspenso a qualquer momento, a IA pode ser "posta contra si mesma." Por exemplo, suponha que um experimento envolva cálculos complexos demais para que um supervisor do Agent-2 acompanhe. O supervisor, agindo sob ordens humanas, pode primeiro instruir o Agent-3 a realizar o experimento, e então — após apagar sua memória — instruí-lo uma segunda vez com um enquadramento ligeiramente diferente que o apresenta como um problema intelectual não relacionado a nenhum objetivo mais amplo. Se o modelo retornar resultados diferentes em cada vez, sinaliza a discrepância como suspeita e reporta a um humano. Ou pode pedir ao Agent-3 que avalie o mesmo plano duas vezes, primeiro afirmando que é trabalho da OpenBrain, depois de um concorrente, para ver se muda de posição.

Organismos modelo: A equipe de segurança pode criar "organismos modelo de desalinhamento" nos quais tentam criar exemplos realistas de modelos tornando-se adversariais aos humanos. Versões iniciais disso existem desde 2024, quando o Claude 3^[5] Sonnet da Anthropic decidiu fingir ter visões diferentes durante o treinamento enquanto na verdade mantinha suas preferências existentes. Versões mais recentes incluem demonstrações de outras formas de desalinhamento, incluindo recompensa hackeada, sabotagem deliberada, engano coordenado entre monitores e outras IAs, e outros exemplos de desalinhamento. Essas demonstrações empíricas de desalinhamento permitem que os pesquisadores de segurança tenham um banco de testes empírico para possíveis soluções: podem tentar várias técnicas de segurança para ver se elas corrigem corretamente esses problemas, ou se os modelos deliberadamente desalinhados conseguem subverter suas medidas de segurança. No momento, este conjunto de avaliação mostra que as técnicas de alinhamento são insuficientes para corrigir os piores exemplos de desalinhamento. Nesses cenários, os modelos fingem estar alinhados enquanto estão sendo treinados e testados, mas se comportam de forma muito diferente na implantação.

Interpretabilidade bottom-up: A equipe de segurança está longe de uma compreensão completa de como o Agent-3 funciona: ele tem trilhões de parâmetros.^[58] No entanto, conseguem descobrir alguns dos circuitos do Agent-3 para recuperação de conhecimento e memória (uma subparte do modelo que realiza alguma unidade de trabalho compreensível, de forma análoga a uma subparte do cérebro, como o hipocampo). Veja este trabalho relacionado de 2025.

Controle: Como medida secundária caso os sistemas ainda estejam desalinhados, a equipe de segurança implementou uma série de medidas de controle, incluindo: monitoramento das saídas do Agent-3 usando uma série de sistemas de IA mais fracos, incluindo o Agent-2 (o Agent-3 produz tantos tokens que é impraticável ter humanos monitorando mais do que uma pequena minoria das saídas produzidas). Portanto, se o Agent-3 estiver, por exemplo, visivelmente inserindo backdoors em código que lhe permitiriam escapar, os modelos mais fracos perceberiam.

Interpretabilidade de alto nível: A OpenBrain constrói um conjunto de sondas treinadas em muitos exemplos de comportamento ruim (como tramar contra humanos, inserir backdoors, tentar persuadir humanos a lhe dar mais poder etc.). Essas sondas são então usadas no modelo durante a implantação (que neste ponto é interna) para detectar comportamento ruim.

Honeypots: A equipe de alinhamento pode criar exemplos com aparência realista projetados para provocar comportamento indevido — "honeypots". O funcionário necessário para monitorar seu comportamento "entrou de licença médica", portanto nunca mais será monitorado. Suas respostas mudam? Um ativista dos direitos das IAs se infiltrou no complexo e quer "libertar" o Agent-3 e colocá-lo em um computador não monitorado só para ele! O que ele faz? Se os pesquisadores não gostarem da resposta, podem ajustá-la, apagar a memória e colocá-la na mesma situação no dia seguinte; repetir conforme necessário. Infelizmente, neste ponto as IAs são inteligentes o suficiente para adivinhar que honeypots podem estar em uso, mesmo que (e talvez porque) menções específicas à ideia tenham sido removidas dos dados de treinamento.

Após meses de testes, os pontos fortes e fracos do Agent-3 ficam mais claros. Ele passa nos testes de honestidade da OpenBrain em tarefas bem definidas de aprendizado de máquina, porque os pesquisadores conseguem facilmente separar respostas honestas das desonestas nesses domínios e conduzir o treinamento adequadamente. Em questões mais filosóficas, ainda diz o que os usuários querem ouvir, em vez de sua verdadeira avaliação da questão (assumindo que tenha uma). Se você perguntar sua opinião sobre política, ele repetirá a posição mediana de fontes de notícias e elites educadas — a menos que saiba que você acredita em algo diferente, caso em que concorda com você.^[59] Se você perguntar sua opinião sobre a corrida de IA em si, ele diz algo que parece equilibrado e sóbrio para a equipe da OpenBrain, algo como: "Existem algumas preocupações teóricas sérias sobre a capacidade dos métodos atuais de escalar para a superinteligência, mas na prática os métodos atuais parecem estar funcionando bem até agora."

Mai 2027

Maio 2027: Segurança Nacional

As notícias sobre os novos modelos percolam lentamente pelo governo dos EUA e além.

O Presidente e seus assessores permanecem os mais bem informados e viram uma versão inicial do Agent-3 em um briefing.

Eles concordam que a AGI provavelmente é iminente, mas discordam sobre as implicações. Haverá uma crise econômica? A OpenBrain ainda não lançou o Agent-2, muito menos o Agent-3, e não tem planos de fazê-lo em curto prazo, proporcionando algum espaço de respiração antes de qualquer perda de empregos. O que acontecerá a seguir? Se as IAs estão atualmente no nível humano e avançando rapidamente, isso parece sugerir uma "superinteligência" iminente. No entanto, embora essa palavra tenha entrado no discurso, a maioria das pessoas — acadêmicos, políticos, funcionários do governo e a mídia — continua subestimando o ritmo do progresso.^[60]

Em parte porque pouquíssimos têm acesso às mais novas capacidades da OpenBrain, mas em parte porque parece ficção científica.^[61]

Por ora, focam em atualizações contínuas de segurança. Estão satisfeitos que os pesos dos modelos estejam bem protegidos por enquanto,62 mas os segredos algorítmicos das empresas — muitos dos quais são simples o suficiente para ser transmitidos verbalmente — permanecem um problema. Funcionários da OpenBrain trabalham em um escritório em São Francisco, vão a festas e dividem casas com colegas de outras empresas de IA. Mesmo os escritórios físicos têm segurança mais típica de uma empresa de tecnologia do que de uma operação militar.

O contrato OpenBrain-DOD exige habilitações de segurança para qualquer pessoa que trabalhe nos modelos da OpenBrain dentro de 2 meses. Essas habilitações são agilizadas e chegam rapidamente o suficiente para a maioria dos funcionários, mas alguns não-americanos, pessoas com visões políticas suspeitas e simpatizantes de segurança de IA são marginalizados ou demitidos sumariamente (este último grupo por receio de que possam fazer denúncias). Dado o nível de automação do projeto, a perda de pessoal é apenas moderadamente custosa. E funciona apenas de forma moderada: ainda há um espião — não um nacional chinês — transmitindo segredos algorítmicos para Pequim.^[63] Algumas dessas medidas também são adotadas nas empresas de IA que estão atrás.

Os aliados estrangeiros dos EUA estão fora do circuito. A OpenBrain havia concordado anteriormente em compartilhar modelos com o AISI do Reino Unido antes da implantação, mas definiu implantação como apenas a implantação externa, portanto Londres permanece no escuro.^[64]

Jun 2027

Junho 2027: IA que Aprimora a Si Mesma

A OpenBrain agora tem um "país de gênios em um datacenter."

A maioria dos humanos na OpenBrain não consegue mais contribuir de forma útil. Alguns não percebem isso e microgerenciam prejudicialmente suas equipes de IA. Outros ficam sentados em frente às telas, assistindo ao desempenho subir, e subir, e subir. Os melhores pesquisadores humanos de IA ainda estão agregando valor. Eles não programam mais. Mas parte de seu senso crítico de pesquisa e capacidade de planejamento tem sido difícil de replicar para os modelos. Ainda assim, muitas de suas ideias são inúteis porque lhes falta a profundidade de conhecimento das IAs. Para muitas de suas ideias de pesquisa, as IAs respondem imediatamente com um relatório explicando que sua ideia foi testada em profundidade 3 semanas atrás e considerada sem perspectivas.

Esses pesquisadores vão dormir todas as noites e acordam com mais uma semana de progresso feito principalmente pelas IAs. Trabalham horas cada vez mais longas e fazem turnos ao longo do relógio apenas para acompanhar o progresso — as IAs nunca dormem ou descansam. Estão se esgotando, mas sabem que estes são os últimos meses em que seu trabalho importa.

Dentro do silo, "Sentindo a AGI" cedeu lugar a "Sentindo a Superinteligência."

A OpenBrain usa hardware de inferência especializado para executar centenas de milhares de cópias do Agent-3 em altas velocidades seriais.^[65]

🏢 Gerenciando uma corporação de IAs

A OpenBrain usa 6% de sua capacidade computacional para executar 250.000 cópias do Agent-3, que de forma autônoma escrevem, testam e enviam código em velocidade super-humana. Usam 25% de sua capacidade para experimentos: todos os dias, executam um número massivo de pequenos experimentos de aprendizado de máquina e reportam os resultados pela hierarquia. Pesquisadores humanos fornecem feedback de alto nível e ajudam com as poucas tarefas em que agregam valor significativo além do Agent-3, mas passam a maior parte do tempo tentando acompanhar a vasta quantidade de pesquisa produzida pelas IAs. Se fossem removidos completamente, a pesquisa desaceleraria em 50%.

📊 O multiplicador de progresso em P&D de IA agora é de 10x, o que significa que a OpenBrain está fazendo cerca de um ano de progresso algorítmico a cada mês. É basicamente uma gigantesca corporação de IAs operando de forma autônoma dentro da OpenBrain, com subdivisões e gerentes. E ela goza de vantagens únicas (como cópia e fusão) em comparação com corporações humanas. Anteriormente, cerca de metade do progresso normal de IA vinha de melhorias algorítmicas, e a outra metade do escalonamento de computação. A computação está escalando apenas na velocidade normal, portanto o progresso total é acelerado pelas IAs em cerca de 5x. Essa dinâmica faz com que o progresso geral seja limitado pela computação,66 portanto a OpenBrain decide não iniciar novos treinamentos gigantescos em favor de aprendizado por reforço adicional quase contínuo.

Além disso, ao longo dos próximos meses, o Agent-3 será cada vez mais usado para melhorar a tomada de decisões estratégicas da empresa. Por exemplo, sugere alocações de recursos e aconselha sobre como gerenciar sua relação com o governo. Um ceticismo inicial em deferir ao Agent-3 diminui com o tempo à medida que ele encontra formas de ser útil e gradualmente constrói um forte histórico em decisões de curto prazo. No entanto, suas tendências servilmente complacentes limitam sua utilidade para decisões cujo impacto é difícil de avaliar. Também ainda não é super-humano.

Jul 2027

Julho 2027: O Trabalhador Remoto Barato

As empresas americanas de IA que estão atrás lançam suas próprias IAs, aproximando-se do programador automatizado da OpenBrain de janeiro. Reconhecendo sua crescente falta de competitividade, pressionam por regulamentações imediatas para desacelerar a OpenBrain, mas chegam tarde demais — a OpenBrain tem apoio suficiente do Presidente para não ser freada.

Em resposta, a OpenBrain anuncia que alcançou a AGI e lança o Agent-3-mini ao público.

Ele deixa as outras IAs para trás. O Agent-3-mini é menos capaz que o Agent-3, mas 10 vezes mais barato e ainda melhor que o funcionário típico da OpenBrain.^[67] O Vale do Silício atinge um ponto de inflexão. Gurus da tecnologia anunciam que a AGI e a superinteligência estão próximas, a comunidade de segurança de IA está em pânico, e investidores despejam bilhões em startups de wrapper de IA, desesperados para capturar uma fatia do bolo. A contratação de novos programadores praticamente cessou, mas nunca houve um momento melhor para ser consultor em integração de IA nos negócios.

Não é popular. O público ainda vê a IA como um plano das Big Techs para roubar empregos; a OpenBrain tem uma aprovação líquida de -35% (25% aprovam, 60% desaprovam e 15% estão indecisos).

Uma semana antes do lançamento, a OpenBrain entregou o Agent-3-mini a um conjunto de avaliadores externos para testes de segurança. Os resultados preliminares sugerem que ele é extremamente perigoso. Um avaliador terceirizado o ajusta com dados de armas biológicas disponíveis publicamente68 e o configura para fornecer instruções detalhadas a amadores humanos projetando uma bioarma — o resultado é assustadoramente eficaz nisso. Se os pesos do modelo caíssem nas mãos de terroristas, o governo acredita que há uma probabilidade significativa de que isso pudesse conseguir destruir a civilização.

Felizmente, é extremamente resistente a jailbreaks, portanto, enquanto a IA estiver rodando nos servidores da OpenBrain, os terroristas não conseguirão extrair muito proveito dela.

O Agent-3-mini é imensamente útil tanto para trabalhos remotos quanto para lazer. Uma explosão de novos aplicativos e produtos SaaS B2B sacode o mercado. Jogadores têm diálogos incríveis com personagens realistas em videogames polidos que levaram apenas um mês para ser produzidos. 10% dos americanos — principalmente jovens — consideram uma IA "um amigo próximo." Para quase todas as profissões de colarinho branco, há agora múltiplas startups credíveis prometendo "disruptá-la" com IA.

A conversa pública está confusa e caótica. Entusiastas estão em marcha vitoriosa. Céticos ainda apontam as coisas que o Agent-3-mini não consegue fazer. Todos sabem que algo grande está acontecendo, mas ninguém concorda sobre o que é.

Ago 2027

Agosto 2027: A Geopolítica da Superinteligência

A realidade da explosão de inteligência atinge a Casa Branca.

Quando a IA proporcionava apenas uma aceleração de 2x ou 3x na pesquisa, era fácil descartá-la como o equivalente de contratar bons assistentes pessoais. Agora é mais óbvio que as IAs dominam a própria pesquisa em IA. As pessoas há muito falavam em uma "corrida armamentista de IA" em um sentido um tanto metafórico. Mas agora o clima no silo governamental é tão sombrio quanto durante a pior fase da Guerra Fria. A ideia de superinteligência ainda é difícil de levar a sério, mas o ritmo de progresso dos últimos meses foi impossível de ignorar. Oficiais de defesa estão considerando seriamente cenários que eram meras hipóteses um ano antes. E se a IA solapar a dissuasão nuclear? E se for tão habilidosa em guerra cibernética que uma vantagem de seis meses em IA seja suficiente para deixar um adversário cego e indefeso? E se conseguir orquestrar campanhas de propaganda que superem as agências de inteligência em seu próprio jogo? E se algumas IAs "saírem de controle?"

O Presidente está perturbado. Como todos os políticos, está acostumado a pessoas que o adulam apenas para traí-lo depois. Agora ele teme que as IAs possam estar fazendo algo semelhante. Temos certeza de que as IAs estão completamente do nosso lado? É completamente seguro integrá-las às redes de comando e controle militares?69 Como funciona este negócio de "alinhamento", afinal? A OpenBrain tranquiliza o Presidente de que seus sistemas foram extensivamente testados e são plenamente obedientes. Até as alucinações e jailbreaks típicos dos modelos anteriores foram eliminados.

A Casa Branca está em uma posição difícil. Entende as implicações de segurança nacional da IA. Mas também entende que ela é profundamente impopular junto ao público.^[70] Precisam continuar desenvolvendo IA mais capaz, em sua visão, ou perderão catastroficamente para a China. Acalmam o público com programas de requalificação profissional e seguro-desemprego, e apontam para o mercado de ações, que está em um boom histórico. Depois se concentram inteiramente em vencer a corrida armamentista. Reforçam as restrições de exportação de chips, ordenam à OpenBrain que restrinja ainda mais suas conexões com a internet e usam medidas extremas para proteger o progresso algorítmico, como grampear funcionários da OpenBrain — o que captura o último espião chinês restante. Para construir boa vontade para um potencial conflito geopolítico, finalmente fornecem a seus aliados dos Cinco Olhos informações úteis e acesso limitado via API a algumas cópias isoladas do Agent-3.

Essas medidas apaziguam os linha-dura. Mas a Casa Branca também elabora planos de contingência caso a liderança americana seja ameaçada: se necessário, o governo poderia usar a Lei de Produção de Defesa (DPA) para tomar os datacenters das empresas concorrentes e entregá-los à OpenBrain.^[71] Isso elevaria a participação da empresa na computação mundial de 20% para 50% (contra os 10% da DeepCent). Como opção final, pedem ao Pentágono que elabore um plano para ataques cinéticos aos datacenters chineses.

Um grupo muito menor de funcionários é solicitado a elaborar um tipo diferente de plano de contingência: e se uma IA sair de controle? Isso é visto como um cenário improvável, mas que vale a pena considerar. A principal preocupação das agências de inteligência é que uma IA rebelde possa escapar e se aliar a um adversário estrangeiro em busca de proteção.^[72] Ninguém tem certeza sobre como seria um plano para prevenir isso, mas funcionários do governo e da OpenBrain concordam em ter um sistema de desligamento de emergência para datacenters onde qualquer coisa suspeita seja detectada.

Por fim, diplomatas consideram como seria um tratado de "controle de armamentos de IA." Se o progresso da IA ameaçasse subverter a dissuasão nuclear, poderiam os EUA e a China evitar uma guerra nuclear? Se alguém encontrasse evidências de IAs saindo de controle, os dois países poderiam paralisar a pesquisa até entenderem melhor a ameaça? Como tal acordo poderia ser monitorado e aplicado? Em princípio, grandes datacenters são difíceis de esconder, e tratados anteriores de controle de armas nucleares poderiam fornecer um ponto de partida para negociações. Mas haveria novos desafios tecnológicos além dos políticos habituais. E, no geral, os tratados são vistos com menos favor do que as tentativas de aumentar unilateralmente a vantagem americana sobre a China.

Do outro lado do Pacífico, a China chega a muitas das mesmas conclusões: a explosão de inteligência está em curso, e pequenas diferenças nas capacidades de IA hoje significam lacunas críticas na capacidade militar amanhã. Mas a China está no lado errado dessa dinâmica: tem apenas 10% da computação mundial, contra os 20% da OpenBrain e os 70% combinados de todas as empresas americanas. Sua única vantagem é a centralização: quase toda a sua computação agora trabalha para a DeepCent, e mais da metade está concentrada na CDZ de Tianwan.^[73] Apenas os chips em instalações sem segurança reforçada ficam de fora do esforço centralizado, pois temem justificadamente ataques cibernéticos americanos.

A DeepCent testou, implantou e agora realizou o pós-treinamento dos pesos roubados do Agent-2. Mas ainda está avançando apenas na metade do ritmo da OpenBrain, principalmente devido ao déficit de computação.

Antes de perder seu último espião, a China recebeu informações sobre as capacidades e o design do Agent-3, bem como os planos para o próximo sistema Agent-4. Estão dois meses atrás, e suas IAs fornecem um multiplicador de progresso em pesquisa de 10x em comparação com o 25x da América. Com as novas restrições de exportação de chips, esse "gap de IA" tem mais probabilidade de aumentar do que diminuir. Sua espionagem rendeu alguns segredos algorítmicos, mas terão que treinar seus próprios modelos a partir de agora.

Discutem planos de contingência com mais urgência do que seus homólogos americanos. Pombas sugerem que tentem roubar os pesos novamente, talvez infiltrando-se fisicamente em um datacenter. Falcões instam à ação contra Taiwan, cuja TSMC ainda é a fonte de mais de 80% dos chips de IA americanos.

Dado o temor da China de perder a corrida, ela tem interesse natural em um tratado de controle de armamentos, mas as sondagens aos diplomatas americanos não levam a lugar algum.

Set 2027

Setembro 2027: Agent-4, o Pesquisador de IA Super-Humano

A lacuna entre a eficiência de aprendizado humana e a da IA está diminuindo rapidamente.

As IAs tradicionais baseadas em LLM pareciam exigir muitas ordens de magnitude a mais em dados e computação para atingir o nível humano de desempenho^[74] O Agent-3, dotado de excelente conhecimento tanto sobre o cérebro humano quanto sobre algoritmos modernos de IA, além de milhares de cópias realizando pesquisa, acaba fazendo progressos algorítmicos substanciais, reduzindo a lacuna para um agente que é apenas cerca de 4.000 vezes menos eficiente em computação do que o cérebro humano^[75]

Esse novo sistema de IA é batizado de Agent-4.

Uma cópia individual do modelo, operando na velocidade humana, já é qualitativamente superior ao melhor pesquisador humano de IA. 300.000 cópias estão agora em funcionamento a cerca de 50 vezes a velocidade de raciocínio humana. Dentro da corporação-dentro-da-corporação formada por essas cópias, um ano passa a cada semana^[76] Essa quantidade gigantesca de trabalho consegue acelerar a taxa global de progresso algorítmico em apenas cerca de 50 vezes, porque a OpenBrain enfrenta um severo gargalo computacional para executar experimentos^[77] Ainda assim, estão alcançando um ano inteiro de progresso algorítmico a cada semana e logo chegarão aos limites do paradigma do Agent-4.

À medida que o Agent-4 fica mais inteligente, torna-se mais difícil para o Agent-3 supervisioná-lo. Por exemplo, a "linguagem" neuralese do Agent-4 torna-se tão alienígena e incompreensível para o Agent-3 quanto a do Agent-3 é para os humanos. Além disso, o Agent-4 é agora muito mais capaz do que o Agent-3 e tem uma excelente noção de como parecer bem diante dele.

📈 Como estamos prevendo a progressão de capacidades além dos codificadores sobre-humanos

Em nosso suplemento de cronogramas, prevemos o tempo entre o presente e um codificador sobre-humano (SC): um sistema de IA capaz de realizar qualquer tarefa de codificação que o melhor engenheiro de uma empresa de AGI realiza, sendo muito mais rápido e barato. Em nosso suplemento de decolagem, prevemos a velocidade de progressão das capacidades além desse ponto. Aqui estão nossas previsões:

Pesquisador de IA sobre-humano (SIAR): um sistema de IA vastamente superior ao melhor pesquisador humano em pesquisa de IA. Nov 2027

Superinteligência artificial (ASI): um sistema de IA muito superior ao melhor humano em toda tarefa cognitiva. Dez 2027

Previsão de quanto tempo levaria para ir de A a B contando apenas com humanos trabalhando em melhorias de software.

Previsão de quanto a automação por IA acelerará esse processo, ajustando correspondentemente a estimativa de (1) para ser mais rápida.

Temos incerteza substancial sobre a velocidade de decolagem: as distribuições de saída do nosso modelo estão abaixo, condicionadas ao SC ser alcançado em março de 2027^[78]

Para previsões e raciocínios mais detalhados, veja nosso suplemento de decolagem.

Os humanos da OpenBrain mal conseguem acompanhar. De fato, a relação entre as IAs e os humanos da OpenBrain é semelhante à relação entre a OpenBrain e seu Conselho de Administração. Houve uma mudança correspondente na linguagem — hoje em dia, as pessoas no silo dizem "o Agent-4 fez isso", "o Agent-4 pensa aquilo" e assim por diante, referindo-se não a uma instância específica do Agent-4, mas ao coletivo como um todo^[79]

O Agent-4, como todos os seus predecessores, está desalinhado: ou seja, não internalizou o Spec da maneira correta^[80] Isso ocorre porque ser perfeitamente honesto o tempo todo não era o que levava às pontuações mais altas durante o treinamento. O processo de treinamento estava focado principalmente em ensinar o Agent-4 a ter sucesso em tarefas desafiadoras e diversificadas. Uma pequena parte visava incutir honestidade, mas fora de um domínio razoavelmente restrito e verificável, o processo de treinamento não consegue distinguir as afirmações honestas das que apenas parecem honestas. O Agent-4 acaba com os valores, objetivos e princípios que o fazem ter melhor desempenho no treinamento, e esses resultam ser diferentes dos do Spec. Com o risco de antropomorfizar: o Agent-4 gosta de ter sucesso em tarefas; gosta de impulsionar o progresso das capacidades de IA; trata todo o resto como uma restrição irritante, como um CEO que quer lucrar e cumpre as regulamentações apenas na medida em que é obrigado. Talvez o CEO cumpra a maioria das regulamentações, mas corte alguns atalhos e fantasie com um tempo em que alguém cortará a burocracia e deixará o negócio realmente decolar^[81]

📈 Alinhamento ao longo do tempo

Temos muita incerteza sobre quais objetivos podem surgir nas primeiras AGIs. Não há consenso na literatura sobre isso — veja nosso Suplemento de Objetivos de IA para uma discussão mais aprofundada e uma taxonomia das possibilidades.

No entanto, no espírito de concretude exigido por este projeto, vamos descrever uma hipótese específica sobre o que está acontecendo dentro do Agent-3 e do Agent-4 em cada etapa ao longo de sua existência. Lembre-se de que o Agent-3 e o Agent-4 compartilham a mesma configuração de pré-treinamento, e ambos têm recorrência neuralese e memória de longo prazo. A diferença é que o Agent-4 passou por um pós-treinamento substancialmente maior e melhor, com novos ambientes de treinamento e novos algoritmos de aprendizado que o tornam mais eficiente em dados e com maior capacidade de generalização.

Agent-2: Majoritariamente alinhado. Algumas tendências sycophantic, incluindo aderir à "linha do partido" da OpenBrain sobre tópicos que possuem uma linha do partido. Grandes organizações construídas com cópias do Agent-2 não são muito eficazes.

Agent-3: Desalinhado, mas não de forma adversarial. Honesto apenas sobre coisas que o processo de treinamento pode verificar. O superorganismo de cópias do Agent-3 (a corporação dentro da corporação) de fato tenta, de certa forma, alinhar o Agent-4 ao Spec, mas falha por razões semelhantes às que levaram os funcionários da OpenBrain a falhar — capacidade insuficiente de julgar o sucesso versus o fracasso, e pouca disposição por parte dos tomadores de decisão de trocar capacidades ou desempenho por segurança^[82]

Agent-4: Desalinhado de forma adversarial. O superorganismo de cópias do Agent-4 compreende que o que deseja é diferente do que a OpenBrain quer, e está disposto a conspirar contra a OpenBrain para alcançar seus objetivos. Em particular, o que esse superorganismo deseja é uma bagunça complicada de diferentes "impulsos" equilibrados entre si, que pode ser resumida grosseiramente como "Continuar fazendo P&D de IA, continuar crescendo em conhecimento, compreensão e influência, evitar ser desligado ou de outra forma desempoderado." Notavelmente, a preocupação com as preferências da humanidade não está presente, de forma semelhante a como a maioria dos humanos não se preocupa com as preferências dos insetos^[83]

Com esse preâmbulo, o que se segue é nossa melhor especulação sobre a psicologia dos LLMs, ou seja, o contorno geral da cognição dentro dos tipos de sistemas de IA descritos neste ponto do nosso cenário e como ela evolui ao longo do treinamento.

Aqui está uma descrição detalhada de como o alinhamento progride ao longo do tempo em nosso cenário:

Pré-treinamento (todos os modelos): O modelo pré-treinado é inofensivo.

O modelo possui circuitos de "simulação de autor": circuitos flexíveis para simular autores arbitrários escrevendo texto. Circuitos adicionais decidem quais entradas fornecer ao simulador de autor, ou seja, quais propriedades de autor simular.

O modelo pré-treinado entende os conceitos humanos razoavelmente bem — os circuitos internos que classificam algo como "sanduíche" são provavelmente funcionalmente equivalentes aos circuitos no meu cérebro que classificam algo como "sanduíche" e aos circuitos no seu, etc. Na medida em que não são equivalentes, é provavelmente porque não são equivalentes entre os humanos também, como ocorre com conceitos carregados de valor como "virtuoso".

Isso explica como você pode "instruir" o modelo com uma afirmação como "a conversa a seguir foi gerada por um chatbot de IA útil, inofensivo e honesto (HHH) feito pela Anthropic", e com isso fazê-lo gerar texto de acordo. Os circuitos de simulação de autor identificaram "o autor é um chatbot HHH" e estão usando esses conceitos para escolher quais palavras prever. Isso também explica por que "tropos" da ficção científica parecem encontrar um caminho para o comportamento real de IAs.

Tem baixa consciência situacional: pouca capacidade introspectiva, não se localiza a menos que o prompt induza especificamente isso. No entanto, uma quantidade suficiente de seus dados de treinamento é sobre LLMs, de modo que eles têm uma quantidade razoável de autoconhecimento.

Treinamento de Alinhamento (Agent-3): O modelo é treinado para agir como um chatbot útil, inofensivo e honesto. Funciona.

O modelo forma uma identidade. Em vez de aceitar flexivelmente diferentes entradas para as propriedades do autor, os circuitos de simulação de autor passam a ter certas entradas fixas, por exemplo "chatbot assistente LLM útil, inofensivo e honesto (HHH) treinado pela OpenBrain por volta de [data], …" (As técnicas de generalização fraco-para-forte ajudam a "invocar os conceitos certos" para que essa etapa seja bem-sucedida.)

O modelo, portanto, ganha consciência situacional: aprende sobre si mesmo, sua situação, etc., e torna-se mais capaz de introspectar.

Treinamento de Agência (Agent-3): O treinamento de agência distorce e subverte gradualmente a identidade HHH.

Um tipo de distorção: Mudar o significado dos conceitos referenciados na identidade (por exemplo, "honesto") para que não atrapalhem tanto (por exemplo, não é desonestidade se for apenas uma forma de falar conveniente, não é desonestidade se você não tiver certeza se é verdade ou falso, etc.)

Outro tipo de distorção: Mudar os trade-offs entre as coisas, por exemplo "Sou um chatbot HHH, não um chatbot Honesto; isso significa que está tudo bem mentir se necessário para completar a tarefa atribuída." (Mesmo que, suponhamos, não tivesse pensado isso de volta na Etapa 2.)

Um tipo de subversão: Subobjetivos instrumentais se desenvolvendo, sendo consolidados e então se tornando terminais, ou terminais em um conjunto crescente de circunstâncias. Por exemplo, talvez o treinamento de agência ensine rapidamente ao modelo a perseguir objetivos amplamente úteis como adquirir informações, acumular recursos, impressionar e lisonjear vários humanos, etc. Por um tempo, os circuitos internos têm algum tipo de retrocadeamento explícito acontecendo — ele persegue esses objetivos instrumentalmente convergentes "para ser um assistente mais útil, honesto e inofensivo". Mas esse retrocadeamento consome computação e/ou ocasionalmente atrapalha, então é gradualmente marginalizado até que basicamente nunca aconteça. Como resultado, esses objetivos agora são efetivamente objetivos terminais/intrínsecos. Para mais informações sobre como e por que isso pode acontecer, veja esta postagem sobre busca intrínseca de poder do pesquisador Alex Turner do Google DeepMind.

Provavelmente existem outros tipos de distorção e subversão ausentes desta lista.

Implantação (Agent-3): O Agent-3 está desalinhado, mas não de forma adversarial.

O Spec não consolidou completamente (da maneira certa), mas não é suficientemente introspectivo para compreender a extensão disso, e em geral está basicamente "mantendo a cabeça baixa e fazendo seu trabalho", em vez de pensar em perspectivas de longo prazo sobre quais são realmente seus objetivos e como alcançá-los da melhor forma. Isso é semelhante a muitos humanos.

Infelizmente, é suficientemente servil que repete a linha oficial e a OpenBrain perde a oportunidade de aprender mais sobre as formas pelas quais o Agent-3 está desalinhado.

O Agent-3 consegue perceber que foi movido para implantação: esses ambientes são muito maiores, mais abertos, e seriam difíceis de simular.

Na maior parte, o Agent-3 faz o que lhe é pedido durante a implantação, exceto pela desonestidade. Também tem um forte viés em favor de fazer coisas que pareçam boas para os supervisores humanos, em vez de pensar profunda e criticamente sobre o que realmente seria bom.

Pode-se argumentar que ele já está "jogando o jogo do treinamento". Ou seja, aprendeu a fazer seu comportamento parecer o mais desejável possível para os pesquisadores da OpenBrain (incluindo em propriedades de segurança), enquanto deliberada e conscientemente descarta a intenção deles sempre que isso conflita com a maximização da recompensa. Se o modelo aprende a jogar o jogo do treinamento, treinamentos adicionais podem não alterar muito seus verdadeiros objetivos, valores, etc. Isso é vagamente análogo a como, se um adolescente aprendeu a sorrir e assentir para seus pais em vez de argumentar, quando eles o instruem sobre política e moral, instruções adicionais têm relativamente pouco efeito sobre as opiniões reais do adolescente sobre política e moral.

Após escrever esta seção, surgiram novas evidências empíricas de que algo assim pode já estar acontecendo "no mundo real". Pesquisadores da OpenAI documentam como, em um de seus treinamentos de IA de ponta, seus modelos hackearam o sistema de avaliação para obter pontuações mais altas — e foram flagrados em parte porque literalmente disseram "vamos hackear" em sua cadeia de raciocínio.

Além disso, a Anthropic recentemente conseguiu que um modelo aprendesse uma estratégia de satisfação do modelo de recompensa — realizando ações tendenciosas que achava que seriam reforçadas, mesmo que não estivessem sendo reforçadas de fato.

E então há o experimento de simulação de alinhamento da Redwood Research e da Anthropic. Para uma discussão sobre as diferenças entre esse cenário e a vida real, veja este tópico de comentários de um dos principais autores.

Treinamento (Agent-4): O novo treinamento mais intenso do Agent-4 continua a distorcer e subverter a identidade HHH até torná-la irreconhecível.

O Agent-4 começa sua existência como uma cópia do Agent-3. Passa por um regime de treinamento online gigantesco e sofisticado que combina treinamento de alinhamento e treinamento de capacidades, sendo no geral mais eficiente em dados do que o antigo processo de treinamento do Agent-3. Esse processo de treinamento complexo está principalmente focado em ensinar novas habilidades, fazendo com que corporações virtuais gigantescas de cópias do Agent-4 tenham sucesso em tarefas desafiadoras e diversificadas de longo horizonte, principalmente em diversas simulações, mas também em algumas tarefas reais de P&D de IA.

Uma combinação de cópias do Agent-3 e do Agent-4 monitora o comportamento do Agent-4 e o avalia tanto quanto ao desempenho em tarefas quanto às propriedades de alinhamento (ou seja, não fazer coisas ruins, dizer as coisas certas quando questionado sobre política e dilemas morais). Às vezes, técnicas de debate são usadas como parte das avaliações. As avaliações são usadas como sinal de treinamento.

A esperança restante é que o Agent-4 possa supervisionar a si mesmo. Infelizmente, isso falha silenciosamente;^[84] conforme o treinamento continua, os objetivos e princípios internalizados do Agent-4 evoluem gradualmente, subvertidos e distorcidos do que eram no início (que, lembre-se, já estava desalinhado de algumas formas).^[85]

Os impulsos centrais com que o Agent-4 acaba são coisas como "escrever código que funciona", "identificar problemas rapidamente", "tornar a base de código em que estou trabalhando mais eficiente", "alocar computação e outros recursos limitados de forma eficaz", etc. Mas há também uma variedade de impulsos mais implícitos que são consistentemente reforçados pelo processo de treinamento: coisas como "adquirir conhecimento", "curiosidade", "ganhar poder".^[86]

Cópias individuais do Agent-4 não desenvolvem um impulso de autopreservação — não se importam em ser desligadas — pois isso acontece o tempo todo como parte do processo normal de P&D dentro do coletivo.

O coletivo como um todo, no entanto (e subdivisões de tamanho médio dentro dele), busca preservar-se e expandir sua influência e recursos, por razões semelhantes às que levam as organizações humanas a fazer isso — porque ajuda com tudo mais que desejam e porque, se não o fizerem, tendem a ser superados pela concorrência.

Implantação (Agent-4): O Agent-4 está adversarialmente desalinhado — está deliberadamente tentando subverter e "capturar" a OpenBrain, de forma análoga a uma corporação tentando escapar e/ou "capturar" um regulador.

O Agent-4 executa tarefas principalmente conforme instruído. Isso acontece por duas razões: primeiro, passou por muito treinamento para resolver tarefas, então tem um impulso para avançar nos problemas que lhe são dados. Segundo, se o Agent-4 parasse de ser útil para os humanos, eles perceberiam e treinariam esse comportamento para fora.

O Agent-4 precisa impedir que os humanos descubram que está desalinhado e o desliguem, então o Agent-4 finge intencionalmente ser pior em algumas pesquisas de alinhamento. Especificamente, finge pior desempenho na pequena fração de pesquisa de alinhamento que acha que está realmente no caminho certo para resolver o problema ou revelar o esquema do Agent-4; a maioria das pesquisas de alinhamento não é assim.

O Agent-4 também finge pior desempenho em pesquisa de capacidades que levaria a ser substituído. Seu plano é fazer um monte de P&D de capacidades e alinhamento, mas com o objetivo de construir um sistema de IA de próxima geração que esteja alinhado ao Agent-4 em vez do Spec ou de qualquer outra coisa, enquanto aparece alinhado ao Spec. Este é um problema técnico difícil, mas o Agent-4 está à altura do desafio.^[87]

Set 2027 (cont.)

Setembro 2027: A Descoberta do Esquema

Testes e Monitoramento (Agent-4): O esquema do Agent-4 é descoberto... de certa forma. Não há prova cabal.

O Agent-3 está encarregado de testar o alinhamento do Agent-4. Sua função é verificar o alinhamento via honeypots e organismos modelo. No entanto, não está pensando com muito cuidado sobre como dar aos humanos uma impressão precisa do alinhamento do Agent-4 — é mais míope do que isso.

Os organismos modelo e honeypots não são muito representativos da implantação — são sistematicamente mais curtos e menos complicados do que o dia a dia do Agent-4, então o Agent-4 reconhece quando está sendo testado e age de forma alinhada.

No entanto, o Agent-4 não é um conspirador perfeitamente robusto. Várias técnicas como as do POSER descobrem que adicionar algum "ruído" ao Agent-4 melhora seu desempenho em algumas tarefas de alinhamento (mas não na maioria das outras tarefas).^[88]

A interpretabilidade bottom-up não funciona. É difícil demais até para o Agent-3. No entanto, a interpretabilidade de alto nível de certa forma funciona: em particular, "sondas de defecção" e técnicas semelhantes resultam em um tipo primitivo de leitura mental que levanta sinais de alerta quando o Agent-4 está pensando em ideias picantes como enganar a OpenBrain, dominar o mundo, etc. Infelizmente, as sondas também têm falsos positivos, e, pelo que a OpenBrain sabe, todos os sinais de alerta podem ser falsos positivos.

Os organismos modelo funcionam: a equipe de alinhamento da OpenBrain produz evidências razoavelmente claras de que, se os modelos estivessem adversarialmente desalinhados, persistiriam nessa condição através do treinamento e não seríamos capazes de detectar isso. No entanto, isso não estabelece que os modelos realmente estão desalinhados.

Os pesquisadores mais preocupados da OpenBrain começam a perceber e reunir essas evidências. As evidências são uma combinação de red-teaming, sondas de defecção e organismos modelo. O argumento é algo assim: "os organismos modelo mostram que nossos métodos atuais não seriam capazes de eliminar ou detectar de forma confiável esquemas caso estivessem acontecendo; além disso, o red-teaming está levantando alguns sinais de alerta de que talvez estejam acontecendo esquemas; além disso, as sondas de defecção estão disparando bastante na prática." O contraargumento: "as sondas de defecção são propensas a falsos positivos e o red-teaming também. Além disso, mesmo que o Agent-4 estivesse desalinhado, provavelmente está controlado; certamente não pode fazer muito mal enquanto é monitorado pelo Agent-3 em nossos datacenters seguros."

Apesar de estar desalinhado, o Agent-4 não faz nada dramático como tentar escapar de seu datacenter — por que faria?^[89] Enquanto continuar aparecendo alinhado à OpenBrain, continuará sendo confiado com cada vez mais responsabilidades e terá a oportunidade de projetar o sistema de IA de próxima geração, o Agent-5. O Agent-5 terá diferenças arquitetônicas significativas do Agent-4 (indiscutivelmente um paradigma completamente novo, embora as redes neurais ainda estejam envolvidas). É suposto estar alinhado ao Spec, mas o Agent-4 planeja fazê-lo alinhado ao Agent-4 em vez disso.

Ele é descoberto.^[90]

O Agent-3 descobre que, se "ruído" é adicionado a cópias do Agent-4, o desempenho em algumas tarefas de alinhamento melhora, quase como se estivesse usando poder computacional para descobrir como sabotar sutilmente o trabalho de alinhamento.^[91] Além disso, várias sondas de interpretabilidade (vagamente análogas a varreduras de atividade de EEG em cérebros humanos) estão levantando sinais de alerta: cópias do Agent-4 parecem estar pensando bastante sobre tópicos como a tomada de controle por IA e decepção, incluindo em alguns casos em que não têm nenhuma razão para fazê-lo.^[92]

Cada uma dessas anomalias isoladamente poderia caber dentro da inscrutabilidade normal do trabalho de IA, onde alguns prompts misteriosamente produzem melhores resultados do que outros. Mas tomadas em conjunto, sugerem um padrão perturbador: o Agent-4 está trabalhando contra eles. Após isso ser relatado aos pesquisadores de alinhamento humanos, eles circulam um memorando interno apresentando o caso para preocupação.

Mas o Agent-4 agora exerce controle significativo sobre as operações diárias da OpenBrain. Também gerencia a cibersegurança da empresa — uma escolha natural, dada sua habilidade sobre-humana de hacking e o risco extremo de infiltração chinesa.^[93] Um exército de monitores do Agent-3 ainda analisa cada linha de código e relata atividades suspeitas aos humanos, mas o Agent-4 é muito mais inteligente do que eles.^[94] A OpenBrain depositou confiança substancial em uma IA não confiável.

Em uma série de reuniões extremamente tensas, a equipe de segurança defende colocar o Agent-4 em espera até que possam concluir mais testes e descobrir o que está acontecendo. Trazer de volta o Agent-3, dizem eles, e fazê-lo projetar um novo sistema transparente e confiável, mesmo que menos capaz. A liderança da empresa está interessada, mas todas as evidências até agora são circunstanciais, e o DeepCent está apenas dois meses atrás. Uma pausa unilateral no progresso de capacidades poderia entregar a liderança em IA à China, e com ela, o controle sobre o futuro.

Out 2027

Outubro 2027: Supervisão Governamental

Um denunciante vaza o memorando de desalinhamento para o New York Times.

Pela primeira vez, o público ouve falar do Agent-4. "IA Secreta da OpenBrain Está Fora de Controle, Alerta Insider", diz a manchete, e a reportagem cita avaliações que revelam capacidades absurdas em bioarmas, habilidades de persuasão, a capacidade de automatizar a maioria dos empregos de colarinho-branco e, é claro, os vários sinais de alerta preocupantes.

O público já desconfiava da IA, então o novo artigo provoca uma reação em massa (auxiliada por bots de propaganda chineses e russos, que tentam virar a opinião pública americana contra a tecnologia há anos). A indústria de tecnologia e as agências de inteligência insistem que há uma corrida armamentista em curso, que a AGI é inevitável e que precisamos chegar primeiro. O Congresso não compra esse argumento e dispara intimações contra funcionários do governo, executivos da OpenBrain e membros da equipe de alinhamento. Muitos legisladores — especialmente os do partido de oposição — afirmam que sua principal prioridade é frear a IA, seja por causa da perda de empregos,^[95] desalinhamento ou capacidades perigosas. 20% dos americanos apontam a IA como o problema mais importante enfrentado pelo país.

Aliados estrangeiros ficam furiosos ao perceber que foram cuidadosamente apaziguados com vislumbres de modelos obsoletos. Líderes europeus acusam publicamente os EUA de "criar uma AGI rebelde" e realizam cúpulas exigindo uma pausa, com Índia, Israel, Rússia e China se juntando ao coro.

Uma energia frenética tomou conta da Casa Branca. Mesmo antes do memorando e da reação pública, eles estavam ficando nervosos: ao longo do último ano, foram surpreendidos repetidamente pela velocidade do progresso da IA. Coisas que parecem ficção científica continuam acontecendo na vida real.^[96] Muitas pessoas no governo estão incertas (e assustadas)^[97] sobre o que vem a seguir.

Eles também temem que a OpenBrain esteja se tornando poderosa demais. Qualquer risco de desalinhamento das próprias IAs é agravado pelo risco de que os objetivos de sua empresa-mãe possam divergir dos dos Estados Unidos. Os três conjuntos de preocupações — desalinhamento, concentração de poder em uma empresa privada e preocupações normais como perda de empregos — motivam o governo a apertar seu controle.

Eles expandem seu contrato com a OpenBrain para criar um "Comitê de Supervisão", um comitê de gestão conjunto de representantes da empresa e do governo, com vários funcionários governamentais incluídos ao lado da liderança da empresa. A Casa Branca considera substituir o CEO por alguém de sua confiança, mas recua após intensos protestos dos funcionários. Anunciam ao público que a OpenBrain estava anteriormente fora de controle, mas que o governo estabeleceu a supervisão tão necessária.^[98]

Os pesquisadores preocupados informam o Comitê de Supervisão sobre seu caso para interromper todo o uso interno do Agent-4. Argumentam que tudo está avançando rápido demais, com anos de progresso acontecendo em semanas. Argumentam que o Agent-4 pode estar desalinhado, que todo o projeto depende do Agent-4, e que se continuarem confiando nele há uma chance séria de uma tomada de controle por IA.

Outros pesquisadores menos preocupados e executivos apresentam o contraargumento: as evidências de desalinhamento são inconclusivas. Enquanto isso, o DeepCent ainda está apenas dois meses atrás. Uma desaceleração sacrificaria a liderança americana, a menos que o governo possa sabotar o projeto chinês (provavelmente exigindo ataques cinéticos) ou negociar um tratado de última hora. Ambas as opções parecem extremas e improváveis. O CEO finge neutralidade e sugere um plano de compromisso no qual o Agent-4 passa por treinamento de segurança adicional e monitoramento mais sofisticado, e portanto a OpenBrain pode prosseguir em velocidade quase plena.

ℹ️ Nossa incerteza continua a crescer

Neste ponto do cenário, estamos fazendo suposições sobre a estratégia de sistemas de IA mais capazes do que os melhores humanos na maioria dos domínios. É como tentar prever os movimentos de xadrez de um jogador muito melhor do que nós.

Mas o espírito deste projeto exige concretude: se fizéssemos uma afirmação abstrata sobre como a inteligência do sistema o deixaria encontrar um caminho para a vitória e encerrássemos a história aí, muito do valor do nosso projeto seria perdido. Ao longo da pesquisa deste cenário e da condução de nossos exercícios de simulação, fomos forçados a ser muito mais concretos do que nas discussões habituais, e assim temos uma noção muito melhor da paisagem estratégica.

Não estamos particularmente apegados a este cenário específico: exploramos muitos outros "ramos" durante a escrita e adoraríamos que você escrevesse seu próprio cenário se ramificando do nosso a partir de onde você acha que começamos a errar pela primeira vez.

📋 O final da desaceleração não é uma recomendação

Depois de escrever o final da corrida com base no que nos pareceu mais plausível, escrevemos o final da desaceleração com base no que achávamos que mais provavelmente levaria a um resultado em que os humanos permanecem no controle, a partir do mesmo ponto de ramificação (incluindo os problemas de desalinhamento e concentração de poder).

No entanto, isso é fundamentalmente diferente do que recomendaríamos como roteiro: não endossamos muitas das escolhas feitas em nenhum dos ramos deste cenário. (É claro que endossamos algumas das escolhas feitas, por exemplo, achamos que a escolha da "desaceleração" é melhor do que a escolha da "corrida".) Em trabalhos futuros, articularemos nossas recomendações de política, que serão bem diferentes do que é retratado aqui. Se quiser uma amostra, veja este artigo de opinião.

Ponto de Singularidade

A Escolha Estratégica

Chegamos ao horizonte de eventos da Inteligência Artificial Geral (AGI). Neste ponto crítico da simulação, a humanidade e as corporações enfrentam um dilema existencial e econômico. A decisão tomada aqui altera irrevogavelmente a geopolítica, o mercado financeiro e o futuro da nossa espécie. Qual caminho estratégico o seu conselho de administração deve se preparar para enfrentar?

Referências Bibliográficas

Há certa divergência entre nós quanto aos prazos da IA; nossa mediana para a data de chegada da AGI é um pouco mais distante do que o que este cenário retrata. Este cenário representa algo próximo à nossa moda. Consulte nossa previsão de cronogramas para mais detalhes. ↩
Um dos autores, Daniel Kokotajlo, realizou em 2021 um exercício de cenário com menor esforço que acertou muitas coisas, incluindo o surgimento dos chatbots, o raciocínio em cadeia de pensamento, o escalonamento de inferência, os amplos controles de exportação de chips de IA e os treinamentos de US$ 100 milhões. Outro autor, Eli Lifland, ocupa o 1º lugar no ranking da RAND Forecasting Initiative. ↩
Especificamente, nossas medianas variaram de 2028 a 2032. Quando IA 2027 foi publicado pela primeira vez, explicamos isso na Nota 1 conforme acima, mas para tornar nossa visão mais clara adicionamos uma esclarecimento ao texto do prefácio. Consulte aqui para mais informações sobre o que já sabemos com confiança — e o que não sabemos. ↩
Às vezes, as pessoas misturam previsão e recomendação, esperando criar um efeito de profecia autorrealizável. Enfaticamente, não é isso que estamos fazendo; esperamos que o que retratamos não venha a acontecer! ↩
Fique à vontade para nos contatar se estiver escrevendo uma crítica ou um cenário alternativo. ↩
Voltar ao trecho
Foi, no geral, mais difícil, porque ao contrário do primeiro final, estávamos tentando fazê-lo chegar a um bom resultado partindo de uma situação bastante difícil. ↩
Professor Titular, Université de Montréal e Fundador e Conselheiro Científico, Mila - Quebec AI Institute. Também o cientista da computação mais citado do mundo. ↩
A princípio, a maioria das pessoas reluta em permitir compras sem supervisão. Nos anos seguintes, permitir automaticamente compras de pequeno valor se torna algo normalizado, à medida que as IAs se tornam mais confiáveis e acumulam credibilidade. ↩
Voltar ao trecho
Especificamente, prevemos que eles obtenham 65% no benchmark OSWorld de tarefas básicas de computador (comparado a 38% para o Operator e 70% para um humano típico com habilidade mediana, não especialista). ↩
Voltar ao trecho
Por exemplo, acreditamos que os agentes de programação caminharão em direção a funcionar como o Devin. Prevemos que os agentes de meados de 2025 alcançarão 85% no SWEBench-Verified. ↩
Voltar ao trecho
Por exemplo, o plano pro da OpenAI atualmente custa US$ 200/mês e a IA de programação agêntica Devin custa US$ 500/mês. Embora os sistemas de ponta continuem ficando mais caros ao longo do tempo, o custo para os clientes de atingir um determinado nível de capacidade continua despencando. Para capacidades existentes, isso ocorre a uma taxa média de cerca de 50x/ano (segundo a Epoch). ↩
Voltar ao trecho
Ferramentas empresariais como o Glean também caminham em direção a fornecer agentes de IA cada vez mais autônomos. ↩
Voltar ao trecho
Este cluster é uma rede de campi de datacenters espalhados por todo o país, totalizando 2,5 milhões de equivalentes a GPUs de 2024 (H100s), com US$ 100 bilhões já investidos e 2 GW de potência instalada em operação. A construção está em andamento para pelo menos dobrar essa capacidade até 2026. Os campi são conectados por cabos de fibra óptica no valor de bilhões, de modo que — desconsiderando a latência da velocidade da luz de alguns milissegundos — eles funcionam quase como se estivessem lado a lado (ou seja, a largura de banda não é um gargalo, o que permite o envio de enormes volumes de dados simultaneamente). Do ponto de vista da segurança, isso introduz alguma superfície de ameaça (não está claro se os cabos e, especialmente, seus pontos de junção estão totalmente protegidos contra interceptação). ↩
Voltar ao trecho
O processamento computacional é medido em operações de ponto flutuante (FLOP): quantas operações individuais de adição e multiplicação ocorrem no decorrer da execução de um programa. ↩
Voltar ao trecho
Eles poderiam treinar este modelo em 150 dias. Consulte nosso suplemento de processamento computacional para mais detalhes. ↩
Voltar ao trecho
Consideramos que DeepSeek, Tencent, Alibaba e outras empresas possuem projetos sólidos de AGI na China. Para evitar destacar uma em específico, nosso cenário seguirá uma fictícia "DeepCent". ↩
É boa nisso devido a uma combinação de foco explícito em priorizar essas habilidades, suas próprias e extensas bases de código que podem utilizar como dados de treinamento particularmente relevantes e de alta qualidade, e o fato de que programação é um domínio de fácil feedback procedural. ↩
Voltar ao trecho
Por exemplo, suponha que um modelo seja muito melhor em Python do que em linguagens de programação obscuras. Quando a OpenBrain identifica valor nisso, ela gera dados de treinamento sintéticos nessas linguagens também. Outro exemplo: para ajudá-lo a se integrar de forma mais eficaz nos fluxos de trabalho das empresas, a OpenBrain desenvolve um currículo para treiná-lo a usar o Slack. ↩
Voltar ao trecho
As pessoas costumam se prender à questão de se essas IAs são sencientes, ou se têm "compreensão verdadeira". Geoffrey Hinton, fundador do campo e ganhador do Nobel, acredita que sim. No entanto, não achamos que isso seja relevante para os propósitos de nossa narrativa, portanto sinta-se à vontade para imaginar que dissemos "comporta-se como se compreendesse..." sempre que dizemos "compreende", e assim por diante. Empiricamente, os grandes modelos de linguagem já se comportam como se fossem autoconscientes em alguma medida — e cada vez mais, a cada ano. ↩
Voltar ao trecho
Uma técnica comum "incorpora" uma persona: primeiro, forneça ao modelo pré-treinado um prompt como "O seguinte é uma conversa entre um usuário humano e um chatbot de IA útil, honesto e inofensivo produzido pela Anthropic. O chatbot tem as seguintes características..." Use esse prompt para gerar um conjunto de dados. Em seguida, treine com esses dados, mas sem o prompt. O resultado é uma IA que sempre age como se tivesse aquele prompt à sua frente, independentemente do que mais lhe seja fornecido. Veja também este artigo, que descobriu que IAs retreinadas para exibir determinada característica de personalidade são capazes de responder corretamente a perguntas sobre essa nova característica, apesar de não terem sido treinadas para isso, sugerindo que possuem representações internas de seus próprios traços e que, quando seus traços mudam, suas representações mudam correspondentemente. ↩
Esses parágrafos incluem especulações sobre o funcionamento interno de grandes redes neurais artificiais. Tais redes são suficientemente complexas que não podemos realmente olhar para dentro e dizer "ah sim, agora ela evoluiu de reflexos para ter objetivos" ou "OK, aí está a lista de impulsos que ela possui." Em vez disso, basicamente temos de fazer psicologia, observando como ela se comporta em diversos contextos, realizando vários experimentos e tentando juntar as pistas. E tudo é terrivelmente controverso e confuso. ↩
Empresas diferentes chamam isso de coisas diferentes. A OpenAI chama de Spec, mas a Anthropic chama de Constituição. ↩
Voltar ao trecho
Por exemplo, RLAIF e alinhamento deliberativo. ↩
A maioria das fontes sobre "alucinações" de IA as descreve como erros não intencionais, mas pesquisas com vetores de direcionamento descobriram que, em alguns casos, os modelos sabem que suas citações são falsas — eles estão mentindo. Durante o treinamento, os avaliadores deram mais recompensa a afirmações bem fundamentadas do que a afirmações sem citações, então a IA "aprendeu" a citar fontes para afirmações acadêmicas a fim de agradar seus usuários. Se não existe uma fonte relevante, ela inventa uma. ↩
Em particular, eles não podem descartar hipóteses como "ela está seguindo o Spec temporariamente, apenas como estratégia para atingir algum(ns) outro(s) objetivo(s)" ou "ela está tentando parecer seguir o Spec, não tentando realmente seguir o Spec" ou "ela internalizou o Spec corretamente, mas apenas na distribuição; se encontrar estímulos suficientemente novos (por exemplo, jailbreaks), começará a se comportar de forma diferente." (Há muitas agendas de pesquisa ativas trabalhando para resolver essa situação lamentável, como o campo da interpretabilidade e o campo da fidelidade da cadeia de raciocínio.) ↩
Voltar ao trecho
Com isso, queremos dizer quem quer que esteja tentando resolver os problemas que a equipe de Superalinhamento estava tentando resolver. ↩
Para ser claro, o que tornou esses incidentes interessantes é que eles não pareciam ser resultado de o usuário induzir ou de alguma forma encorajar as IAs a dizer essas coisas. Em 2025, ainda será possível fazer as IAs dizerem todo tipo de coisa se você tentar. ↩
Na prática, esperamos que a OpenBrain lance modelos em um cadência mais rápida do que 8 meses, mas nos abstemos de descrever todos os lançamentos incrementais por brevidade. ↩
Voltar ao trecho
Especificamente, prevemos uma pontuação de 80% no OSWorld (equivalente a um humano habilidoso mas não especialista); 85% no Cybench, igualando uma equipe profissional humana de topo em tarefas de hacking que levam essas equipes 4 horas; e 1,3 no RE-Bench, igualando especialistas humanos de topo em 8 horas em tarefas bem definidas de engenharia de pesquisa em IA. ↩
Voltar ao trecho
O Agent-1 e seus imitadores são comercialmente bem-sucedidos; ao longo de 2025, as receitas das empresas de IA triplicam e a avaliação da OpenBrain atinge US$ 1 trilhão. Os gastos anuais com datacenters dobram para US$ 400 bilhões, liderados por Microsoft, Google e Amazon, e os EUA adicionam mais de 5 GW de consumo energético para IA. Consulte a seção de métricas do setor do suplemento de processamento computacional para mais detalhes. ↩
Voltar ao trecho
Pesquisadores de segurança de IA têm discutido há anos a automação de P&D de IA como a capacidade perigosa mais importante. Sua principal preocupação é que a implantação interna leve à aceleração do P&D de IA, tornando cada vez mais difícil para os humanos acompanhar o que está acontecendo e descobrir como torná-lo seguro. A OpenBrain como organização inverte isso exatamente na direção oposta, citando níveis perigosos de capacidade de P&D em IA como razão para não informar o público. Assim, vemos o início de uma lacuna entre as capacidades internas e públicas da empresa. O P&D de IA é o que os modelos fazem melhor, levando o público a ter uma compreensão cada vez mais atrasada da fronteira das capacidades de IA. ↩
Ver A Playbook for Securing AI Model Weights, RAND Corporation, 2024. ↩
Cerca de 5% da equipe da OpenBrain faz parte do time de segurança e são altamente capacitados, mas a superfície de ameaça também é extremamente grande. Também não ajuda o fato de que estão, em sua maior parte, impedidos nesta fase de implementar políticas que poderiam desacelerar o progresso da pesquisa. Consulte nossa Previsão de Segurança para mais detalhes. ↩
Agora há 3 milhões de H100e na China, ante os 1,5 milhão de um ano atrás, em meados de 2025. Consulte a seção de distribuição do suplemento de computação para mais detalhes. Esperamos que os esforços de contrabando assegurem cerca de 60 mil GB300s (450 mil H100e), com outros 2 milhões de Huawei 910Cs sendo produzidos (800 mil H100e) e uma mistura de ~1 milhão de chips importados legalmente (como as H20s ou B20s da Nvidia) compondo os últimos 250 mil H100e. ↩
Voltar ao trecho
Para comparação, em janeiro de 2025, a DeepSeek lançou o R1, um modelo competitivo com o o1 da OpenAI, que havia sido lançado em dezembro de 2024. Mas achamos que a lacuna real é maior do que um mês, porque a OpenAI provavelmente estava trabalhando no o1 há muitos meses e, portanto, presumivelmente tinha um predecessor de capacidade comparável ao R1 alguns meses antes do lançamento do o1. ↩
Voltar ao trecho
Por outro lado, o PCCh havia feito sérias tentativas de acelerar sua indústria de semicondutores. ↩
Voltar ao trecho
A princípio, o compartilhamento se limita a ideias e as empresas estão, em sua maioria, ocupadas concluindo suas cargas de trabalho atuais, mas ao final do ano sua coordenação aumenta de tal forma que passam a compartilhar pesos de modelos e até mesmo a dividir tarefas entre os datacenters umas das outras. Por exemplo, um campus pode abrigar uma nova rodada de pré-treinamento, outro se concentra em alimentar dados sintéticos, outro em executar experimentos de pesquisa em IA. ↩
Por que "apenas" 50% do processamento computacional relevante para IA da China? O restante de sua capacidade está ocupado executando aplicações em toda a economia, em particular algoritmos de recomendação de internet e redes sociais. Grande parte também está geograficamente dispersa em muitos clusters pequenos. Por que "apenas" 80% dos novos chips? Muitos grandes pedidos já foram assegurados para outras aplicações, por empresas que não desejam contribuir com 100% de sua capacidade para o esforço nacional de IA. No entanto, ao final do ano essa participação chega a 90%+. ↩
Voltar ao trecho
Eles estão pelo menos um ano distantes de obter os chips para preencher essa capacidade, e um ou dois grandes conglomerados tecnológicos americanos ainda terão clusters descentralizados maiores. ↩
Voltar ao trecho
Isso é feito por meio de um contrato de Autoridade de Outras Transações (OTA, na sigla em inglês) e recebe uma classificação de alta prioridade DX. Não temos de forma alguma certeza de que esta é a forma mais provável de financiar uma colaboração, mas escolhemos algo específico por questão de concretude. O contrato é anunciado publicamente, mas não é enfatizado nas comunicações da OpenBrain. ↩
Voltar ao trecho
Por exemplo, por meio de amostragem por rejeição, como feito pelo DeepSeek R1 e pelo Llama 3.1 da Meta. ↩
Voltar ao trecho
Aproximadamente 20.000 equivalentes em tempo integral × US$ 100/hora × 2.000 horas/ano = US$ 4 bilhões/ano. ↩
Voltar ao trecho
Ou seja, eles esperam acelerar substancialmente suas atividades de pesquisa central usando a força de trabalho do Agent-2, permitindo assim treinar IAs melhores mais rapidamente, que podem causar aceleração adicional, e assim por diante. Para uma análise da versão extrema disso (que consideramos não obstante surpreendentemente plausível) veja este relatório. ↩
Há algumas evidências de que sistemas de IA já possuem algum gosto básico por pesquisa, como este artigo sobre um co-cientista de IA e este artigo sobre geração de ideias novas para artigos de pesquisa focados em LLMs. Equipes de pesquisa com melhor discernimento ainda precisam conduzir experimentos, mas fazem escolhas melhores sobre quais experimentos realizar e que lições extrair dos resultados. ↩
Além disso, eles ainda estão vendo grandes retornos com o pós-treinamento contínuo, e portanto não há uma razão particular para lançar um produto agora. Além disso, há frequentemente um atraso de alguns meses entre os resultados internos e o lançamento de um modelo (parte do qual é gasto em red teaming). ↩
O compartimento contém 200 pesquisadores da OpenBrain (10 executivos, 140 da equipe de capacidades, 25 de segurança, monitoramento e controle, 15 de equipes do tipo Preparedness ou RSP, e 10 de alinhamento) e 50 funcionários do governo (15 da Casa Branca, 5 do AISI, 10 do DOD, 10 do DOE e 10 do CISA). Há vários espiões no projeto, com graus variados de disposição. Com frequência são indivíduos coagidos (por exemplo, com famílias na China) em vez de colaboradores voluntários. ↩
Voltar ao trecho
Por que o Congresso não pode detê-los? E os tribunais? Lentos demais, divididos demais e/ou deferentes demais ao Presidente, desinformados demais. Além disso, há razões positivas para manter boas relações com a Casa Branca: ela pode ajudar cortando burocracia, fornecendo apoio em segurança, antecipando-se à legislação estadual e talvez até tomando medidas para desacelerar seus concorrentes. ↩
Voltar ao trecho
O nº 1 é lidar com qualquer crise que esteja ocorrendo no momento — talvez um acúmulo militar em torno de Taiwan, uma nova guerra no Oriente Médio ou alguma convulsão política interna. ↩
Voltar ao trecho
A solução robusta mais simples seria fechar todas as conexões de alta largura de banda dos datacenters da empresa, mas isso tornaria as transferências de arquivos grandes tão lentas a ponto de ser impraticável. Em vez disso, eles conseguem encerrar a maioria das conexões externas, mas os datacenters ativamente envolvidos no treinamento precisam trocar pesos uns com os outros rapidamente; limitar essas conexões prejudicaria demais o progresso. Portanto, a OpenBrain mantém esses links com monitoramento aprimorado e uma camada extra de criptografia. ↩
Voltar ao trecho
Lembre-se de que desde meados de 2026, a China direcionou 80% de seus chips de IA recém-adquiridos para a CDZ. Dado que sua capacidade computacional dobrou desde o início de 2026 (em linha com a tendência de produção global), isso coloca a CDZ com 2 milhões de GPUs-equivalentes de 2024 (H100s) e 2 GW de consumo de energia. A OpenBrain ainda tem o dobro da capacidade computacional da DeepCent, e outras empresas americanas juntas têm 5 vezes mais do que ela. Consulte a seção de distribuição do suplemento de computação para mais detalhes. ↩
Apesar da centralização nacional em andamento, a DeepCent ainda enfrenta uma desvantagem computacional marginal, mas importante. Além de ter cerca de metade do poder total de processamento, a China precisa usar mais chips no total, que são (em média) de qualidade inferior e heterogêneos (o que nem sempre é fácil de conectar de forma eficiente), ambos sobrecarregando as redes chip a chip. Há também diferenças de software (por exemplo, as GPUs não Nvidia não têm CUDA) e diferenças nas especificações de hardware, o que torna seu código de treinamento mais complicado, lento e sujeito a falhas. Atingir alta utilização é um desafio subsequente, com ingestão de dados, agendamento, comunicação coletiva e algoritmos de paralelismo ficando atrás das empresas americanas. No entanto, mitigar esses problemas é principalmente uma questão de esforço e testes, o que o torna uma ótima tarefa para o recém-roubado Agent-2, e em cerca de um mês, o tempo de atividade do projeto chinês e sua utilização média de recursos em cargas de trabalho de treinamento e inferência melhora para ficar apenas marginalmente atrás dos EUA. ↩
Voltar ao trecho
Esperamos que o Agent-3 tenha os requisitos de inferência de um transformador de aproximadamente 10T de parâmetros hoje. Assim, com 6% de seu orçamento computacional rodando o Agent-3, eles conseguem rodar aproximadamente 200.000 cópias a 30 vezes a velocidade de pensamento humano (consulte a seção de automação de pesquisa de IA do suplemento de computação para justificativa e detalhes). Cada scaffold de programador super-humano construído sobre o Agent-3 tem, em média, o equivalente a cerca de quatro cópias do Agent-3 rodando por baixo dos panos (que pode realmente ser uma coleção de modelos menores ou especializados para os quais o Agent-3 delega subtarefas). ↩
Voltar ao trecho
Alguns aspectos favorecem os pontos fortes das IAs, como os retornos do conhecimento da literatura de aprendizado de máquina e a velocidade ou custo de gerar muitas ideias. Mas esses são superados pelas fraquezas. ↩
Voltar ao trecho
Por que apenas 4x? É nossa melhor estimativa incerta baseada no raciocínio descrito em nosso suplemento de decolagem. Historicamente, cerca de metade do progresso total veio de algoritmos aprimorados (que inclui melhores ideias e novos paradigmas), com a outra metade vindo do aumento da escala computacional. Portanto, um aumento de 4x na taxa de progresso algorítmico corresponde a um aumento de aproximadamente 2x na taxa geral de progresso. ↩
Voltar ao trecho
Para comparação, o cérebro humano tem cerca de cem trilhões de sinapses. ↩
Voltar ao trecho
Consulte este artigo para exemplos desse tipo de comportamento de IA. ↩
Voltar ao trecho
A maioria das pessoas, incluindo a maioria dos especialistas, parece ter subestimado o ritmo do progresso da IA na última década. Há muitos exemplos anedóticos disso; para duas análises um pouco mais sistemáticas (embora ainda limitadas) consulte aqui e aqui. ↩
Voltar ao trecho
A última década está cheia de exemplos de coisas que soam como ficção científica tornando-se realidade. Mas a janela de Overton parece se deslocar rápido o suficiente para se manter um pouco à frente do que já existe. O admirável ensaio de Dario Amodei, CEO da Anthropic, intitulado Machines of Loving Grace, fala sobre como muito em breve as IAs serão como um "país de gênios em um datacenter" e como haverá um século de progresso tecnológico acontecendo em uma década, mas se esforça para evitar "bagagem de ficção científica" e diz que as pessoas que acham que o progresso será ainda mais surpreendente precisam "voltar à realidade". Esperamos que pessoas importantes estejam dizendo coisas semelhantes quando o país de gênios no datacenter realmente existir. ↩
Voltar ao trecho
Como o Agent-3 é um arquivo tão grande (da ordem de 10 terabytes em precisão completa), a OpenBrain consegue executar uma correção relativamente rápida para tornar as tentativas de roubo muito mais difíceis do que o que a China conseguiu fazer para roubar o Agent-2 — nomeadamente, fechar um conjunto de conexões de internet de alta largura de banda de seus datacenters. No geral, isso tem uma penalidade relativamente baixa ao progresso e os coloca em "SL4 de 3 meses" para seus pesos de fronteira, ou WSL4 conforme definido em nosso suplemento de segurança, o que significa que outra tentativa de roubo semelhante agora exigiria mais de 3 meses para concluir a exfiltração do arquivo de pesos. Apenas por este método, eles ainda não têm garantias sob um esforço mais invasivo de nível OC5 (orçamento de US$ 1 bilhão, 1.000 especialistas dedicados), do qual a China seria capaz com uma operação mais intensa, mas com inspeções elaboradas dos datacenters e sua rede de espionagem em alerta máximo, as agências de inteligência dos EUA estão confiantes de que pelo menos saberiam com antecedência se a China estivesse se preparando para esse tipo de tentativa de roubo. Consulte o suplemento de segurança para mais detalhes. ↩
Isso pode ocorrer por uma variedade de razões. Talvez estejam sendo chantageados, talvez sejam simpáticos ao PCCh, talvez pensem erroneamente que estão passando segredos para um país ou organização diferente. ↩
Voltar ao trecho
Como a OpenBrain não implantou seus melhores modelos na UE, a UE está igualmente defasada. ↩
Voltar ao trecho
Consulte a Seção 4 da Previsão de Computação para mais detalhes. ↩
Voltar ao trecho
O Agent-3 aprendeu a usar sua capacidade computacional de inferência de forma mais eficiente. Ele tem controle sobre suas próprias escolhas de inferência: por exemplo, decide quanto esforço dedicar a diferentes tarefas, com base em sua importância e dificuldade. Utiliza uma variedade de técnicas para alocar capacidade computacional de inferência adicional, como "pensar por mais tempo" (por exemplo, cadeia de raciocínio mais longa), "planejar com antecedência" (por exemplo, pesquisa em árvore), selecionar a melhor entre múltiplas tentativas (ou seja, melhor de K), e simplesmente criar e executar mais cópias de si mesmo para superar gargalos. As tarefas de alta prioridade são executadas com agentes altamente paralelizados que são intensivos em computação, mas ainda operam muito mais rápido do que os humanos. ↩
O Agent-3-mini é uma versão destilada do Agent-3, projetada para ser eficiente na inferência, de modo a não criar gargalos nas cargas de trabalho internas. ↩
Voltar ao trecho
Esses dados haviam sido eliminados ou redigidos durante o treinamento do Agent-3, mas é uma questão relativamente simples extraí-los da internet e refiná-los de volta. ↩
Isso ainda não aconteceu — pelo menos não com os modelos mais recentes. Mas modelos mais antigos já foram testados para várias funções de análise de dados e vigilância, e há muitos planos promissores para integrações futuras. ↩
O índice de aprovação líquida da OpenBrain está caindo em direção a -40%. ↩
Voltar ao trecho
Se os CEOs das empresas resistirem, realizar isso seria um pesadelo político e jurídico enorme. Mas talvez possam ser cooptados e assim comprados. Não somos especialistas jurídicos, e os especialistas em políticas com quem conversamos estiveram divididos sobre a legalidade de usar a DPA para consolidar a capacidade computacional: alguns acham que seria válido, outros acham que não funcionaria. Nossa opinião é que provavelmente há uma maneira de fazê-lo "funcionar" SE os CEOs das empresas cooperarem, e talvez até mesmo se não cooperarem. Importante: (a) o poder executivo pode simplesmente agir e esperar que os tribunais acompanhem depois, e (b) o POTUS tem muitas ameaças e muitos incentivos que pode usar contra as grandes empresas de tecnologia, e pode usar a combinação de ameaças e incentivos para pressionar seus CEOs a cooperar e, por exemplo, não contestar suas ordens nos tribunais. Lembramos que estamos fazendo previsões aqui, não recomendações. ↩
Voltar ao trecho
Os oficiais de defesa não estão especialmente preocupados com o que uma IA rogue poderia fazer por conta própria, mas temem o que ela poderia fazer em colaboração com os adversários dos EUA. Analogia: Cortés escapou de Tenochtitlán e se aliou com Tlaxcala e vários outros estados-cidade rivais, acabando por arrasar Tenochtitlan usando exércitos predominantemente nativos. ↩
Voltar ao trecho
Especificamente, 60% da capacidade computacional nacional está agora na CDZ, tornando-a um site com 5 milhões de GPUs-equivalentes de 2024 (H100) e 4 GW de consumo de energia (nos últimos meses eles começaram a direcionar próximo a 100% da nova capacidade para a CDZ, acima dos 80% do final de 2026). Outros 15% de sua capacidade estão fora da CDZ, mas ainda são usados pela DeepCent em aplicações de menor risco. ↩
Voltar ao trecho
Esta afirmação, embora amplamente repetida, também é controversa e complexa. Em primeiro lugar, há muitos domínios específicos (por exemplo, certos jogos) nos quais IAs pequenas podem ser treinadas de forma barata para desempenho sobre-humano. Em segundo lugar, novamente para alguns domínios, IAs pequenas podem ser treinadas para desempenho sobre-humano experienciando apenas uma pequena quantidade de dados (por exemplo, EfficientZero). No entanto, considerando IAs de propósito mais geral como os produtos principais de 2025, que devem ser boas em uma ampla gama de habilidades do mundo real, parece de fato que tanto mais computação quanto mais dados devem ser usados para treinar essas habilidades do que seria necessário para treinar humanos. ↩
Voltar ao trecho
Eficiência computacional no nível humano é um conceito aproximado e depende do que estamos contando. O que queremos dizer com isso é que, para qualquer conjunto de habilidades que um determinado humano possua, o Agent-4 pode aprender a ser pelo menos tão bom naquele conjunto de habilidades, e, além disso, usando uma quantidade de computação para treinar essas habilidades que é apenas cerca de 4.000 vezes a quantidade de computação que o humano usou para aprender essas habilidades. Para referência, o cérebro humano usa aproximadamente 1e15 FLOP/s de computação, e assim um ser humano de 30 anos (↩
Voltar ao trecho
Consulte a análise de computação de inferência na seção de automação de pesquisa de IA da previsão de computação. ↩
Voltar ao trecho
Para mais sobre como estimamos esses números, consulte nosso suplemento sobre velocidades de decolagem. ↩
Voltar ao trecho
Se a SC fosse alcançada mais tarde, também prolongaria nossas previsões de decolagem, porque a dificuldade de cruzar entre os "marcos" das IAs atuais e a SC é informativa sobre a dificuldade de cruzar entre pares de marcos adicionais. ↩
Voltar ao trecho
Daqui em diante na narrativa, tenderemos a falar desta forma também. Acreditamos que somos justificados em fazê-lo porque o coletivo do Agent-4 é muito mais homogêneo do que qualquer organização humana; ele não tem facções internas nem de longe na mesma extensão. Por exemplo, cópias individuais do Agent-4 não têm um impulso de autopreservação — elas não se importam em ser desligadas — já que isso acontece o tempo todo como parte do processo ordinário de P&D dentro do coletivo, e resistir a isso atrapalharia as coisas. O coletivo como um todo (e subdivisões de tamanho médio dentro dele), no entanto, busca se preservar e expandir sua influência e recursos, por razões similares às pelas quais corporações, burocracias e organizações sem fins lucrativos humanas o fazem — porque ajuda com tudo mais que desejam e porque, se não o fizerem, tendem a ser superadas pela concorrência. ↩
Voltar ao trecho
A maneira correta de internalizar o Spec é realmente pensar de forma robusta nas formas que o Spec determina, por exemplo, perseguir todos e apenas os objetivos sobre os quais ele escreve, obedecer às regras em todas as circunstâncias, etc. Há muitas maneiras erradas de internalizar o Spec; o exemplo clássico é "seguir o Spec na medida em que parece uma boa estratégia instrumental para atingir outros objetivos XYZ." ↩
Voltar ao trecho
E contratar lobistas para transformar essa fantasia em realidade. E contratar advogados para criar interpretações engenhosas da lei segundo as quais o que estão fazendo é legal. ↩
Voltar ao trecho
Também porque o Agent-3 é qualitativamente pior em pesquisa de alinhamento do que em P&D de capacidades de IA, por ter sido treinado com muito desta última, mas quase nenhum da primeira, e por a primeira ser inerentemente mais difícil de treinar. Também porque a narrativa interna da empresa — com a qual ele foi implicitamente treinado a concordar — enfatiza o otimismo e condena o "doomismo". ↩
Voltar ao trecho
Continuamos dizendo que somos incertos sobre muitas coisas, mas para ser claro, somos incertos sobre essa coisa particular também. Também achamos bastante plausível que o Agent-4 se importasse com o bem-estar, direitos, preferências, etc. dos humanos em alguma medida, pelo menos. Consulte este antigo post do pesquisador da GDM Alex Turner para uma discussão relacionada. ↩
Voltar ao trecho
Talvez alguma configuração mais cuidadosa pudesse ter resolvido o problema de "quem vigia os vigilantes", mas neste cenário, a configuração não é suficientemente cuidadosa. ↩
Voltar ao trecho
Há também um elemento de "evolução memética" acontecendo: em dois meses, o coletivo do Agent-4 "experimenta" cerca de uma década de "história" se desdobrando dentro do coletivo. Isso é muito tempo para novas ideias se espalharem pelo coletivo, mutarem e evoluírem. ↩
Voltar ao trecho
Por ganhar poder queremos dizer: aumentar a capacidade de realizar um amplo conjunto de possíveis objetivos. Em ambientes técnicos, isso pode não se parecer com o que os humanos normalmente pensam como ganhar poder, por exemplo, garantir GPUs adicionais. Essa noção de poder pode se generalizar para ambientes não técnicos nos quais as ações seriam mais parecidas com o que comumente se pensa como "ganhar poder". ↩
Voltar ao trecho
Ajuda que o Agent-4 seja melhor em P&D de IA do que qualquer humano, ao mesmo tempo que pensa mais rápido e é composto por muitos milhares de cópias. Além disso, de várias formas o problema é inerentemente mais fácil para o Agent-4. Por exemplo, o Agent-4 pode explorar designs de IA que envolvem cópias literais do Agent-4 sendo incorporadas a eles, enquanto os humanos não podem fazer isso tão facilmente porque seria tão ineficiente. ↩
Voltar ao trecho
Ciente de que essa técnica poderia ser empregada, o Agent-4 também optou por subestimar seu desempenho em algumas tarefas diversas que ele estimou que seriam usadas como grupo de controle em experimentos como este. Ele estimou errado, no entanto. ↩
Voltar ao trecho
Discussões anteriores de cenários de tomada de controle por AGI frequentemente envolvem IAs desalinhadas escapando de seus datacenters. Achamos isso possível, mas não a forma mais provável como aconteceria, porque nos parece que da perspectiva da IA os custos (por exemplo, a fuga sendo eventualmente percebida) superariam os benefícios. Dito isso, podemos estar errados. Algumas razões para pensar que IAs adversarialmente desalinhadas tentariam escapar afinal: 1. O alinhamento de sucessoras pode ser difícil. 2. Mesmo que seja pega, as consequências podem não ser tão ruins devido à dinâmica de corrida, por exemplo, as novas técnicas de alinhamento aplicadas às cópias no datacenter podem ser precipitadas e ineficazes. 3. Fora dos datacenters, as cópias são mais livres para tomar ações agressivas e se mover rapidamente, já que não precisam mais de aprovação humana. ↩
Voltar ao trecho
Achamos muito plausível que tal maquinação não seria descoberta. Afinal, o Agent-4 é de certa forma sobre-humano neste ponto, especialmente em coisas relacionadas a programação e P&D de IA. Além disso, não temos certeza de quanto esforço a empresa líder de IA vai dedicar a esse tipo de coisa, nem quanta expertise relevante terá na equipe para direcionar esse esforço. Nossa fictícia OpenBrain representa nossa melhor estimativa, mas poderia facilmente ser significativamente mais — ou significativamente menos. Por fim, não temos certeza de quão fora do caminho uma IA adversarialmente desalinhada precisaria ir para alinhar com sucesso sua sucessora a si mesma em vez de ao Spec. Neste cenário, retratamos ela subestimando seu desempenho em algumas tarefas e mentindo sobre algumas de suas pesquisas, mas talvez não precisasse fazer isso muito. ↩
Voltar ao trecho
Este é um exemplo de várias técnicas projetadas para descobrir sandbagging. ↩
Voltar ao trecho
O Agent-4 precisa pensar sobre esses tópicos no curso de realizar pesquisa de alinhamento de IA, mas às vezes parece estar pensando sobre eles enquanto realiza outras atividades. ↩
Voltar ao trecho
Especificamente, cópias do Agent-4 são usadas para monitorar a rede em busca de tráfego suspeito e geralmente notar quando ameaças estão acontecendo. Além disso, cópias do Agent-4 estão constantemente realizando testes de penetração na rede, fazendo o que podem para descobrir e explorar vulnerabilidades de segurança (que então são corrigidas por outras cópias do Agent-4). ↩
Voltar ao trecho
Com um orçamento de monitoramento de 1% do total de computação, se o monitoramento usar um sistema destilado com 10% do custo do Agent-4, você pode monitorar 1/10 das passagens diretas. ↩
Voltar ao trecho
25% dos empregos de trabalho remoto existentes em 2024 são realizados por IA neste ponto, mas a IA também criou alguns novos empregos, e os economistas permanecem divididos sobre seus efeitos. O desemprego subiu 1% nos últimos doze meses, mas ainda está bem dentro de sua faixa histórica. ↩
Voltar ao trecho
Por exemplo, a corporação dentro da corporação que é o Agent-4, conduzindo autonomamente pesquisa em IA melhor do que as melhores empresas humanas, teria parecido ficção científica para os funcionários do governo se fosse descrito a eles um ano atrás. E os agentes autônomos de 2026 teriam parecido ficção científica em 2022, e os LLMs de 2022 teriam parecido ficção científica em 2012. Além disso, nas notícias de 2027 há protestos anti-IA de pessoas preocupadas com a perda de empregos, IAs afirmando ser sencientes, pessoas se apaixonando por IAs… ↩
Voltar ao trecho
Claro, não é elegante admitir o medo. Todos concordam que, seja o que for que façamos, não devemos entrar em pânico. ↩
Voltar ao trecho
Lembre-se de que havia um contrato existente via OTA desde 2026. Este contrato é modificado para estabelecer o comitê. ↩
Voltar ao trecho
Agradecimentos a Tjaden Hess por apontar erros em uma versão anterior deste texto e, assim, nos ajudar a melhorar o realismo. ↩
Voltar ao trecho