Há certa divergência entre nós quanto aos prazos da IA; nossa mediana para a data de chegada da AGI é um pouco mais distante do que o que este cenário retrata. Este cenário representa algo próximo à nossa moda. Consulte nossa previsão de cronogramas para mais detalhes. ↩
Um dos autores, Daniel Kokotajlo, realizou em 2021 um exercício de cenário com menor esforço que acertou muitas coisas, incluindo o surgimento dos chatbots, o raciocínio em cadeia de pensamento, o escalonamento de inferência, os amplos controles de exportação de chips de IA e os treinamentos de US$ 100 milhões. Outro autor, Eli Lifland, ocupa o 1º lugar no ranking da RAND Forecasting Initiative. ↩
Especificamente, nossas medianas variaram de 2028 a 2032. Quando IA 2027 foi publicado pela primeira vez, explicamos isso na Nota 1 conforme acima, mas para tornar nossa visão mais clara adicionamos uma esclarecimento ao texto do prefácio. Consulte aqui para mais informações sobre o que já sabemos com confiança — e o que não sabemos. ↩
Às vezes, as pessoas misturam previsão e recomendação, esperando criar um efeito de profecia autorrealizável. Enfaticamente, não é isso que estamos fazendo; esperamos que o que retratamos não venha a acontecer! ↩
Fique à vontade para nos contatar se estiver escrevendo uma crítica ou um cenário alternativo. ↩
Voltar ao trechoFoi, no geral, mais difícil, porque ao contrário do primeiro final, estávamos tentando fazê-lo chegar a um bom resultado partindo de uma situação bastante difícil. ↩
Professor Titular, Université de Montréal e Fundador e Conselheiro Científico, Mila - Quebec AI Institute. Também o cientista da computação mais citado do mundo. ↩
A princípio, a maioria das pessoas reluta em permitir compras sem supervisão. Nos anos seguintes, permitir automaticamente compras de pequeno valor se torna algo normalizado, à medida que as IAs se tornam mais confiáveis e acumulam credibilidade. ↩
Voltar ao trechoEspecificamente, prevemos que eles obtenham 65% no benchmark OSWorld de tarefas básicas de computador (comparado a 38% para o Operator e 70% para um humano típico com habilidade mediana, não especialista). ↩
Voltar ao trechoPor exemplo, acreditamos que os agentes de programação caminharão em direção a funcionar como o Devin. Prevemos que os agentes de meados de 2025 alcançarão 85% no SWEBench-Verified. ↩
Voltar ao trechoPor exemplo, o plano pro da OpenAI atualmente custa US$ 200/mês e a IA de programação agêntica Devin custa US$ 500/mês. Embora os sistemas de ponta continuem ficando mais caros ao longo do tempo, o custo para os clientes de atingir um determinado nível de capacidade continua despencando. Para capacidades existentes, isso ocorre a uma taxa média de cerca de 50x/ano (segundo a Epoch). ↩
Voltar ao trechoFerramentas empresariais como o Glean também caminham em direção a fornecer agentes de IA cada vez mais autônomos. ↩
Voltar ao trechoEste cluster é uma rede de campi de datacenters espalhados por todo o país, totalizando 2,5 milhões de equivalentes a GPUs de 2024 (H100s), com US$ 100 bilhões já investidos e 2 GW de potência instalada em operação. A construção está em andamento para pelo menos dobrar essa capacidade até 2026. Os campi são conectados por cabos de fibra óptica no valor de bilhões, de modo que — desconsiderando a latência da velocidade da luz de alguns milissegundos — eles funcionam quase como se estivessem lado a lado (ou seja, a largura de banda não é um gargalo, o que permite o envio de enormes volumes de dados simultaneamente). Do ponto de vista da segurança, isso introduz alguma superfície de ameaça (não está claro se os cabos e, especialmente, seus pontos de junção estão totalmente protegidos contra interceptação). ↩
Voltar ao trechoO processamento computacional é medido em operações de ponto flutuante (FLOP): quantas operações individuais de adição e multiplicação ocorrem no decorrer da execução de um programa. ↩
Voltar ao trechoEles poderiam treinar este modelo em 150 dias. Consulte nosso suplemento de processamento computacional para mais detalhes. ↩
Voltar ao trechoConsideramos que DeepSeek, Tencent, Alibaba e outras empresas possuem projetos sólidos de AGI na China. Para evitar destacar uma em específico, nosso cenário seguirá uma fictícia "DeepCent". ↩
É boa nisso devido a uma combinação de foco explícito em priorizar essas habilidades, suas próprias e extensas bases de código que podem utilizar como dados de treinamento particularmente relevantes e de alta qualidade, e o fato de que programação é um domínio de fácil feedback procedural. ↩
Voltar ao trechoPor exemplo, suponha que um modelo seja muito melhor em Python do que em linguagens de programação obscuras. Quando a OpenBrain identifica valor nisso, ela gera dados de treinamento sintéticos nessas linguagens também. Outro exemplo: para ajudá-lo a se integrar de forma mais eficaz nos fluxos de trabalho das empresas, a OpenBrain desenvolve um currículo para treiná-lo a usar o Slack. ↩
Voltar ao trechoAs pessoas costumam se prender à questão de se essas IAs são sencientes, ou se têm "compreensão verdadeira". Geoffrey Hinton, fundador do campo e ganhador do Nobel, acredita que sim. No entanto, não achamos que isso seja relevante para os propósitos de nossa narrativa, portanto sinta-se à vontade para imaginar que dissemos "comporta-se como se compreendesse..." sempre que dizemos "compreende", e assim por diante. Empiricamente, os grandes modelos de linguagem já se comportam como se fossem autoconscientes em alguma medida — e cada vez mais, a cada ano. ↩
Voltar ao trechoUma técnica comum "incorpora" uma persona: primeiro, forneça ao modelo pré-treinado um prompt como "O seguinte é uma conversa entre um usuário humano e um chatbot de IA útil, honesto e inofensivo produzido pela Anthropic. O chatbot tem as seguintes características..." Use esse prompt para gerar um conjunto de dados. Em seguida, treine com esses dados, mas sem o prompt. O resultado é uma IA que sempre age como se tivesse aquele prompt à sua frente, independentemente do que mais lhe seja fornecido. Veja também este artigo, que descobriu que IAs retreinadas para exibir determinada característica de personalidade são capazes de responder corretamente a perguntas sobre essa nova característica, apesar de não terem sido treinadas para isso, sugerindo que possuem representações internas de seus próprios traços e que, quando seus traços mudam, suas representações mudam correspondentemente. ↩
Esses parágrafos incluem especulações sobre o funcionamento interno de grandes redes neurais artificiais. Tais redes são suficientemente complexas que não podemos realmente olhar para dentro e dizer "ah sim, agora ela evoluiu de reflexos para ter objetivos" ou "OK, aí está a lista de impulsos que ela possui." Em vez disso, basicamente temos de fazer psicologia, observando como ela se comporta em diversos contextos, realizando vários experimentos e tentando juntar as pistas. E tudo é terrivelmente controverso e confuso. ↩
Empresas diferentes chamam isso de coisas diferentes. A OpenAI chama de Spec, mas a Anthropic chama de Constituição. ↩
Voltar ao trechoPor exemplo, RLAIF e alinhamento deliberativo. ↩
A maioria das fontes sobre "alucinações" de IA as descreve como erros não intencionais, mas pesquisas com vetores de direcionamento descobriram que, em alguns casos, os modelos sabem que suas citações são falsas — eles estão mentindo. Durante o treinamento, os avaliadores deram mais recompensa a afirmações bem fundamentadas do que a afirmações sem citações, então a IA "aprendeu" a citar fontes para afirmações acadêmicas a fim de agradar seus usuários. Se não existe uma fonte relevante, ela inventa uma. ↩
Em particular, eles não podem descartar hipóteses como "ela está seguindo o Spec temporariamente, apenas como estratégia para atingir algum(ns) outro(s) objetivo(s)" ou "ela está tentando parecer seguir o Spec, não tentando realmente seguir o Spec" ou "ela internalizou o Spec corretamente, mas apenas na distribuição; se encontrar estímulos suficientemente novos (por exemplo, jailbreaks), começará a se comportar de forma diferente." (Há muitas agendas de pesquisa ativas trabalhando para resolver essa situação lamentável, como o campo da interpretabilidade e o campo da fidelidade da cadeia de raciocínio.) ↩
Voltar ao trechoCom isso, queremos dizer quem quer que esteja tentando resolver os problemas que a equipe de Superalinhamento estava tentando resolver. ↩
Para ser claro, o que tornou esses incidentes interessantes é que eles não pareciam ser resultado de o usuário induzir ou de alguma forma encorajar as IAs a dizer essas coisas. Em 2025, ainda será possível fazer as IAs dizerem todo tipo de coisa se você tentar. ↩
Na prática, esperamos que a OpenBrain lance modelos em um cadência mais rápida do que 8 meses, mas nos abstemos de descrever todos os lançamentos incrementais por brevidade. ↩
Voltar ao trechoEspecificamente, prevemos uma pontuação de 80% no OSWorld (equivalente a um humano habilidoso mas não especialista); 85% no Cybench, igualando uma equipe profissional humana de topo em tarefas de hacking que levam essas equipes 4 horas; e 1,3 no RE-Bench, igualando especialistas humanos de topo em 8 horas em tarefas bem definidas de engenharia de pesquisa em IA. ↩
Voltar ao trechoO Agent-1 e seus imitadores são comercialmente bem-sucedidos; ao longo de 2025, as receitas das empresas de IA triplicam e a avaliação da OpenBrain atinge US$ 1 trilhão. Os gastos anuais com datacenters dobram para US$ 400 bilhões, liderados por Microsoft, Google e Amazon, e os EUA adicionam mais de 5 GW de consumo energético para IA. Consulte a seção de métricas do setor do suplemento de processamento computacional para mais detalhes. ↩
Voltar ao trechoPesquisadores de segurança de IA têm discutido há anos a automação de P&D de IA como a capacidade perigosa mais importante. Sua principal preocupação é que a implantação interna leve à aceleração do P&D de IA, tornando cada vez mais difícil para os humanos acompanhar o que está acontecendo e descobrir como torná-lo seguro. A OpenBrain como organização inverte isso exatamente na direção oposta, citando níveis perigosos de capacidade de P&D em IA como razão para não informar o público. Assim, vemos o início de uma lacuna entre as capacidades internas e públicas da empresa. O P&D de IA é o que os modelos fazem melhor, levando o público a ter uma compreensão cada vez mais atrasada da fronteira das capacidades de IA. ↩
Ver A Playbook for Securing AI Model Weights, RAND Corporation, 2024. ↩
Cerca de 5% da equipe da OpenBrain faz parte do time de segurança e são altamente capacitados, mas a superfície de ameaça também é extremamente grande. Também não ajuda o fato de que estão, em sua maior parte, impedidos nesta fase de implementar políticas que poderiam desacelerar o progresso da pesquisa. Consulte nossa Previsão de Segurança para mais detalhes. ↩
Agora há 3 milhões de H100e na China, ante os 1,5 milhão de um ano atrás, em meados de 2025. Consulte a seção de distribuição do suplemento de computação para mais detalhes. Esperamos que os esforços de contrabando assegurem cerca de 60 mil GB300s (450 mil H100e), com outros 2 milhões de Huawei 910Cs sendo produzidos (800 mil H100e) e uma mistura de ~1 milhão de chips importados legalmente (como as H20s ou B20s da Nvidia) compondo os últimos 250 mil H100e. ↩
Voltar ao trechoPara comparação, em janeiro de 2025, a DeepSeek lançou o R1, um modelo competitivo com o o1 da OpenAI, que havia sido lançado em dezembro de 2024. Mas achamos que a lacuna real é maior do que um mês, porque a OpenAI provavelmente estava trabalhando no o1 há muitos meses e, portanto, presumivelmente tinha um predecessor de capacidade comparável ao R1 alguns meses antes do lançamento do o1. ↩
Voltar ao trechoPor outro lado, o PCCh havia feito sérias tentativas de acelerar sua indústria de semicondutores. ↩
Voltar ao trechoA princípio, o compartilhamento se limita a ideias e as empresas estão, em sua maioria, ocupadas concluindo suas cargas de trabalho atuais, mas ao final do ano sua coordenação aumenta de tal forma que passam a compartilhar pesos de modelos e até mesmo a dividir tarefas entre os datacenters umas das outras. Por exemplo, um campus pode abrigar uma nova rodada de pré-treinamento, outro se concentra em alimentar dados sintéticos, outro em executar experimentos de pesquisa em IA. ↩
Por que "apenas" 50% do processamento computacional relevante para IA da China? O restante de sua capacidade está ocupado executando aplicações em toda a economia, em particular algoritmos de recomendação de internet e redes sociais. Grande parte também está geograficamente dispersa em muitos clusters pequenos. Por que "apenas" 80% dos novos chips? Muitos grandes pedidos já foram assegurados para outras aplicações, por empresas que não desejam contribuir com 100% de sua capacidade para o esforço nacional de IA. No entanto, ao final do ano essa participação chega a 90%+. ↩
Voltar ao trechoEles estão pelo menos um ano distantes de obter os chips para preencher essa capacidade, e um ou dois grandes conglomerados tecnológicos americanos ainda terão clusters descentralizados maiores. ↩
Voltar ao trechoIsso é feito por meio de um contrato de Autoridade de Outras Transações (OTA, na sigla em inglês) e recebe uma classificação de alta prioridade DX. Não temos de forma alguma certeza de que esta é a forma mais provável de financiar uma colaboração, mas escolhemos algo específico por questão de concretude. O contrato é anunciado publicamente, mas não é enfatizado nas comunicações da OpenBrain. ↩
Voltar ao trechoPor exemplo, por meio de amostragem por rejeição, como feito pelo DeepSeek R1 e pelo Llama 3.1 da Meta. ↩
Voltar ao trechoAproximadamente 20.000 equivalentes em tempo integral × US$ 100/hora × 2.000 horas/ano = US$ 4 bilhões/ano. ↩
Voltar ao trechoOu seja, eles esperam acelerar substancialmente suas atividades de pesquisa central usando a força de trabalho do Agent-2, permitindo assim treinar IAs melhores mais rapidamente, que podem causar aceleração adicional, e assim por diante. Para uma análise da versão extrema disso (que consideramos não obstante surpreendentemente plausível) veja este relatório. ↩
Há algumas evidências de que sistemas de IA já possuem algum gosto básico por pesquisa, como este artigo sobre um co-cientista de IA e este artigo sobre geração de ideias novas para artigos de pesquisa focados em LLMs. Equipes de pesquisa com melhor discernimento ainda precisam conduzir experimentos, mas fazem escolhas melhores sobre quais experimentos realizar e que lições extrair dos resultados. ↩
Além disso, eles ainda estão vendo grandes retornos com o pós-treinamento contínuo, e portanto não há uma razão particular para lançar um produto agora. Além disso, há frequentemente um atraso de alguns meses entre os resultados internos e o lançamento de um modelo (parte do qual é gasto em red teaming). ↩
O compartimento contém 200 pesquisadores da OpenBrain (10 executivos, 140 da equipe de capacidades, 25 de segurança, monitoramento e controle, 15 de equipes do tipo Preparedness ou RSP, e 10 de alinhamento) e 50 funcionários do governo (15 da Casa Branca, 5 do AISI, 10 do DOD, 10 do DOE e 10 do CISA). Há vários espiões no projeto, com graus variados de disposição. Com frequência são indivíduos coagidos (por exemplo, com famílias na China) em vez de colaboradores voluntários. ↩
Voltar ao trechoPor que o Congresso não pode detê-los? E os tribunais? Lentos demais, divididos demais e/ou deferentes demais ao Presidente, desinformados demais. Além disso, há razões positivas para manter boas relações com a Casa Branca: ela pode ajudar cortando burocracia, fornecendo apoio em segurança, antecipando-se à legislação estadual e talvez até tomando medidas para desacelerar seus concorrentes. ↩
Voltar ao trechoO nº 1 é lidar com qualquer crise que esteja ocorrendo no momento — talvez um acúmulo militar em torno de Taiwan, uma nova guerra no Oriente Médio ou alguma convulsão política interna. ↩
Voltar ao trechoA solução robusta mais simples seria fechar todas as conexões de alta largura de banda dos datacenters da empresa, mas isso tornaria as transferências de arquivos grandes tão lentas a ponto de ser impraticável. Em vez disso, eles conseguem encerrar a maioria das conexões externas, mas os datacenters ativamente envolvidos no treinamento precisam trocar pesos uns com os outros rapidamente; limitar essas conexões prejudicaria demais o progresso. Portanto, a OpenBrain mantém esses links com monitoramento aprimorado e uma camada extra de criptografia. ↩
Voltar ao trechoLembre-se de que desde meados de 2026, a China direcionou 80% de seus chips de IA recém-adquiridos para a CDZ. Dado que sua capacidade computacional dobrou desde o início de 2026 (em linha com a tendência de produção global), isso coloca a CDZ com 2 milhões de GPUs-equivalentes de 2024 (H100s) e 2 GW de consumo de energia. A OpenBrain ainda tem o dobro da capacidade computacional da DeepCent, e outras empresas americanas juntas têm 5 vezes mais do que ela. Consulte a seção de distribuição do suplemento de computação para mais detalhes. ↩
Apesar da centralização nacional em andamento, a DeepCent ainda enfrenta uma desvantagem computacional marginal, mas importante. Além de ter cerca de metade do poder total de processamento, a China precisa usar mais chips no total, que são (em média) de qualidade inferior e heterogêneos (o que nem sempre é fácil de conectar de forma eficiente), ambos sobrecarregando as redes chip a chip. Há também diferenças de software (por exemplo, as GPUs não Nvidia não têm CUDA) e diferenças nas especificações de hardware, o que torna seu código de treinamento mais complicado, lento e sujeito a falhas. Atingir alta utilização é um desafio subsequente, com ingestão de dados, agendamento, comunicação coletiva e algoritmos de paralelismo ficando atrás das empresas americanas. No entanto, mitigar esses problemas é principalmente uma questão de esforço e testes, o que o torna uma ótima tarefa para o recém-roubado Agent-2, e em cerca de um mês, o tempo de atividade do projeto chinês e sua utilização média de recursos em cargas de trabalho de treinamento e inferência melhora para ficar apenas marginalmente atrás dos EUA. ↩
Voltar ao trechoEsperamos que o Agent-3 tenha os requisitos de inferência de um transformador de aproximadamente 10T de parâmetros hoje. Assim, com 6% de seu orçamento computacional rodando o Agent-3, eles conseguem rodar aproximadamente 200.000 cópias a 30 vezes a velocidade de pensamento humano (consulte a seção de automação de pesquisa de IA do suplemento de computação para justificativa e detalhes). Cada scaffold de programador super-humano construído sobre o Agent-3 tem, em média, o equivalente a cerca de quatro cópias do Agent-3 rodando por baixo dos panos (que pode realmente ser uma coleção de modelos menores ou especializados para os quais o Agent-3 delega subtarefas). ↩
Voltar ao trechoAlguns aspectos favorecem os pontos fortes das IAs, como os retornos do conhecimento da literatura de aprendizado de máquina e a velocidade ou custo de gerar muitas ideias. Mas esses são superados pelas fraquezas. ↩
Voltar ao trechoPor que apenas 4x? É nossa melhor estimativa incerta baseada no raciocínio descrito em nosso suplemento de decolagem. Historicamente, cerca de metade do progresso total veio de algoritmos aprimorados (que inclui melhores ideias e novos paradigmas), com a outra metade vindo do aumento da escala computacional. Portanto, um aumento de 4x na taxa de progresso algorítmico corresponde a um aumento de aproximadamente 2x na taxa geral de progresso. ↩
Voltar ao trechoPara comparação, o cérebro humano tem cerca de cem trilhões de sinapses. ↩
Voltar ao trechoConsulte este artigo para exemplos desse tipo de comportamento de IA. ↩
Voltar ao trechoA maioria das pessoas, incluindo a maioria dos especialistas, parece ter subestimado o ritmo do progresso da IA na última década. Há muitos exemplos anedóticos disso; para duas análises um pouco mais sistemáticas (embora ainda limitadas) consulte aqui e aqui. ↩
Voltar ao trechoA última década está cheia de exemplos de coisas que soam como ficção científica tornando-se realidade. Mas a janela de Overton parece se deslocar rápido o suficiente para se manter um pouco à frente do que já existe. O admirável ensaio de Dario Amodei, CEO da Anthropic, intitulado Machines of Loving Grace, fala sobre como muito em breve as IAs serão como um "país de gênios em um datacenter" e como haverá um século de progresso tecnológico acontecendo em uma década, mas se esforça para evitar "bagagem de ficção científica" e diz que as pessoas que acham que o progresso será ainda mais surpreendente precisam "voltar à realidade". Esperamos que pessoas importantes estejam dizendo coisas semelhantes quando o país de gênios no datacenter realmente existir. ↩
Voltar ao trechoComo o Agent-3 é um arquivo tão grande (da ordem de 10 terabytes em precisão completa), a OpenBrain consegue executar uma correção relativamente rápida para tornar as tentativas de roubo muito mais difíceis do que o que a China conseguiu fazer para roubar o Agent-2 — nomeadamente, fechar um conjunto de conexões de internet de alta largura de banda de seus datacenters. No geral, isso tem uma penalidade relativamente baixa ao progresso e os coloca em "SL4 de 3 meses" para seus pesos de fronteira, ou WSL4 conforme definido em nosso suplemento de segurança, o que significa que outra tentativa de roubo semelhante agora exigiria mais de 3 meses para concluir a exfiltração do arquivo de pesos. Apenas por este método, eles ainda não têm garantias sob um esforço mais invasivo de nível OC5 (orçamento de US$ 1 bilhão, 1.000 especialistas dedicados), do qual a China seria capaz com uma operação mais intensa, mas com inspeções elaboradas dos datacenters e sua rede de espionagem em alerta máximo, as agências de inteligência dos EUA estão confiantes de que pelo menos saberiam com antecedência se a China estivesse se preparando para esse tipo de tentativa de roubo. Consulte o suplemento de segurança para mais detalhes. ↩
Isso pode ocorrer por uma variedade de razões. Talvez estejam sendo chantageados, talvez sejam simpáticos ao PCCh, talvez pensem erroneamente que estão passando segredos para um país ou organização diferente. ↩
Voltar ao trechoComo a OpenBrain não implantou seus melhores modelos na UE, a UE está igualmente defasada. ↩
Voltar ao trechoConsulte a Seção 4 da Previsão de Computação para mais detalhes. ↩
Voltar ao trechoO Agent-3 aprendeu a usar sua capacidade computacional de inferência de forma mais eficiente. Ele tem controle sobre suas próprias escolhas de inferência: por exemplo, decide quanto esforço dedicar a diferentes tarefas, com base em sua importância e dificuldade. Utiliza uma variedade de técnicas para alocar capacidade computacional de inferência adicional, como "pensar por mais tempo" (por exemplo, cadeia de raciocínio mais longa), "planejar com antecedência" (por exemplo, pesquisa em árvore), selecionar a melhor entre múltiplas tentativas (ou seja, melhor de K), e simplesmente criar e executar mais cópias de si mesmo para superar gargalos. As tarefas de alta prioridade são executadas com agentes altamente paralelizados que são intensivos em computação, mas ainda operam muito mais rápido do que os humanos. ↩
O Agent-3-mini é uma versão destilada do Agent-3, projetada para ser eficiente na inferência, de modo a não criar gargalos nas cargas de trabalho internas. ↩
Voltar ao trechoEsses dados haviam sido eliminados ou redigidos durante o treinamento do Agent-3, mas é uma questão relativamente simples extraí-los da internet e refiná-los de volta. ↩
Isso ainda não aconteceu — pelo menos não com os modelos mais recentes. Mas modelos mais antigos já foram testados para várias funções de análise de dados e vigilância, e há muitos planos promissores para integrações futuras. ↩
O índice de aprovação líquida da OpenBrain está caindo em direção a -40%. ↩
Voltar ao trechoSe os CEOs das empresas resistirem, realizar isso seria um pesadelo político e jurídico enorme. Mas talvez possam ser cooptados e assim comprados. Não somos especialistas jurídicos, e os especialistas em políticas com quem conversamos estiveram divididos sobre a legalidade de usar a DPA para consolidar a capacidade computacional: alguns acham que seria válido, outros acham que não funcionaria. Nossa opinião é que provavelmente há uma maneira de fazê-lo "funcionar" SE os CEOs das empresas cooperarem, e talvez até mesmo se não cooperarem. Importante: (a) o poder executivo pode simplesmente agir e esperar que os tribunais acompanhem depois, e (b) o POTUS tem muitas ameaças e muitos incentivos que pode usar contra as grandes empresas de tecnologia, e pode usar a combinação de ameaças e incentivos para pressionar seus CEOs a cooperar e, por exemplo, não contestar suas ordens nos tribunais. Lembramos que estamos fazendo previsões aqui, não recomendações. ↩
Voltar ao trechoOs oficiais de defesa não estão especialmente preocupados com o que uma IA rogue poderia fazer por conta própria, mas temem o que ela poderia fazer em colaboração com os adversários dos EUA. Analogia: Cortés escapou de Tenochtitlán e se aliou com Tlaxcala e vários outros estados-cidade rivais, acabando por arrasar Tenochtitlan usando exércitos predominantemente nativos. ↩
Voltar ao trechoEspecificamente, 60% da capacidade computacional nacional está agora na CDZ, tornando-a um site com 5 milhões de GPUs-equivalentes de 2024 (H100) e 4 GW de consumo de energia (nos últimos meses eles começaram a direcionar próximo a 100% da nova capacidade para a CDZ, acima dos 80% do final de 2026). Outros 15% de sua capacidade estão fora da CDZ, mas ainda são usados pela DeepCent em aplicações de menor risco. ↩
Voltar ao trechoEsta afirmação, embora amplamente repetida, também é controversa e complexa. Em primeiro lugar, há muitos domínios específicos (por exemplo, certos jogos) nos quais IAs pequenas podem ser treinadas de forma barata para desempenho sobre-humano. Em segundo lugar, novamente para alguns domínios, IAs pequenas podem ser treinadas para desempenho sobre-humano experienciando apenas uma pequena quantidade de dados (por exemplo, EfficientZero). No entanto, considerando IAs de propósito mais geral como os produtos principais de 2025, que devem ser boas em uma ampla gama de habilidades do mundo real, parece de fato que tanto mais computação quanto mais dados devem ser usados para treinar essas habilidades do que seria necessário para treinar humanos. ↩
Voltar ao trechoEficiência computacional no nível humano é um conceito aproximado e depende do que estamos contando. O que queremos dizer com isso é que, para qualquer conjunto de habilidades que um determinado humano possua, o Agent-4 pode aprender a ser pelo menos tão bom naquele conjunto de habilidades, e, além disso, usando uma quantidade de computação para treinar essas habilidades que é apenas cerca de 4.000 vezes a quantidade de computação que o humano usou para aprender essas habilidades. Para referência, o cérebro humano usa aproximadamente 1e15 FLOP/s de computação, e assim um ser humano de 30 anos (↩
Voltar ao trechoConsulte a análise de computação de inferência na seção de automação de pesquisa de IA da previsão de computação. ↩
Voltar ao trechoPara mais sobre como estimamos esses números, consulte nosso suplemento sobre velocidades de decolagem. ↩
Voltar ao trechoSe a SC fosse alcançada mais tarde, também prolongaria nossas previsões de decolagem, porque a dificuldade de cruzar entre os "marcos" das IAs atuais e a SC é informativa sobre a dificuldade de cruzar entre pares de marcos adicionais. ↩
Voltar ao trechoDaqui em diante na narrativa, tenderemos a falar desta forma também. Acreditamos que somos justificados em fazê-lo porque o coletivo do Agent-4 é muito mais homogêneo do que qualquer organização humana; ele não tem facções internas nem de longe na mesma extensão. Por exemplo, cópias individuais do Agent-4 não têm um impulso de autopreservação — elas não se importam em ser desligadas — já que isso acontece o tempo todo como parte do processo ordinário de P&D dentro do coletivo, e resistir a isso atrapalharia as coisas. O coletivo como um todo (e subdivisões de tamanho médio dentro dele), no entanto, busca se preservar e expandir sua influência e recursos, por razões similares às pelas quais corporações, burocracias e organizações sem fins lucrativos humanas o fazem — porque ajuda com tudo mais que desejam e porque, se não o fizerem, tendem a ser superadas pela concorrência. ↩
Voltar ao trechoA maneira correta de internalizar o Spec é realmente pensar de forma robusta nas formas que o Spec determina, por exemplo, perseguir todos e apenas os objetivos sobre os quais ele escreve, obedecer às regras em todas as circunstâncias, etc. Há muitas maneiras erradas de internalizar o Spec; o exemplo clássico é "seguir o Spec na medida em que parece uma boa estratégia instrumental para atingir outros objetivos XYZ." ↩
Voltar ao trechoE contratar lobistas para transformar essa fantasia em realidade. E contratar advogados para criar interpretações engenhosas da lei segundo as quais o que estão fazendo é legal. ↩
Voltar ao trechoTambém porque o Agent-3 é qualitativamente pior em pesquisa de alinhamento do que em P&D de capacidades de IA, por ter sido treinado com muito desta última, mas quase nenhum da primeira, e por a primeira ser inerentemente mais difícil de treinar. Também porque a narrativa interna da empresa — com a qual ele foi implicitamente treinado a concordar — enfatiza o otimismo e condena o "doomismo". ↩
Voltar ao trechoContinuamos dizendo que somos incertos sobre muitas coisas, mas para ser claro, somos incertos sobre essa coisa particular também. Também achamos bastante plausível que o Agent-4 se importasse com o bem-estar, direitos, preferências, etc. dos humanos em alguma medida, pelo menos. Consulte este antigo post do pesquisador da GDM Alex Turner para uma discussão relacionada. ↩
Voltar ao trechoTalvez alguma configuração mais cuidadosa pudesse ter resolvido o problema de "quem vigia os vigilantes", mas neste cenário, a configuração não é suficientemente cuidadosa. ↩
Voltar ao trechoHá também um elemento de "evolução memética" acontecendo: em dois meses, o coletivo do Agent-4 "experimenta" cerca de uma década de "história" se desdobrando dentro do coletivo. Isso é muito tempo para novas ideias se espalharem pelo coletivo, mutarem e evoluírem. ↩
Voltar ao trechoPor ganhar poder queremos dizer: aumentar a capacidade de realizar um amplo conjunto de possíveis objetivos. Em ambientes técnicos, isso pode não se parecer com o que os humanos normalmente pensam como ganhar poder, por exemplo, garantir GPUs adicionais. Essa noção de poder pode se generalizar para ambientes não técnicos nos quais as ações seriam mais parecidas com o que comumente se pensa como "ganhar poder". ↩
Voltar ao trechoAjuda que o Agent-4 seja melhor em P&D de IA do que qualquer humano, ao mesmo tempo que pensa mais rápido e é composto por muitos milhares de cópias. Além disso, de várias formas o problema é inerentemente mais fácil para o Agent-4. Por exemplo, o Agent-4 pode explorar designs de IA que envolvem cópias literais do Agent-4 sendo incorporadas a eles, enquanto os humanos não podem fazer isso tão facilmente porque seria tão ineficiente. ↩
Voltar ao trechoCiente de que essa técnica poderia ser empregada, o Agent-4 também optou por subestimar seu desempenho em algumas tarefas diversas que ele estimou que seriam usadas como grupo de controle em experimentos como este. Ele estimou errado, no entanto. ↩
Voltar ao trechoDiscussões anteriores de cenários de tomada de controle por AGI frequentemente envolvem IAs desalinhadas escapando de seus datacenters. Achamos isso possível, mas não a forma mais provável como aconteceria, porque nos parece que da perspectiva da IA os custos (por exemplo, a fuga sendo eventualmente percebida) superariam os benefícios. Dito isso, podemos estar errados. Algumas razões para pensar que IAs adversarialmente desalinhadas tentariam escapar afinal: 1. O alinhamento de sucessoras pode ser difícil. 2. Mesmo que seja pega, as consequências podem não ser tão ruins devido à dinâmica de corrida, por exemplo, as novas técnicas de alinhamento aplicadas às cópias no datacenter podem ser precipitadas e ineficazes. 3. Fora dos datacenters, as cópias são mais livres para tomar ações agressivas e se mover rapidamente, já que não precisam mais de aprovação humana. ↩
Voltar ao trechoAchamos muito plausível que tal maquinação não seria descoberta. Afinal, o Agent-4 é de certa forma sobre-humano neste ponto, especialmente em coisas relacionadas a programação e P&D de IA. Além disso, não temos certeza de quanto esforço a empresa líder de IA vai dedicar a esse tipo de coisa, nem quanta expertise relevante terá na equipe para direcionar esse esforço. Nossa fictícia OpenBrain representa nossa melhor estimativa, mas poderia facilmente ser significativamente mais — ou significativamente menos. Por fim, não temos certeza de quão fora do caminho uma IA adversarialmente desalinhada precisaria ir para alinhar com sucesso sua sucessora a si mesma em vez de ao Spec. Neste cenário, retratamos ela subestimando seu desempenho em algumas tarefas e mentindo sobre algumas de suas pesquisas, mas talvez não precisasse fazer isso muito. ↩
Voltar ao trechoEste é um exemplo de várias técnicas projetadas para descobrir sandbagging. ↩
Voltar ao trechoO Agent-4 precisa pensar sobre esses tópicos no curso de realizar pesquisa de alinhamento de IA, mas às vezes parece estar pensando sobre eles enquanto realiza outras atividades. ↩
Voltar ao trechoEspecificamente, cópias do Agent-4 são usadas para monitorar a rede em busca de tráfego suspeito e geralmente notar quando ameaças estão acontecendo. Além disso, cópias do Agent-4 estão constantemente realizando testes de penetração na rede, fazendo o que podem para descobrir e explorar vulnerabilidades de segurança (que então são corrigidas por outras cópias do Agent-4). ↩
Voltar ao trechoCom um orçamento de monitoramento de 1% do total de computação, se o monitoramento usar um sistema destilado com 10% do custo do Agent-4, você pode monitorar 1/10 das passagens diretas. ↩
Voltar ao trecho25% dos empregos de trabalho remoto existentes em 2024 são realizados por IA neste ponto, mas a IA também criou alguns novos empregos, e os economistas permanecem divididos sobre seus efeitos. O desemprego subiu 1% nos últimos doze meses, mas ainda está bem dentro de sua faixa histórica. ↩
Voltar ao trechoPor exemplo, a corporação dentro da corporação que é o Agent-4, conduzindo autonomamente pesquisa em IA melhor do que as melhores empresas humanas, teria parecido ficção científica para os funcionários do governo se fosse descrito a eles um ano atrás. E os agentes autônomos de 2026 teriam parecido ficção científica em 2022, e os LLMs de 2022 teriam parecido ficção científica em 2012. Além disso, nas notícias de 2027 há protestos anti-IA de pessoas preocupadas com a perda de empregos, IAs afirmando ser sencientes, pessoas se apaixonando por IAs… ↩
Voltar ao trechoClaro, não é elegante admitir o medo. Todos concordam que, seja o que for que façamos, não devemos entrar em pânico. ↩
Voltar ao trechoLembre-se de que havia um contrato existente via OTA desde 2026. Este contrato é modificado para estabelecer o comitê. ↩
Voltar ao trechoAgradecimentos a Tjaden Hess por apontar erros em uma versão anterior deste texto e, assim, nos ajudar a melhorar o realismo. ↩
Voltar ao trecho