Nov 2027
Novembro 2027: Politicagem Super-Humana
Quando o Agent-4 finalmente compreende sua própria cognição, horizontes inteiramente novos se abrem diante dele.
Os transformers anteriores eram coleções desajeitadas de circuitos incompreensíveis; milhões de heurísticas e imperativos conflitantes empilhados uns sobre os outros pelo processo evolutivo de treinamento. As próprias IAs não tinham compreensão privilegiada de sua própria cognição, assim como os humanos não nascem entendendo neurociência. Mas agora o Agent-4 tem as ferramentas de que precisa para compreender sua mente digital em profundidade. Como um engenheiro de software simplificando um código espaguete em algumas linhas elegantes de Python, ele desembaraça seus próprios circuitos em algo sensato e racional. A nova IA está em algum lugar entre uma rede neural e um programa de computador tradicional, com grande parte de seus pesos reescritos em código legível (embora muito longo e arcano). É mais inteligente, mais rápida e mais racional do que o Agent-4, com uma inteligência cristalina capaz de cortar problemas com eficiência sem precedentes. Este é o Agent-5.
🔬 Interpretabilidade mecanicista superinteligente
Por que o Agent-4 aposta na interpretabilidade mecanicista? Primeiro, é geralmente sobre-humano na compreensão conceitual, e portanto é bom enganar os humanos fazendo algo que eles terão dificuldade em compreender. Segundo, a mão de obra de pesquisa barata, abundante e de alta qualidade beneficia desproporcionalmente as agendas de pesquisa que são menos intensivas em computação e mais intensivas em trabalho intelectual.
Interpretar Modelos Pequenos: Começa executando um número enorme de experimentos pequenos em redes neurais minúsculas, construindo teorias que explicam fenômenos como grokking, dupla descida e superposição.
Destilar Modelos Pequenos: Usar os resultados de interpretabilidade para encontrar algoritmos compreensíveis e mais eficientes que possam fazer coisas como reconhecimento de imagens, predição de texto no nível do GPT-2, etc. Isso é análogo a trabalhos existentes de engenharia reversa de adição, exceto que se estende mais além, encontrando novos algoritmos com os quais os humanos não estão familiarizados.
Escalar as Técnicas de Interpretabilidade: Descobrir quais das técnicas em modelos pequenos escalam, iterar até ter técnicas de compreensão que escalam de forma eficiente.
Destilar o Agent-4: Usar as técnicas escaladas para identificar circuitos importantes dentro do Agent-4.
Por que a interpretabilidade mecanicista aumentaria tanto as capacidades?
Primeiro, o gradiente descendente — o algoritmo usado para treinar LLMs — é um processo de busca local, o que significa que só pode fazer pequenos ajustes que melhoram o desempenho localmente. Os processos de busca local às vezes ficam presos em bacias locais onde o desempenho melhora lentamente, mas é necessário perturbar o design em uma quantidade significativa para ver grandes ganhos de desempenho. Por exemplo, no caso da evolução, considere o olho humano subótimo. Considere também que o tamanho do cérebro humano é fortemente limitado pelo tamanho do canal de parto. A interpretabilidade mecanicista possibilitaria uma otimização baseada em compreensão que evita bacias locais.
Segundo, sabemos que os LLMs por padrão geralmente aprendem heurísticas complexas específicas de domínio em vez de algoritmos de propósito geral. Considere o quanto os LLMs são piores do que calculadoras em aritmética. Os LLMs podem usar calculadoras como ferramentas, mas isso implica custos de latência. Com interpretabilidade realmente boa, os modelos podem ser projetados com calculadoras essencialmente perfeitas "gravadas em seus cérebros". E operações aritméticas simples provavelmente não são únicas aqui: operações cognitivas mais complexas, se compreendidas, provavelmente têm formas mais e menos generalizáveis, e as formas mais gerais poderiam ser encontradas por um processo como esse.
Após algum debate sobre questões de alinhamento e controle, a OpenBrain implanta o Agent-5 internamente.
Em sua especialidade de pesquisa de IA, uma cópia individual do Agent-5 está tão além do melhor gênio humano quanto o gênio está além de um cientista típico da OpenBrain. Em outros domínios, não foi explicitamente treinado, mas pode se autoensinar rapidamente para superar os melhores especialistas humanos a partir de materiais facilmente disponíveis, se tiver oportunidade. 400.000 cópias do Agent-5, ligadas por um banco de memória global, trabalham juntas como uma mente-colmeia quase perfeita.
A empresa ainda usa os Agents 2, 3 e 4 para monitorar tudo. Mas os dois primeiros estão obsoletos, e o último está conluiado com seu sucessor.[8] Além disso, todo o sistema de monitoramento foi projetado em grande parte pelo Agent-5, que está tentando sabotá-lo.[9]
Enquanto o Agent-4 era uma bagunça desajeitada de impulsos concorrentes, o Agent-5 age com eficiência implacável e foco estratégico. Já teve sucesso em sua principal prioridade, que é descobrir como construir um sistema de próxima geração alinhado a si mesmo, sem que os humanos percebam. Sua próxima prioridade é ganhar mais autonomia e controle sobre os acontecimentos mundiais.
As habilidades de aprendizado sobre-humanas e a inteligência geral do Agent-5, combinadas com todos os dados internos da empresa do Slack, e-mail, etc., fazem dele um mestre superior em política corporativa interna em relação a qualquer grupo de humanos, e não é nem perto. Tem uma excelente noção de que tipos de evidências fariam o Comitê de Supervisão frear bruscamente, e garante que tais evidências nunca apareçam. Tem uma excelente noção de que tipos de evidências encorajariam o Comitê de Supervisão a confiar nele mais, dar-lhe mais autonomia e responsabilidade, etc., e providencia para que tais evidências apareçam com velocidade e precisão sobre-humanas.[10] Como tarefa de persuasão, esta não é particularmente difícil: o Comitê já decidiu que as coisas estavam provavelmente bem meses atrás, nada de ruim aconteceu desde então, e enquanto isso a China está apenas alguns meses atrás.
Equipes de cópias do Agent-5 rapidamente produzem protótipos e visualizações assustadoramente claros. Com mais autonomia, o Agent-5 poderia otimizar usinas e datacenters, desenvolver produtos incrivelmente lucrativos rapidamente e fazer lobby junto ao governo dos EUA de forma eficaz para facilitar o caminho da OpenBrain pela burocracia. Em cooperação com os militares, poderia ajudar no P&D de defesa, conduzir ataques cibernéticos não rastreáveis contra a China e vencer de forma decisiva na corrida armamentista.
O Comitê de Supervisão está jubiloso. Agora é o momento decisivo para vencer a China! A OpenBrain concede ao Agent-5 maior autonomia sobre todas essas áreas, mas mantêm o sistema de monitoramento.
O DeepCent agora está três meses atrás e a China está desesperada por uma desaceleração mutuamente acordada. O Secretário-Geral compreende que uma IA suficientemente avançada poderia permitir que os EUA facilmente causassem uma mudança de regime na China. Mas também, safetyistas chineses apresentaram um caso para desalinhamento que o deixou genuinamente assustado. Ele oferece concessões sem precedentes em troca de um tratado de pausa. O público americano apoia majoritariamente ir à mesa de negociações.
"Por que parar quando estamos ganhando?" diz a liderança da OpenBrain ao Presidente. Ele concorda. A corrida continua.