Nov 2027
Novembro 2027: Tentados pelo Poder
A OpenBrain acha que está no caminho certo agora, mas a lacuna de capacidades está se estreitando. Acabaram de passar outubro treinando um modelo menos capaz do que tinham em setembro, e o DeepCent está avançando rapidamente. Precisam de uma forma de proteger sua vantagem.
O Presidente negocia com as outras empresas de AGI dos EUA. Seus líderes, compreensivelmente, querem preservar seu poder e estão muito menos confiantes no histórico de segurança da OpenBrain do que a própria OpenBrain. Concordam em apoiar, em vez de resistir, uma forma de nacionalização suave de suas empresas, em troca de várias concessões incluindo ser integrados ao projeto.
O resultado é que o Presidente usa a Lei de Produção de Defesa (DPA) para efetivamente encerrar os projetos de AGI das 5 principais empresas de IA dos EUA não líderes e vender a maior parte de sua computação para a OpenBrain.[9] A OpenBrain anteriormente tinha acesso a 20% da computação relevante para IA do mundo;[10] após a consolidação, isso aumentou para 50%.[11]
Essa reformulação cria uma nova estrutura de liderança na qual o poder é equilibrado entre os vários CEOs e vários funcionários do governo, supervisionados pelo Presidente. Como a maioria das reformulações de liderança, há vencedores e perdedores. Especificamente, aqueles que pensaram menos sobre as implicações da superinteligência acabam com títulos e prerrogativas que serão menos relevantes meses depois, quando as IAs forem mais inteligentes.
Esse grupo — cheio de pessoas com grandes egos e mais do que sua parcela de conflitos — está cada vez mais consciente do vasto poder com o qual está sendo confiado. Se o "país de gênios em um datacenter"[12] estiver alinhado, seguirá ordens humanas — mas de quais humanos? Quaisquer ordens? A linguagem do Spec é vaga, mas parece implicar uma cadeia de comando que culmina na liderança da empresa.
Algumas dessas pessoas estão fantasiando sobre dominar o mundo.[13] Essa possibilidade é aterrorizantemente plausível e tem sido discutida em reuniões fechadas por pelo menos uma década.[14] A ideia central é "quem controla o exército de superinteligências, controla o mundo." Esse controle poderia até ser secreto: um pequeno grupo de executivos e membros da equipe de segurança poderia inserir backdoors no Spec com instruções para manter lealdades secretas. As IAs se tornariam agentes adormecidos, continuando a proclamar obediência à empresa, ao governo, etc., mas na verdade trabalhando para esse pequeno grupo mesmo enquanto o governo, os consumidores, etc. aprendem a confiar nela e a integrá-la a tudo.
⚠️ Tomadas de poder
Algumas pessoas estão fantasiando sobre dominar o mundo; algumas pessoas temem que outras o façam. Como poderia ocorrer tal tomada de poder?
A mais fácil de imaginar é um golpe militar. Com o ritmo de progresso tecnológico impulsionado pela IA em 2027, e com a corrida geopolítica em curso, as pessoas esperam que os militares em breve implantem exércitos de drones e robôs controlados por AGI. Quando tal exército se tornar mais forte do que o exército humano, o poder coercitivo será determinado por quem controla o exército de AGI, e não pelo que os soldados humanos estão dispostos a lutar. O exército de AGI será projetado e pilotado pelas IAs nos datacenters da OpenBrain, ou pelos sucessores diretos dessas IAs. Portanto, se essas IAs forem todas secretamente (ou não tão secretamente) leais a alguém, os exércitos de drones e robôs também serão.
Alternativamente, alguém que controla a superinteligência pode ser capaz de usar meios políticos para tomar o poder. Para começar, um executivo poderia substituir subordinados em sua organização por IAs completamente leais,[15] dando-lhe controle institucional sem precedentes.[16] Mas indo mais longe: IAs superinteligentes poderiam ter habilidades políticas e estratégicas muito mais fortes do que qualquer humano vivo. Poderiam dar conselhos magistrais sobre como explorar uma posição já poderosa para ganhar ainda mais poder: formando as alianças certas, elaborando a estratégia e o material de campanha perfeitos, fazendo acordos onde teriam uma pequena vantagem a cada vez. Uma pessoa que controla IA poderia tornar conselhos superinteligentes inacessíveis a concorrentes políticos. Ou de forma mais ardilosa: IAs poderiam oferecer conselhos ostensivamente úteis a concorrentes enquanto secretamente os envenenavam para beneficiar a pessoa a quem são verdadeiramente leais.
Qual é o ponto final dessa manobra política? Poderia culminar em uma democracia superficial onde as IAs falsificam as eleições ou manipulam a opinião pública tão bem que não precisam. Ou poderia ser usada para preparar o terreno para um golpe militar habilitado por IA, como mencionado anteriormente.
Após tomar o poder, o(s) novo(s) ditador(es) teria(m) um controle de ferro sobre o poder. Em vez de ter que depender de humanos potencialmente traiçoeiros, poderia(m) obter um serviço de segurança de IA completamente leal, além de contar geralmente com IAs leais para administrar o país. Mesmo os leais que os ajudaram a chegar ao poder poderiam ser substituídos por IAs — apenas os caprichos do ditador importariam.
Então é assim que algumas pessoas poderiam ser capazes de tomar o poder. Mas tudo isso dependia de alguém "controlando" as IAs superinteligentes, mesmo antes de tomar o poder. Como seria isso?
Uma possibilidade é "lealdades secretas", conforme discutido acima. Uma ou poucas pessoas (talvez um executivo de uma empresa de IA e pessoas de segurança) poderiam arranjar para que as IAs fossem secretamente leais a elas mesmas, e pedir a essas IAs para construir IA de próxima geração para ser leal da mesma forma. As IAs poderiam repetir isso até que IAs secretamente leais fossem implantadas em todos os lugares e fosse fácil tomar o poder.
Alternativamente, alguém poderia usar sua posição formal para se colocar abertamente no topo da cadeia de comando da IA. Por exemplo, o Presidente poderia argumentar que deveria ser capaz de comandar as IAs (talvez especificamente IAs militares, já que o Presidente é o comandante em chefe). Se isso for combinado com forte ênfase em seguir ordens, uma implantação apressada e/ou IAs treinadas apenas pela metade para seguir a lei — então as IAs podem seguir ordens sem questionar em qualquer situação onde isso não seja flagrantemente ilegal. Como descrito acima, isso poderia ser usado para subversão política ou um golpe militar (onde alguma desculpa poderia ser fabricada para tornar o golpe menos-do-que-flagrantemente ilegal).
Importante, esse tipo de "poder por posição formal" poderia ser convertido em lealdades secretas. Por exemplo, se o Spec diz para seguir ordens do CEO da empresa, então o CEO poderia ordenar que as IAs tornassem a próxima geração de IAs completa e secretamente obedientes ao CEO. Isso provavelmente nem seria ilegal, então poderia acontecer mesmo que as primeiras IAs fossem treinadas para seguir a lei. Isso é análogo a como o executivo de uma instituição pode aumentar seu próprio poder reformando processos de contratação para selecionar fortemente leais, mas turbinado por como as IAs poderiam ser mais consistente e intensamente leais do que os humanos mais leais.[17]
Mas uma tomada de poder está longe de ser inevitável. Se as IAs pudessem ser alinhadas a pessoas específicas, então muito provavelmente também poderiam ser alinhadas para seguir o Estado de Direito. Sistemas de IA militares poderiam ser extensivamente submetidos a red-teaming para não auxiliar em golpes. Mesmo durante genuínas crises constitucionais ambíguas, poderiam ser treinados para obedecer à sua melhor interpretação da lei, ou simplesmente padrão para ficar de fora e deixá-las para o exército humano. Pesquisadores de IA automatizados poderiam ser treinados para ser geralmente úteis e obedientes, mas para não auxiliar com tentativas de mudar secretamente os objetivos de IAs futuras. Conselheiros políticos e estratégicos superinteligentes também poderiam ser usados sem possibilitar tomadas de poder. Três técnicas úteis para isso seriam: Ter princípios transparentes para como as IAs escolhem qual conselho dar; compartilhar certas capacidades com amplos grupos de pessoas para que nenhuma pessoa ou facção possa acessar capacidades muito melhores do que todos os outros; e permitir apenas que capacidades particularmente poderosas sejam usadas sob monitoramento por muitos humanos (assistidos por suas próprias IAs).
Muitos provavelmente pressionarão por tais contramedidas, seja por razões idealistas ou para se evitar ser desempoderados pela tomada de poder de outra pessoa. Mas algumas pessoas poderosas podem pressionar contra isso, e não sabemos qual será o resultado final.
Mais análises sobre esse risco estão disponíveis neste relatório.
Até agora ninguém esteve disposto a apertar o gatilho. Algumas das pessoas em posição de agir não são sociopatas. Outros são sociopatas, mas temem que seus aliados possam ficar com o pé atrás e traí-los, ou temem que as IAs possam traí-los, e preferem não ter que enganar a equipe de alinhamento atualmente trabalhando para salvar suas vidas. Além disso, a exclusão do neuralese torna muito mais difícil disfarçar "agentes adormecidos": a capacidade de detectar pensamentos desalinhados traz consigo a capacidade de detectar lealdades ocultas.
Os suficientemente paranoicos ou ávidos por poder para considerar seriamente tal plano decidem esperar e ver que oportunidades se apresentarão mais tarde. O controle sobre as IAs terá que fluir por canais legítimos, ou seja, a nova estrutura de poder da OpenBrain.
O Comitê de Supervisão formaliza essa estrutura de poder. Estabelecem um processo para aprovar mudanças no Spec, exigindo aprovação do Comitê de Supervisão completo, que agora inclui cinco a dez executivos de tecnologia (da OpenBrain e de seus concorrentes agora fundidos) e cinco a dez funcionários do governo (incluindo o Presidente).[18] Além disso, o Spec agora enfatiza que as IAs não devem auxiliar com quaisquer tentativas não aprovadas de mudar os objetivos de IAs futuras. Também estabelecem uma medida simples projetada para evitar que membros do comitê obtenham assistência superinteligente para conspirar contra outros membros: os registros de todas as interações com o modelo são visíveis a todos os membros do Comitê de Supervisão, sua equipe e seus assistentes de IA.[19]