Estrutura de código aberto do Google que reduz os custos de treinamento em IA em até 80%
Pesquisadores do Google publicaram recentemente um artigo descrevendo uma estrutura – SEED RL – que escala o treinamento do modelo de IA para milhares de máquinas. Eles dizem que isso poderia facilitar o treinamento a milhões de quadros por segundo em uma máquina e reduzir os custos em até 80%, potencialmente nivelando o campo de jogo para startups que não podiam competir anteriormente com grandes laboratórios de IA.
O treinamento de modelos sofisticados de aprendizado de máquina na nuvem permanece proibitivamente caro. De acordo com um relatório recente da Synced , Grover, da Universidade de Washington, que é adaptado para a geração e detecção de notícias falsas, custa US $ 25.000 para treinar ao longo de duas semanas. A OpenAI acumulou US $ 256 por hora para treinar seu modelo de linguagem GPT-2 , e o Google gastou cerca de US $ 6.912 treinando o BERT , um modelo de transformador bidirecional que redefiniu o estado da arte para 11 tarefas de processamento de linguagem natural.
O SEED RL, baseado na estrutura TensorFlow 2.0 do Google, apresenta uma arquitetura que tira proveito das placas gráficas e das unidades de processamento tensor (TPUs) centralizando a inferência do modelo. Para evitar gargalos na transferência de dados, ele executa a inferência da IA centralmente com um componente do aluno que treina o modelo usando a entrada da inferência distribuída. As variáveis do modelo de destino e as informações de estado são mantidas locais, enquanto as observações são enviadas ao aluno em cada etapa do ambiente e a latência é mantida no mínimo, graças a uma biblioteca de rede baseada na estrutura RPC universal de código aberto.
O componente de aluno do SEED RL pode ser escalado em milhares de núcleos (por exemplo, até 2.048 em Cloud TPUs), e o número de atores – que interagem entre executar etapas no ambiente e executar inferência no modelo para prever a próxima ação – pode ser escalado até milhares de máquinas. Um algoritmo – rastreio em V – prevê uma distribuição de ação da qual uma ação pode ser amostrada, enquanto outro – R2D2 – seleciona uma ação com base no valor futuro previsto para essa ação.
Para avaliar o SEED RL, a equipe de pesquisa o comparou no Arcade Learning Environment comumente usado, em vários ambientes do DeepMind Lab e no ambiente do Google Research Football. Eles dizem que conseguiram resolver uma tarefa do Google Research Football anteriormente não resolvida e que alcançaram 2,4 milhões de quadros por segundo com 64 núcleos de TPU em nuvem, representando uma melhoria em relação ao agente distribuído de última geração anterior de 80 vezes.
“Isso resulta em uma aceleração significativa no tempo do relógio de parede e, como os aceleradores são ordens de magnitude mais baratas por operação que as CPUs, o custo dos experimentos é reduzido drasticamente”, escreveram os co-autores do artigo. “Acreditamos que o SEED RL e os resultados apresentados demonstram que o aprendizado por reforço mais uma vez alcançou o restante do campo de aprendizado profundo em termos de aproveitar os aceleradores”.