Atualmente, os chatbots mais poderosos podem lidar com até 75 mil palavras de consultas, mas o aumento nos dados de entrada é limitado pela memória das GPUs que treinam e executam os modelos de IA.
No campo da IA, essas entradas são medidas como “tokens” e “janelas de contexto”: um token é uma unidade que pode representar uma palavra, parte de uma palavra, um número ou algo semelhante; e a janela de contexto é o espaço onde você insere perguntas, texto ou outros dados para o chatbot.
O chatbot Anthropic Claude oferece uma janela de contexto de até 100.000 tokens, ou cerca de 75.000 palavras. Essencialmente, este é um livro que os sistemas podem analisar imediatamente e dar uma resposta definitiva. O modelo OpenAI GPT-3.5 suporta uma janela de contexto com um limite de até 16.000 palavras, e seu sucessor GPT-4 suporta até 32.000. De acordo com as pesquisas mais recentes, o modelo criado pela MosiacML, de propriedade da Databricks, pode lidar com 65.000 tokens.
No dele artigoHao Liu, estudante de graduação da UC Berkeley e pesquisador freelance do Google DeepMind, propõe uma maneira de aumentar esse número para milhões.
Os modelos atuais de IA processam dados de uma forma que exige que as GPUs armazenem diferentes resultados internos e depois os recalculem antes de passá-los para a próxima GPU. Isso requer muita memória, o que não é suficiente – o que acaba limitando a quantidade de dados de entrada que o modelo pode processar. Não importa quão rápida seja a GPU, existe algo chamado gargalo de memória.
A nova abordagem forma um anel de GPUs que passam informações para a próxima GPU enquanto recebem simultaneamente blocos semelhantes de outra GPU próxima. E assim por diante.
“Isso praticamente elimina as limitações de memória impostas por dispositivos individuais»escrevem os pesquisadores.
Liu diz que, em teoria, muitos livros e até filmes no futuro poderiam ser adicionados a janelas contextuais de uma só vez, e os modelos de inteligência artificial os analisariam e criariam respostas consistentes:
“Quanto mais GPUs você tiver, maior será a janela de contexto. Eu me pergunto o que as grandes empresas de tecnologia podem fazer com isso».
Por exemplo, Liu calculou que um modelo com 13 bilhões de parâmetros e uma janela de contexto de 16.000 tokens usando 256 GPUs Nvidia A100 poderia lidar com uma janela de contexto com 4 milhões de tokens sob a nova “abordagem de anel”.
Essas descobertas levantam uma questão importante: se você pode fazer mais com menos GPUs, isso indica menos demanda pelos chips de IA da Nvidia? Liu diz que não. Em vez disso, os desenvolvedores e as empresas de tecnologia tentarão coisas maiores e mais ousadas com novas tecnologias.
Ao mesmo tempo, o uso de menos GPUs poderia mitigar parte do impacto ambiental e reduzir o uso de energia no campo da IA, que recentemente se estimou que consumiria tanta energia quanto a Suécia ou a Holanda até 2027.
Fonte: Insider