Carregando...

Ele renunciou a um líder da GenAI em protesto. Agora ele quer criar sistemas mais justos para os artistas

Ed Newton-Rex atingiu um ponto de ruptura. Como vice-presidente de áudio da Stability AI, o jovem de 36 anos estava na vanguarda de uma revolução na criatividade computacional. Mas havia um desconforto crescente quanto à estratégia do movimento.

A estabilidade estava se tornando uma potência emergente na IA generativa. A startup com sede em Londres possui o Stability Diffusion, um dos geradores de imagens mais populares do mundo. Também recentemente se expandiu para geradores de música com o lançamento em setembro do Stable Audio – uma ferramenta desenvolvida pelo próprio Newton-Rex. Mas estes dois sistemas estavam a tomar caminhos conflitantes.

Stable Audio foi treinado em música licenciada. O modelo foi alimentado com um conjunto de dados de mais de 800.000 arquivos da biblioteca de música AudioSparx. Todos os materiais protegidos por direitos autorais foram fornecidos com permissão.

A Difusão Estável seguiu uma direção diferente. O sistema foi treinado em bilhões de imagens extraídas da web sem o consentimento dos criadores. Muitos eram materiais protegidos por direitos autorais. Todos foram levados sem pagamento.

Essas imagens ensinaram bem o modelo. Os resultados da Diffusion levaram a Estabilidade a uma avaliação de US$ 1 bilhão em um mercado de US$ 101homem rodada de financiamento no ano passado. Mas o sistema estava atraindo oposição de artistas – incluindo Newton-Rex.

Garanta seu ingresso AGORA para a Conferência TNW – Super Earlybird está 90% esgotado!

Liberte a inovação, conecte-se com milhares de amantes da tecnologia e molde o futuro de 20 a 21 de junho de 2024.

Um pianista e compositor além de pioneiro da GenAI, Newton-Rex estava em desacordo com a eliminação não autorizada.

“Sempre quis ter certeza de que essas ferramentas fossem construídas com o consentimento dos criadores por trás dos dados de treinamento”, disse ele à TNW em uma videochamada de sua casa no Vale do Silício.

A estabilidade estava longe de ser o único expoente deste método. Os geradores de imagens MidJourney e Dall-E aplicam a mesma abordagem, assim como o gerador de texto ChatGPT da OpenAI e o programador CoPilot. As artes visuais, as obras escritas, a música e até mesmo o código são agora constantemente retrabalhados sem consentimento.

Em resposta, os criadores e detentores de direitos de autor lançaram numerosos ações judiciais. Eles estão irritados porque o seu trabalho está sendo levado, adaptado e monetizado sem permissão ou remuneração. Eles também estão preocupados com o fato de seus meios de subsistência estarem em risco.

“É do interesse da indústria da IA ​​fazer as pessoas pensarem que apenas os grandes players podem fazer isso.

Os artistas dizem que a IA generativa está roubando seu trabalho. As empresas por trás dos sistemas discordam. Em um recente envio ao US Copyright Office, Stability argumentou que a formação foi de “uso justo” porque os resultados são “transformadores” e “socialmente benéficos”.

Consequentemente, afirmou a empresa, não houve violação de direitos autorais. A prática poderia, portanto, continuar sem permissão ou pagamentos. Foi uma afirmação que se tornou comum na GenAI, mas que Newton-Rex contestou.

“Isso realmente mostrou onde a indústria como um todo está agora – e não é um lugar que me deixa feliz”, diz ele.

Newton-Rex considera a prática da exploração. Na semana passada, ele resignado da Estabilidade em protesto.

A saída não significa que a Newton-Rex abandonou a IA generativa. Pelo contrário, pretende continuar trabalhando na área, mas seguindo um modelo mais justo. Não é a missão impossível que os gigantes da GenAI poderiam representar. Na verdade, isso já foi realizado por diversas empresas.

Newton-Rex tem uma longa história em criatividade computacional. Depois de estudar música na Universidade de Cambridge, ele fundou o Jukedeck, um compositor pioneiro de IA. O aplicativo usou aprendizado de máquina para compor músicas originais sob demanda. Em 2019, foi adquirida pela Bytedance, proprietária do TikTok.

Newton-Rex então trabalhou como diretor de produto na Tiktok e diretor de produto no Voicey, um aplicativo de colaboração musical que foi adquirido pela Snap, antes de ingressar na Stability AI no ano passado. Ele foi encarregado de liderar os esforços de áudio da startup.

“Eu queria construir um produto de geração de música que mostrasse o que pode ser feito com dados licenciados reais – onde você concorda com os detentores dos direitos”, diz ele.

Esse objetivo o colocou em conflito com muitos líderes do setor. A GenAI estava se tornando popular e as empresas corriam para lançar novos sistemas o mais rápido possível. Extrair conteúdo da web era um atalho atraente.

Também foi comprovadamente eficaz. Naquela época, ainda havia dúvidas de que os conjuntos de dados licenciados fossem grandes o suficiente para treinar modelos de última geração. Também foram levantadas questões sobre a qualidade dos dados. Mas ambas as suposições estão agora sendo refutadas.

“O que chamamos de dados de treinamento é, na verdade, uma produção criativa humana.

O Stable Audio forneceu uma fonte de contra-evidências. O modelo subjacente do sistema foi treinado em música licenciada em parceria com os detentores dos direitos. Os resultados resultantes mereceram aplausos. No mês passado, a Time nomeou Stable Audio como um dos melhores invenções de 2023.

“Durante alguns meses, foi o que há de mais moderno em geração musical – e foi treinado em músicas que licenciamos”, diz Newton-Rex. “Para mim, isso mostrou que isso pode ser feito.”

Na verdade, existe agora uma lista crescente de empresas que mostram que isso pode ser feito. Uma delas é a Adobe, que lançou recentemente um modelo generativo de aprendizado de máquina chamado Firefly. O sistema é treinado em imagens do Creative Commons, Wikimedia e Flickr Commons, bem como em 300 milhões de fotos e vídeos no Adobe Stock e em domínio público.

Como esses dados são fornecidos com permissão, são seguros para uso comercial. A Adobe também enfatizou que os criadores cujo trabalho for utilizado terão direito a pagamentos.

Uma colagem de imagens geradas pelo Adobe Firefly
As imagens desta colagem foram geradas pelo Adobe Firefly, que foi treinado em imagens licenciadas. Crédito: Adobe

Outro modelo alternativo vem da Getty Images. Em setembro, a empresa lançou o Generative AI da Getty Images, que é treinado exclusivamente na enorme biblioteca da plataforma. Craig Peters, CEO da empresa, disse que a ferramenta atende “às necessidades comerciais, respeitando ao mesmo tempo a propriedade intelectual dos criadores”.

A Nvidia também desenvolveu GenAI em parceria com detentores de direitos autorais. O serviço Picasso da gigante da tecnologia foi treinado em imagens licenciadas pela Getty Images, Shutterstock e Adobe. A Nvidia disse que planeja pagar royalties.

Essas abordagens não funcionarão para todos. Como megacorporações com profundos pools de conteúdo, as empresas por trás delas possuem recursos que poucas empresas conseguem igualar. Ainda assim, as startups mostrando que o licenciamento também pode ser feito com orçamento limitado.

GenAI para as pessoas

Bria AI forneceu um exemplo. A empresa desenvolveu um novo modelo comercial de código aberto para geração de imagens de alta qualidade. Todo o treinamento é feito em conjuntos de dados licenciados, que foram criados em colaboração com as principais agências de fotografia e artistas. Um modelo de partilha de receitas proporciona aos criadores e detentores de direitos uma compensação pela sua contribuição

É uma abordagem semelhante à que Newton-Rex usou na Stable Audio – mas não é a única.

As empresas também podem fornecer pagamentos adiantados aos artistas, criar joint ventures que dêem aos detentores de direitos participação no negócio ou usar conteúdo com uma licença Creative Commons, que pode ser reutilizada livremente sem permissão explícita. As empresas GenAI podem rejeitar estes esforços, mas têm segundas intenções.

“É do interesse da indústria de IA fazer as pessoas pensarem que apenas os grandes players podem fazer isso – mas isso não é verdade”, diz Newton-Rex.

“Talvez você precise ser um pouco inventivo. Você certamente precisa fazer algumas negociações e estar disposto a gastar tempo. Mas, em última análise, o que chamamos de dados de formação – e o que é realmente produção criativa humana – é um recurso para empresas de tecnologia. Eles precisam trabalhar para conseguir isso da mesma forma que precisam trabalhar para obter qualquer recurso.”

Se estiverem dispostos a fazer isso, a GenAI poderá trabalhar em harmonia com artistas humanos. E, esperançosamente, vamos todos aproveitar a criatividade desencadeada por ambos.