Os pesquisadores treinam um modelo de linguagem da Meta com texto gerado pelo GPT-3.5 da OpenAI por menos de US $ 600 – e alcançam um desempenho semelhante.
Treinar grandes modelos de linguagem é caro, e modelos poderosos continuam sendo o monopólio de grandes empresas de tecnologia – certo?
Talvez não.
Pesquisadores de Stanford usaram 52.000 demonstrações de instruções geradas pelo GPT-3.5 da OpenAI (texto-davinci-003) para ajustar uma variante de sete bilhões de parâmetros do modelo LLaMA recentemente anunciado pela Meta.
O treinamento de instrução é uma das principais técnicas que tornam o GPT-3.5 superior ao modelo GPT-3 original, e os dados de treinamento usados são proprietários do OpenAI.
Embora o RLHF seja fundamental para ajustar modelos como o ChatGPT ou mesmo o GPT-4, os recursos essenciais dos modelos são baseados em seu treinamento original – ou seja, treinamento com instruções também.
Alpaca de Stanford treina com saída OpenAI 2s4z4w
Em seu trabalho, o grupo de Stanford usou as instruções geradas pela IA para treinar a Alpaca 7B, um modelo de linguagem que, segundo os pesquisadores, exibe muitos comportamentos semelhantes ao GPT-3.5. Em um teste cego usando a entrada do Self-Instruct Evaluation Set, ambos os modelos tiveram desempenho comparável, diz a equipe.
A alpaca tem problemas comuns a outros modelos de linguagem, como alucinações, toxicidade e estereótipos. Em particular, as alucinações ocorrem com mais frequência do que no modelo OpenAI.
A equipe está lançando uma demonstração interativa, o conjunto de dados de treinamento e o código de treinamento. Eles também pediram permissão à Meta para liberar o modelo. Com o lançamento, a equipe espera permitir pesquisas sobre modelos de linguagem treinados com instruções. Para evitar o uso indevido, eles incluíram um filtro de conteúdo através da API OpenAI e uma marca d ‘água na demonstração.
O modelo não pode ser utilizado para fins comerciais. Além das preocupações de segurança e da licença não comercial do modelo LLaMA da Meta, a equipe aponta para os termos de uso do OpenAI GPT-3.5, que afirmam que o modelo não pode ser usado para desenvolver modelos de IA que competem com o OpenAI.
O treinamento da Alpaca foi tão barato que a OpenAI tem um problema 2d6l6y
O último ponto é uma indicação de que a OpenAI está ciente de que a saída de seus próprios modelos pode ser usada como uma fonte de dados para possíveis réplicas. Com o vazamento dos modelos LLaMA maiores com até 65 bilhões de parâmetros, é concebível que tais projetos já estejam em andamento – e também possam usar a saída do GPT-4.
Além de seu desempenho impressionante para um modelo tão pequeno, a Alpaca também mostra como o treinamento em IA se tornou ível: a equipe treinou o Alpaca 7B por menos de US $ 600. Modelos maiores serão mais caros, mas o custo esperado deve estar em uma faixa que possa ser facilmente financiada por empresas ou projetos de crowdsourcing.
O pesquisador de alinhamento Eliezer Yudkowsky resume o problema que isso representa para empresas como a OpenAI:“ Se você permitir qualquer o suficientemente amplo ao seu modelo de IA, mesmo por API paga, estará distribuindo suas joias da coroa comercial para concorrentes que podem quase clonar seu modelo sem todo o trabalho árduo que você fez para construir seu próprio conjunto de dados de ajuste fino”.
O que a OpenAI pode fazer sobre isso? Não muito, diz Yudkowsky: “Se você aplicar com sucesso uma restrição contra a comercialização de uma imitação treinada em seu I/O – uma perspectiva legal que nunca foi testada, neste momento – isso significa que os pontos de verificação concorrentes sobem no BitTorrent”.
I don’t think people realize what a big deal it is that Stanford retrained a LLaMA model, into an instruction-following form, by **cheaply** fine-tuning it on inputs and outputs **from text-davinci-003**.
It means: If you allow any sufficiently wide-ranging access to your AI…
— Eliezer Yudkowsky (@ESYudkowsky) March 14, 2023
Você pode experimentar o Alpaca 7B de Stanford gratuitamente.
Fonte: andrelug