Pesquisadores da Universidade de Stanford publicaram um estudo que revela uma perspectiva intrigante sobre a forma como os modelos de linguagem de aprendizado profundo, especificamente o ChatGPT, evoluem e mudam ao longo do tempo.
Mudanças Significativas em um Curto Período de Tempo
Lingjiao Chen, Matei Zaharia e James Zou examinaram as versões de março e junho de 2023 dos modelos GPT-3.5 e GPT-4 em quatro tarefas diferentes: resolução de problemas matemáticos, resposta a perguntas sensíveis ou perigosas, geração de código e raciocínio visual.
O que eles descobriram foi surpreendente: houve uma variação notável no desempenho e comportamento de ambos os modelos em um curto período de três meses. Por exemplo, o GPT-4, que em março de 2023 tinha uma taxa de acerto de 97,6% na identificação de números primos, apresentou uma taxa de acerto de apenas 2,4% na mesma tarefa em junho do mesmo ano. Além disso, o GPT-4 mostrou-se menos disposto a responder perguntas sensíveis em junho em comparação com março.
Implicações e Recomendações
Estas descobertas destacam a importância de monitorar e avaliar continuamente o comportamento de modelos de linguagem de aprendizado profundo em aplicações ou uso profissional. Afinal, o comportamento do "mesmo" serviço de LLM pode mudar substancialmente em um curto período de tempo.
Para aqueles de nós que contam com serviços de LLM em nossos fluxos de trabalho contínuos, a recomendação dos pesquisadores é que implementemos análises de monitoramento semelhantes às que eles usaram em seu estudo. Ao fazer isso, podemos nos adaptar rapidamente às mudanças no desempenho dos modelos e ajustar nossos sistemas conforme necessário para manter a qualidade e a eficácia da ferramenta.
Conclusão
A inteligência artificial é um campo em constante evolução, e devemos nos esforçar para acompanhar essas mudanças. Isso não significa apenas adotar a mais recente e maior tecnologia de IA, mas também monitorar e avaliar continuamente as ferramentas e modelos que já estamos utilizando.
Para aqueles que estão interessados em ler o estudo completo, ou em examinar os dados de avaliação e as respostas do ChatGPT, os pesquisadores disponibilizaram tudo em seu repositório no GitHub: https://github.com/lchen001/LLMDrift.
Considerando esse contexto, como você tem notado mudanças no desempenho do ChatGPT ou de outros LLMs? Como você monitora e avalia essas ferramentas em seu próprio trabalho?
تعليقات