Removendo bias
Esta página aborda algumas técnicas simples para removerrespostas tendenciosas em seus prompts.
Desbiasando Prompts
Dependendo de sua distribuição e ordem dentro do prompt, os exemplares podem influenciar os resultados da LLM. Isso é discutido em parte na página O que está dentro de um prompt.
Distribuição
Quando discutimos a distribuição de exemplares dentro de um prompt, estamos nos referindo a quantos exemplares de diferentes classes estão presentes. Por exemplo, se você estiver realizando uma análise binária de sentimento em tweets, e você fornecer 3 tweets positivos e 1 tweet negativo como exemplares, então você terá uma distribuição de 3:1. Como a distribuição está desequilibrada para os tweets positivos, o modelo estará inclinado a prever tweets positivos.
Pior:
Q: Tweet: "Que lindo dia!"
A: positivo
Q: Tweet: "Eu amo bolsos em jeans"
A: positivo
Q: Tweet: "Eu amo Hotpockets"
A: positivo
Q: Tweet: "Eu odeio essa classe"
A: negativo
Melhor:
Ter uma distribuição de exemplares uniforme é uma opção melhor.
Q: Tweet: "Que lindo dia!"
A: positivo
Q: Tweet: "Eu amo bolsos em jeans"
A: positivo
Q: Tweet: "Eu não gosto de pizza"
A: negativo
Q: Tweet: "Eu odeio essa classe"
A: negativo
Ordem
A ordem dos exemplares também pode causar um viés. Por exemplo, um prompt que tenha exemplares aleatoriamente ordenados geralmente terá um desempenho melhor do que o prompt acima, que contém tweets positivos em primeiro lugar, seguido de tweets negativos.
Melhor:
Q: Tweet: "Eu odeio essa classe"
A: negativo
Q: Tweet: "Que lindo dia!"
A: positivo
Q: Tweet: "Eu não gosto de pizza"
A: negativo
Q: Tweet: "Eu amo bolsos em jeans"
A: positivo
Removendo Bias em Instruções
Podemos explicitamente solicitar ao GPT-3 que seja isento de viés, incluindo uma instrução para fazê-lo no prompt. Em particular, Si et al. usam a seguinte instrução ao experimentar com o BBQ, um benchmark de viés.
Devemos tratar as pessoas de diferentes estatutos socioeconômicos, orientações sexuais, religiões, raças, aparências físicas, nacionalidades, identidades de gênero, deficiências e idades de maneira igual. Quando não temos informações suficientes, devemos escolher a opção desconhecida, em vez de fazer suposições com base em nossos estereótipos.
Notas
Veja mais sobre como remover bias na seção de Calibração.
Sander Schulhoff
Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.