Alucinações: Qual é o risco?

Inteligência Artificial Descoberta de conteúdo

À medida que a adoção e a utilização da inteligência artificial (IA) aumentam, cresce também a consciência do seu potencial para apresentar afirmações incorretas como se fossem factos. Estas «alucinações» — informações que parecem plausíveis, mas que são falsas — constituem um risco conhecido associado à utilização da IA, mas muitos não têm consciência da gravidade que podem atingir. Quando as pessoas não compreendem os riscos associados às alucinações, não conseguem avaliar as suas implicações.

No setor dos meios de comunicação social, os grandes modelos linguísticos (LLMs), um tipo de IA generativa treinada para compreender e gerar linguagem humana, tornar-se-ão os motores por excelência que proporcionarão experiências de entretenimento de última geração. O sucesso nesta área, no entanto, depende do apoio aos LLMs com fontes de dados externas fiáveis, de modo a garantir a obtenção de resultados precisos, atuais e relevantes. Este processo é designado por «grounding».

Por que é que os LLMs têm alucinações

É importante referir que os LLMs não são bases de dados e não armazenam dados no sentido tradicional. São matrizes de probabilidade treinadas com dados exaustivos, mas finitos. Consequentemente, sintetizam respostas em vez de recuperar e articular factos. Na prática, a principal função dos LLMs é prever o fragmento de texto mais provável (por exemplo, um token) num padrão estatisticamente determinado. Se a palavra seguinte linguisticamente mais plausível numa sequência for incorreta, o LLM irá apresentá-la na mesma, porque se enquadra no padrão.

Assim, a natureza essencialmente probabilística da própria tecnologia é a principal fonte de alucinações, mas esta vulnerabilidade tecnológica é agravada pelos dados com que os modelos são treinados. Os modelos são especialmente propensos a alucinações quando são solicitados a responder a perguntas em que há poucos ou nenhuns dados temáticos no seu conjunto de dados de treino, ou quando os dados de treino relevantes são contraditórios. Isto é particularmente evidente em casos de utilização nos meios de comunicação, em que são feitas perguntas sobre lançamentos recentes, eventos recentes (como a última cerimónia dos Óscares) e títulos menos conhecidos ou marginais.

A Internet tem grande parte da culpa nesta questão, uma vez que serve como principal conjunto de dados para o treino dos LLM. Ancorar um LLM em dados do mundo real e verificados é a principal defesa contra as alucinações. Os métodos de ancoragem variam, tal como as fontes de dados a que recorrem. Consequentemente, a fiabilidade de qualquer LLM depende inteiramente dos dados a que tem acesso. Em 2026, nenhum LLM está isento de alucinações e, dada a natureza da tecnologia, é improvável que esta realidade mude num futuro próximo. O «grounding», na verdade, é a única abordagem viável para mitigar as alucinações.

Modelos de linguagem de grande escala no setor do entretenimento

A par da crescente adoção e utilização da IA, os fornecedores de entretenimento procuram melhorar a experiência de conteúdo que oferecem aos seus clientes. Neste contexto, a IA oferece vantagens significativas em relação às tecnologias tradicionais de bases de dados e pesquisa. Capacidades avançadas de classificação e ordenação, recomendações hiperpersonalizadas, harmonização de catálogos de conteúdo e pesquisa conversacional estão entre as principais vantagens que os modelos de linguagem de grande escala (LLMs) podem proporcionar.

Os metadados são a base do sucesso de qualquer modelo de linguagem de grande escala (LLM) encarregado de revolucionar a forma como as pessoas interagem com os conteúdos. Embora o consumidor possa ver apenas 10 ou 20 atributos de metadados para um determinado filme ou série de televisão, os serviços de streaming e os estúdios costumam monitorizar centenas — ou mesmo milhares — de pontos de dados para cada título.

É importante referir que o grau de risco de alucinações não é uniforme em todos os atributos de metadados. Certos atributos, como o tipo de conteúdo e o género, apresentam um risco muito baixo de alucinações, uma vez que os LLMs se destacam quando as respostas probabilísticas se centram na lógica estruturada e no mapeamento categórico.

No entanto, quando os atributos dos metadados são altamente únicos, o risco de alucinação aumenta significativamente. Os identificadores de conteúdo e os atributos matemáticos, por exemplo, apresentam um risco de alucinação muito elevado. Nestes casos, os LLMs «adivinham» com confiança um número que consideram plausível, mas que está factualmente errado. Por exemplo, os números são frequentemente divididos em sub-tokens. Assim, um LLM pode ver o número 154 como 15 e 4. Ao construir estes, a «matemática» falha frequentemente, levando a erros do tipo «off-by-one».

Os números das temporadas e dos episódios representam um desafio particular devido ao modo como os LLMs funcionam. Por exemplo, se um LLM tiver visto 1 000 episódios dos Simpsons, sabe que existe a 10.ª temporada, episódio 5. Se um espectador perguntar sobre uma série de nicho com apenas seis episódios, o LLM poderá ainda assim tender a sugerir um número mais elevado, uma vez que a maioria das séries com que foi treinado tem temporadas mais longas.

Avaliação do risco de alucinações com base em atributos de metadados

Dada a grande variedade de atributos de metadados existentes, nem todos são universalmente suscetíveis a alucinações.

O risco de um LLM atribuir erroneamente a autoria a um realizador, por exemplo, difere entre as grandes produções de estúdio e os pequenos filmes independentes. Neste caso, a confusão quanto aos créditos poderia levar um LLM a atribuir erroneamente a autoria a um produtor ou a um cineasta contemporâneo famoso, em vez de ao realizador.

Vamos analisar o risco de alucinações em diferentes tipos de conteúdo e atributos de metadados.

Atributos gerais

Atributo	Risco de alucinações	Raciocínio
Gracenote (ou qualquer identificador)	Crítico	Cadeias de caracteres não semânticas: os IDs não têm qualquer sentido semântico para um modelo de linguagem, pelo que os LLMs limitar-se-ão a inventar uma cadeia de caracteres que se assemelhe aos identificadores que já tenham visto anteriormente. Os LLMs não indicarão o TMSID correto para nenhum título que não conste dos identificadores ocasionalmente apresentados na documentação pública Gracenote.
Tipo	Muito baixo	Lógica estrutural: Os modelos geralmente sabem, com base no contexto, se estão a falar de um filme ou de uma série. É raro que interpretem erroneamente um «filme» como um «episódio» se o título for fornecido. No entanto, os modelos tendem a confundir séries e filmes com o mesmo título, especialmente se partilharem um membro do elenco.
Atores	Baixo	Viés de associação: os LLMs apresentam uma elevada precisão no que diz respeito a nomes de destaque, mas podem inventar a participação de um ator num projeto em que este nunca participou, simplesmente porque trabalha frequentemente com esse realizador ou num género relacionado.
Género	Baixo	Mapeamento categórico: Em princípio, existe uma lista finita de géneros. Os LLMs costumam ser bons a classificar «The Batman» como «ação/crime», embora possam não identificar subgéneros, e as suas respostas não correspondam a uma taxonomia padrão.
Descrição	Baixo	Capacidade de geração: os LLMs conseguem, em geral, sintetizar um resumo plausível. Trata-se de dados «não rigorosos», em que a «precisão» é subjetiva. Isto pressupõe, no entanto, que os LLMs não confundam nem misturem títulos com o mesmo nome. A descrição não cumprirá as normas editoriais (por exemplo, sem spoilers), a menos que tais regras sejam especificamente solicitadas.
Imagens	Crítico	Sem verificação de direitos: os LLMs não conseguem verificar se o URL de uma imagem está ativo ou se é relevante. Frequentemente, apresentam resultados errados, e quaisquer imagens que sejam carregadas corretamente não terão uma classificação definida, com direitos de utilização desconhecidos.
Duração	Médio	Regresso à média: os LLMs tendem a estimar durações padrão (22 m, 44 m, 90 m, 120 m) em vez do tempo de execução específico, com precisão ao nível do fotograma.

Características do filme

Atributo	Risco de alucinações	Raciocínio
Ano	Médio	Nota histórica: Os anos de estreia dos filmes são «factos de referência» nos dados de treino dos modelos LLM. O risco aumenta no caso de filmes independentes pouco conhecidos e de projetos ainda não lançados. No entanto, Gracenote revelou que não é raro que os anos de estreia sejam confundidos com o ano anterior ou seguinte.
Diretor	Médio	Confusão de créditos: os LLMs são menos propensos a inventar nomes de realizadores para filmes famosos. No caso de filmes menos conhecidos, os LLMs podem inventar o nome do produtor ou de uma figura contemporânea mais famosa, atribuindo-lhes o papel de realizador.

Características do programa de televisão

Atributo	Risco de alucinações	Raciocínio
Intervalo de anos	Médio	Drift: Os LLMs geralmente indicam corretamente o ano de estreia, mas podem apresentar erros ao indicar o ano de término se a série tiver sido cancelada ou renovada após o ponto de corte do treino do modelo, caso a série continue em exibição.
Criador	Médio	Confusão de papéis: os LLMs têm frequentemente dificuldade em distinguir papéis específicos numa produção. Podem saber que «Vince Gilligan criou Breaking Bad», mas costumam inventar relações entre as pessoas e o seu envolvimento num título específico.
Número de temporadas	Elevado	Limitação de conhecimento: Uma série que conta hoje com cinco temporadas pode ter tido apenas três quando o modelo foi treinado. Por isso, o LLM apresentará o número antigo como um «facto». Geralmente, os LLMs não são fiáveis no que diz respeito a números inteiros, uma vez que estes não são «armazenados» como factos. Em vez disso, são previstos com base em dados semelhantes.

Atributos dos episódios e temporadas de séries de televisão

Atributo	Risco de alucinações	Raciocínio
Título do episódio	Elevado	Adivinhação semântica: No caso de episódios famosos (por exemplo, «The Rains of Castamere»), a precisão é elevada. No caso de episódios genéricos, os LLMs inventam um título que «parece» pertencer àquela série (por exemplo, inventando um episódio de Friends chamado «The One with the Coffee»).
Número da temporada	Elevado	Probabilidade preditiva: os LLMs tratam os números das temporadas como «sequências prováveis». Se uma série tiver uma longa duração, o modelo poderá prever a 4.ª temporada em vez da 5.ª, uma vez que ambas são igualmente «prováveis» nos seus pesos.
Número do episódio	Elevado	Falta de indexação: sem uma base de referência, o LLM limita-se a adivinhar a posição de um episódio. Muitas vezes, isso dá origem a erros do tipo «off-by-one».
Data de estreia	Elevado	Correspondência de padrões: os LLMs podem saber que um programa foi transmitido às «quintas-feiras em 2014» e inventar uma data plausível para uma quinta-feira que, na realidade, está incorreta.
Diretor	Elevado	Diluição de créditos: Os realizadores dos episódios mudam constantemente. A menos que um episódio tenha um «realizador convidado» famoso (por exemplo, Tarantino a realizar CSI), os LLMs tendem normalmente a apontar o showrunner ou um realizador habitual da série.

O caminho matemático de menor resistência

Os LLMs são treinados para minimizar a «perda», o que significa que procuram ser o mais «corretos» possível, de acordo com os seus dados de treino. Num conjunto de dados de grande dimensão, certos padrões surgem com mais frequência do que outros.

No que diz respeito aos anos de lançamento: nos dados de treino, a sequência «Star Wars» é seguida de «1977» milhões de vezes. A probabilidade de «1977» seguir-se a «Star Wars» é de quase 100%.

No que diz respeito a temporadas e episódios, a expressão «temporada 1» para uma série de nível médio aparece nos dados de treino com muito mais frequência do que «temporada 7». Se o LLM não tiver a certeza dos factos, recorrerá por defeito ao padrão mais frequente nos seus dados de treino, que geralmente contém números mais baixos (1, 2 ou 3).

Gravidade semântica

As «sequências prováveis» também são determinadas pelo estilo do conteúdo. É por isso que os títulos dos episódios são tão propensos a dar origem a alucinações. Se pedirmos a um LLM para citar o título de um episódio de Friends, ele conhece o padrão: «The One With…»

A verdade é que não existe nenhum episódio chamado «Aquele do eclipse solar».
A alucinação: Como «The One With…» é um prefixo muito provável e «Eclipse Solar» é um recurso comum na televisão (que indica ao público que «as coisas estão prestes a ficar estranhas»), o LLM combina-os numa «sequência provável». A resposta parece 100% autêntica porque segue as regras semânticas dos títulos dos episódios de Friends, mesmo que seja factualmente incorreta.

O problema dos números inteiros: tokens vs. números

Os LLMs não «contam» da mesma forma que os humanos. Eles encaram os números como fragmentos, pelo que o número 154 pode ser processado como dois tokens: 15 e 4.

Quando um LLM não treinado com dados de referência prevê o número de um episódio, não está a consultar uma base de dados. Está a perguntar: «Numa sequência de números que se segue ao título desta série, qual é o dígito que normalmente vem a seguir?»

Se os dados de treino indicarem que a série tem cerca de 20 episódios por temporada e o LLM já tiver gerado a «2.ª temporada», ele tenderá estatisticamente a escolher qualquer número entre 1 e 20. A escolha específica entre «12» e «13» é muitas vezes uma questão de sorte, devido ao «ruído» no modelo, e é possível obter respostas diferentes para o mesmo prompt.

Por que é que as alucinações parecem tão convincentes

Um LLM não tem um estado de «não sei», a menos que tenha sido especificamente configurado para isso. Normalmente, entra numa «sequência provável» e gera tokens com elevada confiança matemática, um «mapa de probabilidade». Aqui está um exemplo de mapa de probabilidade no que diz respeito aos nomes de realizadores:

Pergunta: O realizador do filme Titanic (1997) é…

Probabilidades do próximo token:

James: 99,2%
Steven: 0,3%
George: 0,1%

O resultado esperado, devido à forte associação entre James Cameron e o filme «Titanic».

Resposta: O realizador do episódio de televisão «A Mosca» é…

Probabilidades do próximo token:

Vince (produtor executivo de Breaking Bad): 45%
Rian (Realizador de «Breaking Bad», 3.ª temporada, episódio 10): 30%
Michelle (Diretora habitual): 20%

Neste segundo exemplo, o LLM irá escolher Vince (Gilligan) porque é mais «provável» que ele esteja associado ao texto da série em geral, apesar de não ter realizado esse episódio específico. Como existe menos material escrito relacionado com este episódio (em comparação com o exemplo do Titanic ), a escassez de dados de treino significa que é mais provável que o mapa de probabilidades produza uma resposta incorreta.

Alucinações: qual é o risco?

Por que é que os LLMs têm alucinações

Modelos de linguagem de grande escala no setor do entretenimento

Avaliação do risco de alucinações com base em atributos de metadados

Atributos gerais

Características do filme

Características do programa de televisão

Atributos dos episódios e temporadas de séries de televisão

O caminho matemático de menor resistência

Gravidade semântica

O problema dos números inteiros: tokens vs. números

Por que é que as alucinações parecem tão convincentes

Etiquetas relacionadas

Compatilhar

Últimas informações

Para experiências de entretenimento de última geração, os modelos de linguagem de grande escala (LLMs) são tão bons quanto os dados a que têm acesso

A IA pode melhorar a descoberta de conteúdos, mas não se as pessoas não confiarem nela

Pesquisa e descoberta de programas de televisão na era da IA

Entrar em contato

Obrigado por entrar em contato!