Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA

A Anthropic reconheceu o erro de implementar mecanismos de segurança ocultos no novo Claude Fable 5. O grande modelo de linguagem da classe do Mythos estava sabotando respostas caso percebesse que estava ajudando a desenvolver outra inteligência artificial (IA).

“Estamos implementando mudanças para tornar visíveis as salvaguardas do Fable 5 para o desenvolvimento de LLMs de fronteira”, afirmou a Anthropic em um post no X na conta ClaudeDevs (@ClaudeDevs). “A partir desta semana, solicitações sinalizadas cairão visivelmente de volta para o Opus 4.8 – o mesmo que nossas salvaguardas para cibersegurança e pesquisas biológicas. Você verá isso toda vez que isso acontecer”, complementou.

Ao implementar mecanismos de segurança discretos, a Anthropic queria tornar suas ativações mais direcionadas. Porém, a empresa percebeu que a transparência sobre essas barreiras é importante, e os usuários deveriam ser notificados caso sejam afetados por elas.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.
Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…
— ClaudeDevs (@ClaudeDevs) June 11, 2026

“Tornar as salvaguardas visíveis as torna mais fáceis de contornar, então mantê-las robustas contra jailbreaks infelizmente significará mais falsos positivos enquanto melhoramos os classificadores”, afirmou a empresa. A Anthropic também revisou os classificadores relacionados a cibersegurança e pesquisas biológicas para acionar menos em solicitações inofensivas.

Claude Fable 5 era nerfado de forma discreta

O Claude Fable 5 é uma versão do Claude Mythos com diversos mecanismos de segurança para evitar uso malicioso. Se o chatbot percebe uma solicitação potencialmente perigosa acerca de temas como cibersegurança, biologia, química e destilação, ele delega a resposta a um modelo menos poderoso, como o Opus 4.8.

No entanto, a Anthropic também incluiu freios invisíveis no comportamento do Fable 5. “Tendo em vista a capacidade dos modelos recentes de acelerar seu próprio desenvolvimento, implementamos novas intervenções que limitam a eficácia do Claude para solicitações direcionadas ao desenvolvimento de modelos de aprendizado de máquina de ponta (na construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuída ou design de aceleradores de aprendizado de máquina, por exemplo)”, explica a empresa no documento “System Card: Claude Fable 5 e Claude Mythos 5”.

Ainda no texto, a empresa ressalta que o uso do Claude para desenvolver modelos concorrentes já viola os Termos de Serviço. A Anthropic acreditava que aplicar essa restrição por meio de salvaguardas invisíveis evitaria acelerar o trabalho de quem tenta burlar esses termos.

Freios invisíveis foram alvo de críticas nas redes

A estratégia não só evitou o desenvolvimento de modelos concorrentes, mas comprometeu a pesquisa científica relacionada à inteligência artificial e aprendizagem de máquina – sem qualquer aviso ao pesquisador. Esse comportamento ganhou repercussão nas redes sociais nos nichos relacionados ao tema.

“Sinceramente, eu não usaria isso para nada. Uma recusa ou um erro HTTP-4XX para o conteúdo é aceitável, mas isso basicamente está pegando seu dinheiro e contaminando sua base de código”, afirmou um usuário no Reddit.

Quer ficar por dentro das novidades do mundo da tecnologia? Acesse o TecMundo e acompanhe as últimas notícias sobre Anthropic, Claude e inteligência artificial.

Os textos acima não são de nossa autoria, são de sites de tecnologia que fornecem as matérias para consulta na internet.

Criação de Aplicativos, Sites e Marketing Digital
Mais de 20 anos no mercado

Criação de sites, aplicativos e lojas virtuais, somos uma agência de criação nacional. Temos uma solução web completa para criar o site da sua empresa. Colocamos o seu site no topo do Google. Solicite um orçamento para criação de site, aplicativo, sistema ou loja virtual.

Criação de Sites

Ter um site de qualidade é muito importante para o crescimento do seu negócio.

Saiba mais

Criação de Aplicativo

Somos especializados em criação de apps na tecnologia IOS e Android. Temos mais de 100 apps desenvolvidos.

Saiba mais

SEO Estratégico

Chegar ao topo dos buscadores e direcionar leads qualificados são cruciais para a construção de seu negócio.

Saiba mais

Marketing Digital

Nossa equipe de marketing é especializada em conversões, aumento de tráfego e expanção de visibilidade.

Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA

by Agência G da Web

Claude Fable 5 era nerfado de forma discreta

Freios invisíveis foram alvo de críticas nas redes

Criação de Aplicativos, Sites e Marketing Digital
Mais de 20 anos no mercado

Criação de Sites

Criação de Aplicativo

SEO Estratégico

Marketing Digital

Estamos On-line

Abrir WhatsApp

Precisa de Site ou App?

Fale conosco agora mesmo!

Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA

by Agência G da Web

Claude Fable 5 era nerfado de forma discreta

Freios invisíveis foram alvo de críticas nas redes

Criação de Aplicativos, Sites e Marketing Digital Mais de 20 anos no mercado

Criação de Sites

Criação de Aplicativo

SEO Estratégico

Marketing Digital

Estamos On-line

Abrir WhatsApp

Precisa de Site ou App?

Fale conosco agora mesmo!

Criação de Aplicativos, Sites e Marketing Digital
Mais de 20 anos no mercado