Quanta Liberdade Damos aos Agentes de IA?

Agentes de IA — software que pode realizar acoes em seu nome, como escrever codigo, enviar e-mails ou pesquisar na web — nao sao mais um conceito futurista. Eles estao aqui, e as pessoas os usam todos os dias. Mas uma grande questao permanece em aberto: quanta independencia devemos realmente dar a eles?

A Anthropic, empresa por tras do Claude, acaba de publicar um estudo fascinante que analisa milhoes de interacoes reais entre humanos e agentes de IA. Em vez de teorizar sobre o que os agentes poderiam fazer, eles mediram o que realmente esta acontecendo na pratica. Aqui esta o que descobriram e por que isso importa.

O Que E um Agente de IA, Afinal?

Antes de mergulhar nas descobertas, vamos esclarecer o que queremos dizer com "agente." Neste contexto, um agente de IA e um sistema de IA que nao apenas responde perguntas — ele pode fazer coisas. Pode executar codigo, chamar APIs, editar arquivos e interagir com outros softwares. Pense na diferenca entre pedir direcoes a alguem e entregar as chaves do carro.

A Anthropic estudou duas fontes principais de dados: o Claude Code (seu proprio assistente de programacao que os desenvolvedores usam diariamente) e sua API publica (que milhares de empresas usam para construir suas proprias ferramentas impulsionadas por IA). Juntas, essas fontes deram uma visao profunda e ampla de como os agentes se comportam no mundo real.

Os Agentes Estao Trabalhando de Forma Independente por Mais Tempo

Uma das principais descobertas e que os agentes de IA estao funcionando por periodos mais longos sem intervencao humana. No Claude Code, as sessoes mais longas (os 0,1% superiores) quase dobraram de duracao em apenas tres meses — de menos de 25 minutos para mais de 45 minutos de trabalho autonomo ininterrupto.

O interessante e que esse aumento foi gradual. Nao houve saltos a cada novo lancamento de modelo, o que sugere que nao se trata apenas de a IA ficar mais inteligente. Tambem se deve ao fato de as pessoas estarem ficando mais confortaveis em deixar a IA trabalhar por conta propria, e ao produto melhorando em seus detalhes.

A sessao mediana ainda e curta — cerca de 45 segundos — entao a maioria das interacoes sao trocas rapidas. Mas a tendencia no extremo superior sinaliza uma mudanca significativa em como as pessoas estao comecando a usar essas ferramentas para tarefas maiores e mais ambiciosas.

A Confianca se Constroi com o Tempo — Mas a Vigilancia Tambem

Talvez a descoberta mais sutil seja sobre como o comportamento das pessoas muda a medida que ganham experiencia com agentes de IA.

Usuarios novos tendem a aprovar cada acao que a IA toma — uma especie de abordagem "confiar mas verificar cada passo." Mas a medida que os usuarios acumulam mais sessoes, eles passam cada vez mais para o modo de aprovacao automatica, deixando a IA funcionar livremente sem pedir permissao para cada acao. Entre usuarios novos, cerca de 20% das sessoes usam aprovacao automatica. Para usuarios experientes (mais de 750 sessoes), esse numero sobe para mais de 40%.

Aqui esta a surpresa: usuarios experientes tambem interrompem a IA com mais frequencia, nao menos. Isso parece contradictorio a principio, mas na verdade reflete uma estrategia de supervisao mais inteligente. Em vez de microgerenciar cada passo, usuarios experientes deixam a IA funcionar e entao intervem quando algo nao parece certo. E como a diferenca entre um gerente novo que revisa cada e-mail antes de ser enviado e um experiente que confia em sua equipe mas fica de olho no que e importante.

Isso sugere que a supervisao eficaz nao e sobre controlar cada acao — e sobre estar em posicao de intervir quando importa.

A IA Sabe Quando Pedir Ajuda

Uma das descobertas mais surpreendentes e que o Claude para para fazer perguntas com mais frequencia do que os humanos o interrompem — especialmente em tarefas complexas.

Nas tarefas mais dificeis, o Claude Code pausa para pedir esclarecimentos mais do que o dobro de vezes em comparacao com tarefas simples. As razoes mais comuns pelas quais ele para? Para apresentar opcoes entre diferentes abordagens (35% das vezes), para coletar informacoes de diagnostico (21%) ou para esclarecer solicitacoes vagas (13%).

Enquanto isso, os humanos interrompem principalmente para fornecer contexto tecnico que faltava (32%), porque a IA parecia travada ou lenta (17%), ou porque obtiveram ajuda suficiente para continuar por conta propria (7%).

Esta e uma propriedade de seguranca significativa. Uma IA que reconhece sua propria incerteza e pede ajuda em vez de seguir em frente cegamente e inerentemente mais segura do que uma que sempre assume que sabe tudo. A Anthropic treina ativamente o Claude para se comportar dessa maneira e incentiva outros desenvolvedores de IA a fazerem o mesmo.

A Maioria das Acoes dos Agentes E de Baixo Risco — Mas a Fronteira Esta se Expandindo

Quando a Anthropic examinou o que os agentes realmente estao fazendo atraves de sua API, o panorama foi em grande parte tranquilizador:

80% das acoes vem de agentes com alguma forma de protecao (como permissoes restritas ou aprovacao humana).
73% parecem ter um humano no processo de alguma forma.
Apenas 0,8% das acoes sao irreversiveis (como enviar um e-mail para um cliente).

A grande maioria da atividade dos agentes esta em engenharia de software — quase 50% de todo o uso de ferramentas. Isso faz sentido: codigo e facil de testar, revisar e reverter se algo der errado, tornando-o um ajuste natural para a autonomia da IA.

Mas os agentes estao comecando a aparecer em dominios de maior risco tambem: saude, financas, ciberseguranca e atendimento ao cliente. Embora esses usos ainda sejam pequenos em volume, eles carregam consequencias muito maiores se algo der errado. Um bug no codigo e irritante; um erro em um prontuario medico ou transacao financeira e uma historia completamente diferente.

O Que Isso Significa para o Futuro?

A Anthropic tira varias conclusoes importantes desta pesquisa:

Existe um "excesso de implantacao." A autonomia que os modelos de IA sao capazes de lidar excede o que lhes e concedido na pratica. Avaliacoes externas sugerem que o Claude pode lidar com tarefas que levariam quase 5 horas para um humano, mas no uso real os trechos autonomos mais longos chegam a cerca de 45 minutos. As pessoas estao sendo cautelosas, o que provavelmente e sabio — mas tambem significa que os agentes poderiam estar fazendo mais.

Regras universais nao funcionarao. Exigir que humanos aprovem cada acao da IA criaria atrito sem necessariamente melhorar a seguranca. A pesquisa mostra que usuarios experientes desenvolvem naturalmente estrategias de monitoramento eficazes que nao exigem aprovacao passo a passo. Uma boa supervisao e sobre poder intervir quando necessario, nao sobre carimbar mecanicamente cada acao.

Precisamos de melhor infraestrutura de monitoramento. Neste momento, nem a Anthropic consegue ver completamente o que acontece com os agentes construidos sobre sua API. Eles podem observar acoes individuais, mas nem sempre conseguem uni-las em sessoes coerentes. Construir ferramentas que preservem a privacidade para monitorar o comportamento dos agentes no mundo real e um passo importante para toda a industria.

Treinar a IA para conhecer seus limites e uma caracteristica de seguranca. Modelos que reconhecem a incerteza e proativamente pedem ajuda fornecem uma camada importante de protecao que complementa salvaguardas externas como sistemas de permissoes.

A Conclusao

Ainda estamos nos primeiros dias dos agentes de IA. A maior parte do que eles fazem hoje e relativamente de baixo risco, concentrada em engenharia de software e supervisionada por humanos. Mas a trajetoria e clara: os agentes estao assumindo tarefas mais longas, operando em mais dominios e recebendo mais independencia ao longo do tempo.

A noticia encorajadora e que isso nao esta acontecendo de forma imprudente. Os usuarios constroem confianca gradualmente. Os sistemas de IA estao aprendendo a sinalizar sua propria incerteza. E a comunidade de pesquisa esta comecando a medir o que realmente esta acontecendo em vez de apenas especular sobre o que poderia acontecer.

A ideia principal e que a autonomia nao e apenas uma propriedade da IA — ela surge da interacao entre o modelo, o usuario e o design do produto. Acertar esse equilibrio sera um dos desafios definidores a medida que os agentes de IA se tornem uma parte maior de como trabalhamos.

Fonte: Measuring AI agent autonomy in practice — Anthropic, 18 de fevereiro de 2026.