Fique conectado com a gente

Olá, o que você está procurando? 4a3a2m

Tecnologia g4o4p

Nem ChatGPT, nem Gemini: outra IA vence desafio com os maiores chatbots do mundo 5c6k47

Essa IA surpreendeu ao liderar competição de compreensão e análise de textos complexos

Celulares com apps de IAs
(Imagem: Captura de Tela)

Em uma disputa organizada pelo Washington Post, os cinco principais chatbots do mercado: ChatGPT, Gemini, Claude, Meta AI e Copilot

aram por um teste de compreensão, raciocínio e precisão em diferentes áreas de conhecimento. O resultado surpreendeu: Claude, da empresa Anthropic, foi eleito o melhor modelo, superando nomes mais populares como ChatGPT e Gemini.

A competição foi realizada com o apoio de jurados especializados, incluindo autores de livros, médicos, advogados e jornalistas, que avaliaram o desempenho das IAs em 115 perguntas baseadas em leituras reais e testes de análise crítica.

Os testes foram complexos e reveladores 3r6z4m

Cada chatbot foi desafiado a ler e interpretar quatro tipos de textos:

  • Um romance literário
  • Um relatório de pesquisa médica
  • Dois contratos jurídicos
  • Discursos do ex-presidente Donald Trump

Além de responder perguntas factuais, os bots precisaram recomendar alterações nos textos, identificar falhas argumentativas e até corrigir distorções em falas políticas.

Em quase todos os testes, apenas Claude não inventou (ou “alucinou”) informações, um erro comum em IAs generativas.

Desempenho por área 4q602g

Literatura: Nenhuma IA se saiu bem, mas Claude foi o único a acertar todos os fatos sobre o livro analisado. O Gemini foi o mais criticado por erros e superficialidade.

Direito: Claude novamente liderou, ao compreender nuances e sugerir alterações relevantes nos contratos.

Medicina: Chatbots se saíram melhor nessa área, mas Claude foi o único a receber nota 10 pelo resumo de um artigo sobre covid longa.

Política: O ChatGPT foi o destaque, identificando corretamente distorções factuais em discursos de Trump, mas teve desempenho inferior em Direito, o que pesou no resultado final.

Resultado final: 4h1w2k

No placar geral (de 0 a 100)

Claude: 69,9 pontos

ChatGPT: 68,4

Gemini: 49,7

Copilot: 49,0

Meta AI: 45,0

Segundo os avaliadores, o Claude foi o único que não cometeu nenhuma alucinação ao longo de todo o teste, além de apresentar respostas mais completas, analíticas e confiáveis.

Mesmo assim, nenhum dos chatbots ou da média de 70, mostrando que a tecnologia ainda tem limitações importantes, especialmente em áreas sensíveis como direito e saúde.

Para mais análises sobre inteligência artificial e tecnologia, siga: @todasasnoticiasbr

Leia também 6c4e66

novo layout do app Snapseed no iPhone com destaque para favoritos novo layout do app Snapseed no iPhone com destaque para favoritos

Tecnologia 6v732l

Editor de imagens popular nos anos 2010 volta a receber atenção com nova interface e recurso de favoritos

mapa com alertas de queda de internet ao redor do mundo mapa com alertas de queda de internet ao redor do mundo

Tecnologia 6v732l

Instabilidade global afetou serviços de Google, plataformas online e gerou efeito dominó em várias regiões

GPT fora do ar GPT fora do ar

Tecnologia 6v732l

Usuários relatam instabilidade no ChatGPT e expressam frustração e bom humor com situação inesperada

Nova IA Meta Nova IA Meta

Tecnologia 6v732l

Empresa de Zuckerberg quer correr atrás das rivais e comprará metade de empresa usada por gigantes como Google e Microsoft