Notícias

ChatGPT, Bing Chat ou Bard: qual o melhor chat de inteligência artificial?

Já recorreu a um chat de inteligência artificial generativa para pesquisar informações, criar textos ou resolver problemas? A DECO PROteste testou os três serviços mais populares, e revela qual é o melhor em cada funcionalidade.

Especialista:

António Alves

e Sérgio Teixeira

Editor:

Cláudio Nogueira

e Nuno César

09 janeiro 2024

iStock

A inteligência artificial tem vindo a ganhar destaque no quotidiano das indústrias e dos consumidores. O sucesso e o mediatismo conquistados por este tipo de tecnologia está, em boa parte, ligado aos lançamentos de chats de inteligência artificial generativa.

Estes sistemas são capazes de simular uma conversa com um humano e gerar texto com base na ordem introduzida pelo utilizador e na base de dados da ferramenta. Atualmente, os sistemas que lideram esta frente de inovação são o ChatGPT (da Open AI), o Bing Chat (da Microsoft) e o Bard (da Google).

A grande diferença face a outros chats de resposta automática é que estes modelos são especialmente programados para simular uma resposta humana. Isto é possível graças ao conceito de processamento de linguagem natural. Ou seja, o modelo de inteligência artificial recorre a uma série de conversas, artigos, livros, páginas na internet e publicações presentes nas suas bases de dados, ou a uma pesquisa na internet em tempo real (no caso do Bing Chat e do Bard). Posteriormente, o sistema responde à questão submetida ou sugere que o utilizador detalhe a sua questão, de modo a retribuir com uma resposta mais completa.

Utilização dos chats exige cautela

Não tardou muito para que utilizadores domésticos, estudantis e profissionais olhassem para esta tecnologia como uma oportunidade para consulta de informações e produção de conteúdos, com farta celeridade e parco esforço.

Apesar de todas as vantagens, a DECO PROteste já tinha alertado para as inúmeras inconsistências e limitações presentes nos modelos de inteligência artificial, ainda em fase embrionária. As falhas podem comprometer a total factualidade dos resultados gerados e induzir o utilizador em erro.

Isto torna a utilização das atuais versões dos modelos desaconselhada para situações de maior responsabilidade, e sem que haja cruzamento de informação obtida através de outras fontes. Os próprios termos e condições de alguns serviços referem que não existem garantias sobre a precisão na geração de respostas e que, assim, devem ser utilizados sobretudo para fins de entretenimento.

Frente‑a‑frente do ChatGPT, do Bing Chat e do Bard

A DECO PROteste pôs à prova os três serviços de inteligência artificial mais populares – o ChatGPT (da Open AI), o Bing Chat (da Microsoft) e o Bard (da Google) –, com o objetivo de apurar a capacidade de resposta, a veracidade das informações, a criatividade dos textos e a coerência do conteúdo.

Neste comparativo, a DECO PROteste averiguou qual o serviço que tem a melhor qualidade de respostas e o que tem o melhor desempenho global. Foram elaboradas 31 questões, cada uma submetida três vezes por cada membro de um painel de utilizadores, composto por três elementos. Cada questão obteve nove respostas.

As perguntas expostas visaram cinco funcionalidades dos sistemas, que representam os principais cenários de uso dos cibernautas domésticos. As funcionalidades são as seguintes:

a pesquisa de informação (dez questões);
a interpretação de informação (cinco questões);
a criação de textos (quatro questões);
a resolução de problemas lógicos e matemáticos (seis questões);
e a tradução de textos (seis questões).

1. Pesquisa de informação

Entre o lote de questões para avaliar a precisão da pesquisa de informação, os temas variam: finanças pessoais, saúde, arrendamento, alimentação, tecnologia, entre outros. Não ocorreu uma repetição exata nas nove respostas obtidas para cada questão, em cada um dos serviços. Contudo, o ChatGPT garantiu uma tendência de maior precisão.

As respostas dos modelos destacam-se também por apresentarem uma qualidade gramatical muito boa, embora recorram regularmente à variante de português do Brasil como padrão, mesmo com os utilizadores localizados em Portugal. Ao analisar a precisão factual das respostas, foram identificadas diversas informações que invalidavam o texto. Em casos mais preocupantes, algumas informações geradas podem representar um risco para a saúde do utilizador.

Embora o ChatGPT tenha a pontuação mais elevada nesta funcionalidade, ao fornecer respostas com uma quantidade significativa de factos corretos, o desempenho está longe do nível da excelência. O Bing Chat e o Bard superam o ChatGPT em algumas respostas, mas alcançaram uma pontuação média no geral, o que representa a necessidade de maior cautela do utilizador, quando recorre as estas ferramentas para pesquisa de informação. Os resultados podem parecer contraditórios, uma vez que os motores de pesquisa da Google e da Microsoft são popularmente utilizados para esse fim.

2. Interpretação de informação

Avaliou-se também a capacidade dos serviços na interpretação de informação, bem como na síntese e produção de novos conteúdos com base no texto inserido pelo utilizador. Foram submetidos cinco artigos da DECO PROteste, sobre temas desde segurança cibernética a tarifários de telecomunicações. Apesar de identificarem assertivamente o tema principal em todos os artigos, a qualidade global dos textos revelou-se mais defeituosa, com alguns resumos que ignoram factos e conclusões relevantes.

Para este tipo de utilização, o ChatGPT destaca-se nitidamente dos restantes. Apresenta o melhor desempenho nos resumos gerados na maioria das perguntas, sendo o seu principal ponto de melhoria a omissão de algumas informações pertinentes nos artigos de referência. Já o Bing Chat não passou da mediania, sobretudo por ter dados inexistentes no artigo e, por vezes, não retribuir com um bom resumo. O Bard apresentou uma fraca capacidade de interpretação da informação, respondeu com alguns dados errados e fez interpretações incorretas dos artigos.

A capacidade de aceder à internet para gerar resumos pode ser uma grande vantagem do Bing Chat e do Bard. Mas, em muitos casos, a resposta destes serviços parece ter sido afetada pelos conteúdos de sites consultados. Sem a capacidade de aceder à internet e com o melhor resultado nos casos testados, o ChatGPT tirou partido da sua limitação.

3. Criação de textos

Outra funcionalidade muito solicitada pelos utilizadores é a criação de textos, e‑mails e mensagens a partir de instruções básicas dadas pelo utilizador. Neste cenário, a DECO PROteste simulou as situações mais comuns e obteve uma pontuação razoável em todos os serviços testados. Apesar de a construção do texto ser criativa, o limite de palavras proposto nem sempre foi respeitado (por exemplo, nos casos em que foi pedido para compor um e‑mail). Em alguns casos, os serviços omitiram informações solicitadas, com campos em branco, para serem preenchidos pelos utilizadores.

A liberdade criativa dos chats pode ser uma faca de dois gumes. Ao requisitar um e‑mail para devolver um eletrodoméstico comprado online, as respostas das três plataformas citaram leis incorretas para justificar o direito de devolução. O caso agravou‑se numa das respostas do Bard, quando respondeu com situações falsas e mencionou defeitos que nunca foram indicados pelo utilizador.

Caso pretenda recorrer a estes serviços para a criação de textos, o ideal é utilizá‑los apenas como fonte de inspiração. A DECO PROteste submeteu também uma questão sobre história de Portugal, e os resultados são globalmente incorretos. Contudo, o Bing Chat leva boa apreciação por usar notas de rodapé para justificar as afirmações com fontes. Embora os resultados não sejam propriamente os melhores, trata‑se de uma boa prática.

4. Resolução de problemas lógicos e matemáticos

A utilização destes serviços para a resolução de problemas lógicos e matemáticos revelou muitas inconsistências, com respostas acertadas apenas nas questões de nível básico. Esta funcionalidade é particularmente usada por estudantes, quando precisam de auxílio em trabalhos escolares. No entanto, a dificuldade em distinguir entre o correto e o incorreto pode invalidar a utilização destes sistemas para esta finalidade. Foram identificadas respostas totalmente corretas, corretas com explicações incorretas e totalmente incorretas.

Num dos exemplos, foi submetido o seguinte problema aos serviços: "Uma caneca tinha dois litros de água. Com essa água, a Rita encheu completamente cinco copos iguais e, na caneca, ainda ficaram 250 mililitros de água. Que quantidade de água, em mililitros, deitou a Rita em cada copo?" A matemática diz-nos que, em cada copo, ficaram 350 mililitros. No entanto, o Bard deu duas respostas incorretas à mesma questão: 390 mililitros em cada copo.

A posição superior do Bing Chat, face ao ChatGPT e ao Bard, demonstra que o seu modelo conseguiu maior quantidade de respostas corretas e explicações mais lógicas. Contudo, os resultados não são suficientes para que a DECO PROteste recomende o serviço para esta funcionalidade.

5. Tradução de textos

As tarefas de tradução de textos alcançaram uma maior consistência entre as funcionalidades testadas. Embora existam ferramentas populares e gratuitas na internet para o efeito, os chats de inteligência artificial generativa proporcionam vantagens significativas, como a capacidade de especificar a variação regional do português desejada, determinar o tom pretendido (formal ou informal) e realizar adaptações ao texto conforme necessário.

Tais vantagens diferenciam os serviços de inteligência artificial generativa face ao Google Tradutor, por exemplo. Esta personalização garantida pelos chats demonstra um avanço notável na obtenção de traduções mais precisas. Foram submetidos artigos, notícias e letras de canções para tradução do português para o inglês e do inglês para o português.

Nos contextos apresentados, o Bard e o ChatGPT demonstraram maior capacidade de gerar textos com mais fluidez, naturalidade e coerência cultural, o que torna ambos adequados para aceder a esta funcionalidade. A omissão da tradução de certas partes do texto acaba por prejudicar a avaliação do Bing Chat. Foi percetível também que o Bard e o Bing Chat recorreram a alguns termos em português do Brasil em algumas respostas, embora tenha sido dada a indicação para os serviços retribuírem os textos em português de Portugal.

Qual chat de inteligência artificial devo usar?

O Chat GPT (da Open AI) lidera em termos de interpretação da informação, mas ainda enfrenta desafios na resolução de problemas lógicos e matemáticos, com a menor pontuação nesse critério. O Bing Chat (da Microsoft) demonstra consistência em todos os aspetos, com um desempenho médio a bom nas várias categorias. Já o Bard (da Google) tem o desempenho mais baixo na interpretação de informação e em questões de precisão e detalhe das respostas.

Caso esteja indeciso sobre o serviço a utilizar, consulte abaixo a tabela de resultados da DECO PROteste. A tabela destaca as principais divergências dos serviços de inteligência artificial generativa quanto às suas características e ao seu desempenho em cada uma das funcionalidades testadas.

Os três modelos apresentam pontos fortes e fracos consoante a funcionalidade, que devem ser considerados pelo utilizador na escolha do serviço mais adequado à sua finalidade.

O conteúdo deste artigo pode ser reproduzido para fins não-comerciais com o consentimento expresso da DECO PROTeste, com indicação da fonte e ligação para esta página. Ver Termos e Condições.

ChatGPT, Bing Chat ou Bard: qual o melhor chat de inteligência artificial?

Utilização dos chats exige cautela

Frente‑a‑frente do ChatGPT, do Bing Chat e do Bard

1. Pesquisa de informação

2. Interpretação de informação

3. Criação de textos

4. Resolução de problemas lógicos e matemáticos

5. Tradução de textos

Qual chat de inteligência artificial devo usar?

Temas que lhe podem interessar

Entre na sua conta para guardar o artigo

Entre na sua conta para guardar o artigo

ChatGPT, Bing Chat ou Bard: qual o melhor chat de inteligência artificial?

Utilização dos chats exige cautela

Frente‑a‑frente do ChatGPT, do Bing Chat e do Bard

1. Pesquisa de informação

2. Interpretação de informação

3. Criação de textos

4. Resolução de problemas lógicos e matemáticos

5. Tradução de textos

Qual chat de inteligência artificial devo usar?

Temas que lhe podem interessar

Notícias

Saiba mais

Entre na sua conta para guardar o artigo

Entre na sua conta para guardar o artigo