DESEMPENHO DO CHATGPT E DO BARD AI NAS PROVAS DO EXAME NACIONAL DE REVALIDAÇÃO DE DIPLOMAS MÉDICOS DO BRASIL - REVALIDA

Autores

DOI:

https://doi.org/10.13037/ras.vol22.e20249478

Palavras-chave:

Inteligência Artificial, Educação Médica, Desenvolvimento Tecnológico

Resumo

INTRODUÇÃO: O ChatGPT e o Bard AI são ferramentas de inteligência artificial construídas de forma a gerar linguagem semelhante à humana e realizar uma ampla gama de tarefas. Essas ferramentas vêm sendo estudadas quanto a inúmeras aplicações, inclusive no campo da educação médica, avaliando o desempenho em exames relevantes para o exercício profissional. OBJETIVOS: O objetivo deste estudo foi avaliar e comparar o desempenho do ChatGPT-3.5 e do Bard AI em responder às questões da prova escrita do exame nacional brasileiro para revalidação de diplomas médicos de 2023. MATERIAIS E MÉTODOS: As questões das provas objetivas foram inseridas nas ferramentas e as respostas obtidas foram comparadas com os gabaritos oficiais. As questões foram classificadas por área, cenário e complexidade. RESULTADOS: Ambas as ferramentas tiveram mais de 60% de acertos, sendo que o Bard AI foi o modelo com melhor desempenho. Não houve diferenças estatisticamente significativas no desempenho das ferramentas quando as questões foram classificadas quanto a área, cenário ou complexidade. CONCLUSÕES: É importante que os profissionais de saúde reconheçam os potenciais e as limitações dessas ferramentas, e que as pesquisas avancem para que possam ser efetivamente utilizadas na educação médica.

Downloads

Não há dados estatísticos.

Biografia do Autor

Fernanda Gabriele Fernandes Morais, Universidade Federal de Juiz de Fora

Acadêmica de Medicina da Universidade Federal de Juiz de Fora (UFJF). Juiz de Fora, Minas Gerais, Brasil.

Sabrine Teixeira Ferraz Grunewald, Universidade Federal de Juiz de Fora

Professora Adjunta da Faculdade de Medicina da Universidade Federal de Juiz de Fora (UFJF), Departamento Materno-Infantil. Juiz de Fora, Minas Gerais, Brasil.

Referências

Schwenk, H. Continuous Space Language Models. Computer Speech & Language, vol. 21, n. 3, Jul. 2007, p. 492–518.

Singh, S. K.; Kumar, S.; Mehra, P. S. Chat GPT & Google Bard AI: a Review. In: International Conference on Iot, Communication and Automation Technology (ICICAT). 23 jun. 2023, doi: 10.1109/ICICAT57735.2023.10263706. Acessado em 01 fev. 2024.

Sallam, M. ChatGPT Utility in Healthcare Education, Research, and Practice: Systematic Review on the Promising Perspectives and Valid Concerns. Healthcare, vol. 11, no. 6, 19 Mar. 2023, p. 887, doi: 10.3390/healthcare11060887. Acessado em 01 fev. 2024

Gilson, A., et al. How Does ChatGPT Perform on the United States Medical Licensing Examination? The Implications of Large Language Models for Medical Education and Knowledge Assessment. JMIR Medical Education, vol. 9, Fev. 2023, e45312, doi: 10.2196/45312. Acessado em 01 fev. 2024.

Takagi, S., et al. Performance of GPT-3.5 and GPT-4 on the Japanese Medical Licensing Examination: Comparison Study. JMIR Medical Education, vol. 9, Jun. 2023, e48002, doi: 10.2196/48002. Acessado em 01 fev. 2024.

Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Painel Revalida. Brasília: Inep, 2022. Disponível em: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/inep-data/painel-revalida. Acessado em 01 fev. 2024.

Gobira, M., et al. Performance of ChatGPT-4 in answering questions from the Brazilian National Examination for Medical Degree Revalidation. Revista da Associação Médica Brasileira, vol. 69, n. 10, 2023, p. 1-5, doi:10.1590/1806-9282.20230848. Acessado em 01 fev. 2024.

Ferraz, A.P.C.M.; Belhot, R.V. Taxonomia de Bloom: revisão teórica e apresentação das adequações do instrumento para definição de objetivos instrucionais. Gestão & Produção, vol. 17, n. 4, 2010, p. 421-31.

Aragão J.C.S., et al. Evaluation of Residency Admission Exams. Revista Brasileira de Educação Médica, vol. 42, n. 2, Abr. 2018, p. 26-33, doi:10.1590/1981-52712015v421n2RB20170016. Acessado em 01 fev. 2024.

Casiraghi, B., et al. Avaliação de questões de prova do Revalida no Brasil. 2019. XV Congreso Internacional Gallego-Portugués De Psicopedagogía. Disponível em: https://ruc.udc.es/dspace/handle/2183/23486. Acessado em 01 fev. 2024.

Wójcik, S., et al. Reshaping medical education: Performance of ChatGPT on a PES medical examination. Cardiology Journal, Out. 2023, doi: 10.5603/cj.97517. Acessado em 01 fev. 2024.

Dhanvijay, A.K.D., et al. Performance of Large Language Models (ChatGPT, Bing Search, and Google Bard) in Solving Case Vignettes in Physiology. Cureus. vol. 15, n. 8, Ago. 2023, p. e42972.

Kumari, A., et al. Large Language Models in Hematology Case Solving: A Comparative Study of ChatGPT-3.5, Google Bard, and Microsoft Bing. Cureus., vol. 15, n. 8, Ago. 2023, p. e43861.

Agarwal, M.; Sharma, P.; Goswami, A. Analysing the Applicability of ChatGPT, Bard, and Bing to Generate Reasoning-Based Multiple-Choice Questions in Medical Physiology. Cureus. vol. 15, n. 6, Jun. 2023, p. e40977.

Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Exame Nacional de Revalidação de Diplomas Médicos Expedidos por Instituição de Educação Superior Estrangeira (Revalida). Brasília: Inep, 2024. Disponível em: https://www.gov.br/inep/pt-br/areas-de-atuacao/avaliacao-e-exames-educacionais/revalida. Acessado em 01 fev. 2024.

Downloads

Publicado

2024-12-18

Edição

Seção

Edição Especial Temática- Inovação no Ensino em Saúde