DESEMPENHO DO CHATGPT E DO BARD AI NAS PROVAS DO EXAME NACIONAL DE REVALIDAÇÃO DE DIPLOMAS MÉDICOS DO BRASIL - REVALIDA
DOI:
https://doi.org/10.13037/ras.vol22.e20249478Palavras-chave:
Inteligência Artificial, Educação Médica, Desenvolvimento TecnológicoResumo
INTRODUÇÃO: O ChatGPT e o Bard AI são ferramentas de inteligência artificial construídas de forma a gerar linguagem semelhante à humana e realizar uma ampla gama de tarefas. Essas ferramentas vêm sendo estudadas quanto a inúmeras aplicações, inclusive no campo da educação médica, avaliando o desempenho em exames relevantes para o exercício profissional. OBJETIVOS: O objetivo deste estudo foi avaliar e comparar o desempenho do ChatGPT-3.5 e do Bard AI em responder às questões da prova escrita do exame nacional brasileiro para revalidação de diplomas médicos de 2023. MATERIAIS E MÉTODOS: As questões das provas objetivas foram inseridas nas ferramentas e as respostas obtidas foram comparadas com os gabaritos oficiais. As questões foram classificadas por área, cenário e complexidade. RESULTADOS: Ambas as ferramentas tiveram mais de 60% de acertos, sendo que o Bard AI foi o modelo com melhor desempenho. Não houve diferenças estatisticamente significativas no desempenho das ferramentas quando as questões foram classificadas quanto a área, cenário ou complexidade. CONCLUSÕES: É importante que os profissionais de saúde reconheçam os potenciais e as limitações dessas ferramentas, e que as pesquisas avancem para que possam ser efetivamente utilizadas na educação médica.
Downloads
Referências
Schwenk, H. Continuous Space Language Models. Computer Speech & Language, vol. 21, n. 3, Jul. 2007, p. 492–518.
Singh, S. K.; Kumar, S.; Mehra, P. S. Chat GPT & Google Bard AI: a Review. In: International Conference on Iot, Communication and Automation Technology (ICICAT). 23 jun. 2023, doi: 10.1109/ICICAT57735.2023.10263706. Acessado em 01 fev. 2024.
Sallam, M. ChatGPT Utility in Healthcare Education, Research, and Practice: Systematic Review on the Promising Perspectives and Valid Concerns. Healthcare, vol. 11, no. 6, 19 Mar. 2023, p. 887, doi: 10.3390/healthcare11060887. Acessado em 01 fev. 2024
Gilson, A., et al. How Does ChatGPT Perform on the United States Medical Licensing Examination? The Implications of Large Language Models for Medical Education and Knowledge Assessment. JMIR Medical Education, vol. 9, Fev. 2023, e45312, doi: 10.2196/45312. Acessado em 01 fev. 2024.
Takagi, S., et al. Performance of GPT-3.5 and GPT-4 on the Japanese Medical Licensing Examination: Comparison Study. JMIR Medical Education, vol. 9, Jun. 2023, e48002, doi: 10.2196/48002. Acessado em 01 fev. 2024.
Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Painel Revalida. Brasília: Inep, 2022. Disponível em: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/inep-data/painel-revalida. Acessado em 01 fev. 2024.
Gobira, M., et al. Performance of ChatGPT-4 in answering questions from the Brazilian National Examination for Medical Degree Revalidation. Revista da Associação Médica Brasileira, vol. 69, n. 10, 2023, p. 1-5, doi:10.1590/1806-9282.20230848. Acessado em 01 fev. 2024.
Ferraz, A.P.C.M.; Belhot, R.V. Taxonomia de Bloom: revisão teórica e apresentação das adequações do instrumento para definição de objetivos instrucionais. Gestão & Produção, vol. 17, n. 4, 2010, p. 421-31.
Aragão J.C.S., et al. Evaluation of Residency Admission Exams. Revista Brasileira de Educação Médica, vol. 42, n. 2, Abr. 2018, p. 26-33, doi:10.1590/1981-52712015v421n2RB20170016. Acessado em 01 fev. 2024.
Casiraghi, B., et al. Avaliação de questões de prova do Revalida no Brasil. 2019. XV Congreso Internacional Gallego-Portugués De Psicopedagogía. Disponível em: https://ruc.udc.es/dspace/handle/2183/23486. Acessado em 01 fev. 2024.
Wójcik, S., et al. Reshaping medical education: Performance of ChatGPT on a PES medical examination. Cardiology Journal, Out. 2023, doi: 10.5603/cj.97517. Acessado em 01 fev. 2024.
Dhanvijay, A.K.D., et al. Performance of Large Language Models (ChatGPT, Bing Search, and Google Bard) in Solving Case Vignettes in Physiology. Cureus. vol. 15, n. 8, Ago. 2023, p. e42972.
Kumari, A., et al. Large Language Models in Hematology Case Solving: A Comparative Study of ChatGPT-3.5, Google Bard, and Microsoft Bing. Cureus., vol. 15, n. 8, Ago. 2023, p. e43861.
Agarwal, M.; Sharma, P.; Goswami, A. Analysing the Applicability of ChatGPT, Bard, and Bing to Generate Reasoning-Based Multiple-Choice Questions in Medical Physiology. Cureus. vol. 15, n. 6, Jun. 2023, p. e40977.
Brasil. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Exame Nacional de Revalidação de Diplomas Médicos Expedidos por Instituição de Educação Superior Estrangeira (Revalida). Brasília: Inep, 2024. Disponível em: https://www.gov.br/inep/pt-br/areas-de-atuacao/avaliacao-e-exames-educacionais/revalida. Acessado em 01 fev. 2024.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2024 Fernanda Gabriele Fernandes Morais, Sabrine Teixeira Ferraz Grunewald
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Proposta de Política para Periódicos que oferecem Acesso Livre Adiado
Autores que publicam nesta revista concordam com os seguintes termos:
- Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho licenciado simultaneamente sob uma licença
https://creativecommons.org/licenses/by-nc-nd/4.0/, permitindo o compartilhamento do trabalho com reconhecimento da autoria do trabalho e publicação inicial nesta revista.
- Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
- Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).