IA nas mãos de usuários imperfeitos
npj Digital Medicine volume 5, Número do artigo: 197 (2022) Citar este artigo
5965 acessos
3 Citações
35 Altmétrico
Detalhes das métricas
À medida que o uso de inteligência artificial e aprendizado de máquina (AI/ML) continua a se expandir na área da saúde, muita atenção tem sido dada à mitigação do viés nos algoritmos para garantir que sejam empregados de maneira justa e transparente. Menos atenção recaiu sobre o viés potencial entre os usuários humanos de IA/ML ou fatores que influenciam a confiança do usuário. Defendemos uma abordagem sistemática para identificar a existência e os impactos dos vieses do usuário ao usar ferramentas de AI/ML e apelamos para o desenvolvimento de recursos de design de interface incorporados, com base em insights da ciência da decisão e da economia comportamental, para levar os usuários a uma abordagem mais crítica e reflexiva. tomada de decisão usando IA/ML.
O uso de inteligência artificial e aprendizado de máquina (AI/ML) continua a se expandir na área da saúde, com grande promessa de aprimorar a tomada de decisão clínica personalizada1. À medida que as ferramentas AI/ML se tornam mais difundidas, muita atenção tem sido dada à mitigação do viés nos algoritmos para garantir que sejam empregados de forma justa e transparente. No entanto, menos atenção tem sido dada à mitigação de possíveis vieses entre os usuários humanos da IA. À medida que os sistemas automatizados se tornam mais sofisticados em sua capacidade de prever, rastrear ou diagnosticar doenças, a tentação de confiar neles na tomada de decisões clínicas aumentará2. No entanto, os fatores que influenciam a confiança do usuário na IA são pouco compreendidos e os profissionais de saúde carecem de orientações sobre o papel que a IA deve desempenhar em sua tomada de decisão. Defendemos uma abordagem mais sistemática para identificar a existência e os impactos dos vieses do usuário durante o uso de ferramentas de IA e seus efeitos na tomada de decisões clínicas e nos resultados dos pacientes. Especificamente, pedimos uma maior pesquisa empírica sobre como mitigar vieses com resultados negativos antecipados por meio do uso de recursos de design de interface incorporados, com base em insights da ciência da decisão e economia comportamental, para levar os usuários a uma tomada de decisão mais crítica e reflexiva usando ferramentas de IA.
Reconhecendo os danos potenciais do excesso de confiança nos sistemas de IA no contexto da tomada de decisões de alto risco, os reguladores e formuladores de políticas parecem endossar manter os humanos "informados" e concentrar seus planos de ação e recomendações na melhoria da segurança dos sistemas de IA/ML, como por meio de precisão computacional aprimorada3,4,5. Enquanto isso, os desenvolvedores estão inovando em novas formas de abordar a confiabilidade, a responsabilidade e a explicabilidade da IA/ML de "caixa preta" que envolve aprendizado profundo ou redes neurais com limitações significativas de interpretabilidade6,7. Esses objetivos parecem ser particularmente importantes ao usar IA/ML na tomada de decisões clínicas, não apenas porque os custos de erros de classificação e danos potenciais aos pacientes são altos, mas também porque o ceticismo indevido ou a falta de confiança podem reduzir a adoção de novas tecnologias promissoras de IA pelas partes interessadas. e inibem seu uso e disponibilidade fora dos ambientes experimentais.
Um de nós (SG em Babic et al.8), no entanto, alertou recentemente os profissionais de saúde para serem cautelosos com as explicações que são apresentadas a eles para os modelos AI/ML de caixa preta.
AI/ML explicável … oferece fundamentos post hoc gerados por algoritmos de previsões de caixa preta, que não são necessariamente as razões reais por trás dessas previsões ou relacionadas causalmente a elas. Consequentemente, a aparente vantagem da explicabilidade é um "ouro de tolo" porque é improvável que racionalizações post hoc de uma caixa preta contribuam para nossa compreensão de seu funcionamento interno. Em vez disso, provavelmente ficamos com a falsa impressão de que a entendemos melhor."
Consequentemente, em vez de focar na explicabilidade como uma condição estrita para IA/ML na área da saúde, reguladores como a Food and Drug Administration (FDA) dos EUA devem se concentrar de forma mais holística nos aspectos dos sistemas AI/ML que afetam diretamente sua segurança e eficácia— especialmente, como esses sistemas funcionam nas mãos de seus usuários pretendidos. Embora a FDA tenha publicado recentemente sua orientação final explicitamente reconhecendo os riscos de viés de automação9 e esteja trabalhando em uma nova estrutura regulatória para modificações em software baseado em IA/ML como um dispositivo médico (ou seja, software que é classificado como um dispositivo médico na seção 201(h)(1) da Lei Federal de Alimentos, Medicamentos e Cosméticos dos EUA10), Babic et al. argumentam que reguladores como o FDA também devem, pelo menos em alguns casos, enfatizar ensaios clínicos bem projetados para testar fatores humanos e outros resultados do uso de IA em ambientes do mundo real. Gerke et al.11,12 argumentam de forma semelhante que mais ferramentas algorítmicas devem ser testadas prospectivamente para entender seu desempenho em uma variedade de contextos processuais que refletem suas configurações de uso pretendido e interações homem-IA. O tipo de teste de usuário que esses estudiosos estão sugerindo vai além dos testes típicos de usabilidade e aceitabilidade que caracterizam o pipeline de beta para uma versão mais finalizada de uma ferramenta de IA. Esse tipo de teste geralmente é feito heuristicamente13, usando um pequeno conjunto de avaliadores para examinar a interface e julgar sua conformidade com os princípios de usabilidade relevantes (por exemplo, interpretabilidade, utilidade percebida, navegabilidade, satisfação com o uso, etc.). Embora essas métricas sejam frequentemente úteis para avaliar experiências de usuário próximas (ou seja, teste "UX") com a interface de uma ferramenta, é necessário um nível mais profundo de teste de usuário14 para ajudar a identificar e abordar possíveis fontes de viés "emergente" ou "contextual"15 que surgem devido a incompatibilidades entre o design de um produto e as características de seus usuários, casos de uso ou configurações de uso. Essas incompatibilidades podem ser mais difíceis de prever e explicar no caso de ferramentas de IA do que em dispositivos médicos ou produtos farmacêuticos tradicionais, cujo desempenho depende menos das interações e interpretações do usuário12, ou cujos algoritmos adaptativos mudam continuamente16. A mitigação dessas incompatibilidades só pode ser alcançada ampliando nossa noção de teste de usuário além de seu foco atual em métricas de desempenho de IA e usabilidade próxima para examinar fatores humanos e sistêmicos que moldam como os sistemas de IA são aplicados na prática17,18 por usuários imperfeitos em configurações imperfeitas. Além disso, o teste não precisa se limitar a simplesmente observar como indivíduos em vários contextos interagem com ferramentas de IA; também podemos testar a melhor forma de moldar essas interações usando os insights existentes das ciências comportamentais, conforme discutimos a seguir.