LLMプロダクトの性能検証
研究者:平野湧一郎、中尾貴祐、三木聡一郎
ChatGPT (OpenAI) をはじめとする市販のAI(言語モデル)は豊富なテキストベースの医学知識を有しており、また一般的な写真や画像を解釈できることが知られています。しかしそれら一般的なAI製品は、CTやMRIといった本格的な医用画像を人間の専門医のように「読影」できるレベルにはまだ全く至っていません。
我々のチームでは、ChatGPTをはじめとする様々な最新の言語モデルに、医師国家試験や放射線科診断専門医試験などの問題を画像付きで解かせ、性能を比較検討する研究を行っています。単に正答率を検証するだけでなく、入力画像の有無で条件を変えたり、各回答を診断専門医が主観的に評価した結果も用いることで、現在の市販の言語モデルの「読影」能力がどこまで人間に近づいているのかを検証しています。

文献
- Nakao T, Miki S, Nakamura Y, et al. Capability of GPT-4V(ision) in the Japanese National Medical Licensing Examination: Evaluation Study. JMIR Med Educ. 2024;10:e54393. Published 2024 Mar 12. doi:10.2196/54393
- Hirano Y, Hanaoka S, Nakao T, et al. GPT-4 Turbo with Vision fails to outperform text-only GPT-4 Turbo in the Japan Diagnostic Radiology Board Examination. Jpn J Radiol. 2024;42(8):918-926. doi:10.1007/s11604-024-01561-z
- Hirano Y, Miki S, Yamagishi Y, et al. Assessing accuracy and legitimacy of multimodal large language models on Japan Diagnostic Radiology Board Examination. Jpn J Radiol. Published online September 12, 2025. doi:10.1007/s11604-025-01861-y