そのAIはどれほど優れていますか
2 分で読めます
概要:
患者の CT スキャンまたは X 線写真の詳細な説明レポートを迅速かつ正確に作成する AI ツールは、多忙な放射線科医の作業負荷を大幅に軽減します。
これらの AI レポートは、画像上の異常の有無を単に特定するのではなく、複雑な診断情報、詳細な説明、微妙な所見、および適切な程度の不確実性を伝えます。 つまり、人間の放射線科医がスキャンで見たものをどのように説明するかを反映しています。
HMS に関するその他のニュースはこちらからご覧ください
詳細な物語レポートを生成できる AI モデルがいくつか登場し始めています。 これらのツールを定期的に評価して、開発に情報を提供し、パフォーマンスを向上させる自動スコアリング システムも付属しています。
では、現在のシステムは AI モデルの放射線医学のパフォーマンスをどの程度正確に評価しているのでしょうか?
ハーバード大学医学部の研究者らによる新しい研究結果が、パターン誌に8月3日に掲載されたという。
AIツールが継続的に改良され、臨床医がAIツールを信頼するには、スコアリングシステムの信頼性を確保することが重要だが、研究でテストされた指標ではAIレポートの臨床エラーを確実に特定できず、その中には重大なエラーも含まれていたと研究者らは述べた。 この発見は、改善の緊急の必要性と、ツールのパフォーマンスを忠実かつ正確に監視する忠実度の高いスコアリング システムを設計することの重要性を浮き彫りにしていると研究者らは述べています。
心臓の健康。 栄養。 脳の健康。 もっと。
チームは、AI が生成したナラティブ レポートでさまざまなスコア指標をテストしました。 研究者らはまた、6人の人間の放射線科医にAIが生成したレポートを読むよう依頼した。
分析の結果、人間の放射線科医と比較して、自動採点システムは AI が生成したレポートを評価する能力が劣っていることが判明しました。 彼らは AI ツールによって生じた臨床エラーを誤解し、場合によっては見逃していました。
「AI システムを正確に評価することは、臨床的に有用で信頼できる放射線医学レポートを作成するための重要な第一歩です」と、研究の主著者である HMS ブラヴァトニク研究所生物医学情報学助教授のプラナフ・ラジプルカール氏は述べています。
より良いスコアリング指標を設計するために、チームは医療画像から放射線医学レポートを自動的に生成する AI ツールのパフォーマンスを評価するための新しい方法 (RadGraph F1) を設計しました。
また、人間の放射線科医が AI モデルのパフォーマンスを評価する方法によりよく一致する、複数の指標を 1 つのスコアに結合する複合評価ツール (RadCliQ) も設計しました。
これらの新しいスコアリング ツールを使用していくつかの最先端の AI モデルを評価したところ、研究者らはモデルの実際のスコアと可能な最高スコアとの間に顕著なギャップがあることを発見しました。
「医学における AI を次のレベルに進めるには、進歩を測定することが不可欠です」と、共同筆頭著者であり、ラージプルカール研究室の研究員であるフェイヤン 'キャシー' ユー氏は述べています。 「私たちの定量的分析により、放射線科医を強化してより良い患者ケアを提供する AI に近づくことができます。」
研究者の長期的なビジョンは、これまで遭遇したことのない問題を解決する能力を含む、さまざまな複雑なタスクを実行する汎用的な医療 AI モデルを構築することです。 このようなシステムは、診断や治療の決定を支援するために、医療画像について放射線科医や医師と流暢に会話できるとラジプルカール氏は述べた。
チームはまた、日常の平易な言葉を使って画像検査結果を患者に直接説明し、文脈を説明できる AI アシスタントの開発も目指しています。
「放射線科医との連携を強化することで、私たちの新しい指標は、患者ケアを改善するために臨床ワークフローにシームレスに統合される AI の開発を加速します」と Rajpurkar 氏は述べています。
著者、資金提供、開示
共著者には、マーク・エンドー、ライアン・クリシュナン、イアン・パン、アンディ・ツァイ、エドゥアルド・ポンテス・レイス、エドゥアルド・カイザー、ウルーラヒー・ヌネス・フォンセカ、エンリケ・ミン、ホー・リー、ザーラ・シャケリ、ホセイン・アバド、アンドリュー・ン、カーティス・P・ラングロッツ、ヴァサンサ・クマールが含まれる。ヴェヌゴパル。