小児感染症科医のお勉強ノート

小児感染症を専門に診療しています。論文や病気のまとめを紹介します。

論文のアブストラクト作成においても、AIは人に追いついた

 生成AIの進化が止まりません。

 この論文も、まずChatGPTに要約させてから、読んでいるんですが、絶対に間違えだと思ったのが、「アブストラクトの査読経験がある参加者(68人、66.7%)は、経験のない参加者よりも識別の正確性が低かった(39.7% vs 49.3%)。」という一文です。ところが、実際に本文を読むと「Sixty-eight participants (66.7%) reported prior experience reviewing abstracts. This group was less accurate than those without prior experience (39.7% vs 49.3%). 」と書いてあり、ChatGPTすごい!というわけです。

 それにしても、アブストラクトの査読経験があるほど、AIが作成したアブストラクトを見抜けないってどういうことや?!って思います。

 ますます、人間にしかできないことは何か?真剣に考える必要があります。

 

Identification of Human-Generated vs AI-Generated Research Abstracts by Health Care Professionals

JAMA Pediatr. 2024 Jun 1;178(6):625-626. 

 

 背景:
この研究は、医療の専門家が人間が作成した研究要約(アブストラクト)とAIが作成したアブストラクトを区別する能力を調査しました。AIの使用が科学研究において増加する中、AIが生成した要約がどの程度認識されるかを評価することを目的としています。

 

方法:
- 調査期間: 2023年8月1日から11月30日まで
- 参加者: メーリングリストソーシャルメディア、2023年の「Don’t Forget the Bubbles」医療会議で募集した医療専門家
- 手法: 参加者に4つのアブストラクトを提示する。うち2つは人間が作成したもの(Pediatric Academic Societies Meeting 2020から)、残り2つはChatGPT 3.5が生成したものでした。これらのアブストラクトの出所を識別できるか回答した。

結果:
- 102人の医療専門家が参加した。その大多数は、指導医やコンサルタントでした(59人、57.8%)。
- 参加者がアブストラクトの出所を正確に識別できた割合は平均43.0%で、職種による正答率は20.0%から57.0%でした。
- アブストラクトの査読経験がある参加者(68人、66.7%)は、経験のない参加者よりも識別の正確性が低かった(39.7% vs 49.3%)。
- AIを使って研究要約を作成することが倫理的であると考える参加者は74人(72.5%)でした。

結論:
 医療専門家は、人間が作成したアブストラクトとAIが作成したアブストラクトを区別する能力が限られている。査読経験や経験年数・職種に関係なく、識別は難しいことが示されました。AIの倫理的使用については依然として議論がありましたが、多くの参加者がAIの使用を容認していました。

 

重要なコメント:
- 人間が作成したテキストには、文の構造やスタイルの変化が見られると指摘されました。
- AIが作成したテキストは、繰り返しや不自然な文の繋がりがあると認識されることがありました。 

 

研究の限界:
- 参加者の集団は、医療専門家の全体を完全には代表していない可能性があります。
- サンプルサイズが限られているため、結果の一般化には限界があります。

 

 この研究は、AIが作成するアブストラクトと人間が作成するアブストラクトを区別することの難しさを浮き彫りにし、AIの進化が進む時代における科学的内容の評価の重要性を強調しています。

 

Accuracy by Training Level

 

pubmed.ncbi.nlm.nih.gov