研究人員日前在美國《科學公共圖書館·生物學》雜誌發表的一項最新研究中說,科學文獻正面臨被大量基於公開數據、且易於利用人工智能工具處理的誤導性生物醫學論文淹沒的風險。
在這項研究中,來自英國薩里大學等機構的科研人員重點分析了341篇基於美國全國健康和營養調查的數據的研究論文。全國健康和營養調查是一個開放數據集,收集了數千名美國人的健康、飲食和生活方式數據。這些論文於2014年至2024年間發表在147份由前沿傳媒公司、埃爾斯維爾和施普林格·自然集團等多家出版商出版的期刊上。
分析結果顯示,這些論文似乎都遵循類似的範式,即將一個變量(例如維生素D水平或睡眠質量)與抑鬱症或心臟病等複雜疾病聯繫起來,但忽略了這些疾病由多種因素引發的事實。
研究人員發現,許多論文中提出的關聯性經不起統計學的檢驗,而且有些研究中的數據似乎是精心挑選的。就時間趨勢而言,研究人員發現從2014年到2021年,平均每年約有4篇基於該數據集的論文發表,但2024年僅截至當年10月9日就有190篇發表。
研究人員認為,2022年起,大語言模型開始變得更加複雜和主流,而美國全國健康和營養調查的數據集公開可用,可以插入編碼或人工智能系統進行分析,這可能導致過去兩年基於這些數據的研究大幅增加。
研究共同作者、薩裏大學生物醫學專家馬特·斯皮克說,一些極其公式化的論文發表率激增,而這些論文很容易由大語言模型生成。
(來源:新華網)
責任編輯:
趙霁
評論