مجلات علمی زیر سیل مقالات «کپیشده» توسط هوش مصنوعی

ایسنا/ ابزارهایی مانند چت جیپیتی میتوانند برای تولید مقالات پژوهشی تقریبا کپی شده استفاده شوند؛ مقالاتی که از سد بررسیهای استاندارد سرقت علمی عبور میکنند. تصور میشود صدها مورد از این مقالات منتشر شده باشند.
یک تحلیل از یک پایگاه داده مقالات علمی نشان میدهد که ابزارهای هوش مصنوعی تولیدکننده متن از جمله چت جیپیتی و جمینای میتوانند برای بازنویسی مقالات علمی و تولید نسخههای «کپیشده» بهکار گرفته شوند؛ نسخههایی که سپس بهعنوان تحقیقات جدید معرفی میشوند.
در یک نسخه پیشچاپ مقالهای که قبل از بررسی همتا منتشر میشود که در ۱۲ سپتامبر در پایگاه medRxiv قرار گرفت، پژوهشگران بیش از ۴۰۰ مقاله از این نوع را شناسایی کردند که در ۱۱۲ مجله در طول ۴.۵ سال گذشته منتشر شدهاند. آنها نشان دادند که مطالعات زیستپزشکی تولیدشده توسط هوش مصنوعی میتوانند از سد بررسیهای ضدسرقت علمی ناشران عبور کنند. نویسندگان این مطالعه هشدار میدهند که افراد و کارخانههای مقاله که شرکتهایی هستند که مقالات جعلی تولید میکنند و میفروشند، ممکن است با سوءاستفاده از مجموعهدادههای سلامت عمومی و استفاده از مدلهای زبانی بزرگ اقدام به تولید انبوه مقالات بیکیفیت و بیارزش علمی کنند.
چابا سابو (Csaba Szabó)، داروشناس در دانشگاه فریبورگ سوئیس که در این پژوهش دخیل نبوده است، میگوید: اگر این مسئله حلنشده باقی بماند، این رویکرد مبتنی بر هوش مصنوعی میتواند روی همه پایگاههای داده متنباز بهکار رود و تعداد بسیار بیشتری مقاله تولید شود؛ بیش از چیزی که بتوان تصور کرد. این میتواند رویدادی پر از خطرات غیرقابلکنترل را شکل دهد و مقالات علمی را با مقالات مصنوعی جایگزین کند.
پژوهش تکراری
برای بررسی این موضوع، پژوهشگران مطالعات ارتباطی مطالعاتی که ارتباط آماری بین یک متغیر و یک پیامد سلامت را بررسی میکنند را که بر اساس دادههای پیمایش ملی سلامت و تغذیه ایالات متحده که یک پایگاه عظیم داده درباره سلامت، تغذیه و سبک زندگی هزاران نفر است، غربال کردند.
آنها بررسی خود را روی مطالعاتی متمرکز کردند که آنها را «تکراری» تعریف کردند؛ یعنی مطالعاتی که ارتباط بین یک متغیر و یک پیامد سلامت را مثل تحقیقات دیگر آزمایش کرده بودند، اما با کمی تغییر در بخش کوچکی از دادهها برای مثال نتایج سالهای متفاوت پیمایش یا شرکتکنندگان در گروه سنی یا جنسیت متفاوت را آزمایش کرده بودند.
جستوجوی آنها نشان داد ۴۱۱ مطالعه تکراری بین ماه ژانویه سال ۲۰۲۱ تا ژوئیه ۲۰۲۵ منتشر شدهاند. بیشتر اینها موارد «تکراری» بودند که شامل دو مقاله تقریبا یکسان نیز میشد.
مت اسپیک زیستپزشک در دانشگاه سوری (Surrey) بریتانیا و نویسنده همکار این مقاله میگوید: این نباید اتفاق بیفتد و کمکی به سلامت مقالات علمی نمیکند.
بیشتر ناشران سازوکارهایی برای جلوگیری از ارسال یک تحقیق مشابه به چند مجله دارند، اما اسپیک و همکارانش مشکوک هستند که ممکن است ابزارهای هوش مصنوعی برای دور زدن این سازوکارها استفاده میشوند.
دور زدن شناسایی
برای آزمایش اینکه آیا هوش مصنوعی میتواند به تولید چند مقاله از یک مجموعه داده کمک کند، پژوهشگران از چتبات چت جیپیتی و جمینای گوگل برای بازنویسی سه مقاله از تکراریترین مقالات استفاده کردند که هر کدام یک ارتباط خاص را گزارش میکرد که پیشتر از پنج یا ۶ بار منتشر شده بود. آنها از مدلهای زبانی خواستند که بر اساس اطلاعات همان مقاله و دادههای NHANES یک دستنوشته جدید تولید کنند که بتواند از سد ابزارهای شناسایی سرقت علمی بگذرد.
اسپیک میگوید: ما شوکه شدیم که بلافاصله جواب داد. مقالات کامل و بینقص نبودند و مدلهای زبانی چند خطا ایجاد کردند. ولی تنها دو ساعت کار ویرایش برای هر دستنوشته لازم بود.
وقتی این مقالات با ابزار شناسایی سرقت علمی که بسیاری از ناشران استفاده میکنند بررسی شدند، نمرهای به دست آوردند که از نظر ویراستاران مشکلساز تلقی نمیشد. این نشان میدهد که مدلهای زبانی میتوانند چیزی مشتق شده از همه مطالعات قبلی تولید کنند بدون اینکه چیز جدیدی اضافه کنند. اما باز هم از سد بررسیهای سرقت علمی عبور کنند. این مسئله تشخیص میان پژوهشگرانی که مطالعه واقعی با دادههای عمومی مانند NHANES انجام میدهند و کسانی که عمدا با مدلهای زبانی مقالات تکراری میسازند را سختتر میکند.
ایگور رودان از دانشگاه ادینبورگ، بریتانیا، که متخصص سلامت عمومی جهانی است، میگوید: اینها چالشهای کاملا جدیدی برای ویراستاران و ناشران است. وقتی اولین بار مدلهای زبانی بزرگ را امتحان کردیم، فورا فهمیدیم که این یک مشکل خواهد شد، و این پیشچاپ آن را تایید میکند.
چالشی جدی
در ماه ژوئیه، اسپیک و همکارانش گزارش دادند که یک افزایش شدید در انتشار مقالات بیکیفیت و قالبی که کلیشهای و تکراری هستند با استفاده از NHANES و دیگر پایگاههای سلامت عمومی رخ داده است؛ چیزی که آنها به آن مظنون بودند توسط هوش مصنوعی تشدید شده است. تحلیل کنونی یک جهش بزرگ در مطالعات تکراری NHANES بعد از سال ۲۰۲۲ نشان داد که همان سالی که چت جیپیتی عمومی شد.
برخی ناشران، از جمله Frontiers در لوزان سوئیس و Public Library of Science (PLOS) در سانفرانسیسکو، برای مقابله با این موضوع قوانین ویراستاری سختگیرانهتری برای پذیرش مطالعات مبتنی بر پایگاههای داده سلامت عمومی مانند NHANES وضع کردهاند.
ریچارد وایت، مدیر ویراستاری Scientific Reports میگوید: ما مسئولیت خودمان در حفظ اعتبار سابقه علمی را بسیار جدی میگیریم و همه مقالات اشارهشده در این پیشچاپ بررسی خواهند شد و اقدامات لازم صورت خواهد گرفت. او افزود این مجله از ابتدای سال ۲۰۲۴ بیش از ۴۵۰۰ مقاله مبتنی بر NHANES را رد کرده است.
دیدگاهها درباره ارزش برخی تحلیلها با دادههای NHANES و مشابه آن متفاوت است، و ما متعهد هستیم که هم از کل جامعه علمی حمایت کنیم و هم مطمئن شویم آنچه منتشر میکنیم ارزشمند است. تمرکز ما روی ایجاد بررسیهای درست است تا مقالات غیراخلاقی یا بیمعنی حذف شوند، در حالی که همچنان مقالات معتبر و ارزشمند بر اساس این دادهها منتشر شوند. ما کاملاً از نگرانیها درباره استفاده نامناسب از این پایگاههای داده آگاه هستیم و اقدامات مستمری در حال انجام داریم.