کدام هوش مصنوعی بیشترین ضریب خطا را دارد؟
گزارش جدید مرکز «تاو» در دانشگاه کلمبیا نشان میدهد مجموعهای از موتورهای جستوجوی مبتنی بر هوش مصنوعی، از جمله ChatGPT، Gemini، Grok، Perplexity، Copilot و DeepSeek، در انجام سادهترین وظایف دچار خطاهای گسترده شدهاند.
براساس این تحقیق، مدلهای پریمیوم با هزینه ماهانه بین ۲۰ تا ۴۰ دلار عملکردی ضعیفتر از نسخههای رایگان داشتهاند و در عین هزینه بیشتر، اعتمادبهنفس بالاتر و خطای بیشتری از خود نشان دادهاند.
در این بررسی، هشت ابزار مختلف با یک آزمون ساده سنجیده شدند؛ پژوهشگران از موتورهای هوش مصنوعی خواستند براساس بخشی از یک خبر، عنوان، ناشر، تاریخ و نشانی اینترنتی مطلب را شناسایی کنند.
این آزمایش که برای ۱۶۰۰ پرسش طراحی شده بود، نشان داد ابزارها در مجموع بیش از ۶۰ درصد پاسخهای اشتباه ارائه دادهاند. این خطاها نه در تحلیلهای پیچیده یا پیشبینیهای دشوار، بلکه در نقل یک منبع ساده خبری رخ دادهاند؛ وظیفهای که یک جستوجوی عادی در گوگل بیدرنگ انجام میدهد.
نتایج عملکرد هر ابزار شگفتانگیز بود. Grok 3 حدود ۹۴ درصد پاسخهای نادرست داشت. Gemini فقط یک پاسخ درست از میان ۲۰۰ درخواست ارائه کرد. ChatGPT حدود ۶۷ درصد خطا داشت و Perplexity با نرخ خطای ۳۷ درصد بهترین عملکرد را ثبت کرد.
در بخش دیگری از یافتهها آمده است که ChatGPT در ۱۳۴ مورد اطلاعات اشتباه داده و تنها در ۱۵ پاسخ ابراز تردید کرده و هیچگاه نگفته «نمیدانم». همچنین طبق گزارش، Grok 3 نهتنها منابع را اشتباه ارائه کرده بلکه در بسیاری موارد آنها را ساخته است؛ از ۲۰۰ درخواست بررسیشده، ۱۵۴ نشانی اینترنتی به صفحات خطا یا نشانیهای ساختگی منتهی شدهاند.
پژوهشگران تأکید کردهاند مشکل اصلی فقط میزان خطا نیست، بلکه اعتمادبهنفس ابزارها در ارائه پاسخهای کاملاً نادرست است. آنها میگویند اکثر مدلها با «اعتمادبهنفس نگرانکننده» اطلاعات غلط ارائه کردهاند.
به گفته نویسندگان، این رفتار یک نقص فنی قابل رفع نیست، بلکه بخش ذاتی معماری مدلهای زبانی است که بر پیشبینی جملات محتمل استوارند و نه دانستن واقعیات. این مطالعه هشدار میدهد که این ابزارها در حوزههایی مانند کدنویسی، خلاصهسازی قراردادها، تحلیل سرمایهگذاری، تنظیم اسناد حقوقی و تولید اطلاعات پزشکی نیز به کار میروند؛ حوزههایی که دقت در آنها حیاتی است.