خانه
اتاق خبر

آخرین خبرها داستان‌های تصویری پیشنهاد ما
ديدگاه
سياست
اقتصاد
ورزش
گوناگون
اینفوگرافیک
تماشا کنید

2026/5/7 8:12 IRST

حالت تاریک

زبانها

عربي
فارسى
Türkçe
français
አማርኛ

رسانه هاى اجتماعى العين

گوناگون

کدام هوش مصنوعی بیشترین ضریب خطا را دارد؟

العين فارسی

Published on: 2025/12/6 3:14 IRST

چت‌بات‌ها

گزارش جدید مرکز «تاو» در دانشگاه کلمبیا نشان می‌دهد مجموعه‌ای از موتورهای جست‌وجوی مبتنی بر هوش مصنوعی، از جمله ChatGPT، Gemini، Grok، Perplexity، Copilot و DeepSeek، در انجام ساده‌ترین وظایف دچار خطاهای گسترده شده‌اند.

براساس این تحقیق، مدل‌های پریمیوم با هزینه ماهانه بین ۲۰ تا ۴۰ دلار عملکردی ضعیف‌تر از نسخه‌های رایگان داشته‌اند و در عین هزینه بیشتر، اعتمادبه‌نفس بالاتر و خطای بیشتری از خود نشان داده‌اند.

در این بررسی، هشت ابزار مختلف با یک آزمون ساده سنجیده شدند؛ پژوهشگران از موتورهای هوش مصنوعی خواستند براساس بخشی از یک خبر، عنوان، ناشر، تاریخ و نشانی اینترنتی مطلب را شناسایی کنند.

این آزمایش که برای ۱۶۰۰ پرسش طراحی شده بود، نشان داد ابزارها در مجموع بیش از ۶۰ درصد پاسخ‌های اشتباه ارائه داده‌اند. این خطاها نه در تحلیل‌های پیچیده یا پیش‌بینی‌های دشوار، بلکه در نقل یک منبع ساده خبری رخ داده‌اند؛ وظیفه‌ای که یک جست‌وجوی عادی در گوگل بی‌درنگ انجام می‌دهد.

نتایج عملکرد هر ابزار شگفت‌انگیز بود. Grok 3 حدود ۹۴ درصد پاسخ‌های نادرست داشت. Gemini فقط یک پاسخ درست از میان ۲۰۰ درخواست ارائه کرد. ChatGPT حدود ۶۷ درصد خطا داشت و Perplexity با نرخ خطای ۳۷ درصد بهترین عملکرد را ثبت کرد.

در بخش دیگری از یافته‌ها آمده است که ChatGPT در ۱۳۴ مورد اطلاعات اشتباه داده و تنها در ۱۵ پاسخ ابراز تردید کرده و هیچ‌گاه نگفته «نمی‌دانم». همچنین طبق گزارش، Grok 3 نه‌تنها منابع را اشتباه ارائه کرده بلکه در بسیاری موارد آن‌ها را ساخته است؛ از ۲۰۰ درخواست بررسی‌شده، ۱۵۴ نشانی اینترنتی به صفحات خطا یا نشانی‌های ساختگی منتهی شده‌اند.

پژوهشگران تأکید کرده‌اند مشکل اصلی فقط میزان خطا نیست، بلکه اعتمادبه‌نفس ابزارها در ارائه پاسخ‌های کاملاً نادرست است. آن‌ها می‌گویند اکثر مدل‌ها با «اعتمادبه‌نفس نگران‌کننده» اطلاعات غلط ارائه کرده‌اند.

به گفته نویسندگان، این رفتار یک نقص فنی قابل رفع نیست، بلکه بخش ذاتی معماری مدل‌های زبانی است که بر پیش‌بینی جملات محتمل استوارند و نه دانستن واقعیات. این مطالعه هشدار می‌دهد که این ابزارها در حوزه‌هایی مانند کدنویسی، خلاصه‌سازی قراردادها، تحلیل سرمایه‌گذاری، تنظیم اسناد حقوقی و تولید اطلاعات پزشکی نیز به کار می‌روند؛ حوزه‌هایی که دقت در آن‌ها حیاتی است.

هوش مصنوعی و انتخاب‌های تازه؛ پنج رقیب مهم ChatGPT برای کارهای گوناگون

خبرهاى گوناگون ايران و جهان

#پیشنهاد_ما
#هوش_مصنوعی

اخبار مرتبط

هشدار دانشمندان درباره خطاهای خطرناک چت‌بات‌ها در نقش روان‌درمانگر

هشدار دانشمندان درباره خطاهای خطرناک چت‌بات‌ها در نقش روان‌درمانگر

آیا استفاده از چت‌بات برای سلامت روان خوب است؟

آیا استفاده از چت‌بات برای سلامت روان خوب است؟

کشف عجیب درباره چاپلوسی هوش مصنوعی: به تعریف‌های چت‌بات اعتماد نکنید!

کشف عجیب درباره چاپلوسی هوش مصنوعی: به تعریف‌های چت‌بات اعتماد نکنید!

توصیه‌ خطرناک چت‌بات به یک نوجوان: مادرت را بکش!

توصیه‌ خطرناک چت‌بات به یک نوجوان: مادرت را بکش!

ترند

سياست

ایرانِ چندپاره؛ تشدید شکاف‌های قدرت در سایه فشارهای داخلی و خارجی

سياست

پیام‌ تازه و مبهم ترامپ به ایران با راه‌اندازی طرح «آزادی» در تنگه هرمز

سياست

بازگشت دزدی دریایی به خلیج عدن؛ گزارش‌ها از رد پای ایران و حوثی‌ها

اقتصاد

جنگ ایران و آمریکا چه پیامدهایی برای اقتصاد جهان به همراه داشت؟

پیشنهاد ما

گوناگون

افشای قریب‌الوقوع پرونده‌های یوفو؛ انتشار نخستین اسناد در روزهای آینده

گوناگون

ابهام در وضعیت بهداشتی کشتی گردشگری هوندیوس؛ قرنطینه و حضور پزشکان هلندی

ورزش

رئیس فدراسیون فوتبال ایران تهدید به کناره‌گیری از جام جهانی کرد

ورزش

شغل رؤیایی؛ تماشای جام جهانی با دستمزد ۵۰ هزار دلار

ما را دنبال کنید

نرم افزار را دانلود یا به ‌روزرسانی کنید

بخش‌ها

سياست
اقتصاد
ورزش
گوناگون

زبانها

عربي
فارسى
Türkçe
français
አማርኛ

العین فارسی

درباره ما
با ما تماس بگیرید
در العین تبلیغ کنید
سیاست حفظ حریم خصوصی

کلیه حقوق این سایت متعلق به العین برای خدمات رسانه‌ای و مطالعات 2026

این سایت از کوکی ها برای بهبود تجربه مرور شما استفاده می کند سیاست حفظ حریم خصوصی