بنچمارک Apex-Agents: عامل‌های هوش مصنوعی هنوز آماده دفتر کار نیستند

بنچمارک جدید نشان می‌دهد عامل‌های هوش مصنوعی هنوز آماده دفتر کار نیستند

شرکت مرکور با بنچمارک جدیدی به نام Apex-Agents عملکرد عامل‌های هوش مصنوعی را در کارهای واقعی حقوق، مشاوره و بانکداری سرمایه‌گذاری سنجیده است. نتایج اولیه نشان می‌دهد حتی بهترین مدل‌ها هم فعلاً فقط بخشی از کار را درست انجام می‌دهند.

برای اینکه تازه‌ترین خبرهای تکنولوژی رو بدونی، کلیک کن! تازه‌ترین خبرهای تکنولوژی اینجاست.

پژوهش جدیدی از شرکت داده‌آموزشی مرکور نشان می‌دهد عامل‌های هوش مصنوعی، با وجود پیشرفت چشمگیر مدل‌های زبانی، هنوز برای جایگزینی جدی کارمندان دفتری و مشاغل دانشی آماده نیستند. این مطالعه با بنچمارکی به نام Apex-Agents سنجیده است که مدل‌ها را در برابر وظایف واقعی در حوزه‌هایی مانند حقوق، مشاوره مدیریت و بانکداری سرمایه‌گذاری قرار می‌دهد.

بنچمارک Apex-Agents چه چیزی را می‌سنجد؟

در Apex-Agents، سناریوها از مسائل واقعی متخصصان حاضر در بازار مرکور استخراج شده و شامل کارهایی است که معمولاً وکلا، مشاوران و تحلیلگران مالی انجام می‌دهند. به‌جای سؤالات تئوریک، مدل‌ها باید روی مجموعه‌ای از اسناد، قوانین و داده‌ها کار کنند و پاسخی ارائه دهند که از نظر حرفه‌ای قابل قبول باشد؛ یعنی دقیقاً همان نوع کاری که در محیط‌های اداری روزمره انجام می‌شود.

نتایج اولیه نشان می‌دهد حتی پیشرفته‌ترین مدل‌ها نیز معمولاً کمتر از یک‌چهارم پرسش‌ها را در تلاش اول به‌درستی پاسخ می‌دهند و در بقیه موارد یا پاسخ اشتباه می‌دهند یا اصلاً قادر به پاسخ‌گویی نیستند. پژوهشگران می‌گویند بزرگ‌ترین چالش، توانایی دنبال کردن اطلاعات در چندین منبع و ابزار مختلف است؛ کاری که برای کارکنان دانشی انسانی امری روزمره است.

این یافته‌ها برای شرکت‌ها و سازمان‌هایی که روی خودکارسازی کامل وظایف اداری و تخصصی حساب باز کرده‌اند، هشداری جدی است. در حال حاضر، عامل‌های هوش مصنوعی بیشتر شبیه کارآموزهایی هستند که بخشی از کار را درست انجام می‌دهند و می‌توانند به افزایش بهره‌وری کمک کنند، اما هنوز نمی‌توان بدون نظارت انسانی مسئولیت‌های حساس حقوقی، مالی یا مشاوره‌ای را به طور کامل به آن‌ها سپرد. برای کسب‌وکارهای ایرانی هم این پیام مهم است که در کنار آزمایش این ابزارها، باید روی آموزش نیروها برای کار ترکیبی انسان–هوش مصنوعی تمرکز کنند و تصمیم‌های حیاتی را صرفاً به مدل‌ها نسپارند.

اگر شما هم در حال آزمودن ابزارهای مختلف هستید، دسترسی به سرویس‌های متنوع می‌تواند به مقایسه بهتر و انتخاب مناسب کمک کند. در همین راستا، استفاده از سرویس‌های معتبر خارجی از طریق خرید اکانت های هوش‌مصنوعی می‌تواند برای تیم‌های حقوقی، مالی و فنی که به‌دنبال آزمایش عامل‌ها و دستیارهای هوشمند مختلف هستند، یک گزینه عملی باشد.

در مجموع، انتظار می‌رود با عمومی شدن بنچمارک Apex-Agents، آزمایش و رقابت میان آزمایشگاه‌های بزرگ هوش مصنوعی برای بهبود عملکرد عامل‌ها شدت بگیرد؛ اما براساس نتایج فعلی، فاصله تا جایی که این سیستم‌ها بتوانند به‌طور مستقل جایگزین متخصصان حقوق، مشاوران یا بانکداران سرمایه‌گذاری شوند هنوز قابل توجه است.

منبع خبر: TechCrunch

مقالات مرتبط

هوش مصنوعی

شتاب دوباره رشد چت‌جی‌پی‌تی همزمان با دور جدید سرمایه‌گذاری اوپن‌ای‌آی

طبق گزارشی از CNBC، سم آلتمان در جلسه‌ای داخلی از شتاب‌گرفتن دوباره رشد چت‌جی‌پی‌تی سخن گفته است؛ هم‌زمان گفته می‌شود اوپن‌ای‌آی در آستانه جذب دور جدیدی از سرمایه‌گذاری با ارزش‌گذاری بسیار بالا است.

۲۰ بهمن ۱۴۰۴⏱5 دقیقه

هوش مصنوعی

هشدار اتحادیه اروپا به متا برای عقب‌نشینی از سیاست هوش مصنوعی واتس‌اپ

اتحادیه اروپا به متا هشدار داده که در صورت عدم اصلاح سیاست‌های هوش مصنوعی در واتس‌اپ، اقدام‌های موقت ضدانحصار علیه این شرکت اعمال خواهد شد. بروکسل نگران استفاده متا از داده‌های کاربران برای خدمات هوش مصنوعی است.

۲۰ بهمن ۱۴۰۴⏱5 دقیقه

هوش مصنوعی

آگهی ظاهراً لو رفته سوپربولِ OpenAI یک حقه اینترنتی بود

ویدئویی که در شبکه‌های اجتماعی به‌عنوان آگهی لو رفته سوپربول OpenAI با یک گجت کروی و ایربادز دست‌به‌دست می‌شد، ساختگی از آب درآمد. OpenAI این داستان را «فیک نیوز» خوانده است.

۲۰ بهمن ۱۴۰۴⏱5 دقیقه

هوش مصنوعی

نیویورک دو طرح قانونی برای مهار صنعت هوش مصنوعی بررسی می‌کند

قانون‌گذاران ایالت نیویورک دو طرح مهم برای تنظیم هوش مصنوعی را بررسی می‌کنند؛ یکی برای برچسب‌گذاری خبرهای تولیدشده با هوش مصنوعی و دیگری برای تعلیق مجوز ساخت مراکز داده جدید.

۲۰ بهمن ۱۴۰۴⏱5 دقیقه