پژوهش جدیدی از شرکت دادهآموزشی مرکور نشان میدهد عاملهای هوش مصنوعی، با وجود پیشرفت چشمگیر مدلهای زبانی، هنوز برای جایگزینی جدی کارمندان دفتری و مشاغل دانشی آماده نیستند. این مطالعه با بنچمارکی به نام Apex-Agents سنجیده است که مدلها را در برابر وظایف واقعی در حوزههایی مانند حقوق، مشاوره مدیریت و بانکداری سرمایهگذاری قرار میدهد.
بنچمارک Apex-Agents چه چیزی را میسنجد؟
در Apex-Agents، سناریوها از مسائل واقعی متخصصان حاضر در بازار مرکور استخراج شده و شامل کارهایی است که معمولاً وکلا، مشاوران و تحلیلگران مالی انجام میدهند. بهجای سؤالات تئوریک، مدلها باید روی مجموعهای از اسناد، قوانین و دادهها کار کنند و پاسخی ارائه دهند که از نظر حرفهای قابل قبول باشد؛ یعنی دقیقاً همان نوع کاری که در محیطهای اداری روزمره انجام میشود.
نتایج اولیه نشان میدهد حتی پیشرفتهترین مدلها نیز معمولاً کمتر از یکچهارم پرسشها را در تلاش اول بهدرستی پاسخ میدهند و در بقیه موارد یا پاسخ اشتباه میدهند یا اصلاً قادر به پاسخگویی نیستند. پژوهشگران میگویند بزرگترین چالش، توانایی دنبال کردن اطلاعات در چندین منبع و ابزار مختلف است؛ کاری که برای کارکنان دانشی انسانی امری روزمره است.
این یافتهها برای شرکتها و سازمانهایی که روی خودکارسازی کامل وظایف اداری و تخصصی حساب باز کردهاند، هشداری جدی است. در حال حاضر، عاملهای هوش مصنوعی بیشتر شبیه کارآموزهایی هستند که بخشی از کار را درست انجام میدهند و میتوانند به افزایش بهرهوری کمک کنند، اما هنوز نمیتوان بدون نظارت انسانی مسئولیتهای حساس حقوقی، مالی یا مشاورهای را به طور کامل به آنها سپرد. برای کسبوکارهای ایرانی هم این پیام مهم است که در کنار آزمایش این ابزارها، باید روی آموزش نیروها برای کار ترکیبی انسان–هوش مصنوعی تمرکز کنند و تصمیمهای حیاتی را صرفاً به مدلها نسپارند.
اگر شما هم در حال آزمودن ابزارهای مختلف هستید، دسترسی به سرویسهای متنوع میتواند به مقایسه بهتر و انتخاب مناسب کمک کند. در همین راستا، استفاده از سرویسهای معتبر خارجی از طریق خرید اکانت های هوشمصنوعی میتواند برای تیمهای حقوقی، مالی و فنی که بهدنبال آزمایش عاملها و دستیارهای هوشمند مختلف هستند، یک گزینه عملی باشد.
در مجموع، انتظار میرود با عمومی شدن بنچمارک Apex-Agents، آزمایش و رقابت میان آزمایشگاههای بزرگ هوش مصنوعی برای بهبود عملکرد عاملها شدت بگیرد؛ اما براساس نتایج فعلی، فاصله تا جایی که این سیستمها بتوانند بهطور مستقل جایگزین متخصصان حقوق، مشاوران یا بانکداران سرمایهگذاری شوند هنوز قابل توجه است.
منبع خبر: TechCrunch




