یک بنچمارک جدید از استارتاپ مرکور نشان میدهد ایجنتهای هوش مصنوعی در انجام وظایف حرفهای حوزه حقوق و تحلیل شرکتی، طی چند هفته گذشته جهش محسوسی در عملکرد داشتهاند. این روند، بحث قدیمی «آیا هوش مصنوعی میتواند جای وکلا را بگیرد؟» را دوباره داغ کرده است.
جزئیات بنچمارک و عملکرد مدل جدید
مرکور پیشتر بنچمارکی با نام APEX-Agents برای سنجش توانایی ایجنتهای هوش مصنوعی در کارهای واقعی مانند تحلیل حقوقی و بررسی اسناد شرکتی معرفی کرده بود. در آن زمان، همه مدلهای مطرح هوش مصنوعی در این تستها کمتر از ۲۵ درصد امتیاز میگرفتند و نتیجه این بود که وکلای انسانی حداقل فعلاً در امان هستند.
اما طبق گزارش جدید، با انتشار نسخه تازه مدل Opus 4.6 از شرکت انتروپیک، وضعیت تغییر کرده است. این مدل در حالت «یکبار حل مسئله» نزدیک به ۳۰ درصد امتیاز گرفته و زمانی که چند بار فرصت تلاش مجدد داشته، میانگین عملکرد آن حدود ۴۵ درصد شده است. مرکور میگوید اضافه شدن قابلیتهای جدیدی مانند «گروههای ایجنتی (agent swarms)» و بهبود در حل مسائل چندمرحلهای، در این پیشرفت نقش داشته است.
چرا این پیشرفت برای صنعت مهم است؟
گرچه ۳۰ یا حتی ۴۵ درصد هنوز فاصله زیادی با دقت موردنیاز برای کار حقوقی در دنیای واقعی دارد، اما چنین جهشی در مدت کوتاه نشان میدهد سرعت پیشرفت مدلهای پایه کند نشده است. مدیرعامل مرکور این جهش از حدود ۱۸.۴ درصد به نزدیک ۲۹.۸ درصد طی چند ماه را «غیرعادی» توصیف کرده و آن را نشانهای از پتانسیل بالای ایجنتها در انجام کارهای پیچیده حقوقی میداند.
برای مخاطبان ایرانی، این روند میتواند خبر از آیندهای بدهد که در آن ابزارهای حقوقی مبتنی بر هوش مصنوعی، کارهایی مانند جستوجوی پیشینه حقوقی، تحلیل قراردادها یا آمادهسازی پیشنویس متنهای قانونی را سریعتر و ارزانتر انجام دهند. بسیاری از این سرویسها روی زیرساخت مدلهای بزرگ ارائه میشوند و کاربران میتوانند با خرید اکانت های هوشمصنوعی و بهرهگیری از دستیارهای هوشمند، بخشهایی از کار تحلیلی خود را خودکار کنند.
با این حال، خود مرکور هم تأکید میکند که رسیدن از ۳۰ درصد به سطحی که بتوان بهطور کامل به ایجنتها در پروندههای جدی اعتماد کرد، راه درازی در پیش است. فعلاً وکلا جای خود را از دست ندادهاند، اما شاید نسبت به ماه گذشته کمی کمتر مطمئن باشند که این شغل همیشه دستنخورده باقی میماند.
منبع خبر: TechCrunch




