پیشرفت بزرگ ایجنت‌های هوش مصنوعی در آزمون‌های حقوقی مرکور

جهش چشمگیر عملکرد ایجنت‌های هوش مصنوعی در آزمون‌های حقوقی

استارتاپ مرکور اعلام کرده که نسخه جدید مدل اپوس ۴.۶ از انتروپیک در بنچمارک حقوقی این شرکت جهش محسوسی داشته است. امتیاز این ایجنت‌ها هنوز با وکلای انسانی فاصله دارد، اما روند پیشرفت سرعت‌گرفته است.

برای اینکه تازه‌ترین خبرهای تکنولوژی رو بدونی، کلیک کن! تازه‌ترین خبرهای تکنولوژی اینجاست.

یک بنچمارک جدید از استارتاپ مرکور نشان می‌دهد ایجنت‌های هوش مصنوعی در انجام وظایف حرفه‌ای حوزه حقوق و تحلیل شرکتی، طی چند هفته گذشته جهش محسوسی در عملکرد داشته‌اند. این روند، بحث قدیمی «آیا هوش مصنوعی می‌تواند جای وکلا را بگیرد؟» را دوباره داغ کرده است.

جزئیات بنچمارک و عملکرد مدل جدید

مرکور پیش‌تر بنچمارکی با نام APEX-Agents برای سنجش توانایی ایجنت‌های هوش مصنوعی در کارهای واقعی مانند تحلیل حقوقی و بررسی اسناد شرکتی معرفی کرده بود. در آن زمان، همه مدل‌های مطرح هوش مصنوعی در این تست‌ها کمتر از ۲۵ درصد امتیاز می‌گرفتند و نتیجه این بود که وکلای انسانی حداقل فعلاً در امان هستند.

اما طبق گزارش جدید، با انتشار نسخه تازه مدل Opus 4.6 از شرکت انتروپیک، وضعیت تغییر کرده است. این مدل در حالت «یک‌بار حل مسئله» نزدیک به ۳۰ درصد امتیاز گرفته و زمانی که چند بار فرصت تلاش مجدد داشته، میانگین عملکرد آن حدود ۴۵ درصد شده است. مرکور می‌گوید اضافه شدن قابلیت‌های جدیدی مانند «گروه‌های ایجنتی (agent swarms)» و بهبود در حل مسائل چندمرحله‌ای، در این پیشرفت نقش داشته است.

چرا این پیشرفت برای صنعت مهم است؟

گرچه ۳۰ یا حتی ۴۵ درصد هنوز فاصله زیادی با دقت موردنیاز برای کار حقوقی در دنیای واقعی دارد، اما چنین جهشی در مدت کوتاه نشان می‌دهد سرعت پیشرفت مدل‌های پایه کند نشده است. مدیرعامل مرکور این جهش از حدود ۱۸.۴ درصد به نزدیک ۲۹.۸ درصد طی چند ماه را «غیرعادی» توصیف کرده و آن را نشانه‌ای از پتانسیل بالای ایجنت‌ها در انجام کارهای پیچیده حقوقی می‌داند.

برای مخاطبان ایرانی، این روند می‌تواند خبر از آینده‌ای بدهد که در آن ابزارهای حقوقی مبتنی بر هوش مصنوعی، کارهایی مانند جست‌وجوی پیشینه حقوقی، تحلیل قراردادها یا آماده‌سازی پیش‌نویس متن‌های قانونی را سریع‌تر و ارزان‌تر انجام دهند. بسیاری از این سرویس‌ها روی زیرساخت مدل‌های بزرگ ارائه می‌شوند و کاربران می‌توانند با خرید اکانت های هوش‌مصنوعی و بهره‌گیری از دستیارهای هوشمند، بخش‌هایی از کار تحلیلی خود را خودکار کنند.

با این حال، خود مرکور هم تأکید می‌کند که رسیدن از ۳۰ درصد به سطحی که بتوان به‌طور کامل به ایجنت‌ها در پرونده‌های جدی اعتماد کرد، راه درازی در پیش است. فعلاً وکلا جای خود را از دست نداده‌اند، اما شاید نسبت به ماه گذشته کمی کمتر مطمئن باشند که این شغل همیشه دست‌نخورده باقی می‌ماند.

منبع خبر: TechCrunch

مقالات مرتبط

هوش مصنوعی

شتاب دوباره رشد چت‌جی‌پی‌تی همزمان با دور جدید سرمایه‌گذاری اوپن‌ای‌آی

طبق گزارشی از CNBC، سم آلتمان در جلسه‌ای داخلی از شتاب‌گرفتن دوباره رشد چت‌جی‌پی‌تی سخن گفته است؛ هم‌زمان گفته می‌شود اوپن‌ای‌آی در آستانه جذب دور جدیدی از سرمایه‌گذاری با ارزش‌گذاری بسیار بالا است.

۲۰ بهمن ۱۴۰۴⏱5 دقیقه

هوش مصنوعی

هشدار اتحادیه اروپا به متا برای عقب‌نشینی از سیاست هوش مصنوعی واتس‌اپ

اتحادیه اروپا به متا هشدار داده که در صورت عدم اصلاح سیاست‌های هوش مصنوعی در واتس‌اپ، اقدام‌های موقت ضدانحصار علیه این شرکت اعمال خواهد شد. بروکسل نگران استفاده متا از داده‌های کاربران برای خدمات هوش مصنوعی است.

۲۰ بهمن ۱۴۰۴⏱5 دقیقه

هوش مصنوعی

آگهی ظاهراً لو رفته سوپربولِ OpenAI یک حقه اینترنتی بود

ویدئویی که در شبکه‌های اجتماعی به‌عنوان آگهی لو رفته سوپربول OpenAI با یک گجت کروی و ایربادز دست‌به‌دست می‌شد، ساختگی از آب درآمد. OpenAI این داستان را «فیک نیوز» خوانده است.

۲۰ بهمن ۱۴۰۴⏱5 دقیقه

هوش مصنوعی

نیویورک دو طرح قانونی برای مهار صنعت هوش مصنوعی بررسی می‌کند

قانون‌گذاران ایالت نیویورک دو طرح مهم برای تنظیم هوش مصنوعی را بررسی می‌کنند؛ یکی برای برچسب‌گذاری خبرهای تولیدشده با هوش مصنوعی و دیگری برای تعلیق مجوز ساخت مراکز داده جدید.

۲۰ بهمن ۱۴۰۴⏱5 دقیقه