ایتا - 🌿••[هومص]••|°هوش مصنوعی°| #یادگیری

مدل‌های بینایی-زبانی (VLMs) اخیراً در زمینه‌هایی مانند #برنامه_نویسی و علوم عملکردی در حد یا حتی فراتر از انسان داشته‌اند. در حوزه رانندگی #خودران، مدل‌های (End-to-End) توانایی‌های برنامه‌ریزی را بهبود بخشیده‌اند، اما هنوز در موقعیت‌های پیچیده و غیرمعمول عملکرد ضعیفی دارند. این مقاله روش AlphaDrive را معرفی می‌کند، که یک چارچوب ترکیبی از #یادگیری_تقویتی (RL) و #استدلال برای بهبود برنامه‌ریزی در رانندگی خودران است. AlphaDrive یک مدل VLM مبتنی بر یادگیری تقویتی و استدلال است که هدف آن افزایش دقت برنامه‌ریزی در سیستم‌های خودران است. این روش از بهینه‌سازی سیاست نسبی گروهی (GRPO) برای بهبود عملکرد یادگیری تقویتی استفاده می‌کند. همچنین از یک استراتژی دو مرحله‌ای برای ترکیب #یادگیری_تحت_نظارت (SFT) و یادگیری تقویتی بهره می‌برد.

▪️ AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

➖➖➖➖➖
🗳@hoomas

94 مشاهده02:46

پرسش‌ها

قوانین

داغ‌ترین‌ها

چندسکویی