فعلا قابلیت پخش رسانه در مرورگر فراهم نیست
مشاهده در پیام رسان ایتا
مدلهای بینایی-زبانی (VLMs) اخیراً در زمینههایی مانند #برنامه_نویسی و علوم عملکردی در حد یا حتی فراتر از انسان داشتهاند. در حوزه رانندگی #خودران، مدلهای (End-to-End) تواناییهای برنامهریزی را بهبود بخشیدهاند، اما هنوز در موقعیتهای پیچیده و غیرمعمول عملکرد ضعیفی دارند. این مقاله روش AlphaDrive را معرفی میکند، که یک چارچوب ترکیبی از #یادگیری_تقویتی (RL) و #استدلال برای بهبود برنامهریزی در رانندگی خودران است. AlphaDrive یک مدل VLM مبتنی بر یادگیری تقویتی و استدلال است که هدف آن افزایش دقت برنامهریزی در سیستمهای خودران است. این روش از بهینهسازی سیاست نسبی گروهی (GRPO) برای بهبود عملکرد یادگیری تقویتی استفاده میکند. همچنین از یک استراتژی دو مرحلهای برای ترکیب #یادگیری_تحت_نظارت (SFT) و یادگیری تقویتی بهره میبرد.
▪️ AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
➖➖➖➖➖
🗳@hoomas