دسته : -پژوهش
فرمت فایل : word
حجم فایل : 522 KB
تعداد صفحات : 10
بازدیدها : 227
برچسبها : دانلود مقاله
مبلغ : 9000 تومان
خرید این فایلترجمه مقاله کنترل چراغ ترافیک (راهنمایی) در محیط های غیرثابت براساس یادگیری-Q چند عاملی
( + به همراه متن اصلی انگلیسی مقاله )
2011 14th International IEEE Conference on Intelligent Transportation Systems Washington, DC, USA. October 5-7, 2011
Traffic Light Control in Non-stationary Environments based on Multi Agent Q-learning
Abstract—In many urban areas where traffic congestion does not have the peak pattern, conventional traffic signal timing methods does not result in an efficient control. One alternative is to let traffic signal controllers learn how to adjust the lights based on the traffic situation. However this creates a classical non-stationary environment since each controller is adapting to the changes caused by other controllers. In multi-agent learning this is likely to be inefficient and computationally challenging, i.e., the efficiency decreases with the increase in the number of agents (controllers). In this paper, we model a relatively large traffic network as a multi-agent system and use techniques from multi-agent reinforcement learning. In particular, Q-learning is employed, where the average queue length in approaching links is used to estimate states. A parametric representation of the action space has made the method extendable to different types of intersection. The simulation results demonstrate that the proposed Q-learning outperformed the fixed time method under different traffic demands.
کنترل چراغ ترافیک (راهنمایی) در محیطهای غیرثابت براساس یادگیری-Q چند عاملی
چکیده
در بسیاری از مناطق شهری که در آنجا تراکم ترافیک دارای الگوی اوج نیست، روشهای زمانبندی چراغهای معمولی باعث کنترل موثری نمیشود. یک روش جایگزین این است که یادگیری نحوه تنظیم چراغ بر اساس وضعیت ترافیک توسط کنترلرهای سیگنال ترافیکی میسر شود. با اینحال، این امر باعث ایجاد یک محیط غیرثابت کلاسیک میشود زیرا هر کنترلر تغییرات ناشی از دیگر کنترلرها را تطبیق میدهد. در یادگیری چند عاملی، این کار به احتمال زیاد ناکارآمد بوده و دارای پیچیدگیهای محاسباتی است، یعنی با افزایش تعداد عاملها (کنترلرها)، بازده کاهش مییابد. در این مقاله، یک شبکه ترافیکی نسبتا بزرگ را بصورت سیستم چند عاملی مدلسازی میکنیم و از تکنیکهای یادگیری تقویتی چند عاملی استفاده میکنیم. بطور خاص، یادگیری-Q به کار گرفته شده است، که در آن طول متوسط صف درلینکهای نزدیک شونده به منظور برآوردحالتها استفاده میشود. یک بیان پارامتری از فضای عمل، این روش را قابل توسعه به انواع مختلفی از تقاطعها کرده است. نتایج شبیهسازی نشان میدهد که یادگیری-Q پیشنهادی عملکرد بهتری نسبت به روش زمان ثابت تحت نیازهای ترافیکی متفاوت دارد.
خرید و دانلود آنی فایل