ربات ارزانی كه از راه یادگیری تقویتی می آموزد

به گزارش رمز من یک ربات ارزانقیمت و منبع باز می تواند بدون احتیاج به آموزش طولانی مدت مبتنی بر شبیه سازی و با تاکید بر فناوری یادگیری تقویتی آموزش ببیند.

به گزارش رمز من به نقل از ایسنا و به نقل از آی ای، محققان دانشگاه "آلتو"(Aalto) و شرکت "OTE Robotics" ربات کم هزینه ای را تولید کرده اند که می تواند برای آزمایش الگوریتم های "یادگیری تقویتی"(RL) مورد استفاده قرار گیرد.
این ربات که "RealAnt" نامیده می شود تنها با قیمت ۸۹۹ یورو(۱۰۹۰ دلار آمریکا) کاملا مقرون به صرفه است.
یادگیری تقویتی یکی از گرایش های یادگیری ماشینی است که از روانشناسی رفتارگرایی الهام می گیرد. این روش بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاداشش انجام دهد. این مساله با عنایت به گستردگی اش در زمینه های گوناگونی مانند نظریه بازی ها، نظریه کنترل، تحقیق در عملیات، نظریه اطلاعات، سامانه چندعامله، هوش ازدحامی، آمار، الگوریتم ژنتیک، بهینه سازی بر اساس شبیه سازی بررسی می شود.
در مبحث تحقیق در عملیات و در ادبیات کنترل، حوزه ای که در آن روش یادگیری تقویتی مطالعه می شود "برنامه نویسی تخمینی پویا"(approximate dynamic programming) خوانده می شود. این مساله در نظریه کنترل بهینه هم مطالعه شده است. البته دغدغه اصلی بیشتر مطالعات در این حوزه، اثبات وجود پاسخ بهینه و یافتن خصوصیت های آن است و به دنبال جزئیات یادگیری یا تخمین نیست. یادگیری تقویتی در اقتصاد و نظریه بازی ها بیشتر به بررسی تعادل های بوجود آمده تحت عقلانیت محدود می پردازد.
در یادگیری ماشینی با عنایت به این که خیلی از الگوریتم های یادگیری تقویتی از تکنیک های برنامه نویسی پویا استفاده می نمایند. تفاوت اصلی بین روش های سنتی و الگوریتم های یادگیری تقویتی این است که در یادگیری تقویتی نیازی به داشتن اطلاعات راجع به فرایند تصمیم گیری نیست.
یادگیری تقویتی با یادگیری با نظارت معمول دو تفاوت عمده دارد، نخست اینکه در آن زوج های صحیح ورودی و خروجی در کار نیست و رفتارهای ناکارآمد هم از بیرون اصلاح نمی شوند و دیگر آنکه تمرکز زیادی روی کارایی زنده وجود دارد که نیازمند پیدا کردن یک تعادل مناسب بین اکتشاف چیزهای جدید و بهره برداری از دانش اندوخته شده دارد.
"جوسی ساینیو" یکی از بنیانگذاران شرکت "Ote Robotics" می گوید: الهامات اولیه برای کار ما مطالعات یادگیری تقویتی(RL) بود که با موفقیت، یادگیری راه رفتن از ابتدا از روی شبیه سازی های ربات های چهارپا و شبه انسان را نشان داد.
وی ادامه داد: پیش فرض اساسی در مورد الگوریتم های یادگیری تقویتی این است که برنامه نویسی یک ربات برای انجام کارها با آن بسیار آسان تر و طبیعی تر می شود و تنها به تعریف اندازه گیری های سنسور موجود، اقدامات حرکتی و سپس تعیین یک هدف و اتصال همه آنها به یک الگوریتم یادگیری تقویتی است که بقیه کارها را این الگوریتم انجام می دهد.
"یادگیری تقویتی"(RL) قبلاً به هزاران ساعت آموزش شبیه سازی ربات نیاز داشت. با این وجود، اخیراً محققان موفق شده اند با داده های آموزشی خیلی کم، راه رفتن را به این ربات ها آموزش دهند. این بدان معناست که ربات ها حالا می توانند بدون استفاده از آموزش طولانی مدت مبتنی بر شبیه سازی، در محیط های واقعی آموزش ببینند.
"ساینیو" توضیح داد: ما متوجه شدیم که ربات های متحرک مانند "RealAnt" بخصوص برای یادگیری تقویتی به سادگی و با قیمت مناسب در دسترس نیستند و این مورد می تواند به ربات ها صدمه برساند.
وی ادامه داد: در مقایسه با محیط شبیه سازی شده، هیچ پشتوانه ترکیبی نرم افزاری و سخت افزاری کاملی وجود ندارد که بتوان با آن یادگیری تقویتی را در دنیای واقعی آغاز کرد. ازاین رو من آغاز به ساخت نمونه های اولیه نرم افزار ربات و رابط خودم کردم.
در نهایت "ساینیو" موفق به ساخت نمونه های اولیه قابل توجهی شد.
بنا به اعلام وب سایت "Ote robotics"، پلت فرم ربات "RealAnt" برای تحقیق و توسعه یادگیری تقویتی در دنیای واقعی طراحی شده است.

منبع: رمز من

1399/09/17

12:11:11

5.0 / 5

1665

تگهای خبر: اطلاعات , تولید , ربات , سایت

اگر مطلب را پسندیدید لایک کنید

(1)

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان در مورد این مطلب

نظر شما در مورد این مطلب

نام:

ایمیل:

نظر:

سوال:

= ۳ بعلاوه ۴