جمعه ۲۱ فروردین ۰۵ | ۱۵:۴۲ ۳ بازديد
یادگیری تقویتی یکی از شاخههای اصلی هوش مصنوعی است که در آن عامل (Agent) با تعامل با محیط، سیاست بهینه را یاد میگیرد.
مدل ریاضی
محیط معمولاً به صورت یک Markov Decision Process (MDP) تعریف میشود:
(S,A,P,R,γ)
که در آن:
- S : فضای حالت
- A : فضای عمل
- P : احتمال انتقال
- R : تابع پاداش
- γ : ضریب تنزیل
هدف عامل بیشینه کردن مجموع پاداشهای آینده است:
Gt=k=0∑∞γkRt+k
الگوریتمهای مهم
1. Deep Q Network (DQN)
ترکیب Q-learning با شبکه عصبی.
2. Policy Gradient
به جای یادگیری مقدار Q، مستقیماً سیاست را بهینه میکند:
∇J(θ)=E[∇θlogπθ(a∣s)R]
3. PPO (Proximal Policy Optimization)
یکی از پایدارترین الگوریتمهای مدرن RL.
کاربردها
- رباتیک
- کنترل ترافیک شهری
- بهینهسازی مصرف انرژی
- آموزش مدلهای زبانی (RLHF)
در آموزش LLMها، یادگیری تقویتی با بازخورد انسانی (RLHF) نقش مهمی در تنظیم رفتار مدل دارد.
بازوهای آبپاش (Spray Arms) در ظرفشویی؛ آیرودینامیک چرخش و پترن پوششدهی