یادگیری تقویتی عمیق (Deep Reinforcement Learning)

۳ بازديد

یادگیری تقویتی یکی از شاخه‌های اصلی هوش مصنوعی است که در آن عامل (Agent) با تعامل با محیط، سیاست بهینه را یاد می‌گیرد.

مدل ریاضی

محیط معمولاً به صورت یک Markov Decision Process (MDP) تعریف می‌شود:

(S,A,P,R,γ) (S, A, P, R, gamma) (S,A,P,R,γ)

که در آن:

  • S : فضای حالت
  • A : فضای عمل
  • P : احتمال انتقال
  • R : تابع پاداش
  • γ : ضریب تنزیل

هدف عامل بیشینه کردن مجموع پاداش‌های آینده است:

Gt=k=0γkRt+k G_t = sum_{k=0}^{infty} gamma^k R_{t+k} Gt=k=0γkRt+k

الگوریتم‌های مهم

1. Deep Q Network (DQN)

ترکیب Q-learning با شبکه عصبی.

2. Policy Gradient

به جای یادگیری مقدار Q، مستقیماً سیاست را بهینه می‌کند:

J(θ)=E[θlogπθ(as)R] nabla J(theta)=E[nabla_theta log pi_theta(a|s) R] J(θ)=E[θlogπθ(as)R]

3. PPO (Proximal Policy Optimization)

یکی از پایدارترین الگوریتم‌های مدرن RL.

کاربردها

  • رباتیک
  • کنترل ترافیک شهری
  • بهینه‌سازی مصرف انرژی
  • آموزش مدل‌های زبانی (RLHF)

در آموزش LLMها، یادگیری تقویتی با بازخورد انسانی (RLHF) نقش مهمی در تنظیم رفتار مدل دارد.

تا كنون نظري ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در رویا بلاگ ثبت نام کرده اید می توانید ابتدا وارد شوید.