یادگیری تقویتی عمیق (Deep Reinforcement Learning)

جمعه ۲۱ فروردین ۰۵ | ۱۵:۴۲ ۵ بازديد

یادگیری تقویتی یکی از شاخه‌های اصلی هوش مصنوعی است که در آن عامل (Agent) با تعامل با محیط، سیاست بهینه را یاد می‌گیرد.

محیط معمولاً به صورت یک Markov Decision Process (MDP) تعریف می‌شود:

$(S, A, P, R, gamma)$

که در آن:

هدف عامل بیشینه کردن مجموع پاداش‌های آینده است:

$G_t = sum_{k=0}^{infty} gamma^k R_{t+k}$

1. Deep Q Network (DQN)

ترکیب Q-learning با شبکه عصبی.

2. Policy Gradient

به جای یادگیری مقدار Q، مستقیماً سیاست را بهینه می‌کند:

$nabla J(theta)=E[nabla_theta log pi_theta(a|s) R]$

3. PPO (Proximal Policy Optimization)

یکی از پایدارترین الگوریتم‌های مدرن RL.

در آموزش LLMها، یادگیری تقویتی با بازخورد انسانی (RLHF) نقش مهمی در تنظیم رفتار مدل دارد.