ML/words/B/bellman_equation.md at master · vajename/ML · GitHub

layout	word	translation
word	Bellman Equation	معادله بلمن

در یادگیری تقویتی (reinforcement learning) اتحاد زیر به وسیله تابع Q زیر بهینه می‌شود.

یادگیری تقویتی با اعمال این اتحاد به یادگیری Q با قاعده به‌روزرسانی زیر منجر می‌شود:

معادله بلمن علاوه بر یادگیری تقویتی کاربردهایی در برنامه‌نویسی پویا نیز دارد.

اطلاعات بیشتر: معادله بلمن در ویکی‌پدیا