在大多數機器學習任務中,您可以製定應最大化的概率$ p $,我們實際上將優化對數概率$ \ log p $而不是某些參數$ \ theta $的概率。例如。在最大似然訓練中,通常是對數似然。使用某些漸變方法進行此操作時,會涉及以下因素:
$$ \ frac {\ partial \ log p} {\ partial \ theta} = \ frac {1} {p} \ cdot \ frac {\ partial p} {\ partial \ theta} $$
當然,優化是等效的,但是梯度會有所不同,因此任何基於梯度的方法的行為都會有所不同(尤其是隨機梯度方法)。是否有理由證明$ \ log p $梯度比$ p $更好梯度嗎?