Gradient Boosting中的 learning rate 參數($ \ nu \ in [0,1] $)縮小了每個新基本模型(通常是淺樹)的貢獻,該模型被添加到該系列中。它被證明可以極大地提高測試儀的精度,這是可以理解的,因為步數越小,損耗函數的最小值就可以越精確地達到。
我不明白為什麼學習率被視為正則化參數?引用統計學學習的要素,第10.12.1節,第364頁:
控制樹的數量並不是唯一可能的正則化策略。與山脊回歸和神經網絡一樣,也可以使用收縮技術。 $ \ nu $的較小值(更多收縮)會導致相同迭代次數$ M $的較大訓練風險。因此,$ \ nu $和$ M $均可控制訓練數據的預測風險。
正則化的意思是“避免過度擬合的方式”,因此很明顯在這方面,迭代次數$ M $是至關重要的($ M $太高會導致過度擬合)。但是:
較小的$ \ nu $值(更多的收縮)會導致相同迭代次數$ M $的較大訓練風險。
意味著在低學習率的情況下,需要更多的迭代才能在訓練集上達到相同的準確性。那麼這與過度擬合有何關係?