從統計學角度看待機器學習
統計學習總覽
李航的《統計學習方法》絕對是干貨十足的書,可惜實在是太干了,字字珠璣,幾乎每段話都能當作筆記進行整理。讀起來仿佛在吃加強版的壓縮餅干,雖然能量十足但未免太難吃了。
根據文中內容,現在的機器學習,狹義上就是指代統計機器學習。
統計學習是數據驅動,從數據中學習概率統計模型,然后利用模型對新數據進行分析和預測。
統計學習關于數據的基本假設——同類數據具有一定的統計規律。以隨機變量(組)描述數據特征,以概率分布描述數據的統計規律。
統計學習的目的是——尋找什么樣的模型,怎么學習這個模型,以及學習這個模型的效率。從而對數據進行分析和預測。
統計學習基本步驟——數據假設、模型假設、策略選擇、優化求解、選擇模型、應用模型。
數據——獨立同分布。
模型(參數空間、復雜度)——所有可能模型集合,假設空間(輸入=>模型=>輸出,一種映射,如條件概率或決策函數)。
策略(損失函數、風險函數、經驗函數)——確定模型選擇的準則(最大似然,最小二乘擬合)。
算法(優化問題)——實現策略的方法(直接求解,迭代求解,梯度下降)。
輸入實例=>特征向量、輸入輸出對=>樣本。
通過訓練誤差。測試誤差來評估模型——欠擬合和過擬合,偏倚方差兩難問題。 通過正則化和交叉驗證來選取模型。
通過泛化誤差上界來評定模型好壞。
統計學習
統計學習定義:關于計算機基于數據構建概率統計模型并運用模型對數據進行預測和分析的一門學科。
機器學習:往往是指代統計機器學習。
統計學習對象:數據驅動,并假設同類數據具有一定的統計規律性。
統計學習目的:分析和預測數據。
統計學習目標:學習什么樣的模型,如何學習模型,并有效率的學習。
統計學習的'分類:監督學習、半監督學習、無監督學習、增強學習等。
統計學習數據表示:以變量或者變量組來表示。分為連續變量和離散變量。
統計學習的方法步驟(監督學習為例):數據假設、模型假設、策略選擇、優化求解、選擇模型、應用模型
1.有限訓練數據集合,并假設數據獨立同分布——數據。
2.確定假設空間,即可能的模型集合——模型。
3.確定模型選擇的準則——策略。
4.實現求解模型的方法——算法。
5.通過學習選擇最優模型——選擇。
6.利用模型進行預測和分析——應用。
統計學習的研究:包括統計學習方法、統計學習理論、統計學習應用。
1.統計學習方法的研究——開發新的學習方法。
2.統計學習理論的研究——學習方法的有效性和效率,以及基本理論問題。
3.統計學習應用的研究——如何將統計方法應用到實際問題中去。
統計學習的重要性:我們都懂得,混口飯吃嘛,裝裝牛X啥的。
監督學習
監督學習內容:分類、回歸、標注等。
實例表示:通常以特征向量的形式表示,每一個特征是一個維度。
監督學習基本假設:輸入輸出的隨機變量X和Y遵循聯合概率分布P(X,Y),并假設這個分布存在。并且數據由這個分布獨立同分布產生。
【從統計學角度看待機器學習】相關文章: