機器學習-4.開發流程、算法基本認知
1. 機器學習開發流程
我們作為機器學習的開發工程師首先要明確自己學習的定位,也就是確定學習邊界。
大部分復雜模型的算法設計都是由算法工程師去做的,我們只需要:
1.分析很多的數據;
2.分析具體的業務;
3.應用常見的算法;
4.特征工程、調參數、優化。
我們學習應達到一下目的:
1.學會分析問題、使用機器學習算法的目標,想要使得算法完成什么樣的任務。
2.掌握算法基本思想原理,學會對不同問題用對應的算法來解決。
3.學會利用庫或框架解決問題。
開發流程:
2. 機器學習算法分類
數據類型
離散型數據:由記錄不同類別個體的數目所得到的數據,又稱計數數據,所有這些數據全部都是整數,而且不能再細分,也不能進一步提高他們的精確度。
連續性數據:變量可以在某個范圍內取任一數,即變量的取值可以是連續的,如:長度、時間、質量值等,這類整數通常是非整數,含有小數部分。
注:離散型是區間內不可分,連續型是區間內可分。
數據的類型將是機器學習模型不同、問題不同,進行處理的依據。
算法分類
監督學習(有特征值和目標值)
– 分類:K近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網絡
– 回歸:線性回歸、嶺回歸
– 標注:隱馬爾科夫模型(不重要)
無監督學習(只有特征值)
– 聚類:k-means
分類算法對應-目標值是離散型數據
回歸算法對應-目標值是連續型數據
3. 轉換器與估計器
轉換器是實現了特征工程的API,例如前幾篇文章的示例中的fit_transform()等。
估計器是實現了算法的API,在sklearn中有:
用于分類的估計器:
– sklearn.neighbors :k-近鄰算法
– sklearn.naive_bayes :貝葉斯
– sklearn.linear_model.LogisticRegression :邏輯回歸
– sklearn.tree :決策樹與隨機森林
用于回歸的估計器
– sklearn.linear_model.LinearRegression :線性回歸
– sklearn.linear_model.Ridge :嶺回歸
---------------------
原文:https://blog.csdn.net/wyply115/article/details/85014353