KEMBAR78
Programing with python for data science | PPTX
課程:Programing with Python for Data Science
分類特徵
無序----例如:紅綠黃
有序----例如:歲數、開心等級
連續特徵
能被測量的----例如:公分、公斤
當你在分類特徵時,會遇到以下幾種狀況:
充滿雜訊
不是好的分類
分類特徵調性不強
千萬別錯失搜集!!!
機器學習美在某些分類很弱,但結合後會更強大。
 區分Dataframe、Series
Dataframe:有一個表格
Series:一維的資料
 如何去除Nan?
全部填一個值
向前填
向後填
填入最大紀錄
丟掉整列
 必須去思考填入什麼值不會影響整體的精準度!
 Matplolib,簡稱MPL,主要是在處理2D、3D、動畫
及簡單資料處理。
 直方圖:說明資料集中特徵的分佈,我們可以從圖中了
解三件事。
了解特徵分佈 例如:高斯、常態分佈…
在值域中,採樣還有哪些可能值?
樣本有多少?
2D散佈圖:有序的,檢查資料中的分組或模式。
圖表中,可以呈現特徵間是否存在相關性。例如:線性關係
3D散佈圖:同時顯現三個特徵
平行座標圖:3D以上,與散佈圖相似
 特徵的三大特性:彼此獨立、具有鑑別度、訊息豐富
 介紹兩種非監督的維度降低演算法
PCA主成份分析:非監督的維度降低演算法,是一種分析、簡
化數據集的技術。主成分分析經常用於減少數據集的維度,同時
保持數據集中的對變異數貢獻最大的特徵。
Isomap等距特徵映射:非監督的維度降低演算法,是一個非線
性降維方法,被廣泛使用的低維嵌入方法之一。等距特徵映射被
用來計算準等距的高維數據到低維的嵌入方法。
歐幾里德距離 測地距離 Isomap
 講者:雖然他很嘗試著說得很簡單,但其實有太多的詞需要想,也
可能要我不用知道那麼多原理,只需要會呼叫程式,帶入參數就好。
 影片:影片長度都在2~8分鐘內,很適合我們觀看。每個演算法或
分類法,都有分四個部分說明:簡介、何時要用、文件介紹、比較
與總結。
 實作:題目的說明與步驟都是英文,學習上還是有很大障礙。前四
張的實作覺得難度適中,需要思考,但對我而言不會太困難,還在
能力範圍。
 總習題:後面幾題有點活,所以有透過google查詢一些專有名詞,
才能作答。
 後續還有K-meams,K-Nearest,Regression,SVC,Decision
Tree,Random Forest這次沒有介紹到,未來有機會再補充。
 這單元的五六七單元,實作的部分我在網路上有找到別人的實作
https://github.com/LamaHamadeh/Microsoft-DAT210x
 這每一個單元中的單元,都是一個很大的題目,要一一了解並不簡
單,每個都學很深,我在五六七單元學得很不好,我歸類幾個原因:
第一,我程式能力不夠,很多需要多放一個變數去存取,我會卡住。
第二,課程中雖然有教我們觀看文件,但在自己實作時,還是很吃
力,第四單元以前我都能實作。
 在PCA與Isomap就卡住我很久,我立體感不夠好,投影方法要經
過很久才想通。

Programing with python for data science