《R語言實戰第二版》的作者卡巴科弗曾經感嘆:“數據分析師在數據預處理上花費了60%的時間”。我們所知道的建模,評估模型等數據分析工作所花費的時間遠遠沒有數據預處理的多。可以說沒有高質量的數據就沒有高質量的分析結果。
再漂亮的可視化,沒有準確的數據支撐,也是空中樓閣。不光是可視化,基于數據的分析,模型,支撐風控、營銷和運營,在缺少數據質量支撐的前提下幾乎都無從談起。
數據預處理一方面是為了提高數據的質量,另一方面也是為了適應所做數據分析的軟件或者方法。一般來說數據預處理步驟有數據清洗、數據集成、數據變換、數據規約,每個大步驟又有一些小的細分點,當然了,這四個大步驟在做數據預處理時未必都要執行。
01
數據清洗
數據清洗,顧名思義,“黑”的變成“白”的,“臟”的數據變成“干凈”的,一般來說,臟數據就是數據分析中數據存在亂碼,無意義的字符,以及含有噪音的數據。
臟數據具體表現在形式上和內容上的臟,形式上的臟數據有缺失值、帶有特殊符號的數據,內容上的臟數據上有異常值。
那么什么是缺失值呢?
缺失值包括缺失值的識別和缺失值的處理。缺失值的產生原因很多,包括忽略元組、人工填寫遺漏值、使用一個全局常量填充遺漏值、使用屬性的平均值填充遺漏值、使用與給定元組屬同一類的所有樣本的平均值、使用最可能的值填充遺漏值(利用決策樹、回歸、貝葉斯等算法)等。
在數據缺失嚴重時,會對分析結果造成較大影響,因此對剔除的異常值以及缺失值,要采用合理的方法進行填補,常見的方法有平均值填充法、K最近距離法、回歸法、極大似線估計法等。
1、平均值填充法
取所有對象(或與該對象具有相同決策屬性值的對象)的平均值來填充該缺失的屬性值。
2、K最近距離法
先根據歐式距離或相關分析確定距離缺失數據樣本最近的K個樣本,將這K個值加權平均來估計缺失數據值。
3、回歸法
基于完整的數據集,建立回歸方程(模型),對于包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充;但當變量不是線性相關或預測變量高度相關時會導致估計偏差。
4、期望值最大化方法(EM)
EM算法是一種在不完全數據情況下計算極大似然估計或者后驗分布的迭代算法。
在給定完全數據和前一次迭代所得到的參數估計的情況下計算完全數據對應的對數似然函數的條件期望(E步),后用極大化對數似然函數以確定參數的值,并用于下步的迭代(M步)。
5、多重插補法
由包含m個插補值的向量代替每一個缺失值,然后對新產生的m個數據集使用相同的方法處理,得到處理結果后,綜合結果,最終得到對目標變量的估計。
異常值也是需要處理的,那么什么是異常值呢?
異常值跟缺失值一樣,包括異常值的識別和異常值的處理。異常值的識別有兩種方法:物理判別法和統計判別法。
1、物理判別法
根據人們對客觀事物、業務等已有的認識,判別由于外界干擾、人為誤差等原因造成實測數據偏離正常結果,判斷異常值。
2、統計判別法
給定一個置信概率,并確定一個置信限,凡超過此限的誤差,就認為它不屬于隨機誤差范圍,將其視為異常值。常用的方法有拉依達準則、肖維勒準則、格拉布斯準則、狄克遜準則、t檢驗。
異常值的處理有刪除含有異常值的觀測、當作缺失值、平均值修正、不處理。
在進行異常值處理時要先復習異常值出現的可能原因,再判斷異常值是否應該舍棄。
隨著數據量的增大,異常值和缺失值對整體分析結果的影響會逐漸變小,因此在“大數據”模式下,數據清洗可忽略異常值和缺失值的影響,而側重對數據結構合理性的分析。
02
數據集成
數據集成就是將多個數據源合并放到一個數據存儲中,當然如果所分析的數據原本就在一個數據存儲里就不需要數據的集成了。
一般來說,數據集成的實現是將兩個數據框以關鍵字為依據,在進行數據集成時可能會出現幾種情況:
一個數據代表著兩個不同的意思
兩個不同的數據代表一個意思
數據的重復出現
這三個數據使得數據分析工作變得十分繁瑣,從而影響數據分析的準確性,這就需要我們對于數據進行集成的工作。
03
數據變換
數據的變換就是把數據轉化成適當的形式,來滿足軟件或分析理論的需要。
一般我們可以通過簡單的函數變換進行數據變換,什么是簡單的函數變換呢?簡單函數變換用來將不具有正態分布的數據變成有正態分布的數據。
04
數據規約
數據歸約是指在盡可能保持數據原貌的前提下,最大限度地精簡數據量。
數據歸約主要有兩個途徑:屬性選擇和數據采樣,分別針對原始數據集中的屬性和記錄。
假定在公司的數據倉庫選擇了數據用于分析,這樣數據集將非常大。在海量數據上進行復雜的數據分析扣挖掘將需要很長時間,使得這種分析不現實或不可行。
數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍接近地保持原數據的完整性。這樣,在歸約后的數據集上挖掘將更有效,并產生相同(或幾乎相同)的分析結果。
數據歸約的策略有:
數據立方體聚集:聚集操作用于數據方中的數據。
維歸約:可以檢測并刪除不相關、弱相關或冗余的屬性或維。
數據壓縮:使用編碼機制壓縮數據集。
數值歸約:用替代的、較小的數據表示替換或估計數據,如參數模型(只需要存放校型參數,而不是實際數據)或非參數方法,如聚類、選樣和使用直方圖。
離散化和概念分層生產:屬性的原始值用區間值或較高層的概念替換,概念分層允許挖掘多個抽象層上的數據,是數據挖掘的一種強有力的工具。
途傲科技為中小企業提供網站制作、網站建設、微信H5、微信小程序,多商戶平臺,多級分銷系統,APP開發,手機網站,HTML5多端自適應網站,營銷型企業站建設,及對技術人才的培養等都積累與沉淀了豐富的心得和實戰經驗。
如果您有想法,可以將需求提交給我們【免費提交需求,獲取解決方案】
免責聲明:文章部分內容收集于互聯網,不代表本站的觀點和立場,如有侵權請聯系刪除。