新聞資訊
行業(yè)資訊
硅谷資深數(shù)據(jù)科學(xué)家教你認(rèn)清探索性數(shù)據(jù)分析(EDA)的價(jià)值
2017-04-26 10:26:57
摘要:從外表來(lái)看,數(shù)據(jù)科學(xué)通常被認(rèn)為完全是由高等統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)技術(shù)組成。然而,另一個(gè)重要組成部分往往被低估或遺忘:探索性數(shù)據(jù)分析(EDA)。EDA指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。

硅谷資深數(shù)據(jù)科學(xué)家教你認(rèn)清探索性數(shù)據(jù)分析

  從外表來(lái)看,數(shù)據(jù)科學(xué)通常被認(rèn)為完全是由高等統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)技術(shù)組成。然而,另一個(gè)重要組成部分往往被低估或遺忘:探索性數(shù)據(jù)分析(EDA)。EDA指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。在深入機(jī)器學(xué)習(xí)或統(tǒng)計(jì)建模之前,EDA是一個(gè)重要的步驟,這是因?yàn)樗峁┝藶楝F(xiàn)有問題開發(fā)適當(dāng)模型并正確解釋其結(jié)果所需的來(lái)龍去脈。

  但隨著工具的興起,只需要簡(jiǎn)單的將數(shù)據(jù)提供給黑盒就可以輕松實(shí)現(xiàn)強(qiáng)大的機(jī)器學(xué)習(xí)算法,因此略過EDA這一步將變得異常誘惑。然而簡(jiǎn)單地將數(shù)據(jù)提供給黑盒并不總是一個(gè)好主意——這是因?yàn)镋DA對(duì)于所有類型的數(shù)據(jù)科學(xué)問題具有關(guān)鍵價(jià)值。   EDA對(duì)數(shù)據(jù)科學(xué)家而言是有價(jià)值的,這是因?yàn)镋DA能確保他們生成的結(jié)果是有效的、能被正確解析以及適用于所需的業(yè)務(wù)環(huán)境。在確保技術(shù)交付成果之外,EDA還通過確認(rèn)正在提出正確的問題而不是基于假設(shè)調(diào)查以及通過提供問題的背景來(lái)確保數(shù)據(jù)科學(xué)家的輸?shù)某鰸撛诘膬r(jià)值可以最大化。   這篇文章將高度概述EDA通常涉及的內(nèi)容,然后描述EDA對(duì)于成功建模和解釋其結(jié)果至關(guān)重要的三個(gè)主要方式。無(wú)論您是數(shù)據(jù)科學(xué)家還是數(shù)據(jù)科學(xué)的消費(fèi)者,希望在閱讀本文后,您將了解為什么EDA應(yīng)該是在項(xiàng)目數(shù)據(jù)科學(xué)操作中的關(guān)鍵一部分。   什么是EDA?   盡管EDA已經(jīng)存在于數(shù)據(jù)分析,據(jù)說1977年約翰·圖克(John W. Tukey)寫的“探索性數(shù)據(jù)分析”一書中已經(jīng)創(chuàng)造了這個(gè)詞并發(fā)展了這個(gè)領(lǐng)域。概括來(lái)講,EDA用于理解和總結(jié)數(shù)據(jù)集的內(nèi)容,通常用于調(diào)查特定問題或更高級(jí)的建模。EDA通常很大程度上依賴于可視化數(shù)據(jù)來(lái)評(píng)估模式并利用一些定量方法來(lái)描述數(shù)據(jù)。   EDA通常涉及以下幾種方法的組合:   原始數(shù)據(jù)集中每個(gè)字段的單變量可視化和匯總統(tǒng)計(jì)(見圖1)
硅谷資深數(shù)據(jù)科學(xué)家教你認(rèn)清探索性數(shù)據(jù)分析
  用于評(píng)估數(shù)據(jù)集中每個(gè)變量與感興趣目標(biāo)變量之間的關(guān)系的雙變量可視化和匯總統(tǒng)計(jì)(例如,時(shí)間流失,花費(fèi))(見圖2)
硅谷資深數(shù)據(jù)科學(xué)家教你認(rèn)清探索性數(shù)據(jù)分析
  多元可視化以了解數(shù)據(jù)中不同字段之間的交互作用(見圖3)。
  降維以了解數(shù)據(jù)中的字段,這些字段占據(jù)了觀察值之間的最大差異,并允許處理減少的數(shù)據(jù)量。   通過將數(shù)據(jù)折疊成幾個(gè)小數(shù)據(jù)點(diǎn)讓觀察值聚類成有區(qū)別的小組,可以更容易地識(shí)別行為模式(參見圖4)
硅谷資深數(shù)據(jù)科學(xué)家教你認(rèn)清探索性數(shù)據(jù)分析
  通過這些方法,數(shù)據(jù)科學(xué)家驗(yàn)證假設(shè)并識(shí)別有助于理解問題和模型選擇的模式,為數(shù)據(jù)建立直覺以確保高質(zhì)量分析,并驗(yàn)證數(shù)據(jù)是按預(yù)期的方式生成。   驗(yàn)證假設(shè)和模式識(shí)別   EDA的主要目的之一是在假設(shè)任何事情之前查看數(shù)據(jù),這是很重要的。首先,數(shù)據(jù)科學(xué)家可以驗(yàn)證在構(gòu)建模型時(shí)可能已經(jīng)做出的任何假設(shè),或者是使用某些算法所必需的假設(shè)。其次,對(duì)數(shù)據(jù)的自由假設(shè)探索可以幫助識(shí)別模式以及觀察到行為的潛在原因,這可能有助于回答遇到的問題或告知建模的選擇。   通常有兩種類型的假設(shè)可能影響分析的有效性:技術(shù)和商業(yè)。正確使用特定的分析模型和算法依賴于具體的技術(shù)假設(shè)是否正確,例如變量之間沒有共線性、數(shù)據(jù)中的方差與數(shù)據(jù)值無(wú)關(guān)以及數(shù)據(jù)是否以某種方式丟失或損壞。在EDA中,評(píng)估各種技術(shù)假設(shè)以幫助選擇對(duì)手頭數(shù)據(jù)和任務(wù)而言的最佳模型。如果沒有這樣的評(píng)估,可以使用一個(gè)模型來(lái)違反那些假設(shè)使得該模型不再適用于有關(guān)數(shù)據(jù),并可能導(dǎo)致對(duì)組織有負(fù)面影響的不良預(yù)測(cè)和不正確的結(jié)論。   第二種假設(shè),商業(yè)假設(shè)有點(diǎn)更難以捉摸。通過對(duì)模型的了解,數(shù)據(jù)科學(xué)家知道每種類型的假設(shè)必須對(duì)其使用有效并可以系統(tǒng)地檢查它們。另一方面,商業(yè)假設(shè)可以完全無(wú)法識(shí)別并深深地糾纏于問題及其框架。有一次,我們正在與一位正在試圖了解用戶與他們的應(yīng)用程序如何進(jìn)行互動(dòng)以及發(fā)生什么交互信號(hào)可能會(huì)流失的用戶的客戶進(jìn)行合作,他們深深地嵌入在假設(shè)出現(xiàn)問題的框架中,他們的假設(shè)是用戶群是由有經(jīng)驗(yàn)的廚師組成,并希望通過復(fù)雜的食譜提高他們的烹飪水平。事實(shí)上,用戶群主要由無(wú)經(jīng)驗(yàn)的用戶組成,試圖找到快速、易于準(zhǔn)備的食物的食譜。當(dāng)我們發(fā)現(xiàn)客戶假設(shè)是錯(cuò)誤后,他們不得不開始理解一整套新的問題以告知之后的應(yīng)用開發(fā)。   在驗(yàn)證這些技術(shù)和商業(yè)假設(shè)的同時(shí),數(shù)據(jù)科學(xué)家將系統(tǒng)地評(píng)估每個(gè)數(shù)據(jù)字段的內(nèi)容及其與其他變量的相互作用,特別是表示企業(yè)想要了解或預(yù)測(cè)的行為的關(guān)鍵度量(例如使用生命周期、支出)。人類是自然模式識(shí)別器,通過以不同的方式對(duì)數(shù)據(jù)進(jìn)行詳盡的可視化,并將這些可視化策略性地配置在一起,數(shù)據(jù)科學(xué)家可以利用其模式識(shí)別能力來(lái)識(shí)別行為的潛在原因、識(shí)別潛在的有問題或虛假的數(shù)據(jù)點(diǎn)以及開發(fā)可以通知其分析和模式的假設(shè)。   建立對(duì)數(shù)據(jù)的直覺   為什么EDA是更先進(jìn)的建模前采取的必要步驟,還有一個(gè)較為具體的原因是數(shù)據(jù)科學(xué)家需要親自熟練掌握數(shù)據(jù),并為培養(yǎng)一種對(duì)數(shù)據(jù)是什么的直覺,這種直覺對(duì)于能夠快速識(shí)別何時(shí)出現(xiàn)問題尤為重要。比如在EDA中,繪制使用壽命與年齡曲線并進(jìn)行比較,可以發(fā)現(xiàn)年輕用戶傾向于停留某個(gè)產(chǎn)品的時(shí)間更長(zhǎng),那么結(jié)論是當(dāng)年齡下降時(shí)會(huì)增加使用周期。如果訓(xùn)練的模型顯示不同的行為,就會(huì)很快意識(shí)到應(yīng)該調(diào)查發(fā)生了什么,并確保沒有犯任何的錯(cuò)誤。沒有EDA,數(shù)據(jù)突出的問題或模型的實(shí)施中的錯(cuò)誤會(huì)被長(zhǎng)時(shí)間忽視,這可能會(huì)導(dǎo)致基于錯(cuò)誤信息做出決策。   驗(yàn)證數(shù)據(jù)是不是像你認(rèn)為的那樣   在Tukey風(fēng)格的EDA中,分析師通常很清楚他們分析的數(shù)據(jù)是如何生成的。然而,現(xiàn)在隨著組織內(nèi)部生成大量數(shù)據(jù)集以及獲取的第三方數(shù)據(jù),分析師通常遠(yuǎn)離數(shù)據(jù)生成的過程。如果數(shù)據(jù)不是你認(rèn)為的那樣,那么你的結(jié)果可能會(huì)受到不良影響,更糟的是誤解后采取的行動(dòng)。   這個(gè)例子會(huì)展示數(shù)據(jù)生成的方式可能被誤解,讓我們來(lái)具體看看該例子:A公司正在嘗試預(yù)測(cè)哪些用戶將訂閱新產(chǎn)品以瞄準(zhǔn)其產(chǎn)品定位。他們正在努力開發(fā)一個(gè)模型,但每次嘗試都會(huì)導(dǎo)致糟糕的預(yù)測(cè)結(jié)果。然后有人認(rèn)為執(zhí)行廣泛的EDA,他們最初認(rèn)為這是沒有必要的。但結(jié)果表明,預(yù)測(cè)的用戶是控制員工訂閱的產(chǎn)品的較大企業(yè)賬戶的一部分。這種控制意味著用戶可以以各種方式在數(shù)據(jù)中看起來(lái)完全相同,但具有不同的目標(biāo)結(jié)果,這意味著個(gè)人層面的數(shù)據(jù)幾乎沒有能力告知預(yù)測(cè)。在這種情形中,EDA不僅在技術(shù)問題上暴露了所采取方法的技術(shù)問題,而且還表明出現(xiàn)的錯(cuò)誤問題。如果用戶的行為受到其組織的控制,則無(wú)法對(duì)用戶進(jìn)行定位。該公司需要瞄準(zhǔn)并預(yù)測(cè)新產(chǎn)品訂閱的企業(yè)帳戶。   我們已經(jīng)看到數(shù)據(jù)生成過程中被錯(cuò)誤地假設(shè)的其他例子:   數(shù)據(jù)在產(chǎn)品的相同版本或跨平臺(tái)上生成。   數(shù)據(jù)根據(jù)X時(shí)區(qū)或相同的跨時(shí)區(qū)被蓋上時(shí)間戳。   記錄所有活動(dòng)的數(shù)據(jù),但僅在用戶登錄時(shí)記錄。   用戶標(biāo)識(shí)符保持不變或標(biāo)識(shí)符唯一。
USA-IDC為您提供免備案服務(wù)器 0元試用
立即聯(lián)系在線客服,即可申請(qǐng)免費(fèi)產(chǎn)品試用服務(wù)
立即申請(qǐng)