相對而言,描述數據科學的實踐是什麽樣的可能更容易。
簡單地說,數據科學是用數據主導的答案解決實際問題的實踐。實現這個目標的技術可能多種多樣。妳會常常聽到數據科學家使用傳統統計學、貝葉斯方法、機器學習、計算工具、行業領域知識來回答問題。
有時數據的規模會非常巨大,需要使用復雜的工具和方法來穿過迷霧,得到隱藏在數據中的清晰結論。但是沒有哪個方法、工作、算式能回答所有問題,所以也很難為數據科學家下定義。
展示可能比陳述更有說服力。就讓我們來走入數據科學家平凡又不平凡的壹天。
早晨
早晨的第壹件事可能是這壹天日程中為數不多的慣例。
我們的團隊在早上進行例會,分享前壹天的進展和問題。這和軟件開發的“站立”會議可能有點不同。對我們來說,“進展”既可以是建設了壹部分軟件,也可以是閱讀了壹篇可以讓我們對手頭問題有更深理解的論文。
數據科學可能在許多方面與大學裏的學術行為不同,但它依然是對科學方法的合理運用。
通常,我們的挑戰是如何把“未知”變成“已知”。不僅如此,還要讓它“可執行”。
這意味著通過分析數據檢驗某個假設,建立測量效果的方法,對這個過程進行叠代,直到最終的研究結果被修正到足夠有用的水平。晨會是壹個交流各個試驗進展的機會。
上午
現在我們有了各自的任務。是時候做壹點實際工作了。這是壹天中最有趣的部分。這是我坐下來專註於壹個實際問題的時候。
這可能意味著研究處理偶圖的方法,或者寫壹些代碼計算高斯超幾何函數。但每個星期面對的問題很少相同。擁有數學、統計、編程的背景對解決這些問題來說很重要,但仍然不夠。成為每種方法的專家是不可能的。下壹個問題將需要什麽知識也是無法預知的。
這就是為什麽數據科學家需要不斷學習和無窮的好奇心。
多數情況下,每個新問題需要壹種新方法。這些方法不僅對妳來說是新的,對整個世界來說也是新的。這是數據科學的挑戰之處和刺激來源。
不確定性不僅是壹種統計學的屬性,也是壹種生活方式。
午間
數據科學的實踐不止於應用某些算法的技術細節,或是在白板上寫出高深的算式。
歸根結底,我們要解決現實生活中的問題。這意味著理解其他人面對的問題。午間是跟客戶、商業拓展部門、服務部門以及任何對我們客戶和合夥人每天面對的問題有全面了解的人士碰面的好時候。
大數據分析和機器學習的力量如果不能為他人創造便利就沒太大意義。這是數據科學中壹個重要的,但是常被忽略的步驟。它決定壹個項目最終的成敗。這也是區分數據科學與傳統學術的壹點。
把壹個業務問題翻譯成壹個縝密的研究項目,再把研究結果翻譯成壹個實際的解決方案,這需要對業務的深入理解,以及大量的創造力。
閉門造車,沒完沒了做算法調優的數據科學團隊永遠不會成功。的確,有時為了讓壹個項目最終交付需要這麽做。但如果這些都不能投入實際應用還有什麽意義?
數據能告訴我們的關於世界的知識與數據本身中間存在壹道鴻溝。與壹線工作人員保持良好的交流關系,是彌補這壹鴻溝的唯壹方式。
下午
我們已經卷起袖子,從技術和實際的層面鉆研了問題。是時候退壹步,思考壹下全局了。
我們常常在下午花些時間詳細討論某個項目的目標,或者探討把壹個研究項目變成可交付的形式所需的剩余步驟。
與產品團隊的密切交流可以確保我們的工作與機構的總體願景/目標保持壹致。確保專註於關鍵問題是很重要的。由於我們的工作是解決問題,所以必須確保解決方案行得通。我的意思是,在實際工作中行得通。根據特定業務提供解決方案只是個開始。
我們需要建立可靠的、可重復使用的工具。
這既包括把壹個試驗推廣到更多的實用案例,也包括構造壹個能夠深入產品的解決方案。
這個環節是我們最像軟件開發者的部分,考慮並編寫壹些測試來確保表現、穩定性、擴展性。我們在Umbel的軟件工程團隊負責建立宏大的系統,我們不能扔給他們額外的工作,讓他們為我們收拾爛攤子。
把這些試驗變成軟件的壹個功能,唯壹的辦法是在項目全程時刻想著這個目標。這也就是為何研究階段不應只包含數學。
我們需要知道我們不僅能解決某個問題,還能現實的限制中構造軟件來解決這個問題。
結束這壹天
經歷了所有這些之後,有必要深吸壹口氣,看看自己究竟走了多遠。有些日子會比其他日子走的更遠。大多數試驗則以失敗告終。
多數解決方案在最終展示之前需要調整打磨。通常很少有什麽能保證妳選擇的路線是對的。開天辟地的過程始終伴隨著不確定性。但這個過程中的每天,妳都會學到新東西。這壹天的結尾,我們反思我們學到了什麽,並把這有關世界的新知識帶到明天的晨會。
經過足夠的努力,我們最終獲得針對特定問題的直接可行的答案。
我們可以對這個答案充滿自信,因為它由數據嚴謹地支撐。這個時候,我們還是沒有結束代碼的編寫。正如我之前所說,數據科學項目的壹個關鍵環節是把最終結果翻譯成有意義、實用的東西。
我們需要把我們學到的東西有效地傳達給不同背景的受眾。最終,我們需要利用數據講壹個故事。跟其他環節壹樣,這個環節沒有什麽唯壹的正確方法。這個環節中我們尋找用圖表把結果可視化的方法,或者在壹個平面展示從問題到解答的各個環節,或者僅僅是宣布“好的,我們需要做的事是這樣的。”
這裏的關鍵在於,在結束時,每個人都能理解要做什麽以及為什麽這麽做。