不知道大家是否留意到,各大行業(yè)、名企都在招“數(shù)據(jù)分析師”?
近期,Linkedin在最新相關職業(yè)的調查中發(fā)現(xiàn),機器學習和數(shù)據(jù)科學工程師已經超過傳統(tǒng)軟件工程師,躍升為最高薪群體,年薪中位數(shù)高達$129,000。
IBM預測:未來3年,企業(yè)對數(shù)據(jù)科學類崗位需求量將猛增28%。到2020年,所有美國數(shù)據(jù)科學類崗位數(shù)量將增加36萬個,總數(shù)達到270萬。
美國灣區(qū)的科技公司和紐約華爾街無疑是對這方面人才需求最迫切的地方。除此之外,機器學習和數(shù)據(jù)科學工程師在西雅圖、洛杉磯、華盛頓和波士頓也都炙手可熱。在各行各業(yè)的H1B審核越來越嚴格的情況下,數(shù)據(jù)科學類崗位H1B持有數(shù)呈大幅上升趨勢,同時,收入也在逐年增長。
Robert Half Technology 對數(shù)據(jù)科學的評價:“Data Scientist(數(shù)據(jù)科學家)可能是你能在名片上寫下的最熱頭銜之一,并且你離硅谷越近,這個職位就越有價值。數(shù)據(jù)科學家跟麒麟一樣稀有,而且每天的工作都需要有充滿好奇心的數(shù)據(jù)奇才那樣的思維體系。
需要有廣泛的數(shù)據(jù)科技技能和處理,分析原始數(shù)據(jù)的天賦,以及用一個吸引人可信服的方式來與同伴分享自身的深刻見解。這也難怪為什么像谷歌和微軟這些公司都非?释襁@樣的人才。”
進入數(shù)據(jù)科學行業(yè)需要哪些知識技能?
根據(jù)2016年O’Reilly對數(shù)據(jù)科學職位薪酬的研究,所有研究對象(983個樣本:45個國家+美國45個州)的薪酬中位數(shù)是87000美元,其中,五分之三的樣本來自于美國,他們的薪酬中位數(shù)為106000美元。與美國東北部與中西部相比,西北部的薪酬中位數(shù)更高(105000美元對比98000美元),而加州擁有最高的薪酬中位數(shù)。
專業(yè)技能方面,調查顯示,Python和Spark是對薪水貢獻最大的兩大工具,最受歡迎的工具是Excel和SQL,接下來是R以及Python。超過90%的被調查者表示會花時間在編碼上,80%至少會Python、R以及Java中的一種,8%的人會使用全部三種語言。
總的來說,影響薪酬高低的因素有很多,而能力越大相應地也就獲得的越多。最后看兩個應聘數(shù)據(jù)分析師的面試題目:
騰訊:『給40億個不重復的unsigned int的整數(shù),沒排過序的,然后再給一個數(shù),如何快速判斷這個數(shù)是否在那40億個數(shù)當中?』
微軟:『請寫一個方程,優(yōu)化我們在 Twitter 和 Facebook 上的廣告費用支出!
......
所以,悄悄的告訴慧德小編,要不要讀一個悄咪咪超越了CS成為高金行業(yè)的專業(yè)呢?
哈佛大學-MSc in Data Science
世界頂級大學,美國哈佛大學(Harvard University),前一段時間新增設了一個碩士項目——Master of Science in Data Science,2018年秋為第一屆招生。
The Harvard Faculty of Arts and Sciences is pleased to announce the launch of a new Master of Science (SM) degree in Data Science.
數(shù)據(jù)科學專業(yè)對口的工作職位?
與 Data Science 相關的職位可能有很多種不同的叫法,不同公司根據(jù)不同的背景,有以下叫法:
Data Scientist:科技公司中用的比較多,很多要求 PhD 的學歷。
Data Analyst:金融業(yè)用的比較多。
Risk Manager / Risk Management:金融公司里用的比較多。
Business Analyst:與 Data Analyst 類似,但更加注重商業(yè),技術方面的要求相對較低。
Data Engineer:一般是科技公司采用這個職位,偏向 CS 專業(yè),需要負責數(shù)據(jù)存儲、實時處理的工作,對系統(tǒng)、programming 的要求更多。
Statistician:如 Google。偏向統(tǒng)計,要求較為深入地理解概率統(tǒng)計。
Statistic Scientist:如亞馬遜。
Research Scientist:與 Data Analyst 相關。
擇業(yè)時,有哪些公司可以選擇?
各行各業(yè)都在利用大數(shù)據(jù)來解決問題,所以有很多公司有相關職位。
科技公司:Twitter,Microsoft,BAT,搜狗,美團,滴滴
金融公司:Capital One(從建立之初就開始用一些數(shù)據(jù)方法進行風險控制等方面的工作),高盛,Blackrock,Hedge Fund
咨詢公司:Polunteer(幫助美國政府部門解決反恐、審查等工作),麥肯錫,IBM(傳統(tǒng)咨詢公司也慢慢轉向 data 方向)
專門做數(shù)據(jù)分析平臺的公司:Kotara,Hotten,Databreaks
其他公司:Horizon(電信),Comecrack(傳媒),消費品公司,醫(yī)療公司
數(shù)據(jù)科學的主要工作?
分為四部分:歸納問題、準備探索數(shù)據(jù)、模型訓練檢驗調整、報告和產品。
1. 歸納問題
客戶給公司的任務,或者頭頭給分析師的任務,不是一個具體的任務(用 xx 模型來做 xx 數(shù)據(jù)),而是一個具體的商業(yè)問題。比如,上個季度為什么盈利下降了。這就是一個歸納問題的環(huán)節(jié),需要有專業(yè)知識幫助我們找到方向。
2. 準備探索數(shù)據(jù)
歸納問題結束之后,會產生很多假設,這就需要尋找數(shù)據(jù)驗證假設。
尋找數(shù)據(jù)一般是竭盡所能,比如收入不好與市場推廣有關,就會去尋找廣告商的數(shù)據(jù)。
尋找數(shù)據(jù)以后,要檢查數(shù)據(jù)質量,是否有異動、缺失等等。數(shù)據(jù)質量能夠決定模型的準確率。所以花在“清洗整理”數(shù)據(jù)上的時間要占到總時間的 60% 甚至更多,有時候也需要跟客戶進行交流。
檢查完質量以后,做一些探索性分析。
3. 模型訓練檢驗調整
先確定模型基本類型(回歸、聚類等),選取比較合適的模型進行搭建,用 test 對模型進行檢驗。檢驗的同時再去尋找模型最優(yōu)的參數(shù)配置,對模型進行預測,如果預測結果很好的話,建模過程就結束了。
4. 報告和產品
在咨詢公司中,模型做完以后,會和客戶進行交流,看是否符合實際。在科技公司中,模型往往會發(fā)展成一個產品。放在公司平臺上測試,或者發(fā)布到網上。
面試準備
Data scientist 需要具備的能力:
1. Hacking skills(programming skills);
2. Math and statistics knowledge;
3. Sustained expertise。
硬實力方面
數(shù)學方面的知識在各大公司,如 Google,相關職位的面試中很喜歡被提及,主要集中在概率論的基礎理論,比如獨立分布,隨機數(shù)等等。
有一道題供大家思考,現(xiàn)有一個隨機數(shù)生成器,等概率生成 1~4 四個數(shù)字。問如何改進生成五個數(shù)字。這是一道與概率、工程學相關的題。
在統(tǒng)計方面涉及比較多的是 ABtest 實驗設計理論。這個問題在做過 research 以后才會更加了解。比如要做一個藥物測試,測試其效果,就會涉及一個大樣本雙盲測試。大家就需要了解其前提假設與操作。
模型方面的內容是重頭戲,問的比較多的是回歸分析和機器學習。根據(jù)職位不同,問的也有可能不同。比如給一個回歸模型,系數(shù)應該如何計算,T 檢驗是什么之類的問題。再比如,加權回歸,Principle Component Regression。
除了回歸分析,很多公司也會問關于機器學習的模型。主要會集中在問 Classification,比如 Logistic Regression 、FBM、Tree model。各自有什么特點,適合于哪些情景等,也會展開問。比如問 Tree model 下三個模型的異同點,解決的問題,適合用在怎樣的數(shù)據(jù)上面,包括模型的評價,術語。
很多公司要求你有一定的編程能力。希望大家在準備時刷一些 lecal 的中低難度的題,高難度的不需要。C++,Python,Java 等語言一般都可以用,但是推薦用 Python 和 Java,尤其是 Python,因為 Python 在數(shù)據(jù)挖掘方面運用的很多,對熟悉語法有幫助。也有公司會問 Pascal 和 R 語言的問題。
軟實力方面
如果想去金融、咨詢行業(yè)工作,一定要注重提升軟實力。
要注意三點。
第一,熟悉自己的簡歷。在面試的一開始都會要求過簡歷,或者說一下自己 highlight 的地方。建議要熟悉自己簡歷的內容。推薦一個回答問題的 SAR 結構,就是 Situation-Action-Result 結構,按照這個清晰的條理來展現(xiàn)自己。
第二,準備一段非常好的團隊合作的經歷。這在科技公司中可能要求不高,但是在金融、咨詢公司是很看重團隊合作的,要求你有一定的 leadership。一定要體現(xiàn)你在團隊出現(xiàn)問題的時候能冷靜面對,積極溝通的能力。
第三,在面試之前研究一下公司及所在行業(yè)。準備一些聊天的話題,面試官可能把你從一個房間帶到另一個房間的路上,聊一些比較好玩的而不是老生常談的話題,這對氣氛、心態(tài)有很大的幫助。