不知道大家是否留意到,各大行業(yè)、名企都在招“數(shù)據(jù)分析師”?
近期,Linkedin在最新相關(guān)職業(yè)的調(diào)查中發(fā)現(xiàn),機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)工程師已經(jīng)超過傳統(tǒng)軟件工程師,躍升為最高薪群體,年薪中位數(shù)高達(dá)\\\\\\\\\\\\\\\$129,000。
IBM預(yù)測(cè):未來(lái)3年,企業(yè)對(duì)數(shù)據(jù)科學(xué)類崗位需求量將猛增28%。到2020年,所有美國(guó)數(shù)據(jù)科學(xué)類崗位數(shù)量將增加36萬(wàn)個(gè),總數(shù)達(dá)到270萬(wàn)。
美國(guó)灣區(qū)的科技公司和紐約華爾街無(wú)疑是對(duì)這方面人才需求最迫切的地方。除此之外,機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)工程師在西雅圖、洛杉磯、華盛頓和波士頓也都炙手可熱。在各行各業(yè)的H1B審核越來(lái)越嚴(yán)格的情況下,數(shù)據(jù)科學(xué)類崗位H1B持有數(shù)呈大幅上升趨勢(shì),同時(shí),收入也在逐年增長(zhǎng)。
Robert Half Technology 對(duì)數(shù)據(jù)科學(xué)的評(píng)價(jià):“Data Scientist(數(shù)據(jù)科學(xué)家)可能是你能在名片上寫下的最熱頭銜之一,并且你離硅谷越近,這個(gè)職位就越有價(jià)值。數(shù)據(jù)科學(xué)家跟麒麟一樣稀有,而且每天的工作都需要有充滿好奇心的數(shù)據(jù)奇才那樣的思維體系。
需要有廣泛的數(shù)據(jù)科技技能和處理,分析原始數(shù)據(jù)的天賦,以及用一個(gè)吸引人可信服的方式來(lái)與同伴分享自身的深刻見解。這也難怪為什么像谷歌和微軟這些公司都非常渴望像這樣的人才。”
進(jìn)入數(shù)據(jù)科學(xué)行業(yè)需要哪些知識(shí)技能?
根據(jù)2016年O’Reilly對(duì)數(shù)據(jù)科學(xué)職位薪酬的研究,所有研究對(duì)象(983個(gè)樣本:45個(gè)國(guó)家+美國(guó)45個(gè)州)的薪酬中位數(shù)是87000美元,其中,五分之三的樣本來(lái)自于美國(guó),他們的薪酬中位數(shù)為106000美元。與美國(guó)東北部與中西部相比,西北部的薪酬中位數(shù)更高(105000美元對(duì)比98000美元),而加州擁有最高的薪酬中位數(shù)。
專業(yè)技能方面,調(diào)查顯示,Python和Spark是對(duì)薪水貢獻(xiàn)最大的兩大工具,最受歡迎的工具是Excel和SQL,接下來(lái)是R以及Python。超過90%的被調(diào)查者表示會(huì)花時(shí)間在編碼上,80%至少會(huì)Python、R以及Java中的一種,8%的人會(huì)使用全部三種語(yǔ)言。
總的來(lái)說(shuō),影響薪酬高低的因素有很多,而能力越大相應(yīng)地也就獲得的越多。最后看兩個(gè)應(yīng)聘數(shù)據(jù)分析師的面試題目:
騰訊:『給40億個(gè)不重復(fù)的unsigned int的整數(shù),沒排過序的,然后再給一個(gè)數(shù),如何快速判斷這個(gè)數(shù)是否在那40億個(gè)數(shù)當(dāng)中?』
微軟:『請(qǐng)寫一個(gè)方程,優(yōu)化我們?cè)?/font> Twitter 和 Facebook 上的廣告費(fèi)用支出。』
......
所以,悄悄的告訴慧德小編,要不要讀一個(gè)悄咪咪超越了CS成為高金行業(yè)的專業(yè)呢?
哈佛大學(xué)-MSc in Data Science
世界頂級(jí)大學(xué),美國(guó)哈佛大學(xué)(Harvard University),前一段時(shí)間新增設(shè)了一個(gè)碩士項(xiàng)目——Master of Science in Data Science,2018年秋為第一屆招生。
The Harvard Faculty of Arts and Sciences is pleased to announce the launch of a new Master of Science (SM) degree in Data Science.
數(shù)據(jù)科學(xué)專業(yè)對(duì)口的工作職位?
與 Data Science 相關(guān)的職位可能有很多種不同的叫法,不同公司根據(jù)不同的背景,有以下叫法:
Data Scientist:科技公司中用的比較多,很多要求 PhD 的學(xué)歷。
Data Analyst:金融業(yè)用的比較多。
Risk Manager / Risk Management:金融公司里用的比較多。
Business Analyst:與 Data Analyst 類似,但更加注重商業(yè),技術(shù)方面的要求相對(duì)較低。
Data Engineer:一般是科技公司采用這個(gè)職位,偏向 CS 專業(yè),需要負(fù)責(zé)數(shù)據(jù)存儲(chǔ)、實(shí)時(shí)處理的工作,對(duì)系統(tǒng)、programming 的要求更多。
Statistician:如 Google。偏向統(tǒng)計(jì),要求較為深入地理解概率統(tǒng)計(jì)。
Statistic Scientist:如亞馬遜。
Research Scientist:與 Data Analyst 相關(guān)。
擇業(yè)時(shí),有哪些公司可以選擇?
各行各業(yè)都在利用大數(shù)據(jù)來(lái)解決問題,所以有很多公司有相關(guān)職位。
科技公司:Twitter,Microsoft,BAT,搜狗,美團(tuán),滴滴
金融公司:Capital One(從建立之初就開始用一些數(shù)據(jù)方法進(jìn)行風(fēng)險(xiǎn)控制等方面的工作),高盛,Blackrock,Hedge Fund
咨詢公司:Polunteer(幫助美國(guó)政府部門解決反恐、審查等工作),麥肯錫,IBM(傳統(tǒng)咨詢公司也慢慢轉(zhuǎn)向 data 方向)
專門做數(shù)據(jù)分析平臺(tái)的公司:Kotara,Hotten,Databreaks
其他公司:Horizon(電信),Comecrack(傳媒),消費(fèi)品公司,醫(yī)療公司
數(shù)據(jù)科學(xué)的主要工作?
分為四部分:歸納問題、準(zhǔn)備探索數(shù)據(jù)、模型訓(xùn)練檢驗(yàn)調(diào)整、報(bào)告和產(chǎn)品。
1. 歸納問題
客戶給公司的任務(wù),或者頭頭給分析師的任務(wù),不是一個(gè)具體的任務(wù)(用 xx 模型來(lái)做 xx 數(shù)據(jù)),而是一個(gè)具體的商業(yè)問題。比如,上個(gè)季度為什么盈利下降了。這就是一個(gè)歸納問題的環(huán)節(jié),需要有專業(yè)知識(shí)幫助我們找到方向。
2. 準(zhǔn)備探索數(shù)據(jù)
歸納問題結(jié)束之后,會(huì)產(chǎn)生很多假設(shè),這就需要尋找數(shù)據(jù)驗(yàn)證假設(shè)。
尋找數(shù)據(jù)一般是竭盡所能,比如收入不好與市場(chǎng)推廣有關(guān),就會(huì)去尋找廣告商的數(shù)據(jù)。
尋找數(shù)據(jù)以后,要檢查數(shù)據(jù)質(zhì)量,是否有異動(dòng)、缺失等等。數(shù)據(jù)質(zhì)量能夠決定模型的準(zhǔn)確率。所以花在“清洗整理”數(shù)據(jù)上的時(shí)間要占到總時(shí)間的 60% 甚至更多,有時(shí)候也需要跟客戶進(jìn)行交流。
檢查完質(zhì)量以后,做一些探索性分析。
3. 模型訓(xùn)練檢驗(yàn)調(diào)整
先確定模型基本類型(回歸、聚類等),選取比較合適的模型進(jìn)行搭建,用 test 對(duì)模型進(jìn)行檢驗(yàn)。檢驗(yàn)的同時(shí)再去尋找模型最優(yōu)的參數(shù)配置,對(duì)模型進(jìn)行預(yù)測(cè),如果預(yù)測(cè)結(jié)果很好的話,建模過程就結(jié)束了。
4. 報(bào)告和產(chǎn)品
在咨詢公司中,模型做完以后,會(huì)和客戶進(jìn)行交流,看是否符合實(shí)際。在科技公司中,模型往往會(huì)發(fā)展成一個(gè)產(chǎn)品。放在公司平臺(tái)上測(cè)試,或者發(fā)布到網(wǎng)上。
面試準(zhǔn)備
Data scientist 需要具備的能力:
1. Hacking skills(programming skills);
2. Math and statistics knowledge;
3. Sustained expertise。
硬實(shí)力方面
數(shù)學(xué)方面的知識(shí)在各大公司,如 Google,相關(guān)職位的面試中很喜歡被提及,主要集中在概率論的基礎(chǔ)理論,比如獨(dú)立分布,隨機(jī)數(shù)等等。
有一道題供大家思考,現(xiàn)有一個(gè)隨機(jī)數(shù)生成器,等概率生成 1~4 四個(gè)數(shù)字。問如何改進(jìn)生成五個(gè)數(shù)字。這是一道與概率、工程學(xué)相關(guān)的題。
在統(tǒng)計(jì)方面涉及比較多的是 ABtest 實(shí)驗(yàn)設(shè)計(jì)理論。這個(gè)問題在做過 research 以后才會(huì)更加了解。比如要做一個(gè)藥物測(cè)試,測(cè)試其效果,就會(huì)涉及一個(gè)大樣本雙盲測(cè)試。大家就需要了解其前提假設(shè)與操作。
模型方面的內(nèi)容是重頭戲,問的比較多的是回歸分析和機(jī)器學(xué)習(xí)。根據(jù)職位不同,問的也有可能不同。比如給一個(gè)回歸模型,系數(shù)應(yīng)該如何計(jì)算,T 檢驗(yàn)是什么之類的問題。再比如,加權(quán)回歸,Principle Component Regression。
除了回歸分析,很多公司也會(huì)問關(guān)于機(jī)器學(xué)習(xí)的模型。主要會(huì)集中在問 Classification,比如 Logistic Regression 、FBM、Tree model。各自有什么特點(diǎn),適合于哪些情景等,也會(huì)展開問。比如問 Tree model 下三個(gè)模型的異同點(diǎn),解決的問題,適合用在怎樣的數(shù)據(jù)上面,包括模型的評(píng)價(jià),術(shù)語(yǔ)。
很多公司要求你有一定的編程能力。希望大家在準(zhǔn)備時(shí)刷一些 lecal 的中低難度的題,高難度的不需要。C++,Python,Java 等語(yǔ)言一般都可以用,但是推薦用 Python 和 Java,尤其是 Python,因?yàn)?Python 在數(shù)據(jù)挖掘方面運(yùn)用的很多,對(duì)熟悉語(yǔ)法有幫助。也有公司會(huì)問 Pascal 和 R 語(yǔ)言的問題。
軟實(shí)力方面
如果想去金融、咨詢行業(yè)工作,一定要注重提升軟實(shí)力。
要注意三點(diǎn)。
第一,熟悉自己的簡(jiǎn)歷。在面試的一開始都會(huì)要求過簡(jiǎn)歷,或者說(shuō)一下自己 highlight 的地方。建議要熟悉自己簡(jiǎn)歷的內(nèi)容。推薦一個(gè)回答問題的 SAR 結(jié)構(gòu),就是 Situation-Action-Result 結(jié)構(gòu),按照這個(gè)清晰的條理來(lái)展現(xiàn)自己。
第二,準(zhǔn)備一段非常好的團(tuán)隊(duì)合作的經(jīng)歷。這在科技公司中可能要求不高,但是在金融、咨詢公司是很看重團(tuán)隊(duì)合作的,要求你有一定的 leadership。一定要體現(xiàn)你在團(tuán)隊(duì)出現(xiàn)問題的時(shí)候能冷靜面對(duì),積極溝通的能力。
第三,在面試之前研究一下公司及所在行業(yè)。準(zhǔn)備一些聊天的話題,面試官可能把你從一個(gè)房間帶到另一個(gè)房間的路上,聊一些比較好玩的而不是老生常談的話題,這對(duì)氣氛、心態(tài)有很大的幫助。