近幾年,大數(shù)據(jù)為各個(gè)領(lǐng)域帶來了全新的變革,大數(shù)據(jù)的重要性越來越被企業(yè)和國(guó)家所看到,大數(shù)據(jù)工作者的需求被無限放大。
馬云在演講中就提到,未來的時(shí)代將不是IT時(shí)代,而是DT(Data Technology)的時(shí)代!癉ata Scientist”也被Harvard Business Review 評(píng)為21世紀(jì)最性感的職業(yè)之一。
隨著科技的發(fā)展,每時(shí)每刻都有大量數(shù)據(jù)產(chǎn)生。這些數(shù)據(jù)有什么用?如何從數(shù)據(jù)中分析事物未來的發(fā)展趨勢(shì),窺見新的商機(jī)?商業(yè)分析(BA)和數(shù)據(jù)科學(xué)(Data Science)就這樣應(yīng)勢(shì)而生。
很多人都知道BA和DS兩個(gè)專業(yè)都是對(duì)數(shù)據(jù)進(jìn)行分析,但卻并不清楚兩者內(nèi)在的聯(lián)系和區(qū)別,導(dǎo)致專業(yè)選擇上的迷茫。那今天我就從幾個(gè)角度把這兩個(gè)專業(yè)做一個(gè)詳細(xì)的對(duì)比。
第一, 專業(yè)定義對(duì)比
BA ,全稱 Business Analytics ,是以商業(yè)知識(shí)為基礎(chǔ),數(shù)理編程為手段,從數(shù)據(jù)分析出發(fā),以決策優(yōu)化來創(chuàng)造價(jià)值的新興專業(yè),實(shí)現(xiàn) Big Data 的商業(yè)應(yīng)用。
麻省理工 Sloan 商學(xué)院對(duì)于 BA 項(xiàng)目的定位是這樣的:
Prepares students for careers that apply and manage modern data science to solve critical business challenges .
通過對(duì)現(xiàn)代量化數(shù)據(jù)的管理和分析,從而對(duì)企業(yè)決策做出貢獻(xiàn)。
Data Science 顧名思義:和數(shù)據(jù)有關(guān)的科學(xué)研究都是數(shù)據(jù)科學(xué)。
維基百科對(duì) DS 的解釋是這樣的:
In general terms , Data Science is the extraction of knowledge from data, which is a continuation of the field data mining and predictive analytics, also known as knowledge discovery and data mining.
數(shù)據(jù)科學(xué)是指通過挖掘數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù),從而獲取數(shù)據(jù)中潛在的信息和技術(shù)。
從這兩個(gè)概率我們不難看出,BA的落腳點(diǎn)是決策,分析數(shù)據(jù)是手段,而DS 的落腳點(diǎn)是通過技術(shù)獲取潛在信息的。
第二,課程設(shè)置對(duì)比
BA普遍的課程設(shè)置配比:
Business Analytics = 40% Statistics + 30% Computer Science + 30% Business
這30%的CS其實(shí)更準(zhǔn)確的說法是programming就是編程, BA不需要很專業(yè)的計(jì)算機(jī)基礎(chǔ),會(huì)一些編程像Python,語言。
BA 對(duì)于申請(qǐng)人的背景要求沒有過多限制,文科、商科、理工科背景的同學(xué)都可以申請(qǐng)。不同背景的同學(xué),需要根據(jù)BA的需求去補(bǔ)充相應(yīng)的技能和課程背景。比如說理工科學(xué)生,想申請(qǐng)BA,就可以去修一些商科的課程,像會(huì)計(jì),金融,市場(chǎng)營(yíng)銷等課程,如果是商科學(xué)生就需要學(xué)一些編程方面的課程。
DS課程配比:
Data Science = 30% Statistics + 50% Computer Science + 20% Application
從這個(gè)設(shè)置也可以看出來DS更適合于理工科背景的同學(xué)申請(qǐng),DS最匹配的專業(yè)是,應(yīng)用數(shù)學(xué),統(tǒng)計(jì)和計(jì)算機(jī),其次是其他工科類專業(yè),再就是有一定編程基礎(chǔ)的同學(xué)也可以申請(qǐng),量化背景較強(qiáng)的專業(yè),比如金工,同樣也適合于申請(qǐng) DS 專業(yè)。
第三, 就業(yè)方向?qū)Ρ?/STRONG>
近幾年世界許多產(chǎn)業(yè)進(jìn)入數(shù)據(jù)、并且向人工智能方向發(fā)展,以 Facebook和 Instagram為代表的社交網(wǎng)絡(luò)平臺(tái),以阿里和 Amazon為代表的電商消費(fèi)平臺(tái),以Uber和 Airbnb為代表的共享商業(yè)平臺(tái),從最基礎(chǔ)的醫(yī)療、消費(fèi)、廣告行業(yè),到金融、社交媒體、創(chuàng)新型產(chǎn)業(yè),都因?yàn)榉e累了大量的、動(dòng)態(tài)的消費(fèi)者行為數(shù)據(jù),因此這些行業(yè)急需數(shù)據(jù)分析人オ來做基礎(chǔ)的數(shù)據(jù)分析、模型整合和大數(shù)據(jù)挖掘,從而更改進(jìn)改善企業(yè)的商業(yè)模式和市場(chǎng)策略。
美國(guó)企業(yè)與高等教育論壇(BHEF)與普華永道(PWC)發(fā)布報(bào)告顯示:約23%的畢業(yè)生有數(shù)據(jù)分析技能,但69%的雇主都希望求職者具備數(shù)據(jù)分析技能。在這份報(bào)告中,數(shù)據(jù)分析人才的供給指數(shù)最低,僅為0.05,相當(dāng)于20個(gè)職位在競(jìng)爭(zhēng)1個(gè)求職者。
中國(guó)商業(yè)聯(lián)合會(huì)數(shù)據(jù)分析專業(yè)委員會(huì)匯統(tǒng)計(jì)算,未來中國(guó)基礎(chǔ)性數(shù)據(jù)分析人才缺口將達(dá)到1400萬,而在BAT招聘職位中60%以上是在招大數(shù)據(jù)方向的人才。
由此可見,在未來很長(zhǎng)一段時(shí)間BA和DS都有非常大的市場(chǎng)需求。
BA 的就業(yè)方向主要在投行、四大、咨詢、科技公司,零售等,在不同行業(yè)中專門從事行業(yè)數(shù)據(jù)搜集、整理、分析,并通過數(shù)據(jù)對(duì)相應(yīng)行業(yè)進(jìn)行調(diào)研,不同行業(yè)的叫法也不同,咨詢師、數(shù)據(jù)分析師、統(tǒng)計(jì)分析師等,就業(yè)前景非常廣闊。
DS 的就業(yè)方向包括 Data Scientist 、Data Engineer 、Data Analyst 等,主要的工作內(nèi)容包含數(shù)據(jù)模型的建立、數(shù)據(jù)架構(gòu)、數(shù)據(jù)監(jiān)管與存儲(chǔ)等,目的是為了將數(shù)據(jù)整理好,使其存儲(chǔ)成本最小化,查詢的效率更高。
從就業(yè)數(shù)據(jù)來看, Data Science 在美國(guó)更容易找到工作,加上偏技術(shù)的工作對(duì)語言交流的要求也不是很高。BA的優(yōu)勢(shì)是在回國(guó)后的就業(yè)面更廣,可以去技術(shù)崗,也可以做咨詢或市場(chǎng),相對(duì)來說回國(guó)發(fā)展的同學(xué)占大多數(shù)。
BA 和 DS 兩個(gè)專業(yè)本身都是技術(shù)性、實(shí)用性較強(qiáng)的專業(yè),選擇什么方向就業(yè)和個(gè)人能力關(guān)系很大,只要有真才實(shí)學(xué),就業(yè)還是很容易的,畢竟市場(chǎng)需求還是很大的。
總的來說:BA可選擇的職位類別更廣泛,DS可選擇的職位不可替代性更高。
第四, 薪資對(duì)比
BA的平均年薪是6萬多美金,而DS的平均年薪達(dá)到了9.5萬美金,平均薪資BA低于DS,這個(gè)也印證了,越需要technical技能的崗位,相應(yīng)的,薪資水平越高。
接下來我們來看一個(gè)數(shù)據(jù)處理的一個(gè)流程,基本上包括以下5個(gè)步驟:
1. Business understanding 明確問題
就是要明白公司要解決什么問題,要分析什么數(shù)據(jù)。
這個(gè)步驟在整個(gè)data 領(lǐng)域,通常被商業(yè)分析師,或者數(shù)據(jù)分析師,他們主要是要對(duì)公司業(yè)務(wù),對(duì)產(chǎn)品很了解,所以他要知道自己要解決的問題是什么,然后通過什么樣的數(shù)據(jù)可以解決這些問題。
這部分對(duì)編程,對(duì)數(shù)據(jù)分析要求相對(duì)沒有那么高,而更多的是解決問題,分析問題的能力。
那在我們知道是什么問題,同時(shí)知道分析什么數(shù)據(jù)去解決這個(gè)問題之后呢,下一步就是來到 ↓
2. Data acquisition 抓取數(shù)據(jù)
那這一步一般情況下在公司里是數(shù)據(jù)分析師和數(shù)據(jù)工程師來完成的。他們要抓的數(shù)據(jù)可以是各種各樣的,去到一些行業(yè)的數(shù)據(jù)庫(kù)。那有時(shí)候數(shù)據(jù)庫(kù)的數(shù)據(jù)也不能滿足分析的要求,就需要再去爬取一些其他地方的信息,數(shù)據(jù)來分析。
在這個(gè)崗位就需要能掌握SQL,還有爬蟲能力,掌握常見的語言,像python,Java等 可以從不同的地方抓取數(shù)據(jù),并把這些數(shù)據(jù)存到自己的數(shù)據(jù)庫(kù)。這些就是data engineer做的事情。
這部分對(duì)編程和挖數(shù)據(jù)的能力要求比較高。
3. Data clean up 處理清洗數(shù)據(jù)
就是把數(shù)據(jù)變成可分析的狀態(tài)。
在建模之前都需要把數(shù)據(jù)進(jìn)行很好的清理,變成更可讀更易讀的版本,比如說我們拿到了一些數(shù)據(jù)的,但是這些數(shù)據(jù)里有些日期或者其他的條件是缺失的,那我們是把這些數(shù)據(jù)自己隨便填,還是直接刪除,不同的情況,數(shù)據(jù)分析師他們會(huì)有自己的判斷。在這一步我們要把有用的數(shù)據(jù)提取出來為下一步分析做更充分的準(zhǔn)備。
所以這一步就需要能掌握一些分析數(shù)據(jù),處理數(shù)據(jù)的語言,比如說python里常用的數(shù)據(jù)包,SQL 等。
4. Data modeling & analysis 建模分析
這個(gè)崗位大多是由DS,數(shù)據(jù)科學(xué)家來完成。
這個(gè)步驟就是通過建模來對(duì)未來有一些預(yù)測(cè)性的判斷。這一塊就對(duì)數(shù)理能力,統(tǒng)計(jì),建模這些要求比較高,也需要有很強(qiáng)的編程機(jī)器學(xué)習(xí)方面的能力。
所以數(shù)據(jù)科學(xué)家這個(gè)崗位也是整個(gè)數(shù)據(jù)里面最核心,要求最高的崗位。
5. Development 執(zhí)行
最后一個(gè)步驟就是通過分析,我們最后得出一個(gè)結(jié)論,來指導(dǎo)公司進(jìn)行決策。這一部分也都是由我們第一部分里的商業(yè)分析師通過對(duì)數(shù)據(jù)進(jìn)行可視化的分析,利用TABLEAU, EXCEL 等比如說做一些可視化的圖,比較基礎(chǔ)的像餅狀圖,柱狀圖等來呈現(xiàn),指導(dǎo)公司的決策。
所以在整個(gè)環(huán)節(jié)的頭和尾,一般就是BA的職責(zé),對(duì)數(shù)據(jù)處理的技術(shù)性要求不高,但是需要有不錯(cuò)的商業(yè)理解力,和溝通表達(dá)能力。中間這幾個(gè)環(huán)節(jié)呢,就是DS的職責(zé),尤其是建模環(huán)節(jié)對(duì)技術(shù)要求就比較高。
當(dāng)然在每個(gè)公司對(duì)數(shù)據(jù)的要求不一樣,可能有些小公司,BA就需要完成整個(gè)環(huán)節(jié),而在一些大型的數(shù)據(jù)公司,對(duì)數(shù)據(jù)要求很高,崗位職責(zé)就會(huì)比較細(xì)致,分工也會(huì)更明確。
相信通過前面幾個(gè)部分的完整分析,大家對(duì)BA 和DS已經(jīng)有了相對(duì)清晰一點(diǎn)的認(rèn)識(shí),同學(xué)們也可以通過自己的學(xué)科背景,和對(duì)崗位的要求和職位的描述來初步確定,自己更適合學(xué)哪個(gè)專業(yè)。