隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Big data)也吸引了越來(lái)越多的關(guān)注。現(xiàn)如今人們使用手機(jī)的頻率越來(lái)越高,越來(lái)越多的設(shè)備接入了互聯(lián)網(wǎng),它們大量收集客戶的使用模式和產(chǎn)品性能數(shù)據(jù)。不管是產(chǎn)品的開(kāi)發(fā)和運(yùn)營(yíng)效率,還是智能分析和用戶體驗(yàn),大數(shù)據(jù)的使用無(wú)處不在,可以幫助公司輕松處理各種業(yè)務(wù)。簡(jiǎn)而言之,在大多數(shù)情況下,大數(shù)據(jù)處理就是從收集原始數(shù)據(jù)開(kāi)始,對(duì)數(shù)據(jù)集進(jìn)行分析,以發(fā)掘有價(jià)值的信息,并且進(jìn)行有效利用。
而統(tǒng)計(jì)學(xué)就是大數(shù)據(jù)分析的兩種主要方式之一,主要應(yīng)用在分析領(lǐng)域。雖然統(tǒng)計(jì)學(xué)本身的理念與大數(shù)據(jù)還是具有一定區(qū)別的,但從另一個(gè)角度來(lái)說(shuō),統(tǒng)計(jì)學(xué)知識(shí)卻又是進(jìn)行大數(shù)據(jù)分析的理論基礎(chǔ),F(xiàn)在有越來(lái)越的學(xué)生對(duì)數(shù)據(jù)分析感興趣,市場(chǎng)的需求量也很大,因此我們今天就來(lái)聊一聊統(tǒng)計(jì)學(xué)專業(yè)主要的學(xué)習(xí)內(nèi)容是什么,與數(shù)學(xué)或精算專業(yè)又有什么不同?
什么是統(tǒng)計(jì)
統(tǒng)計(jì)學(xué)是應(yīng)用數(shù)學(xué)的一個(gè)領(lǐng)域,它在很大程度上依賴于計(jì)算機(jī)。統(tǒng)計(jì)學(xué)專業(yè)主要學(xué)習(xí)如何收集、分析和解釋數(shù)據(jù),培養(yǎng)學(xué)生使用數(shù)據(jù)來(lái)解決現(xiàn)實(shí)世界的問(wèn)題。選擇這個(gè)專業(yè)的學(xué)生可能會(huì)對(duì)某些領(lǐng)域的職業(yè)發(fā)展感興趣,比如政府、銀行或金融。通過(guò)學(xué)習(xí)如何收集和分解復(fù)雜的信息,可以幫助統(tǒng)計(jì)專業(yè)的學(xué)生為公共政策、商業(yè)決策等做出貢獻(xiàn)。
比如說(shuō)最近備受關(guān)注的美國(guó)總統(tǒng)選舉問(wèn)題,在結(jié)果出來(lái)之前就有非常多人針對(duì)“誰(shuí)將贏得下一屆總統(tǒng)選舉”作出預(yù)測(cè)。那么為了找到答案,你可以問(wèn)每一個(gè)注冊(cè)的選民他們打算給誰(shuí)投票。但是全美國(guó)有那么多的選民,是不可能對(duì)每一個(gè)人進(jìn)行直接詢問(wèn)的。
而這就是統(tǒng)計(jì)數(shù)據(jù)發(fā)揮作用的時(shí)候了。我們可以進(jìn)行民意調(diào)查,通過(guò)選擇合理的樣本群里(即只詢問(wèn)一小部分注冊(cè)選民),利用統(tǒng)計(jì)學(xué)知識(shí)對(duì)結(jié)果做出預(yù)測(cè)。雖然利用一小群人的答案做出一個(gè)涉及全國(guó)數(shù)百萬(wàn)人的預(yù)測(cè)結(jié)果一定會(huì)有偏差,然而只要選取樣本的過(guò)程合理,摒除大部分的干擾因素,這個(gè)偏差可以降到最低。
除此之外,統(tǒng)計(jì)學(xué)的理論核心被廣泛應(yīng)用于人類學(xué)、天文學(xué)、生物學(xué)、商學(xué)、化學(xué)、計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)、教育、工程、環(huán)境科學(xué)、流行病學(xué)、金融、政府、歷史、法律、語(yǔ)言學(xué)、醫(yī)學(xué)、物理學(xué)、心理學(xué)、社會(huì)學(xué)等領(lǐng)域!都~約時(shí)報(bào)》(New York Times)的一篇文章指出,對(duì)統(tǒng)計(jì)學(xué)家的需求正日益增長(zhǎng),文章的標(biāo)題是:“對(duì)于今天的畢業(yè)生,就一個(gè)詞:統(tǒng)計(jì)學(xué)”。
統(tǒng)計(jì)專業(yè)需要學(xué)習(xí)哪些科目?
美國(guó)統(tǒng)計(jì)協(xié)會(huì)(American Statistical Association)表示,統(tǒng)計(jì)學(xué)的學(xué)生應(yīng)該了解微積分、線性代數(shù)和概率,以及它們與統(tǒng)計(jì)學(xué)的聯(lián)系和關(guān)聯(lián)。以加州大學(xué)伯克利分校的統(tǒng)計(jì)專業(yè)為例,要想進(jìn)入統(tǒng)計(jì)專業(yè)學(xué)習(xí),還需要先完成以下先修課程:
MATH 1A&1B CALCULUS 微積分1&2
該課程研究函數(shù)的微分(Differentiation)、積分(Integration)以及有關(guān)概念和應(yīng)用的數(shù)學(xué)分支。它是數(shù)學(xué)的一個(gè)基礎(chǔ)學(xué)科,內(nèi)容主要包括極限、微分學(xué)、積分學(xué)及其應(yīng)用。微分學(xué)包括求導(dǎo)數(shù)的運(yùn)算,是一套關(guān)于變化率的理論。它使得函數(shù)、速度、加速度和曲線的斜率等均可用一套通用的符號(hào)進(jìn)行討論。積分學(xué),包括求積分的運(yùn)算,為定義和計(jì)算面積、體積等提供一套通用的方法。
MATH 53 Multivariable Calculus 多變量微積分
該課程主要講解參數(shù)方程和極坐標(biāo),二維歐幾里得空間和三維歐幾里得空間中的向量,偏導(dǎo)數(shù),多重積分,向量微積分,格林、高斯和斯托克斯等數(shù)學(xué)定理。
MATH 54 Linear Algebra and Differential Equations 線性代數(shù)與微分方程
該課程講解了基本線性代數(shù),矩陣運(yùn)算,和行列式。同時(shí)介紹了向量空間,內(nèi)積空間,特征值和特征向量,正交對(duì)稱矩陣;以及線性二階微分方程,常系數(shù)的一階方程組,傅里葉級(jí)數(shù)等內(nèi)容。
在保證總GPA超過(guò)3.2,并且順利完成以上四門課程的情況下,學(xué)生才可以進(jìn)入統(tǒng)計(jì)專業(yè)進(jìn)行專業(yè)課程的學(xué)習(xí)。其中包括了3門必修課和三門選修課。其中3門必修課為:
STAT 133 Concepts in Computing with Data 數(shù)據(jù)計(jì)算的概念
本課程介紹了密集計(jì)算的應(yīng)用統(tǒng)計(jì)學(xué),主題包括:數(shù)據(jù)庫(kù)的組織和使用,可視化和圖形,統(tǒng)計(jì)學(xué)習(xí)和數(shù)據(jù)挖掘,模型驗(yàn)證程序,以及結(jié)果的展示。
STAT 134 Concepts of Probability 概率的概念
該課程涉及概率論的介紹,強(qiáng)調(diào)了統(tǒng)計(jì)概念和應(yīng)用。包含的內(nèi)容有條件期望,獨(dú)立性,大數(shù)定律;離散隨機(jī)變量和連續(xù)隨機(jī)變量;中心極限定理。而備選的主題有泊松過(guò)程,馬爾可夫鏈,以及特征函數(shù)。
STAT 135 Concepts of Statistics 統(tǒng)計(jì)的概念
這門課為統(tǒng)計(jì)理論與方法的綜合概論課程。主題包括描述統(tǒng)計(jì)、最大似然估計(jì)、非參數(shù)方法、最優(yōu)性介紹、擬合優(yōu)度檢驗(yàn)、方差分析、bootstrap和計(jì)算機(jī)密集方法以及最小二乘估計(jì)。此外,實(shí)驗(yàn)課涉及內(nèi)容為計(jì)算機(jī)的數(shù)據(jù)分析在科學(xué)和工程方面的應(yīng)用。
在必修課之外,統(tǒng)計(jì)專業(yè)的同年學(xué)們還需要在以下課程當(dāng)中選擇3門作為選修課程,具體的選擇則可參照每位同學(xué)自己的興趣方向。
課程方向
通過(guò)伯克利大學(xué)統(tǒng)計(jì)專業(yè)的這些課程的介紹可以看出,學(xué)習(xí)統(tǒng)計(jì)確實(shí)需要比較牢固的數(shù)學(xué)基礎(chǔ)。伯克利大學(xué)的課程設(shè)置更貼近通識(shí)性統(tǒng)計(jì)學(xué)方向,比較適合還沒(méi)有明確方向并且未來(lái)有可能往不同領(lǐng)域發(fā)展的同學(xué)。除此之外,也有一些院校的統(tǒng)計(jì)專業(yè)設(shè)置有更加細(xì)致的分類。以哈佛大學(xué)為例,他們的統(tǒng)計(jì)專業(yè)有四個(gè)學(xué)習(xí)方向:
1. General Track通識(shí)性方向
該方向是最靈活的,為統(tǒng)計(jì)理論、方法和應(yīng)用提供了原理和技術(shù)的基礎(chǔ)。這個(gè)基礎(chǔ)可以應(yīng)用到很多領(lǐng)域。
2. Data Science Track 數(shù)據(jù)科學(xué)方向
數(shù)據(jù)科學(xué)探索統(tǒng)計(jì)學(xué)與計(jì)算機(jī)科學(xué)的邊界。課程涉及這些領(lǐng)域的混合方向,應(yīng)用領(lǐng)域包括預(yù)測(cè)、推薦系統(tǒng)和海量數(shù)據(jù)集分析等。
3. Bioinformatics and Computational Biology (BCB) Track 生物信息學(xué)與計(jì)算生物學(xué)方向
該方向融合了生物學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī),為研究基因和蛋白質(zhì)序列等生物數(shù)據(jù)提供模型和工具。這在一定程度上是由于最近生物科學(xué)中數(shù)據(jù)的規(guī)模和復(fù)雜性的激增,這要求發(fā)展新的統(tǒng)計(jì)方法和模型,例如基因和蛋白質(zhì)基序搜索模型、系統(tǒng)發(fā)育重建模型和基因表達(dá)分析模型。
4. Quantitative Finance Track 定量金融方向
定量金融方向?yàn)閺氖陆鹑诤途愎ぷ鞯耐瑢W(xué)提供了堅(jiān)實(shí)的基礎(chǔ)。具體的主題包括金融/保險(xiǎn)建模中出現(xiàn)的隨機(jī)模型的統(tǒng)計(jì)推斷,以及在復(fù)雜金融/保險(xiǎn)工具的定價(jià)、對(duì)沖和風(fēng)險(xiǎn)評(píng)估中成為標(biāo)準(zhǔn)的計(jì)算技術(shù)。
不論是選擇哪一個(gè)方向,統(tǒng)計(jì)專業(yè)的就業(yè)前景在目前來(lái)說(shuō)都是非常不錯(cuò)的。根據(jù)美國(guó)勞工局的預(yù)測(cè),在2024年,熟練掌握統(tǒng)計(jì)數(shù)據(jù)方法的專業(yè)人士在職場(chǎng)上會(huì)變得更加有競(jìng)爭(zhēng)力。無(wú)論是有關(guān)信息處理的商務(wù)決策,健康醫(yī)療,還是政治政策的決定,都離不開(kāi)統(tǒng)計(jì)學(xué),而例如社交媒體等的有關(guān)“大數(shù)據(jù)”的行業(yè)也需要統(tǒng)計(jì)專業(yè)人才。
如果是對(duì)統(tǒng)計(jì)理論知識(shí)感興趣并且計(jì)劃升學(xué)讀研究生的同學(xué),曾老師建議可以選擇數(shù)學(xué)相關(guān)課程更多的理科學(xué)士項(xiàng)目( Bachelor of Science);而對(duì)統(tǒng)計(jì)學(xué)知識(shí)的實(shí)際應(yīng)用更感興趣的學(xué)生,則可以考慮選擇文科學(xué)士項(xiàng)目(Bachelor of Arts)。
根據(jù)U.S. News最佳大學(xué)排名,目前有超過(guò)160所院校提供統(tǒng)計(jì)學(xué)本科學(xué)位課程,因此對(duì)該專業(yè)感興趣的同學(xué)們可以有很多的選擇。如果你是一個(gè)對(duì)數(shù)學(xué)很擅長(zhǎng)的人,并且想將自己的技能應(yīng)用到實(shí)際領(lǐng)域,那么統(tǒng)計(jì)學(xué)可能是比較適合你的專業(yè)。如果你對(duì)統(tǒng)計(jì)學(xué)感興趣,但更愿意關(guān)注在其他領(lǐng)域,那么可以看看你的學(xué)校是否提供輔修課程來(lái)幫助你培養(yǎng)技能。