現今的生活環境,從政府、社會、經濟、產業、企業、投資與消費,時時刻刻都充滿著大量複雜、多元且具相關性的數據資料,如何運用各種分析工具,將資料從簡單的描述整理到深入地推論分析,以得到有效的管理決策及績效,是一項充滿挑戰的課題,也是各層級組織努力追求的目標。而「統計學」的產生,就是建立在數據分析的基礎上,研究如何將複雜資料轉化為有效管理的重要工具。就時序而言,統計學自17
世紀中葉產生後,已廣泛地應用在自然科學與社會科學,尤其更積極應用於工商企業及政府的情報決策。隨著2001 年巨量資料(Big
Data)時代來臨,統計分析、資訊科技及雲端技術密切結合,已成為資料科學(Data Science)中的重要主軸之一。
統計(Statistics)的意義,是針對研究計畫之目的,將事前預先規劃且已收集到的資料,運用各種分析方法,進行有系統的整理分析,找出變數之間的影響性或關聯性,並歸納出影響結果的重要原因。而這些原因的發現,將有助於縮減未來不確定的狀況,較精準的聚焦於關鍵因素,從而提高管理決策的品質,有效協助管理決策的制定與執行。換言之,統計實務是將統計觀念應用於實際的事務或現象上的估計或預測,再藉由所得到的估計或預測的結果,作為決策的參考。而統計學即是透過樣本資料所得到的分析結果,推論母體特性的一門學科,也就是介紹「統計」相關科學與技術理論的學問。所以,統計實務是在實踐統計學的應用,利用母體的一部分資料(即樣本),透過統計的方法與理論,找出可以得知母體參數或未來趨勢的模型或估計數值。
美國學者高德納(Donald Ervin Knuth)
於2012
年提出大數據資料分析應涵蓋四個要素(4V),即資料成長數量(Volume)、資料成長速度(Velocity)、資料多元化(Variety)及資料真實性(Veracity)。數據資料
在4V
的運作狀態下,可作為創造決策的參考。現今人們的生活型態,包括食、衣、住、行、育、樂,時時刻刻都充滿著新的數據資料,若能善用統計及大數據觀念,將可大幅改善管理決策。網路及消費資料愈來愈受到全球重視,已有許多企業運用大量數據分析進行有效的行銷策略,顯見大數據分析已逐漸成為未來行銷的新趨勢。例如:
1.
電信業者透過數以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業。
2. 電信業者把手機位置信息和互聯網上的信息結合,為顧客提供附近的餐飲店或提供末班車信息服務。
3. 專業服裝業透過Twitter 和Facebook
收集社交信息並進行分析,得出必須保留兩類有價值的顧客:高消費者和高影響者,讓用戶進行口碑宣傳。
因此,面對經濟及社會的急遽變化,僅靠傳統的經驗與直覺,已不一定能做出最正確的決策模式。而透過統計完成數據資料的詮釋與分析,可以挖掘資料所隱含的訊息,預測未來的市場及產品的發展趨勢,降低經營不確定性的風險。
本書是統計實務與大數據應用的入門書,共分為三大部分。
第一部分共計三章,即第一章至第三章,為描述性統計的介紹,可使學生及實務工作者瞭解大多數企業及機構,常用的描述性統計分析。包括:資料尺度、資料型態、常用統計圖形及資料初步分析。
第二部分共計四章,即第四章至第七章,為統計推論基本概念及常用基礎統計分析,以作為大數據分析之基礎。包括:機率理論、條件機率、常態分配及簡易的無母數統計方法、統計估計、研究假設及檢定、相關分析及迴歸分析。
相關分析探討兩變數之間的線性關聯性。若為正相關,表示一個變數上升(或下降),另一個變數也會上升(或下降);若為負相關,表示一個變數上升(或下降),另一個變數也會下降(
或上升)。迴歸分析探討一個或多個自變數,對一個目標變數正向或反向的影響關係。
第三部分共計六章,即第七章至第十二章,為常用的大數據分析概念及技術。包括:大數據概述、大數據「分類」模型之決策樹(Decision
Trees)、羅吉斯迴歸(Logistic Regressions)及貝氏機率分類法(Bayes Probability
Classification)。大數據「分群」模型之叢集分析(Cluster Analysis)及類神經網路(Neural
Network)。大數據「關聯與預測」模型分析之關聯規則(Association Rule)及時間序列(Time
Series)。最後,第十二章為進階統計實務之發展,探討統計資訊的演進、統計深度學習、統計機器學習及人工智慧。
本書之特點有三:
1 本書兼顧實務描述性資料分析、基本統計實務分析及常用大數據分析技術。
2 本書為使內容易於閱讀、理解及教學,故儘量以圖表、案例及數學公式詳細分項說明。
3 本書所有實作範例(包含大數據分析技術),皆以EXCEL 軟體之函數及公式為之,以達到易學易用之效。
本書初衷是期望將統計實務及大數據分析,進行有系統的分析與整理,俾有助於大學生、研究生及管理實務工作者,釐清觀念並增進應用知識。然鑒於本書撰寫之時,全球許多政府、企業及研究機構,刻正進行大數據理論及實務應用之更新及發展。因所學有限,全書內容或有掛一漏萬、文字不當之處,冀祈各界先進不吝賜教,是所至盼。