TipDM大數據云服務實驗室建設方案.pdf
下載文檔
上傳人:地**
編號:1231938
2024-10-11
9頁
366.55KB
1、 TipDM 大數據云服務實驗室建設方案 廣州泰迪智能科技有限公司 2016 年 4 月 1 一、背景一、背景 1.1 1.1 大數據挖掘行業背景和發展趨勢大數據挖掘行業背景和發展趨勢 移動互聯網、電子商務以及社交媒體的快速發展使得企業需要面臨的數據量成指數增長。根據 IDC 數字宇宙(Digital Universe)研究報告顯示,2020 年全球新建和復制的信息量已經超過 40ZB,是 2012 年的 12 倍;而中國的數據量則會在 2020 年超過 8ZB,比 2012 年增長 22 倍。數據量的飛速增長帶來了大數據技術和服務市場的繁榮發展。IDC 亞太區(不含日本)最新關于大數據和分析2、(BDA)領域的市場研究表明,大數據技術和服務市場規模將會從 2012 年的 5.48 億美元增加到 2017 年的 23.8 億美元,未來 5 年的復合增長率達到 34.1%。該市場涵蓋了存儲、服務器、網絡、軟件以及服務市場。數據量的增長是一種非線性的增長速度。據 IDC 分析報道,最近一年來,亞太區出現了越來越廣泛的大數據和分析領域的應用案例。在中國,從互聯網企業,到電信、金融、政府這樣的傳統行業,都開始采用各種大數據和分析技術,開始了自己的大數據實踐之旅;應用場景也在逐漸拓展,從結構化數據的分析,發展到半結構化、非結構化數據的分析,尤其是社交媒體信息分析受到用戶的更多關注。用戶們開始評估3、以 Hadoop、數據庫一體機以及內存計算技術為代表的大數據相關新型技術。最新調研結果顯示,提高競爭優勢,降低成本以及吸引新的客戶是中國用戶對大數據項目最期望的三大回報。目前現有的大數據項目主要集中在業務流程優化以及提高客戶滿意度方面的應用。IDC 發現很多用戶希望大數據能夠為企業帶來業務創新,并且開始使用高級分析的解決方案以管理復雜的數據環境。過去一年中用戶對社交數據的收集和分析應用的關注度增加明顯。未來,地理位置信息分析將會增長迅速,這也會推動用戶對大數據安全和隱私管理的關注。在亞太區,澳大利亞和新加坡的用戶對大數據的相關投資主要在咨詢服務方面,更關注如何根據新的最佳實踐需求設計和實施方案4、。中國和印度在大數據領域的硬件投資則非常明顯,更傾向于數據中心相關的基礎架構的投資。在傳統的數據分析與商業數據挖掘中,人們通常遵循二八原則。也就是任務 20%的用戶提供了 80%的價值,因此利用優勢資源用戶對于少數用戶的服務。隨著 2 互聯網的發展,越來越多的低價值用戶進入到商業體系中,這部分用戶成為商業企業競爭的目標。比如電商行業,大量顧客都是傳統意義上的低價值客戶,數據表明對于這部分用戶價值的挖掘可以改變二八原則,甚至可達到價值的幾乎均勻分布。并且由于計算技術的發展,對于大數據的分析也成為了可能。1.21.2 大數據大數據挖掘實驗室建設的必要性挖掘實驗室建設的必要性 數據挖掘與大數據分析是5、以計算機基礎為基礎,以挖掘算法為核心,緊密面向行業應用的一門綜合性學科。其主要技術涉及概率論與數理統計、數據挖掘、算法與數據結構、計算機網絡、并行計算等多個專業方向,因此該學科對于實驗室具有較高的專業要求。實驗室不僅要提供基礎的開發環境,還要提供大數據的運算環境以及用于實驗的實戰大數據案例。這些實驗素材的準備均需專業的大數據實驗室作為支撐。目前,在我國高校的專業設置上與數據挖掘與大數據分析實驗相關的學科專業包括:計算機科學與技術、信息管理與信息系統、統計學、經濟、金融、貿易、生物信息以及公共衛生等。這些專業的學生需要分別從原理、技術與應用等不同的角度掌握大數據分析的理論與分析方法。學生要很好地6、掌握這些課程,除了課堂學習,通過實驗來加深理解和提高實際應用操作能力也是主要途徑。調查表明,數據挖掘與大數據分析實驗所需要的算法、計算環境以及數據等,都無法在我國高校現有的實驗室中完成。因此,建設專門的數據挖掘與大數據分析實驗室就顯得非常重要。二二.實驗室設計理念實驗室設計理念 數據挖掘與大數據分析實驗室的設計全面落實“產、學、研”一體化的思想和模式,從教學、實踐、科研和使用多方面注重專業人才和特色人才的培養。本實驗室建設方案融合數據挖掘與大數據分析專業教學、實訓、實戰等各層次實踐教學,能夠從面向大數據分析行業需求和促進學生職業發展的角度規劃和建設數據挖掘與大數據分析實驗室,真正在產業、學校、7、科研及實際項目中相互配合,發揮優勢,形成生產、學習、科學研究、實踐運用的系統運作模式,從而建設大數據挖掘特色專業。將云存儲資源、服務器資源和網絡資源整合,然后通過 Vmware 等虛擬化搭建 3 私有云平臺,在私有云平臺上搭建統一的數據挖掘平臺和基于 Hadoop 的大數據分析平臺。大數據分析教學平臺的建設能讓學生既掌握必要的理論基礎,又能將大數據分析理論和方法用于解決實際問題。該大數據教學平臺也能解決教學過程中實驗環節非常薄弱,造成學生缺少數據挖掘實踐經驗、缺乏實踐應用能力等問題。基于 Hadoop實戰項目,在大數據實戰環境中,通過動手實操,讓學員在短時間內掌握使用平臺開發 Hadoop 程8、序,以完成高效的大數據存儲、清洗和分析。同時,通過專業的大數據分析計算資源搭建的開放式大數據分析平臺,可以充分的融合教師的科研需求,教師可以在開放的平臺環境下開展大數據科研工作,提升教師的科研創新能力,充分提高“研”的成效。三三、實驗室建設實驗室建設 實驗室建設包括實驗室硬件設備,大數據挖掘案例沙盤模型、大數據挖掘平臺以及相關案例資料。該實驗室方案按照數據挖掘、大數據平臺與算法、行業實戰數據分析三個層次來搭建。通過典型的算法展示、算法實現結合大數據分析的應用場景與案例對學生進行數據分析方面的綜合訓練,從而實現專業實驗教學的由點及面、理論到應用、涵蓋原理驗證/綜合應用/自主設計及創新的多層次實驗9、體系。1)基礎環境建設 包括學生電腦,服務器資源以及投影等整套實驗室設備。詳見詳見商務報價商務報價 2)頂尖數據挖掘教學沙盤(TipDM-SP)包括智能交通仿真沙盤、竊漏電用戶自動識別模擬沙盤、管網漏損自動分析模擬沙盤、菜品推薦 PAD 四個沙盤模型。詳見頂尖數據挖掘教學沙盤(詳見頂尖數據挖掘教學沙盤(TipDMTipDM-SPSP)產品白皮書產品白皮書。3)頂尖數據整合工具(TipDM-I2,簡稱 I2)以 ODS/DW 的實施過程為基礎,工具平臺集成了十多年在 BI 行業 ETL 領域的實施經驗與深厚的積累,尤其是在 ETL 領域的數據整合和優化方面的豐富經驗,4 從實施的角度對實施流程的10、規范化,實施過程工具化,減少人為的出錯因素,進一步提高了系統的可維護性,不需維護系統中的代碼,只需維護映射規則文檔。平臺各個工具組件可以單獨進行使用,但是也可以相互結合,從而進一步提高開發效率,使開發過程并行化。詳見頂尖數據整合工具(詳見頂尖數據整合工具(TipDMTipDM-I2I2)產品白皮書。)產品白皮書。4)頂尖數據挖掘教學實訓平臺(TipDM-T6,簡稱 T6)頂尖數據挖掘輔助教學套件(TipDM-T6,簡稱 T6)是專門針對高校數據挖掘課程教學的實際情況,針對實踐環節薄弱,學員實際應用能力差這一教學弱點設計開發的一系列教學組件。能夠讓老師在講解數據挖掘算法理論的同時,通過實用的建模11、工具來模擬實際應用案例,在實驗室環境下體驗實際應用,由此彌補學員實踐經驗的不足。在教學過程中,強化應用和實驗,做到理論與實踐的有機結合,使學生受益,老師授課方便。詳見詳見頂尖數據挖掘教學實訓平臺頂尖數據挖掘教學實訓平臺(TipDMTipDM-T6T6)產品白皮書)產品白皮書 5)頂尖大數據工程教學實訓平臺(TipDM-H8,簡稱 H8)頂尖大數據工程實訓平臺又稱大數據挖掘實戰中心(TipDM-H8,簡稱 H8),將云存儲資源、服務器資源和網絡資源整合,然后通過 Vmware 等虛擬化 搭建私有云平臺,在私有云平臺上搭建統一的數據挖掘平臺和基于 Hadoop 的大數據分析平臺。大數據工程實訓平臺12、的建設能讓學生既掌握必要的理論基礎,又能將大數據分析理論和方法用于解決實際問題。該大數據教學平臺也能解決教學過程中實驗環節非常薄弱,造成學生缺少數據挖掘實踐經驗、缺乏實踐應用能力等問題。基于 Hadoop實戰項目,在大數據實戰環境中,通過動手實操,讓學員在短時間內掌握使用平臺開發 Hadoop 程序,以完成高效的大數據存儲、清洗和分析。詳見詳見頂尖頂尖大數據工程大數據工程實訓平臺實訓平臺(TiTipDMpDM-H8H8)產品白皮書)產品白皮書 四、實踐教學應用實踐教學應用 下面以韓山師范學院使用 H8 套件為例,介紹泰迪大數據實驗室在高校教學實踐中的應用。4 4.1.1 課程安排課程安排 韓山13、師范學院,于 2014 年在應用數學及統計學中聯合廣州泰迪智能科技有限 5 公司給學生加入大數據挖掘相關課程的學習,引入泰迪科技的 H8 套件。大數據建模與挖掘課程安排如下:課時安排:35 學時理論教學+35 學時隨堂實驗+5 天項目實訓,理論學時及案例實驗由高校老師授課,項目實訓由公司指派大數據分析工程到學校進行統一指導。學生人數:48 人。教師:1 人,負責理論課的教授。助教:1 人,負責實驗課的輔導。使用教材:hadoop 大數據分析與挖掘實戰 考核指標:模塊 評分標準 占比 隨堂實驗 掌握大數據挖掘基本工作的應用,并且在完成相關理論知識的學習之后,對課堂講授的5個項目案例,利用教材中配14、套的原始數據,通過大數據挖掘開發實訓平臺完成模型的構建,并且對相對應的模型進行分析。40%項目實訓 針對一個類似的課堂授課案例,利用大數據挖掘開發實訓平臺,選擇合適的模型對數據進行建模,并完成一份分析報告。報告主要從思路清晰程度;正確分析和理解相關領域背景問題,正確合理地使用模型、算法;客觀地評價所得的建模結果;創新性等方面進行評價。40%平時考核 從學生課程及實訓時的表現,教師給出的平時成績 20%注:課程安排由泰迪科技專家組與韓山師范學院教師代表一起探討制定,并且為理論課上課老師提供企業應用案例培訓(如有需要,理論課的教學也可以由公司安排)。6 4 4.2.2 平臺引入平臺引入 學校使用廣15、州泰迪智能科技有限公司 H8 套件進行學生的實踐教學,搭建大數據實驗室(大數據挖掘建模平臺、大數據開發實訓平臺),在該實驗室內進行程案例實驗教學及后期實訓工作。4 4.3.3 隨堂實驗隨堂實驗 在實際的教學中,在完成基礎工具的實驗任務之后,任課老師還可以將書中案例分別給學生做教學演示并且讓學生動手實際操作,完成案例中的一部分內容,H8套件中附帶有所有案例的源數據、過程數據以及 Hadoop 環境下程序/模型。解決了在教學中沒有相關數據來源以及真實程序/模型的難題。學生通過多次試驗,對所學理論知識及相關工具有了直觀的理解,并且親自動手得出的實驗結果也讓學生對理論教學產生了更加濃厚的興趣,達到教學16、上良性循環的目的。4 4.4.4 項目實訓項目實訓 在完成70課時的理論加實驗課時之后,由泰迪科技指派資深工程師到學校指導學生進行為期5天的全真項目案例實訓。學生自由組隊,共分為8個小組,選取“航空公司客戶價值分析”作為實訓題目進行完整的項目實訓。要求:利用從航空公司取得的原始數據,通過大數據挖掘開發實訓平臺完成基于分布式聚類算法的客戶分群,同時基于分群結果對航空公司的客戶價值進行分析,并且能夠解釋模型反映的業務指標,對航空公司接下來的精準營銷提出建設性的意見。在通過的 8 個小組作業中,經過工程師的評估,有 2 份作業可以達到企業初步應用級別。這 2 份作業的完成者也獲得了直接進入泰迪科技實17、習的機會,在實習中進一步學習大數據挖掘在企業項目中的應用。4 4.5 5 使用反饋使用反饋 在學校的角度 1)合格的教師團隊。H8 的引入幫助高校培養起專業的師資團隊,經過實踐,7 能夠很好的勝任所安排課程的教學工作。2)專業的教學材料和合理的課程安排。在企業與實踐的角度,利用泰迪科技多年產學研的經驗,幫助高校設計出更加符合業界需求的課程設置。充分保證學生由淺到深,深入淺出的學習大數據分析的知識和技能。保證理論與實踐相結合,學以致用。3)幫助學校搭建起大數據實踐平臺,并協助維護,給大數據挖掘的實踐教學創造一個良好的環境。在學生的角度 1)能夠在案例中學習實踐。真實的企業案例讓學生在大數據分析學18、習的過程中收到事半功倍的效果,只有在案例中學生才可能理解理論知識的運用方式。2)獲得深入企業實踐的機會。泰迪科技本身從事大數據挖掘的項目,與一批優秀的企業建立了合作關系。作為 H8 套件的一部分,學生可以在課程完成后獲得企業實習機會,在項目中繼續磨練自己的技能。讓企業作為學習成果的驗收方,優秀的實習生可以直接留在企業工作。4 4.6.6 教學成果教學成果 在 2015 年第三屆“泰迪杯”數據挖掘競賽中,韓山師范學院學生取得不俗的成績。其中一組隊伍的作品“基于電商平臺家電設備的消費者需求及產品數據挖掘分析”獲得廣東美的廚衛電器制造有限公司數據中心負責人鄭秋先生的高度認可,認為他們的作品很好的將理19、論應用到了企業項目中,能夠為電商平臺的建設及產品營銷提供建設性的指導意見。五、建設建議建設建議 T6 跟 H8 均為高解決高校教學中實踐環節薄弱,學生實際應用能力差這一教學弱點設計開發。能夠讓老師在講解數據挖掘算法理論的同時,通過實用的建模工具來模擬實際應用案例,在實驗室環境下體驗實際應用,由此彌補學員實踐經驗的不足。在教學過程中,強化應用和實驗,做到理論與實踐的有機結合,使學生受益,老師授課方便。8 兩個套件中 T6 主要針對數據挖掘模型的構建,不需要太多的計算機開發基礎,比較適合與數學、統計等計算機學生,但是對大數據的處理能力上會有所欠缺。而 H8 將云存儲資源、服務器資源和網絡資源整合,然后通過 Vmware 等虛擬化搭建私有云平臺,在私有云平臺上搭建統一的數據挖掘平臺和基于 Hadoop 的大數據分析平臺,利用分布式的存儲及運算方式更適合于數據量較大時的分析與處理。基于 Hadoop 實戰項目,在大數據實戰環境中,通過動手實操,讓學生在短時間內掌握使用平臺開發 Hadoop 程序,以完成高效的大數據存儲、清洗和分析。相比之下,H8 需要更好的計算機編程基礎。學校在進行實驗室建設時,可以在實驗室基礎環境建設、案例沙盤、數據整合工具的基礎上根據學生情況有針對性對 T6 及 H8 的建設進行選擇。