2018年通信業務公司軟件研究院大數據技術概覽培訓課件.pdf
下載文檔
上傳人:地**
編號:1266402
2024-12-16
41頁
2.09MB
該文檔所屬資源包:
通信業務公司軟件研究院大數據技術信息安全IT總體規劃培訓課件資料
1、大數據技術概覽目錄1 1大數據背景大數據背景2 2大數據面臨挑戰大數據面臨挑戰3 3大數據典型應用場景大數據典型應用場景4 4運營商大數據特征與優勢運營商大數據特征與優勢5 5大數據與大數據與HadoopHadoop技術技術6 6大數據技術趨勢大數據技術趨勢大數據背景何為大數據?與傳統數據的區別?自然(Nature)雜志專刊The next google 第一次提出“大數據”概念2008年9月2011年2月科學(Science)雜志??疍ealing with data,通過社會調查的方式,第一次綜合分析了大數據對人們生活造成的影響。2011年5月麥肯錫研究院發布報告Big data,the 2、next frontier of innovation,competition,and productivity第一次給大數據做出相對清晰的定義:大數據是指其大小超出了常規數據庫工具獲取、存儲、管理和分析能力的數據集。大數據(BIG DATA)是可以被記錄、采集和開發利用的海量、實時、多樣化的數據集、數據流和數據體。何為大數據?與傳統數據的區別?01020304多樣性種類和來源多樣化。包括結構化、半結構化和非結構化數據,具體表現為網絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。容量大數據量大,包括采集、存儲和計算的量都非常大。大數據的起始計量單位至少3、是P(1000個T)、E(100萬個T)或Z(10億個T)價值密度低隨著互聯網以及物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何結合業務邏輯并通過強大的機器算法來挖掘數據價值,是大數據時代最需要解決的問題。速度快數據增長速度快,處理速度也快,時效性要求高。比如個性化推薦算法盡可能要求實時完成推薦。這是大數據區別于傳統數據挖掘的顯著特征。4VVolumeVelocityVarietyValue不論大數據還是小數據,能起到作用,就是好數據。何為大數據?與傳統數據的區別?維度傳統數據數據量多樣性增長速度分析方法GB-TBTB-PB以上價值體現結構化數據結構化、非結構化、多維、音視4、頻數據數據量穩定增長不快持續實時產生數據要求即時處理單一業務,抽樣數據非實時分析,注重結果全業務,全量數據實時分析,由果及因報表和統計數據挖掘預測性分析大數據大數據技術的軟件?,F狀分布式存儲引擎資源管理框架通用計算引擎領域級引擎分析管理工具短時任務資源管理框架YARN長時任務資源管理框架Mesos資源隔離調度管理框架Kubernetes批處理框架Map/Reduce2,Tez高性能處理框架Spark向量處理框架TensorFlow分布式文件系統HDFS搜索引擎Elastic Search分布式大表HBase分布式緩存Redis消息隊列Kafka分布式協作服務Zookeeper流處理引擎Stre5、amingProcessingSQL批處理BatchProcessing數據挖掘機器學習算法庫框架MachineLearning交互式分析OLAPAnalysis實時數據庫OLTPTransactionalProcessing圖分析引擎GraphAnalysis深度學習DeepLearningETL數據裝載工具Workflow工作流開發工具數據質量管理工具統計挖掘開發工具資源管理工具機器學習建模工具可視化報表工具進展1:分布式計算已逐漸成為主流計算方式TransactionRelational DatabaseBatchDataWarehouseAnalyzeClusterUnstructur6、ed StreamingDevicesAnalyze(MapReduce)OrganizeTraditional Data AnalysisBig Data Analysis0500100015002000250030001TB10TB30TB100TBSQL Engines PerformanceTPC-DS Execution Time for 99 Queries(in minutes)Test environment:29 worker nodes2 CPUs,12 Cores,E5-2620 v2 64 GB memoryNetwork:2 X 1GbpsDisks:12 X 3TB7、Hadoop大數據集群已經可以在生產環境中處理PB級數據SQLOnHadoop引擎已能夠高效處理百TB級數據復雜分析進展2:交互式分析技術和工程化套件日益成熟Spark SQL Execution Engine交互式數據探索HBase明細查詢、影像檢索、文檔檢索Based on HDFS數據關聯挖掘RstudioR語言Web IDE分布式內存/SSD列式存儲HUE/Zeppelin圖形化數據分析查看智能索引技術全局索引全文索引數據稽核元數據管理數據處理工作流調度分布式統計算法庫分布式挖掘算法庫SQL EditorSQL開發工具ODS 貼源層 文本文件DWD 基礎明細層 Hive事務表公共主題模8、型層主流報表工具Data Mining圖形化挖掘工具Cube Designer工具進展3:數據分析算法逐漸豐富,工具普及化通過R可以連接數據倉庫中數據表,做數據預覽可以對列做tag/feature的管理通過內置的分布式統計算法完成相關的預處理與數據分析支持標準化,歸一化,正則化,缺失值填充,數據分箱等支持集成組件進行數據ETL處理用戶通過GUI選擇算法開發訓練模型模型編譯成為DAG,由組件來調度任務支持單機R算法和分布式算法訓練模型導出模型模型可以轉換成生產系統的代碼,部署到實際業務中結合業務領域專家知識,及相關算法降維,選擇特征指標與維度利用深度學習網絡算法,通過升維降低特征工程維度選取難度9、AI模型可視化Deep Learning深度學習模型上生產模型訓練特征工程預處理數據預覽DimensionReduction主成分分析Linear Regression線性回歸AI模型訓練套件Python/R/SparkMLLIB 語言開發=算法工程師,數據科學家交互式挖掘=業務分析師,數據科學家進展4:大數據正驅動AI引領新一代機器智能革命理論、數據、硬件的突破:CNN RNN LSTM GAN、ImageNet、CUDA GPU圖像識別/計算機視覺語音/個人助手/翻譯/智能對話無人駕駛/無人XXXXXX圖片標注/看圖說話自動游戲/增強學習目標檢測/對抗網絡/物體識別大數據面臨挑戰大數據時代10、企業面臨的挑戰:深度分析、機器學習和人工智能競爭優勢分析成熟度原始數據清洗后數據常規報表領域經驗多維分析大數據分析優化感知&響應已經發生了什么?(史實)已經發生的為何發生?(經驗決策)預測&行動即將發生什么?(前瞻)怎樣于預測到的未來,為企業尋求利益最大化?(以數據為依據的前瞻性決策,將引領企業)企業建設大數據體系面臨諸多挑戰在數據中挖據價值:Value=F(Data,Time)數據采集數據安全數據存儲空間成本時間成本分布式-網絡-云計算機器智能&人工智能圖數據庫&知識圖譜機器學習&深度學習軟硬協同數據管理分析演進計算優化傳統BI&新型AI數據治理企業建設大數據體系面臨諸多挑戰在數據中挖據價值11、:Value=F(Data,Time)數據采集數據安全數據存儲空間成本時間成本分布式-網格-云計算機器智能知識圖譜深度學習軟硬協同數據管理分析演進計算優化BI-AI數據治理企業內部:傳統IT系統集成ERPCRMSCM互聯網:網絡爬蟲、反爬蟲電商、垂直站點IOT物聯網:可穿戴式設備工業4.0平臺制造實時流采集企業建設大數據體系面臨諸多挑戰在數據中挖據價值:Value=F(Data,Time)數據采集數據安全數據存儲空間成本時間成本分布式-并行-云計算機器智能知識圖譜深度學習軟硬協同數據管理分析演進計算優化BI-AI數據治理企業建設大數據體系面臨諸多挑戰在數據中挖據價值:Value=F(Data,12、Time)數據采集數據安全數據存儲空間成本時間成本分布式-網格-云計算機器智能&人工智能圖數據庫&知識圖譜機器學習&深度學習軟硬協同數據管理分析演進計算優化傳統BI&新型AI數據治理大數據典型應用場景用途1:實現企業級數據整合,消除數據割裂,提供綜合分析能力以前的信息狀況:沒有統一數據分析中心,數據割裂、不一致企業級大數據平臺業務系統用戶建立企業級大數據分析平臺之后:消除數據割裂、數據統一、分析更全面數據大量重復存儲數據口徑的不一致,數據可信度較差只側重某方面分析,缺乏綜合分析高昂的成本(系統成本、人力成本)數據統一整合存儲保證了數據的一致性、完整性,數據可信度高提供綜合分能能力,支撐更全面更13、及時地決策整體成本更低業務系統用戶數據集市統計報表數據集市用途2:從小型機SAN存儲高成本模式轉變為X86+Hadoop低成本模式以前的系統架構小型機SAN存儲的模式,造價高,難擴展現在的系統架構X86+Hadoop/Spark架構成本低,易擴展數據量越來越大,小型機SAN存儲的建設模式造價高昂,難以承受;計算、存儲需求迅速膨脹,原有服務器達到性能瓶頸,不能橫向擴展,只能采用更高端服務器對非結構化數據難以存儲和管理系統采購成本大大降低,可為原有的1/41/8;系統可以方便地添加節點進行橫向擴展,可以滿足PB級數據存儲和計算需求對結構化、非結構化數據都能很好地支撐X86服務器Hadoop/Spa14、rk分布式計算框架用途3:多租戶/跨部門用戶共享使用大數據平臺資源HadoopHadoop集群集群關系型數據庫關系型數據庫流處理流處理MPPMPP集群集群DB2/Oracle/Teradata根據不同需求場景對基礎設施進行合理劃分合部署,為多應用提供租戶模式,實現資源共享聯通大數據產品體系中國聯通在大數據對外近2年的運營過程中,形成了較完善的產品體系,歸納為8大類產品。標簽體系能力開放平臺基礎產品標準產品平臺級解決方案風控平臺數字營銷沃指數智慧足跡旅游大數據政務大數據運營商大數據特征與優勢運營商大數據現狀:擁有的數據具備典型大數據特征數據量巨大(Volume)海量信令信息(位置更新開關機網絡質15、量)海量互聯網行為數據(DPIURLAPP社交媒體關鍵詞)海量話單信息(語音話單短信話單CDMA話單)M2M(Machine to Machine)數據速度快(Volume)產生速度快:互聯網信令數據秒級到毫秒級的生成記錄交互速度快:業務上需要能夠對數據實時訪問和處理數據結構多樣(Variety)文本信息:互聯網網頁、投訴文本、短信文本WAP日志/WEB日志用戶行為內容客戶語音營業廳影像票據等傳統結構化數據分析復雜度(Complexity)大數據交互式分析移動互聯網背景下的客戶行為分析復雜結構數據的關聯整合復雜負載類型的管理運營商大數據驅動力:數據運營商 實現企業轉型大數據平臺數據運營商構建平16、臺轉變思路網絡運營商智能管道業務應用服務數據資源渠道資源租售數據模式租售信息模式數字媒體模式數據使能模式數據空間運營模式大數據技術提供商政府企業廣告商供應商個人用戶開拓市場電商輿情政府SPCP更多行為數據外部數據產業數據擴大來源數據挖掘算法數據分析應用投資機構研究機構工程師學者發現價值運營商大數據價值變現的能力框架通訊運營商生態系統大數據大數據時代的BI能力運營商大數據價值趨向全企業內外部整合的數據智能數據可視化能力跨行業數據服務能力海量輿情分析能力社交網絡分析能力地理位置分析能力多結構數據處理能力數據驅動營銷深度洞察客戶行為和客戶在多渠道和網絡上的交互業務服務創新基于對產品偏好和使用模式的分17、析,創造新的服務和產品商業模式變革利用現有的基礎設施和數據資產來創造新的服務,獲取新價值交易數據交易數據交互數據交互數據流程數據流程數據I.新型的新型的產品及服品及服務II.新一代新一代客客戶體體驗管理管理III.數據與基數據與基礎建建設貨幣化化IV.提升提升CAPEX/OPEX效益效益提升股東回報在不犧牲現有運營能力和效率的前提下,使運營成本和投資成本的績效最大化優勢:運營商具備前所未有的深度洞察能力/大數據與Hadoop技術 Hadoop是Apache基金會的一個項目總稱,主要由HDFS、MapReduce和HBase等組成 HDFS是對Google GFS的開源實現,MapReduce是18、對Google MapReduce的開源實現,HBase是Google BigTable的開源實現 Hadoop 來源于其創始人Doug Cutting的兒子給一頭黃色大象取的名字 Hadoop最初只與網頁索引有關,迅速發展成為分析大數據的領先平臺HadoopHadoop架構體系1.分布式存儲層HDFS2.資源管理層YARN/Mesos3.數據處理層MapReduce/Tez/Spark等4.數據存儲交互層HBase/Hive/Cassandra等什么是半結構化/非結構化數據Social MediaMachine/SensorDOC/MediaWeb ClickstreamAppsCall L19、ogLog來源于Google,在類似搜索引擎的查詢并行化分析處理領域取得極大成功針對大規模數據密集型應用的編程范式(programming paradigm)所基于的BigTable和HDFS 是非常質樸的數據模型和存儲系統適用領域有限,為大數據研究打開了思路,但絕不代表大數據技術全部回到起點來重新審視數據管理之目的回到起點來重新審視數據管理之目的大數據技術就是Hadoop+M/R?數據庫界從一開始就探索過,但還是過于保守忘不掉ACID,舍不得Relation,忽視實際應用沉浸在自己的世界里空值理論(Null Value),泛關系(Universal Relation)數據庫設計的范式理論(F20、D,MVD,4NF,5NF,)潛意識地奉行“一招鮮”(One Size Fits All,OSFA)Hadoop+Map/Reduce+Bigtable+HDFS響亮一擊回到起點來考慮數據管理問題,豁然開朗大數據是數據庫的自然延伸大數據是數據庫的自然延伸大數據和數據庫的關系 High performance 高并發讀寫的需求高并發、實時動態獲取和更新數據 Huge Storage 海量數據的高效率存儲和訪問的需求類似SNS網站,海量用戶信息的高效率實時存儲和查詢 High Scalability&High Availability 高可擴展性和高可用性的需求需要擁有快速橫向擴展能力、提供7*221、4小時不間斷服務大數據的系統需求高并發讀寫大數據存儲的核心需求高效率存儲和訪問高可擴展性和高可用性低成本建設運維 保證一致性的開銷過大,難以實現高并發 存儲性能受限于控制器,性能難以保證 關系型表單存儲難以適應不同數據類型 上億行數據的超級達標效率極低 傳統基于盤陣的存儲設備,造價昂貴,且市場壟斷嚴重,建設成本居高不下,擴容成本尤其高 許可和維護花費高昂 無法簡單的通過添加服務節點來擴展數據容量和負載能力,難以進行橫向擴展 數據庫升級需要停機維護和數據遷移,導致服務中斷 不保證遵循ACID原則,提高并發讀寫性能 Schema-Free存儲適應不同數據類型舍棄SQL標準功能,盡量簡化數據操作,提22、升效率MapReduce實現高效訪問 基于X86設備,價格低廉開源系統,節省許可費用 支持水平擴展,可簡單的通過添加服務節點來擴展數據容量和負載能力數據庫升級不影響服務持續RDMSNoSQL數據處理技術分布式演進趨勢:Hadoop成為開發的事實標準Why Hadoop?1.擴展:Hadoop在集群中并行處理,集群可以方便擴展到數以千(萬)計節點。2.可靠:Hadoop的分布式文件系統以及任務管理,資源調度機制。3.高效:Hadoop海量集群并行處理帶來極致性能。4.經濟:Hadoop可以運行在普通服務器上,且并不依賴某個節點。大數據技術趨勢大數據的技術趨勢SQL on Hadoop Hadoo23、p as service云計算、微服務容器化與大數據的融合SSD,Flash,Spark,TachyonMemory Computing Machine Learning/Deep Learning探索與發現更好的分析和利用我們的數據平臺技術需要持續關注開源社區的發展Hadoop 3.0新的大數據存儲技術(KUDU,對象存儲和新的非結構化數據存儲技術),提升平臺的吞吐,降低存儲成本Docker技術,實現按照需求創建計算節點(Kubernets),提升計算集群彈性新的任務調度機制,實現細粒度的任務調度(Mesos,Yarn/docker)分布式虛擬文件系統,實現混合云或多數據中心的數據高效訪問(Hadoop 3.0 ViewFS 和Alluxio)實時數據處理技術,框架(Samza/Lambda/Flink等),實時可視化(StreamSets)支持物聯網的超大吞吐率實時解決方案,甚至沒有像樣的開源項目在做大數據安全沒有整體解決方案,各種證書和認證體系,導致數據安全導入和管理困難重重GPU對于大數據計算引擎的持續加速,利用GPU內存加速復雜查詢R和Python在大數據平臺的深度整合和優化高可用的大數據平臺,免維護可以自動長時運行,達到99.9%的可用性TensorflowTHANKS