Hadoop 大數(shù)據(jù)解決方案平臺技術(shù)培訓
Hadoop 大數(shù)據(jù)解決方案平臺技術(shù)培訓詳細內(nèi)容
Hadoop 大數(shù)據(jù)解決方案平臺技術(shù)培訓
Hadoop 大數(shù)據(jù)解決方案平臺技術(shù)培訓
【課程目標】
Hadoop
作為開源的云計算平臺,為大數(shù)據(jù)處理提供了一整套解決方案,應用非常廣泛。Hadoop
作為一個平臺框架,包括了如何存儲海量數(shù)據(jù),如何處理海量數(shù)據(jù),以及相應的數(shù)據(jù)庫
、數(shù)據(jù)倉庫、數(shù)據(jù)流處理、數(shù)據(jù)分析和挖掘算法庫,
等等。本課程主要介紹 Hadoop 的思想、原理,以及重要技術(shù)等相關(guān)知識。
通過本課程的學習,達到如下目的∶ 1、全面了解大數(shù)據(jù)處理技術(shù)的相關(guān)知識。
2、學習 Hadoop 的核心技術(shù)以及應用。
3、深入掌握 Hadoop 的相關(guān)工具在大數(shù)據(jù)中的使用。 4、掌握 Hadoop
的常用模塊的工作原理及開發(fā)應用技術(shù)。
5、掌握傳統(tǒng)數(shù)據(jù)中心向大數(shù)據(jù)中心轉(zhuǎn)換的關(guān)鍵技術(shù)。
6、掌握海量數(shù)據(jù)處理的性能優(yōu)化及維護技巧。
【授課時間】
2~5 天時間
【授課對象】
網(wǎng)絡(luò)部、大數(shù)據(jù)系統(tǒng)開發(fā)部、大數(shù)據(jù)中心、網(wǎng)絡(luò)運維部等相關(guān)技術(shù)人員。
【授課方式】
原理精講+案例演練+開發(fā)實踐+系統(tǒng)優(yōu)化
【課程大綱】
第一部分∶Hadoop 的基本框架
1、大數(shù)據(jù)時代面臨的問題
2、當前解決大數(shù)據(jù)的技術(shù)方案
3、Hadoop 架構(gòu)和云計算
4、Hadoop 簡史及安裝部署
5、Hadoop 設(shè)計理念和生態(tài)系統(tǒng)
二部分∶HDFS分布式文件系統(tǒng)∶海量數(shù)據(jù)存儲的搖籃
1、HDFS 的設(shè)計目標
2、HDFS的基本架構(gòu)
> NameNode 名稱節(jié)點
> SecondaryNameNode 第二名稱節(jié)點> DataNode 數(shù)據(jù)節(jié)點
3、HDFS的存儲模型
> 數(shù)據(jù)塊存儲
> 元數(shù)據(jù)存儲(空間鏡像與編輯日志)> 多副本存儲
4、多副本放置策略
多數(shù)據(jù)節(jié)點管理機制與交互過程
6、文件系統(tǒng)操作與管理
> 讀文件過程
> 寫文件過程(數(shù)據(jù)流管道)
7、數(shù)據(jù)完整性機制
> 數(shù)據(jù)校驗和> 數(shù)據(jù)完整性掃描線程元數(shù)據(jù)備份與合并
8、數(shù)據(jù)可靠性設(shè)計
> 安全模式(數(shù)據(jù)塊與節(jié)點映射關(guān)系管理)
> 心跳檢測機制(節(jié)點失效管理)
> 租約機制(多線程并發(fā)控制)
9、其它
> HDFS 的安全機制
> 負載均衡
> 文件壓縮
10、 操作接口與編程接口
> HDFS ShellHDFS Conmands
> WebHDFS REST API> HDFS Java API演練∶ HDFS 文件操作命令演練∶ HDFS
編程示例
第三部分∶MapReduce分布式計算系統(tǒng)∶海里數(shù)據(jù)處理的利器
1、MapReduce 的三層設(shè)計理念
> 分布治 之的設(shè)計思想(Map 與 Reduce)
> 數(shù)據(jù)處理引擎(編程模型)
> 運行時環(huán)境(任務(wù)調(diào)度與執(zhí)行)
2、MapReduce 的基本架構(gòu)
> JobTracker 作業(yè)跟蹤器
> TaskTracker 任務(wù)跟蹤器
> MapReduce 與 HDFS 的部署關(guān)系
3、MapReduce 編程模型概 述
> 編程接口介紹
> Hadoop 工作流實現(xiàn)原理
MapReduce 作業(yè)調(diào)度機制
> MapReduce 作業(yè)生命周期
> 作業(yè)調(diào)度策略靜態(tài)資源管理方案
5、數(shù)據(jù)并行處理機制(五步驟)
> Input 階段實現(xiàn)
> Map 階段實現(xiàn)
> Shuffle 階段實現(xiàn)
> Reduce 階段實現(xiàn)
> Output 階段
6、HapReduce 容錯機制
> 任務(wù)失敗與重新嘗試
> 節(jié)點失效與重調(diào)度
> 單點故障
7、MapReduce 性能優(yōu)化
> 優(yōu)化方向與思路
> 磁盤 Io 性能優(yōu)化
> 分片優(yōu)化
> 線程數(shù)量優(yōu)化
> 內(nèi)存優(yōu)化
>壓縮優(yōu)化
8、MapReduce 操作接口
> Job Shell> Web UI
案例演練∶MapRedce 編程示例 g、YARN∶ 下一代通用資源管理系統(tǒng)
> KRv1 的局限性
> YARN 基本框架
> HA 解決單點故障
HDFS Federatiox 解決擴展性問題
第四部分∶ Hase非關(guān)系型數(shù)據(jù)庫∶海里數(shù)據(jù)的黎明
HBase 的使用場景
2、HBase 的基本架構(gòu)
> Zookeeper 分布式協(xié)調(diào)服務(wù)器
> Master 主控服務(wù)器
> Region Server區(qū)域服務(wù)器
3、HBase 的數(shù)據(jù)模型
> Hase 的表結(jié)構(gòu)
> 行鍵、列鍵、時間戳
4、Hase 的存儲模型
> 基本單位 Region
> 存儲格式HFile
數(shù)據(jù)分裂機制 Split
數(shù)據(jù)合并機制Compaction> minor compactionmajor compaction
HLog 寫前日志
8、數(shù)據(jù)庫讀寫操作
> 數(shù)據(jù)庫寫入
>數(shù)據(jù)庫讀取
> 三次尋址
9、Hase 操作接口
Native Java API> HBase Shell
> 批量加載工具
> HiveQL 操作
10、 HBase性能優(yōu)化
> 寫速度優(yōu)化
> 讀速度優(yōu)化
11、 HBase 集群監(jiān)控與管理
案例演練∶Hase 命令操作實例
> 數(shù)據(jù)庫寫入
> 數(shù)據(jù)庫讀取
>三次尋址
9、HBase操作接口
> Native Java APIHBase Shell
> 批量加載工具
> HiveQL 操作
10、 HBase 性能優(yōu)化
>寫速度優(yōu)化
> 讀速度優(yōu)化
11、 HBase 集群監(jiān)控與管理
案例演練∶ HBase 命令操作實例
第五部分∶Hive分布式數(shù)據(jù)倉庫∶高級的編程語言
1、Hive是什么
2、Hive與關(guān)系數(shù)據(jù)庫的區(qū)別
3、Hive系統(tǒng)架構(gòu)
> 用戶接口層
> 元數(shù)據(jù)存儲層
> 驅(qū)動層
4、Hive常用服務(wù)
5、Hive元數(shù)據(jù)的三種部署模式
6、Hive的命名空間
7、Hive數(shù)據(jù)類型與存儲格式
> 數(shù)據(jù)類型
> TextFile/SequenceFile/RCFile
Hive的數(shù)據(jù)模型管理表外部表分區(qū)表桶表
HL語言命令實例
> DDL數(shù)據(jù)定義語言
> DML數(shù)據(jù)操作語言
> QUERY數(shù)據(jù)查詢語言
Hive自定義函數(shù)
> 基本函數(shù)(UDF)
> 聚合函數(shù)(UDAF)
> 表生成函數(shù)(UDTF)
Hive性能優(yōu)化
> 動態(tài)分區(qū)
> 壓縮
> 索引
>JVM 重用
案例演練∶ Hive 命令操作實例
第六部分∶Sqoop數(shù)據(jù)交互工具∶ Hadoop與傳統(tǒng)數(shù)據(jù)庫的橋梁
Sqoop 是什么
Sqoop 的架構(gòu)和功能
>Sqoop 1 架構(gòu)
> Sqoop2 架構(gòu)
3、數(shù)據(jù)雙向交換
> 數(shù)據(jù)導入過程
>數(shù)據(jù)導出過程
4、數(shù)據(jù)導入工具與命令介紹
案例演練∶ Sqoop 數(shù)據(jù)導入/導出實際操作
第七部分∶Pig數(shù)據(jù)流處理引擎∶ 數(shù)據(jù)腳本語言
1、Pig 介紹
2、命令行交互工具 Grunt 3、Pig 數(shù)據(jù)類型
4、Pig Latin卻本語言介紹
> 基礎(chǔ)知識
> 輸入和輸出
>關(guān)系操作
> 調(diào)用靜態(tài) Java函數(shù)
Pig Lati高級應用
6、開發(fā)與測試Pig Lati腳本
>開發(fā)工具任務(wù)狀態(tài)監(jiān)控
>調(diào)試技巧
7、腳本性能優(yōu)化
8、用戶自定義函數(shù) UDF
案例演練∶ Pig Latin腳本編寫、測試與運行操作
結(jié)束∶課程總結(jié)與問題答疑。
尹傳亮老師的其它課程
Python機器學習算法實戰(zhàn) 06.19
Python機器學習算法實戰(zhàn)【課程目標】本課程為高級課程,專注于機器學習算法,原理,以及算法實現(xiàn)及優(yōu)化。通過本課程的學習,達到如下目的:熟悉常見的機器學習的算法。掌握機器學習的算法原理,以及數(shù)據(jù)推導。學會使用Python來實現(xiàn)機器學習算法,以及優(yōu)化算法。掌握scikit-learn擴展庫來實現(xiàn)機器學習算法。【授課時間】2-3天時間【授課對象】IT系統(tǒng)部、大數(shù)
講師:尹傳亮詳情
Python開發(fā)語言基礎(chǔ)實戰(zhàn)培訓【課程目標】Python已經(jīng)成為穩(wěn)居前三的最受歡迎的語言之一,它簡單易用、跨平臺、功能強大、擴展性強,而且能夠?qū)⑵渌Z言編寫的程序融合起來,實現(xiàn)無縫連接,號稱是萬能膠水語言。本課程為Python語言基礎(chǔ)學習,通過本課程的學習,達到如下目的:全面掌握Python語言以及其編程思想。掌握Python基本格式,以及常用的6種基本語句
講師:尹傳亮詳情
Python課程 06.19
Python課程一、數(shù)據(jù)挖掘?qū)д摂?shù)據(jù)挖掘的基本任務(wù)與步驟:目標、數(shù)據(jù)探索、數(shù)據(jù)預處理、建模、模型評價有監(jiān)督學習無監(jiān)督學習和半監(jiān)督學習算法模型Sklean數(shù)據(jù)挖掘和機器學習算法庫介紹大數(shù)據(jù)建模常見問題問題引出:客戶行為分析-用戶用電異常的識別二、Python編程快速入門Python編程環(huán)境與語法快速入門基礎(chǔ)數(shù)據(jù)結(jié)構(gòu):字符串處理及應用數(shù)據(jù)結(jié)構(gòu):列表、元組、集合、
講師:尹傳亮詳情
Python實現(xiàn)大數(shù)據(jù)挖掘技術(shù)培訓【課程目標】Python已經(jīng)成為數(shù)據(jù)分析和數(shù)據(jù)挖掘的首選語言,作為除了Java、C/C++/C#外最受歡迎的語言。本課程基于Python工具來實現(xiàn)大數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘項目。基于業(yè)務(wù)問題,在數(shù)據(jù)挖掘標準過程指導下,采用Python分析工具,實現(xiàn)數(shù)據(jù)挖掘項目的每一步操作,從數(shù)據(jù)預處理、數(shù)據(jù)建模、數(shù)據(jù)可視化,到最終數(shù)據(jù)挖掘結(jié)
講師:尹傳亮詳情
Python運用 06.19
PYTHON數(shù)據(jù)分析第一模塊:python語言基礎(chǔ)知識0.5H1.python簡介2.python的特征3.第一個python程序4.搭建開發(fā)環(huán)境5.python的開發(fā)工具6.不同平臺下的python第二模塊:Python的基本語法2H1.Python的文件類型2.Python的編碼規(guī)則3.變量和常量4.數(shù)據(jù)類型5.運算符與表達式第三模塊:python的控制
講師:尹傳亮詳情
大數(shù)據(jù)變革與商業(yè)模式創(chuàng)新【課程目標】大數(shù)據(jù)時代已經(jīng)來臨,大數(shù)據(jù)戰(zhàn)略已經(jīng)上升到國家意志,擁有大數(shù)據(jù)的規(guī)模和利用大數(shù)據(jù)的能力已經(jīng)成為國家競爭力的一種體現(xiàn),大數(shù)據(jù)的重要性已經(jīng)毋庸置疑。本課程圍繞大數(shù)據(jù)產(chǎn)業(yè),從大數(shù)據(jù)的基本面出發(fā),分析大數(shù)據(jù)的應用價值;大數(shù)據(jù)作為工具,如何幫助企業(yè)提升運營效率,提升企業(yè)利潤;再到大數(shù)據(jù)引起的思維變革,怎樣改變企業(yè)管理、社會治理的思維;
講師:尹傳亮詳情
大數(shù)據(jù)時代下的精準營銷(1天) 06.19
大數(shù)據(jù)時代的精準營銷【課程目標】本課程從實際的市場營銷問題出發(fā),了解大數(shù)據(jù)在市場營銷領(lǐng)域的價值以及應用。并對大數(shù)據(jù)分析與挖掘技術(shù)進行了介紹,通過從大量的市場營銷數(shù)據(jù)中分析潛在的客戶特征,挖掘客戶行為特點,實現(xiàn)精準營銷,幫助市場營銷團隊深入理解業(yè)務(wù)運作,支持業(yè)務(wù)策略制定以及營銷決策。通過本課程的學習,達到如下目的:了解大數(shù)據(jù)營銷內(nèi)容,掌握大數(shù)據(jù)在營銷中的應用。
講師:尹傳亮詳情
大數(shù)據(jù)挖掘工具:SPSSStatistics入門與提高【課程目標】隨著大數(shù)據(jù)分析的需求越來越旺盛,大數(shù)據(jù)分析工具也越來越琳瑯滿目,然而,絕大多數(shù)的分析工具都只具有單一用途,無法滿足企業(yè)的復雜的多樣化的全面的業(yè)務(wù)分析需求,因此分析工具的選擇成為了一個挑戰(zhàn)。一個良好的分析工具必須滿足如下要求:易學易用易操作。分析效率要高。滿足業(yè)務(wù)分析需求。如果要說前兩個要求,顯
講師:尹傳亮詳情
數(shù)據(jù)分析與建模 06.19
數(shù)據(jù)分析與建模第一章數(shù)據(jù)分析與大數(shù)據(jù)平臺1.大數(shù)據(jù)相關(guān)概念2.大數(shù)據(jù)特征3.大數(shù)據(jù)平臺簡介第二章數(shù)據(jù)分析流程1.數(shù)據(jù)分析2.數(shù)據(jù)分析工具3.數(shù)據(jù)分析流程4.典型模型場景第三章重要的python庫1.NumPy2.pandas3.matplotlib4.IPython與Jupyter5.SciPy6.scikit-learn7statsmodels第4章Num
講師:尹傳亮詳情
- [潘文富] 經(jīng)銷商終端建設(shè)的基本推進
- [潘文富] 中小企業(yè)招聘廣告的內(nèi)容完
- [潘文富] 優(yōu)化考核方式,減少員工抵
- [潘文富] 廠家心目中的理想化經(jīng)銷商
- [潘文富] 經(jīng)銷商的產(chǎn)品驅(qū)動與管理驅(qū)
- [王曉楠] 輔警轉(zhuǎn)正方式,定向招錄成為
- [王曉楠] 西安老師招聘要求,西安各區(qū)
- [王曉楠] 西安中小學教師薪資福利待遇
- [王曉楠] 什么是備案制教師?備案制教
- [王曉楠] 2024年陜西省及西安市最
- 1社會保障基礎(chǔ)知識(ppt) 21161
- 2安全生產(chǎn)事故案例分析(ppt) 20243
- 3行政專員崗位職責 19048
- 4品管部崗位職責與任職要求 16224
- 5員工守則 15463
- 6軟件驗收報告 15398
- 7問卷調(diào)查表(范例) 15114
- 8工資發(fā)放明細表 14556
- 9文件簽收單 14200