今日分享:小編在這里給大家推薦5本大數據領域必讀的書籍!
1、Hadoop權威指南
推薦星級:5顆星
網友評分:98分
之所以把這本書放在第①位,主要是因為Hadoop是一個能夠進行大量數據分布式處理的軟件框架。而這本書由淺入深,全方位介紹了Hadoop這一高性能的海量數據處理和分析平臺。本書是一本專業、全面的Hadoop參考書和工具書,闡述了 Hadoop生態圈的新發展和應用,程序員可以從中探索海量數據集的存儲和分析,管理員可以從中了解Hadoop集群的安裝和運維。
這本書可以說是Hadoop權威指南,了解大數據存儲分析實質,閱讀本書給人眼前一亮的感覺,原來是這樣。閱讀本書需要一些知識儲備,并不是入門書。
2、HBase權威指南
推薦星級:5顆星
網友評分:99分
HBase是Hadoop生態圈的一員,不過在Hadoop權威指南中對于HBase的解讀比較少,如果對HBase的底層源碼,高級架構,性能優化,集群管理等進階操作感興趣,那選擇這本書juedui是沒有錯的。
《HBase權威指南》這本書主要是通過使用與 HBase高度集成的Hadoop將HBase的可伸縮性變得簡單:把大型數據集分布到相對廉價的商業服務器集群中;使用本地Java客戶端,或者通過提供了 REST、Avro和Thrift應用編程接口的網關服務器來訪問HBase;了解HBase架構的細節,包括存儲格式、預寫日志、后臺進程等;在HBase中集成 MapReduce框架;了解如何調節集群、設計模式拷貝表、導入批量數據和刪除節點等。
當然,本書也是適合使用HBase進行數據庫開發的高級數據庫研發人員閱讀。初級人員慎入。
3Spark權威指南
推薦星級:5顆星
網友評分:99分
Spark作為基于內存的用于大規模數據處理的統一分析引擎。近幾年在機器學習,人工智能領域發展得也是如日中天。
這本書是所有Spark開發人員的必讀書籍,介紹了許多別處無法學到的使用技巧,《Spark權威指南》在豆瓣評分非常高,數據庫,分布式,批處理,流式處理,最關鍵的是,有很多容易理解錯誤的地方,都有很清楚的解釋。
當然,如果是剛入門的話還是不建議看。
4、Flink基礎教程
推薦星級:5顆星
網友評分:96分
說道了Spark,自然少不了Flink,作為新一代的開源流處理器,Flink是眾多大數據處理框架中一顆冉冉升起的新星。它以同一種技術支持流處理和批處理,并能同時滿足高吞吐、低延遲和容錯的需求。
本書由Flink項目核心成員執筆,系統聞釋Flink的適用場景、設計理念、功能、用途和性能優勢。對于流數據處理的介紹討論都很精彩,翻譯也挺好,難得好書。
5、Kylin權威指南
推薦星級:5顆星
網友評分:96分
ApacheKylin是一個開源OLAP引擎在Hadoop大數據平臺上,將大數據的查詢速度和并發性能提升至原來的百倍以上,為超大規模數據集上的交互式大數據分析打開了大門。
ApacheKylin在小米大數據系統中扮演著核心角色。本書系統地闡述了Kylin應用的方方面面,分享了大量的實戰經驗,如果你看了這本書,真的會有一種讓人得之恨晚的感覺。