Hadoop应用架构(影印版) 东南大学出版社 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
Hadoop应用架构(影印版) 东南大学出版社电子书下载地址
- 文件名
- [epub 下载] Hadoop应用架构(影印版) 东南大学出版社 epub格式电子书
- [azw3 下载] Hadoop应用架构(影印版) 东南大学出版社 azw3格式电子书
- [pdf 下载] Hadoop应用架构(影印版) 东南大学出版社 pdf格式电子书
- [txt 下载] Hadoop应用架构(影印版) 东南大学出版社 txt格式电子书
- [mobi 下载] Hadoop应用架构(影印版) 东南大学出版社 mobi格式电子书
- [word 下载] Hadoop应用架构(影印版) 东南大学出版社 word格式电子书
- [kindle 下载] Hadoop应用架构(影印版) 东南大学出版社 kindle格式电子书
寄语:
新华书店正版,关注店铺成为会员可享店铺专属优惠,团购客户请咨询在线客服!
内容简介:
在使用ApacheHadoop设计端到端数据管理解决方案时,获得专家级指导。当其它很多渠道还停留在解释Hadoop生态系统中该如何使用各种纷纭复杂的组件时,这本专注实践的书已带领您从架构的整体角度思考,这样的角度对于您的特别应用场景而言,是必不可少的。它将所有组件紧密结合在一起,形成完整有针对性的应用程序。为了增强学习效果,本书第二部分提供了各种详细的架构案例,涵盖部分很常见的Hadoop应用场景。无论您在设计一个新的Hadoop应用,或者正计划将Hadoop整合到现有的数据基础架构中,本书都将在整个过程中提供技巧性的导引。
书籍目录:
Foreword
Preface
Part Ⅰ.Architectural Considerations for Hadoop Applications
1. Data Modeling in Hadoop
Data Storage Options
Standard File Formats
Hadoop File Types
Serialization Formats
Columnar Formats
Compression
HDFS Schema Design
Location of HDFS Files
Advanced HDFS Schema Design
HDFS Schema Design Summary
HBase Schema Design
Row Key
Timestamp
Hops
Tables and Regions
Using Columns
Using Column Families
Time-to-Live
Managing Metadata
What Is Metadata?
Why Care About Metadata?
Where to Store Metadata?
Examples of Managing Metadata
Limitations of the Hive Metastore and HCatalog
Other Ways of Storing Metadata
Conclusion
2. Data Movement
Data Ingestion Considerations
Timeliness of Data Ingestion
Incremental Updates
Access Patterns
Original Source System and Data Structure
Transformations
Network Bottlenecks
Network Security
Push or Pull
Failure Handling
Level of Complexity
Data Ingestion Options
File Transfers
Considerations for File Transfers versus Other Ingest Methods
Sqoop: Batch Transfer Between Hadoop and Relational Databases
Flume: Event-Based Data Collection and Processing
Kafka
Data Extraction
Conclusion
3. Processing Data in Hadoop
MapReduce
MapReduce Overview
Example for MapReduce
When to Use MapReduce
Spark
Spark Overview
Overview of Spark Components
Basic Spark Concepts
Benefits of Using Spark
Spark Example
When to Use Spark
Abstractions
Pig
Pig Example
When to Use Pig
Crunch
Crunch Example
When to Use Crunch
Cascading
Cascading Example
When to Use Cascading
Hive
Hive Overview
Example of Hive Code
When to Use Hive
Impala
Impala Overview
Speed-Oriented Design
Impala Example
When to Use Impala
Conclusion
4. Common Hadoop Processing Patterns
Pattern: Removing Duplicate Records by Primary Key
Data Generation for Deduplication Example
Code Example: Spark Deduplication in Scala
Code Example: Deduplication in SQL
Pattern: Windowing Analysis
Data Generation for Windowing Analysis Example
Code Example: Peaks and Valleys in Spark
Code Example: Peaks and Valleys in SQL
Pattern: Time Series Modifications
Use HBase and Versioning
Use HBase with a RowKey of RecordKey and StartTime
Use HDFS and Rewrite the Whole Table
Use Partitions on HDFS for Current and Historical Records
Data Generation for Time Series Example
Code Example: Time Series in Spark
Code Example: Time Series in SQL
Conclusion
5. Graph Processing on Hadoop
What Is a Graph?
What Is Graph Processing?
How Do You Process a Graph in a Distributed System?
The Bulk Synchronous Parallel Model
BSP by Example
Giraph
Read and Partition the Data
Batch Process the Graph with BSP
Write the Graph Back to Disk
Putting It All Together
When Should You Use Giraph?
GraphX
Just Another RDD
GraphX Pregel Interface
vprog0
sendMessage0
mergeMessage0
Which Tool to Use?
Conclusion
6. Orchestration
Why We Need Workflow Orchestration
The Limits of Scripting
The Enterprise Job Scheduler and Hadoop
Orchestration Frameworks in the Hadoop Ecosystem
Oozie Terminology
Oozie Overview
Oozie Workflow
Workflow Patterns
Point-to-Point Workflow
Fan- Out Workflow
Capture-and-Decide Workflow
Parameterizing Workflows
Classpath Definition
Scheduling Patterns
Frequency Scheduling
Time and Data Triggers
Executing Workflows
Conclusion
7. Near-Real-Time Processing with Hadoop
Stream Processing
Apache Storm
Storm High-Level Architecture
Storm Topologies
Tuples and Streams
Spouts and Bolts
Stream Groupings
Reliability of Storm Applications
Exactly-Once Processing
Fault Tolerance
Integrating Storm with HDFS
Integrating Storm with HBase
Storm Example: Simple Moving Average
Evaluating Storm
Trident
Trident Example: Simple Moving Average
Evaluating Trident
Spark Streaming
Overview of Spark Streaming
Spark Streaming Example: Simple Count
Spark Streaming Example: Multiple Inputs
Spark Streaming Example: Maintaining State
Spark Streaming Example: Windowing
Spark Streaming Example: Streaming versus ETL Code
Evaluating Spark Streaming
Flume Interceptors
Which Tool to Use?
Low-Latency Enrichment, Validation, Alerting, and Ingestion
NRT Counting, Rolling Averages, and Iterative Processing
Complex Data Pipelines
Conclusion
Part Ⅱ. Case Studies
8. Clickstream Analysis
Defining the Use Case
Using Hadoop for Clickstream Analysis
Design Overview
Storage
Ingestion
The Client Tier
The Collector Tier
Processing
Data Deduplication
Sessionization
Analyzing
Orchestration
Conclusion
9. Fraud Detection
Continuous Improvement
Taking Action
Architectural Requirements of Fraud Detection Systems
Introducing Our Use Case
High-Level Design
Client Architecture
Profile Storage and Retrieval
Caching
HBase Data Definition
Delivering Transaction Status: Approved or Denied?
Ingest
Path Between the Client and Flume
Near-Real-Time and Exploratory Analytics
Near-Real-Time Processing
Exploratory Analytics
What About Other Architectures?
Flume Interceptors
Kafka to Storm or Spark Streaming
External Business Rules Engine
Conclusion
10. Data Warehouse
Using Hadoop for Data Warehousing
Defining the Use Case
OLTP Schema
Data Warehouse: Introduction and Terminology
Data Warehousing with Hadoop
High-Level Design
Data Modeling and Storage
Ingestion
Data Processing and Access
Aggregations
Data Export
Orchestration
Conclusion
A. Joins in Impala
Index
作者介绍:
Mark Grover,是Apache Bigtop的代码贡献者以及ApacheSentry的项目管理委员会成员和代码贡献者。Ted Malaska,是Cloude ra的不错应用架构师,帮助客户使用Hadoop及其生态系统。
Jonathan Seidman,是Cloudera的应用架构师,帮助合作伙伴把他们的解决方案集成到Cloudera的软件栈中。
Gwen Shapira,是Cloudera的应用架构师,在为客户设计可扩展的数据架构方面有15年的经验。
出版社信息:
暂无出版社相关信息,正在全力查找中!
书籍摘录:
暂无相关书籍摘录,正在全力查找中!
在线阅读/听书/购买/PDF下载地址:
在线阅读地址:Hadoop应用架构(影印版) 东南大学出版社在线阅读
在线听书地址:Hadoop应用架构(影印版) 东南大学出版社在线收听
在线购买地址:Hadoop应用架构(影印版) 东南大学出版社在线购买
原文赏析:
如果关联的数据集恰好按照关联的键分桶,而且一个数据集中桶的数量是另一个的倍数,那么就足够单独关联相应的桶,而不需要关联整个数据集了。着显著降低了两个数据集执行 Reduce 端关联(Reduce-side join) 的时间复杂度。这是因为 Reduce 端的关联非常消耗资源。但是,如果关联的是两个桶数据集,而不是两个整数数据集,那么关联相应的桶即可。这样就可以减少关联消耗。当然,来自两个表的不同的桶可以并行关联。另外,分桶之后的数据量通常都比较小,一般能够放入内存。所以整个关联操作可以在 Map-Reduce 任务的 Map 阶段将小桶加载到内存中进行。这就是所谓的 Map 端关联(Map-side join)。与 Reduce 端关联相比,它的性能更好。如果使用 Hive 进行数据分析,应该能自动识别分桶的表并执行这种优化。
如果桶中的数据时有序的(sorted),那么就可以使用合并连接(merge join),而且关联时不会将整个桶都存入内存。这比简单的桶关联(bucket join)更快,而且更加节省内存。Hive 也支持这种优化。注意,任何一个表都可以分桶,在没有逻辑意义的分区点上也是如此。对于经常进行关联操作的大表,最好对数据进行排序和分桶,而且要按照关联字段分桶。
其它内容:
暂无其它内容!
网站评分
书籍多样性:7分
书籍信息完全性:5分
网站更新速度:3分
使用便利性:3分
书籍清晰度:5分
书籍格式兼容性:4分
是否包含广告:8分
加载速度:4分
安全性:9分
稳定性:5分
搜索功能:8分
下载便捷性:4分
下载点评
- 五星好评(536+)
- 少量广告(262+)
- 无多页(419+)
- 图书多(504+)
- 经典(373+)
- 在线转格式(268+)
- 傻瓜式服务(335+)
- 愉快的找书体验(526+)
- 体验满分(143+)
- 一星好评(217+)
- 超值(422+)
- 无水印(65+)
- 盗版少(209+)
下载评价
- 网友 戈***玉: ( 2025-01-04 21:34:36 )
特别棒
- 网友 冯***卉: ( 2024-12-26 20:05:34 )
听说内置一千多万的书籍,不知道真假的
- 网友 游***钰: ( 2025-01-18 12:59:28 )
用了才知道好用,推荐!太好用了
- 网友 寇***音: ( 2025-01-18 01:37:23 )
好,真的挺使用的!
- 网友 堵***格: ( 2025-01-05 10:28:07 )
OK,还可以
- 网友 宓***莉: ( 2025-01-16 08:14:46 )
不仅速度快,而且内容无盗版痕迹。
- 网友 丁***菱: ( 2025-01-02 22:41:44 )
好好好好好好好好好好好好好好好好好好好好好好好好好
- 网友 方***旋: ( 2024-12-31 00:30:44 )
真的很好,里面很多小说都能搜到,但就是收费的太多了
- 网友 后***之: ( 2024-12-27 22:25:01 )
强烈推荐!无论下载速度还是书籍内容都没话说 真的很良心!
- 网友 菱***兰: ( 2025-01-05 18:38:23 )
特好。有好多书
- 网友 曹***雯: ( 2025-01-11 19:09:24 )
为什么许多书都找不到?
喜欢"Hadoop应用架构(影印版) 东南大学出版社"的人也看了
GB/T18430蒸气压缩循环冷水(热泵)机组 2本套 工业或商业用及类似用途的冷水(热泵)机组 户用及类似用途的冷水(热泵)机组 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
【11年老店】正版桥牌自然叫牌法 荆歌著 桥牌书籍经典棋牌桥牌入门书入门教材 速成桥牌 棋牌经典秘籍 技巧大全 人民体育出版社 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
【新华书店自营】田英章《新华字典》常用字5500 楷书 音序版,商务印书馆 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
隧道及地下工程ANSYS实例分析 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
企业发言人策略与实务 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 新大陸遊記節錄 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 日本留学指南 王智新著,王伟 编 青岛出版社【正版】 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 深海耐压球壳基础理论和关键技术(英文版) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- MEMS多晶圆旋转机械——涡轮机,发电机和发动机 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- PPT动画传奇 解密专业演示动画特效 【正版】 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 激情世界杯(百科丛书) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 原来数学可以这样学:观察·比较·分类 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 血气酸碱分析 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 9787534472466 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 连锁经营管理师(基础知识)--国家职业技能等级认定培训教材 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
书籍真实打分
故事情节:9分
人物塑造:8分
主题深度:7分
文字风格:3分
语言运用:3分
文笔流畅:9分
思想传递:3分
知识深度:6分
知识广度:6分
实用性:7分
章节划分:8分
结构布局:8分
新颖与独特:4分
情感共鸣:7分
引人入胜:7分
现实相关:4分
沉浸感:8分
事实准确性:5分
文化贡献:5分