云书斋 -SPARK高级数据分析 (美)里扎(Sandy Ryza) 等 著
本书资料更新时间:2025-01-20 15:44:53

SPARK高级数据分析 (美)里扎(Sandy Ryza) 等 著 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线

SPARK高级数据分析 (美)里扎(Sandy Ryza) 等 著精美图片
》SPARK高级数据分析 (美)里扎(Sandy Ryza) 等 著电子书籍版权问题 请点击这里查看《

SPARK高级数据分析 (美)里扎(Sandy Ryza) 等 著书籍详细信息

  • ISBN:9787564159108
  • 作者:暂无作者
  • 出版社:暂无出版社
  • 出版时间:2015-09
  • 页数:260
  • 价格:35.80
  • 纸张:胶版纸
  • 装帧:平装-胶订
  • 开本:16开
  • 语言:未知
  • 丛书:暂无丛书
  • TAG:暂无
  • 豆瓣评分:暂无豆瓣评分
  • 豆瓣短评:点击查看
  • 豆瓣讨论:点击查看
  • 豆瓣目录:点击查看
  • 读书笔记:点击查看
  • 原文摘录:点击查看
  • 更新时间:2025-01-20 15:44:53

寄语:

新华书店正版,关注店铺成为会员可享店铺专属优惠,团购客户请咨询在线客服!


内容简介:

网络数据量迅速增大的时代,亟需能高效迅捷分析处理数据的工具,Spark应运而生。本书由Spark开发者及核心成员打造,带领读者快速掌握用Spark收集、计算、简化保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。


书籍目录:

Foreword

Preface

1.Analyzing Big Data

The Challenges of Data Saence

Introduang Apache Spark

About This Book

2.Introduction to Data Analysis with Scala and Spark

Scala for Data Scientists

The Spark Programming Model

Record Linkage

Getting Started: The Spark Shell and Spark Context

Bringing Data from the Cluster to the Client

Shipping Code from the Client to the Cluster

Structuring Data with Tuples and Case Classes

Aggregations

Creating Histograms

Summary Statistics for Continuous Variables

Creating Reusable Code for Computing Summary Statistics

Simple Variable Selection and Scoring

Where to Go from Here

3.Recommending Music and the Audioscrobbler Data Set

Data Set

The Alternating Least Squares Recommender Algorithm

Preparing the Data

Building a First Model

Spot Checking Recommendations

Evaluating Recommendation Quality

Computing AUC

Hyperparameter Selection

Making Recommendations

Where to Go from Here

4.Predicting Forest Cover with Deasion Trees

Fast Forward to Regression

Vectors and Features

Training Examples

Decision Trees and Forests

Covtype Data Set

Preparing the Data

A First Decision Tree

Deasion Tree Hyperparameters

Tuning Decision Trees

Categorical Features Revisited

Random Decision Forests

Making Predictions

Where to Go from Here

5.Anomaly Detection in Network Traffic with K—means Clustering

Anomaly Detection

K—means Clustering

Network Intrusion

KDD Cup 1999 Data Set

A First Take on Clustering

Choosing k

Visualization in R

Feature Normalization

Categorical Variables —

Using Labels with Entropy

Clustering in Action

Where to Go from Here

6.Understanding Wikipedia with Latent Semantic Analysis

The Term—Document Matrix

Getting the Data

Parsing and Preparing the Data

Lemmatization

Computing the TF—IDFs

Singular Value Decomposition

Finding Important Concepts

Querying and Scoring with the Low—Dimensional Representation

Term—Term Relevance

Document—Document Relevance

Term—Document Relevance

Multiple—Term Queries

Where to Go from Here

7.Analyzing Co—occurrence Networks with GraphX

The MEDLINE Citation Index: A Network Analysis

Getting the Data

Parsing XML Documents with Scala's XML Library

Analyzing the MeSH Major Topics and Their Co—occurrences

Constructing a Co—occurrence Network with GraphX

Understanding the Structure of Networks

Connected Components

Degree Distribution

Filtering Out Noisy Edges

Processing Edge Triplets

Analyzing the Filtered Graph

Small—World Networks

Cliques and Clustering Coefficients

Computing Average Path Length with Pregel

Where to Go from Here

8.Geospatial and Temporal Data Analysjs on the New York City Taxi Trip Data

Getting the Data

Working with Temporal and Geospatial Data in Spark

Temporal Data with Joda Time and NScala Time

Geospatial Data with the Esri Geometry API and Spray

Exploring the Esri Geometry API

Intro to GeolSON

Preparing the New York City Taxi Trip Data

Handling Invalid Records at Scale

Geospatial Analysis

Sessionization in Spark

Building Sessions: Secondary Sorts in Spark

Where to Go from Here

9.Estimating Financial Risk through Monte Carlo Simulation

Terminology

Methods for Calculating VaR

Variance—Covariance

Historical Simulation

Monte Carlo Simulation

Our Model

Getting the Data

Preprocessing

Determining the Factor Weights

Sampling

The Multivariate Normal Distribution

Running the Trials

Visualizing the Distribution of Returns

Evaluating Our Results

Where to Go from Here

10.Analyzing Genomics Data and the BDG Project

Decoupling Storage from Modeling

Ingesting Genomics Data with the ADAM CLI

Parquet Format and Columnar Storage

Predicting Tranion Factor Binding Sites from ENCODE Data

Querying Genotypes from the 1000 Genomes Project

Where to Go from Here

11.Analyzing Neuroimaging Data with PySpark and Thunder

Overview of PySpark

PySpark Internals

Overview and Installation of the Thunder Library

Loading Data with Thunder

Thunder Core Data Types

Categorizing Neuron Types with Thunder

Where to Go from Here

A.Deeper into Spark

B.Upcoming MLlib Pipelines API

Index


作者介绍:

Sandy Ryza,是Cloudera的不错数据科学家,也是Apache Spark项目的活跃贡献者。


出版社信息:

暂无出版社相关信息,正在全力查找中!


书籍摘录:

暂无相关书籍摘录,正在全力查找中!



原文赏析:

暂无原文赏析,正在全力查找中!


其它内容:

暂无其它内容!


书籍真实打分

  • 故事情节:8分

  • 人物塑造:7分

  • 主题深度:7分

  • 文字风格:7分

  • 语言运用:8分

  • 文笔流畅:5分

  • 思想传递:4分

  • 知识深度:6分

  • 知识广度:6分

  • 实用性:7分

  • 章节划分:9分

  • 结构布局:9分

  • 新颖与独特:6分

  • 情感共鸣:4分

  • 引人入胜:6分

  • 现实相关:6分

  • 沉浸感:7分

  • 事实准确性:4分

  • 文化贡献:3分


网站评分

  • 书籍多样性:7分

  • 书籍信息完全性:9分

  • 网站更新速度:8分

  • 使用便利性:7分

  • 书籍清晰度:7分

  • 书籍格式兼容性:3分

  • 是否包含广告:7分

  • 加载速度:3分

  • 安全性:4分

  • 稳定性:4分

  • 搜索功能:6分

  • 下载便捷性:8分


下载点评

  • 三星好评(495+)
  • 盗版少(360+)
  • 一星好评(102+)
  • 排版满分(289+)
  • 二星好评(322+)
  • 无广告(433+)
  • 值得下载(114+)
  • 品质不错(652+)
  • 目录完整(553+)
  • 内涵好书(413+)

下载评价

  • 网友 冉***兮: ( 2025-01-13 22:32:25 )

    如果满分一百分,我愿意给你99分,剩下一分怕你骄傲

  • 网友 冯***丽: ( 2025-01-10 23:08:47 )

    卡的不行啊

  • 网友 菱***兰: ( 2024-12-24 20:13:25 )

    特好。有好多书

  • 网友 仰***兰: ( 2025-01-12 04:00:08 )

    喜欢!很棒!!超级推荐!

  • 网友 訾***晴: ( 2025-01-01 09:35:27 )

    挺好的,书籍丰富

  • 网友 居***南: ( 2024-12-24 21:56:49 )

    请问,能在线转换格式吗?

  • 网友 常***翠: ( 2024-12-29 11:59:34 )

    哈哈哈哈哈哈

  • 网友 敖***菡: ( 2025-01-14 10:21:18 )

    是个好网站,很便捷

  • 网友 宫***玉: ( 2025-01-16 04:09:42 )

    我说完了。

  • 网友 康***溪: ( 2024-12-23 02:28:32 )

    强烈推荐!!!

  • 网友 薛***玉: ( 2025-01-11 20:55:16 )

    就是我想要的!!!

  • 网友 訾***雰: ( 2024-12-22 22:15:47 )

    下载速度很快,我选择的是epub格式

  • 网友 陈***秋: ( 2024-12-27 09:02:27 )

    不错,图文清晰,无错版,可以入手。

  • 网友 后***之: ( 2024-12-24 22:08:28 )

    强烈推荐!无论下载速度还是书籍内容都没话说 真的很良心!

  • 网友 郗***兰: ( 2025-01-19 23:24:09 )

    网站体验不错

  • 网友 濮***彤: ( 2024-12-22 15:43:09 )

    好棒啊!图书很全


随机推荐