数据处理

Spark快速数据处理

资源名称: 快速数据处理 内容简介: 是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的 实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。 内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。   本书系统讲解 的使用方法,包括如何在多种机器上安装 ,如何配置一个 集群,如何在交互模式下运行第一个 作业,如何在 集群上构建一个生产级的脱机 独立作业,如何与 集群建立连接和使

Hadoop大数据处理 中文pdf

资源名称: 大数据处理 中文 章大数据处理概论 什么是大数据 数据处理平台的基础架构 大数据处理的存储 提升容量 提升吞吐量 大数据处理的计算模式 多处理技术 并行计算 大数据处理系统的容错性 数据存储容错 计算任务容错 大数据处理的云计算变革 本章参考文献 章基于 的大数据处理架构 核心云计算技术 并行计算编程模型 分布式文件系统 分布式结构化数据存储 云计算技术及发展 的由来 原理与运行机制 相关技术及简介 技术的发展与演进 基于云计算的大数据处理架构 基于云计算的大数据处理技术的应用 百度 阿里巴巴

深入理解大数据:大数据处理与编程实践

资源名称:深入理解大数据:大数据处理与编程实践 内容简介: 以大数据处理主流平台 为核心,介绍 , , ,以及 的基本设计思想、工作原理、系统构架、以及详细的大数据处理编程技术。   特点:   ( ) 重点放在教读者算法设计实现,从基础算法,到应用编程案例,解决实际问题。   ( ) 作者多年的教学研究实践,课程设计沉淀,可以更深入地讨论大数据。   ( ) 来自业界 真实的实践经验和案例积累。 资源目录: 推荐序一 推荐序二 推荐序三 丛书序言 前言 第一部分 系统 第 章大数据处理技术简介 并行计算

Hadoop大数据处理技术基础与实践 完整pdf

资源名称: 大数据处理技术基础与实践 完整 基础与实践第 章 概述 . 来源和动机 . 体系架构 . 与分布式开发 . 行业应用案例分析 . . 在门户网站的应用 . . 在搜索引擎中的应用 . . 在电商平台中的应用 . 小结第 章 安装与配置管理 . 实验准备 . 配置一个单节点环境 . . 运行一个虚拟系统 . . 配置网络 . . 创建新的用户组和用户 . . 上传文件到 并配置 、 环境 . . 修改 . 配置文件 . . 修改 主机名 . . 绑定 与 . . 关闭防火墙 . 节点之间的免密码

数据算法:Hadoop/Spark大数据处理技巧 英文pdf原版

资源名称:数据算法: 大数据处理技巧 英文 原版 第 章二次排序:简介 第 章二次排序:详细示例 第 章 列表 第 章左外连接 第 章反转排序 第 章移动平均 第 章购物篮分析 第 章共同好友 第 章使用 实现推荐引擎 第 章基于内容的电影推荐 第 章使用马尔可夫模型的智能邮件营销 第 章 均值聚类 第 章 近邻 第 章朴素贝叶斯 第 章情感分析 第 章查找、统计和列出大图中的所有三角形 第 章 计数 第 章 测序 第 章 回归 第 章 趋势检验 第 章等位基因频率 第 章 检验 第 章皮尔逊相关系数 第