Spark Standalone 模式应用程序开发 Spark 大数据博客 -

Similar documents
Apache Kafka 源码编译 Spark 大数据博客 -

[ 电子书 ]Spark for Data Science PDF 下载 Spark 大数据博客 -

本文转载自 :

Ganglia 是 UC Berkeley 发起的一个开源集群监视项目, 主要是用来监控系统性能, 如 :cpu mem 硬盘利用率, I/O 负载 网络流量情况等, 通过曲线很容易见到每个节点的工作状态, 对合理调整 分配系统资源, 提高系统整体性能起到重要作用

本文列出 Git 常用命令, 点击下图查看大图

<properties> <jdk.version>1.8</jdk.version> <project.build.sourceencoding>utf-8</project.build.sourceencoding> </properties>

上汽通用汽车供应商门户网站项目 (SGMSP) User Guide 用户手册 上汽通用汽车有限公司 2014 上汽通用汽车有限公司未经授权, 不得以任何形式使用本文档所包括的任何部分

本文详细地介绍了如何将 Hadoop 上的 Mapreduce 程序转换成 Spark 的应用程序 有兴趣的可以参考一下 :

Beyond MapReduce: Apache Spark Antonino Virgillito

Understanding IO patterns of SSDs

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!--- global properties --> <property>

ICP Enablon User Manual Factory ICP Enablon 用户手册 工厂 Version th Jul 2012 版本 年 7 月 16 日. Content 内容

OTAD Application Note

实验三十三 DEIGRP 的配置 一 实验目的 二 应用环境 三 实验设备 四 实验拓扑 五 实验要求 六 实验步骤 1. 掌握 DEIGRP 的配置方法 2. 理解 DEIGRP 协议的工作过程

如何查看 Cache Engine 缓存中有哪些网站 /URL

AvalonMiner Raspberry Pi Configuration Guide. AvalonMiner 树莓派配置教程 AvalonMiner Raspberry Pi Configuration Guide

Logitech G302 Daedalus Prime Setup Guide 设置指南

朱晔和你聊 Spring 系列 S1E2: SpringBoot 并不神秘

第二小题 : 逻辑隔离 (10 分 ) OpenFlow Switch1 (PC-A/Netfpga) OpenFlow Switch2 (PC-B/Netfpga) ServerB PC-2. Switching Hub

Open Office Pdf Editor Extension Download ->>> DOWNLOAD

L6: Introduction to Spark Spark

Chapter 1 (Part 2) Introduction to Operating System

H3C CAS 虚拟机支持的操作系统列表. Copyright 2016 杭州华三通信技术有限公司版权所有, 保留一切权利 非经本公司书面许可, 任何单位和个人不得擅自摘抄 复制本文档内容的部分或全部, 并不得以任何形式传播 本文档中的信息可能变动, 恕不另行通知

Previous on Computer Networks Class 18. ICMP: Internet Control Message Protocol IP Protocol Actually a IP packet

三 依赖注入 (dependency injection) 的学习

Multiprotocol Label Switching The future of IP Backbone Technology

Chapter 7: Deadlocks. Operating System Concepts 9 th Edition

PCU50 的整盘备份. 本文只针对操作系统为 Windows XP 版本的 PCU50 PCU50 启动硬件自检完后, 出现下面文字时, 按向下光标键 光标条停在 SINUMERIK 下方的空白处, 如下图, 按回车键 PCU50 会进入到服务画面, 如下图

3dvia Composer Solidworks

Command Dictionary CUSTOM

Oracle 一体化创新云技术 助力智慧政府信息化战略. Copyright* *2014*Oracle*and/or*its*affiliates.*All*rights*reserved.** *

Chapter 11 SHANDONG UNIVERSITY 1

Wireless Presentation Pod

VAS 5054A FAQ ( 所有 5054A 整合, 中英对照 )

Spark Tutorial. General Instructions

XML allows your content to be created in one workflow, at one cost, to reach all your readers XML 的优势 : 只需一次加工和投入, 到达所有读者的手中

Spark 源码编译遇到的问题解决 Spark 大数据博客 -

DEV Office 客户端开发增强

#MDCC Swift 链式语法应 用 陈乘

计算机组成原理第二讲 第二章 : 运算方法和运算器 数据与文字的表示方法 (1) 整数的表示方法. 授课老师 : 王浩宇

Silverlight 3 概览 俞晖市场推广经理微软 ( 中国 ) 有限公司

CloudStack 4.3 API 开发指南!

学习沉淀成长分享 EIGRP. 红茶三杯 ( 朱 SIR) 微博 : Latest update:

A Benchmark For Stroke Extraction of Chinese Characters

CHINA VISA APPLICATION CONCIERGE SERVICE*

1. DWR 1.1 DWR 基础 概念 使用使用 DWR 的步骤. 1 什么是 DWR? Direct Web Remote, 直接 Web 远程 是一个 Ajax 的框架

Compile times - assert macros

1. Spring 整合 Jdbc 进行持久层开发

Smart Services Lucy Huo (Senior Consultant, UNITY Business Consulting) April 27, 2016

Filters: E-Syn, Momentum, Transient and the DAC

OpenCascade 的曲面.

Triangle - Delaunay Triangulator

U-CONTROL UMX610/UMX490/UMX250. The Ultimate Studio in a Box: 61/49/25-Key USB/MIDI Controller Keyboard with Separate USB/Audio Interface

Apache OpenWhisk + Kubernetes:

2. Introduction to Digital Media Format

Declaration of Conformity STANDARD 100 by OEKO TEX

梁永健. W K Leung. 华为企业业务 BG 解决方案销售部 CTO Chief Technology Officer, Solution Sales, Huawei

Technology: Anti-social Networking 科技 : 反社交网络

Outline. Motivations (1/3) Distributed File Systems. Motivations (3/3) Motivations (2/3)

Safety Life Cycle Model IEC61508 安全生命周期模型 -IEC61508

BlueCore BlueTunes Configuration Tool User Guide

Frequently Asked Questions about Network Problem within America Area

ZWO 相机固件升级参考手册. ZWO Camera Firmware Upgrade reference manual. 版权所有 c 苏州市振旺光电有限公司 保留一切权利 非经本公司许可, 任何组织和个人不得擅自摘抄 复制本文档内容的部分或者全部, 并

public static InetAddress getbyname(string host) public static InetAddress getlocalhost() public static InetAddress[] getallbyname(string host)

武汉大学 学年度第 1 学期 多核架构及编程技术 试卷(A)

FLIGHT INSTRUMENT PANEL

Murrelektronik Connectivity Interface Part I Product range MSDD, cable entry panels MSDD 系列, 电缆穿线板

Color LaserJet Pro MFP M477 入门指南

计算机科学与技术专业本科培养计划. Undergraduate Program for Specialty in Computer Science & Technology

组播路由 - MSDP 和 PIM 通过走

IEEE 成立于 1884 年, 是全球最大的技术行业协会, 凭借其多样化的出版物 会议 教育论坛和开发标准, 在激励未来几代人进行技术创新方面做出了巨大的贡献, 其数据库产品 IEL(IEEE/IET Electronic Library)

New Media Data Analytics and Application. Lecture 7: Information Acquisition An Integration Ting Wang

display portal server display portal user display portal user count display portal web-server

NetScreen 概念与范例. ScreenOS 参考指南 第 7 卷 : 虚拟系统. ScreenOS 编号 SC 修订本 E

NyearBluetoothPrint SDK. Development Document--Android

LAB 5: S-parameter Simulation and Optimization

nbns-list netbios-type network next-server option reset dhcp server conflict 1-34

Keygen Codes For Photoshop Cs6 ->>> DOWNLOAD

操作系统原理与设计. 第 13 章 IO Systems(IO 管理 ) 陈香兰 2009 年 09 月 01 日 中国科学技术大学计算机学院

密级 : 博士学位论文. 论文题目基于 ScratchPad Memory 的嵌入式系统优化研究

新一代 ODA X5-2 低调 奢华 有内涵

: Operating System 计算机原理与设计

Computer Networks. Wenzhong Li. Nanjing University

IPC 的 Proxy-Stub 设计模式 ( c)

Specifications 产品规格书 USB-D M X 控制器. DESCRIPTION: USB-D M X Control 产品名称 : MODEL NO: USB-DMX512-CONTROL 产品型号 :

CHAPTER 5 NEW INTERNET APPLICATIONS

Skill-building Courses Business Analysis Lesson 3 Problem Solving

TBarCode OCX Microsoft ActiveX compliant Barcode Control

XPS 8920 Setup and Specifications

Autodesk Backburner 2011 安装手册

EBD EBD. end

Microsoft RemoteFX: USB 和设备重定向 姓名 : 张天民 职务 : 高级讲师 公司 : 东方瑞通 ( 北京 ) 咨询服务有限公司

XPages Extensibility API: Free Your Mind! 2011 IBM Corporation

ngx_openresty: an Nginx ecosystem glued by Lua

White Paper 3 System Level ESD Part II: Implementation of Effective ESD Robust Designs. Industry Council on ESD Target Levels

Microsemi - Leading Innovation for China s Hyperscale Data Centers

PubMed 简介. PubMed 是美国国立医学图书馆 (NLM) 所属的国家生物技术信息中心 (NCBI) 开发的因特网生物医学信息检索系统

Fundamentals. Advanced Design System days of intensive training - prerequisite for all other ADS courses. Course Part Number N3211A/B

Jbuilder 2007 开发 EJB3.0 Entity 罗代均 ldj_work#126.com 2007 年 8 月

Transcription:

在本博客的 Spark 快速入门指南 (Quick Start Spark) 文章中简单地介绍了如何通过 Spark s hell 来快速地运用 API 本文将介绍如何快速地利用 Spark 提供的 API 开发 Standalone 模式的应用程序 Spark 支持三种程序语言的开发 :Scala ( 利用 SBT 进行编译 ), Java ( 利用 Maven 进行编译 ) 以及 Python 下面我将分别用 Scala Java 和 Python 开发同样功能的程序 : 一 Scala 版本 : 程序如下 : package scala /** * User: 过往记忆 * Date: 14-6-10 * Time: 下午 11:37 * bolg: https://www.iteblog.com * 本文地址 :https://www.iteblog.com/archives/1041 * 过往记忆博客, 专注于 hadoop hive spark shark flume 的技术博客, 大量的干货 * 过往记忆博客微信公共帐号 :iteblog_hadoop */ import org.apache.spark.sparkcontext import org.apache.spark.sparkconf object Test { def main(args: Array[String]) { val logfile = "file:///spark-bin-0.9.1/readme.md" val conf = new SparkConf().setAppName("Spark Application in Scala") val sc = new SparkContext(conf) val logdata = sc.textfile(logfile, 2).cache() val numas = logdata.filter(line => line.contains("a")).count() val numbs = logdata.filter(line => line.contains("b")).count() println("lines with a: %s, Lines with b: %s".format(numas, numbs)) 为了编译这个文件, 需要创建一个 xxx.sbt 文件, 这个文件类似于 pom.xml 文件, 这里我们创建一个 scala.sbt 文件, 内容如下 : name := "Spark application in Scala" 1 / 5

version := "1.0" scalaversion := "2.10.4" librarydependencies += "org.apache.spark" %% "spark-core" % "1.0.0" resolvers += "Akka Repository" at "http://repo.akka.io/releases/" 编译 : # sbt/sbt package [info] Done packaging. [success] Total time: 270 s, completed Jun 11, 2014 1:05:54 AM 二 Java 版本 /** * User: 过往记忆 * Date: 14-6-10 * Time: 下午 11:37 * bolg: https://www.iteblog.com * 本文地址 :https://www.iteblog.com/archives/1041 * 过往记忆博客, 专注于 hadoop hive spark shark flume 的技术博客, 大量的干货 * 过往记忆博客微信公共帐号 :iteblog_hadoop */ /* SimpleApp.java */ import org.apache.spark.api.java.*; import org.apache.spark.sparkconf; import org.apache.spark.api.java.function.function; public class SimpleApp { public static void main(string[] args) { String logfile = "file:///spark-bin-0.9.1/readme.md"; SparkConf conf =new SparkConf().setAppName("Spark Application in Java"); JavaSparkContext sc = new JavaSparkContext(conf); JavaRDD<String> logdata = sc.textfile(logfile).cache(); long numas = logdata.filter(new Function<String, Boolean>() { public Boolean call(string s) { return s.contains("a"); ).count(); long numbs = logdata.filter(new Function<String, Boolean>() { public Boolean call(string s) { return s.contains("b"); 2 / 5

).count(); System.out.println("Lines with a: " + numas +",lines with b: " + numbs); 本程序分别统计 README.md 文件中包含 a 和 b 的行数 本项目的 pom.xml 文件内容如下 : <?xml version="1.0" encoding="utf-8"?> <project xmlns="http://maven.apache.org/pom/4.0.0" xmlns:xsi="http://www.w3.org/2001/xmlschema-instance" xsi:schemalocation="http://maven.apache.org/pom/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelversion>4.0.0</modelversion> <groupid>spark</groupid> <artifactid>spark</artifactid> <version>1.0</version> <dependencies> <dependency> <groupid>org.apache.spark</groupid> <artifactid>spark-core_2.10</artifactid> <version>1.0.0</version> </dependency> </dependencies> </project> 利用 Maven 来编译这个工程 : # mvn install [INFO] BUILD SUCCESS [INFO] Total time: 5.815s [INFO] Finished at: Wed Jun 11 00:01:57 CST 2014 [INFO] Final Memory: 13M/32M 3 / 5

三 Python 版本 # # User: 过往记忆 # Date: 14-6-10 # Time: 下午 11:37 # bolg: https://www.iteblog.com # 本文地址 :https://www.iteblog.com/archives/1041 # 过往记忆博客, 专注于 hadoop hive spark shark flume 的技术博客, 大量的干货 # 过往记忆博客微信公共帐号 :iteblog_hadoop # from pyspark import SparkContext logfile = "file:///spark-bin-0.9.1/readme.md" sc = SparkContext("local", "Spark Application in Python") logdata = sc.textfile(logfile).cache() numas = logdata.filter(lambda s: 'a' in s).count() numbs = logdata.filter(lambda s: 'b' in s).count() print "Lines with a: %i, lines with b: %i" % (numas, numbs) 四 测试运行 本程序的程序环境是 Spark 1.0.0, 单机模式, 测试如下 : 1 测试 Scala 版本的程序 # bin/spark-submit --class "scala.test" \ --master local[4] \ target/scala-2.10/simple-project_2.10-1.0.jar 14/06/11 01:07:53 INFO spark.sparkcontext: Job finished: count at Test.scala:18, took 0.019705 s Lines with a: 62, Lines with b: 35 2 测试 Java 版本的程序 # bin/spark-submit --class "SimpleApp" \ --master local[4] \ target/spark-1.0-snapshot.jar 4 / 5

Powered by TCPDF (www.tcpdf.org) 14/06/11 00:49:14 INFO spark.sparkcontext: Job finished: count at SimpleApp.java:22, took 0.019374 s Lines with a: 62, lines with b: 35 3 测试 Python 版本的程序 # bin/spark-submit --master local[4] \ simple.py Lines with a: 62, lines with b: 35 \ 本文地址 : :https://www.iteblog.com/archives/1041, 过往记忆, 大量关于 Hadoop Spark 等个人原创技术博客 本博客文章除特别声明, 全部都是原创! 转载本文请加上 : 转载自过往记忆 (https://www.iteblog.com/) 本文链接 : () 5 / 5