Como instalar Spark 2.1.0 em ambiente Windows 10 - Cheng-Lin-Li/Spark Wiki - GitHub

Vários passos incluem instalar Spark na sua máquina local.

0. Pré-requisito: Instale JVM em seu ambiente.

Você pode baixar a última versão de

http://www.oracle.com/technetwork/java/javase/downloads/index.html

JRE (Java Runtime Environment) será bom para esta tarefa.Se você é um desenvolvedor Java, então você pode selecionar qualquer outra opção por seus próprios requisitos.

1. Download Spark 2.1.0 instalação.

http://spark.apache.org/downloads.htmlYou pode selecionar a última compilação. A partir de hoje, é 2.1.0 com pré-construção do Hadoop 2.7Pois clique no link de download para obter o pacote.

2. Descompacte e extraia o seu download para uma pasta local.

Due to the installation is packaged by gzip then tar.So you will need to unpack it by any zip tools to get a “spark-2.1.0-bin-hadoop2.7”.Renomeie-o para spark-2.1.0-bin-hadoop2.7.zip e descompacte-o novamente para obter todo o material.

3. Download / Instalar o Hadoop 2.7.1 binário para windows 10

Download do binário Hadoop a partir do link abaixo e descompacte/extraia em sua pasta localhttp://hadoop.apache.org/releases.htmlBecause esta versão não inclui o binário windows 10, você pode consultar o link abaixo para baixar uma versão pré-construída para o ambiente Windows. Baixe tudo para colocar/substituir seu /somewhere/hadoop-2.7.1/bin/ folder.https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin

Existe um bom artigo para instalação do Hadoop para sua referência.http://toodey.com/2015/08/10/hadoop-installation-on-windows-without-cygwin-in-10-mints/

4. Configure o seu ambiente.

4.1 Do logo do windows=> procurar para lançar: “Pesquisar configurações avançadas do sistema” programa-> clique no botão de “Variáveis de Ambiente “4.2 Altere abaixo as variáveis de ambiente de acordo com a versão e localização do seu software. Este é um exemplo.

JAVA_HOME=C:\Program Files\Java\jre1.8.0_121

SPARK_HOME=C:\somem lugar\spark-2.1.0-bin-hadoop2.7

HADOOP_HOME=C:\somem lugar\hadoop-2.7.3

4.3 Anexe a variável abaixo em “Path”

%SPARK_HOME%\bin

5. Conceder permissão para a pasta temp

Criar uma pasta temp em c:\tmp\hive

Executar abaixo comando como administrador.

winutils.exe chmod 777 C:\tmp\hive

6. Experimente.

Vá para o c:\a2.1.0-bin-hadoop2.7\bin\a

executar “spark-shell”, “pyspark” ou “spark-submit <app_name>” para o seu programa.

Espere tudo de bom.Se encontrou algumas mensagens de erro relacionadas com o HiveSessionState, pode tentar executar o comando como administrador para o evitar.

Cheng-Lin-Li / Spark