Vários passos incluem instalar Spark na sua máquina local.
0. Pré-requisito: Instale JVM em seu ambiente.
Você pode baixar a última versão de
http://www.oracle.com/technetwork/java/javase/downloads/index.html
JRE (Java Runtime Environment) será bom para esta tarefa.Se você é um desenvolvedor Java, então você pode selecionar qualquer outra opção por seus próprios requisitos.
1. Download Spark 2.1.0 instalação.
http://spark.apache.org/downloads.htmlYou pode selecionar a última compilação. A partir de hoje, é 2.1.0 com pré-construção do Hadoop 2.7Pois clique no link de download para obter o pacote.
2. Descompacte e extraia o seu download para uma pasta local.
Due to the installation is packaged by gzip then tar.So you will need to unpack it by any zip tools to get a “spark-2.1.0-bin-hadoop2.7”.Renomeie-o para spark-2.1.0-bin-hadoop2.7.zip e descompacte-o novamente para obter todo o material.
3. Download / Instalar o Hadoop 2.7.1 binário para windows 10
Download do binário Hadoop a partir do link abaixo e descompacte/extraia em sua pasta localhttp://hadoop.apache.org/releases.htmlBecause esta versão não inclui o binário windows 10, você pode consultar o link abaixo para baixar uma versão pré-construída para o ambiente Windows. Baixe tudo para colocar/substituir seu /somewhere/hadoop-2.7.1/bin/ folder.https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin
Existe um bom artigo para instalação do Hadoop para sua referência.http://toodey.com/2015/08/10/hadoop-installation-on-windows-without-cygwin-in-10-mints/
4. Configure o seu ambiente.
>
4.1 Do logo do windows=> procurar para lançar: “Pesquisar configurações avançadas do sistema” programa-> clique no botão de “Variáveis de Ambiente “4.2 Altere abaixo as variáveis de ambiente de acordo com a versão e localização do seu software. Este é um exemplo.
JAVA_HOME=C:\Program Files\Java\jre1.8.0_121
SPARK_HOME=C:\somem lugar\spark-2.1.0-bin-hadoop2.7
HADOOP_HOME=C:\somem lugar\hadoop-2.7.3
4.3 Anexe a variável abaixo em “Path”
%SPARK_HOME%\bin
5. Conceder permissão para a pasta temp
Criar uma pasta temp em c:\tmp\hive
Executar abaixo comando como administrador.
winutils.exe chmod 777 C:\tmp\hive
6. Experimente.
>
Vá para o c:\a2.1.0-bin-hadoop2.7\bin\a
executar “spark-shell”, “pyspark” ou “spark-submit <app_name>” para o seu programa.
>
Espere tudo de bom.Se encontrou algumas mensagens de erro relacionadas com o HiveSessionState, pode tentar executar o comando como administrador para o evitar.