Se incluyen varios pasos para instalar Spark en su máquina local.
0. Requisito previo: Instalar JVM en su entorno.
Puede descargar la última versión de
http://www.oracle.com/technetwork/java/javase/downloads/index.html
JRE (Java Runtime Environment) será bueno para esta tarea.Si usted es un desarrollador de Java, entonces usted puede seleccionar cualquier otra opción por sus propios requisitos.
1. Descargar la instalación de Spark 2.1.0.
http://spark.apache.org/downloads.htmlYou puede seleccionar la última build. A partir de hoy, es 2.1.0 con prebuild Hadoop 2.7Sólo haga clic en el enlace de descarga para obtener el paquete.
2. Descomprimir y extraer su descarga en una carpeta local.
Debido a la instalación es empaquetado por gzip entonces tar.Así que usted tendrá que descomprimir por cualquier herramienta zip para obtener un «spark-2.1.0-bin-hadoop2.7».Renombrar a spark-2.1.0-bin-hadoop2.7.zip y descomprimir de nuevo para obtener todo el material.
3. Descargar / instalar Hadoop 2.7.1 binario para windows 10
Descarga el binario de Hadoop desde el siguiente enlace y descomprime/extrae en tu carpeta localhttp://hadoop.apache.org/releases.htmlBecause esta versión no incluye el binario de windows 10, puedes consultar el siguiente enlace para descargar una versión pre-build para el entorno Windows.Esta es una versión de 64 bits. Descargar todo para poner en/reemplazar su /somewhere/hadoop-2.7.1/bin/ carpeta.https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin
Hay un buen artículo para la instalación de Hadoop para su referencia.http://toodey.com/2015/08/10/hadoop-installation-on-windows-without-cygwin-in-10-mints/
4. Configurar su entorno.
4.1 Desde el logotipo de windows=>buscar para lanzar: «Buscar la configuración avanzada del sistema» programa-> haga clic en el botón de «Variables de entorno «4.2 Cambiar por debajo de las variables de entorno de acuerdo a su versión de software y la ubicación.Este es un ejemplo.
JAVA_HOME=C:\NArchivos de programa\NJava\jre1.8.0_121
SPARK_HOME=C:\somewhere\spark-2.1.0-bin-hadoop2.7
HADOOP_HOME=C:\somewhere\hadoop-2.7.3
4.3 Anexar la siguiente variable en «Path»
%SPARK_HOME%\bin
5. 5. Dar permiso a la carpeta temporal
Crear una carpeta temporal en c:\tmp\hive
Ejecutar el siguiente comando como administrador.
winutils.exe chmod 777 C:\tmp\hive
6. Probar. Pruébelo.
Vaya a la carpeta c:\somewhere\spark-2.1.0-bin-hadoop2.7\bin
ejecute «spark-shell», «pyspark» o «spark-submit <nombre_de_la_aplicación>» para su programa.
Espere que todo esté bien.Si encontró algunos mensajes de error relacionados con HiveSessionState, puede intentar ejecutar el comando como administrador para evitarlo.