Sunt incluși mai mulți pași pentru a instala Spark pe mașina locală.
0. Cerință prealabilă: Instalați JVM în mediul dumneavoastră.
Puteți descărca cea mai recentă versiune de la
http://www.oracle.com/technetwork/java/javase/downloads/index.html
JRE (Java Runtime Environment) va fi bun pentru această sarcină.Dacă sunteți un dezvoltator Java, atunci puteți selecta orice alte opțiuni în funcție de propriile cerințe.
1. Descărcați instalarea Spark 2.1.0.
http://spark.apache.org/downloads.htmlYou poate selecta ultima versiune. Începând de astăzi, este 2.1.0 cu prebuild Hadoop 2.7Just faceți clic pe link-ul de descărcare pentru a obține pachetul.
2. Descompuneți și extrageți fișierul descărcat într-un dosar local.
Datorită faptului că instalarea este împachetată prin gzip, apoi tar. deci va trebui să o despachetați cu orice instrumente zip pentru a obține un „spark-2.1.0-bin-hadoop2.7”. redenumiți-l în spark-2.1.0-bin-hadoop2.7.zip și descompuneți-l din nou pentru a obține toate materialele.
3. Descărcați / instalați Hadoop 2.7.1 binary for windows 10
Download Hadoop binary from below link and unzip/extract into your local folderhttp://hadoop.apache.org/releases.htmlBecause această versiune nu include Windows 10 binary, puteți consulta linkul de mai jos pentru a descărca o versiune pre-build pentru mediul Windows. aceasta este o versiune pe 64 de biți. Descărcați totul pentru a pune în/înlocui dosarul /somewhere/hadoop-2.7.1/bin/.https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin
Există un articol bun pentru instalarea Hadoop pentru referință.http://toodey.com/2015/08/10/hadoop-installation-on-windows-without-cygwin-in-10-mints/
4. Configurați-vă mediul.
4.1 Din windows logo=>cercetați pentru a lansa: „Search advanced system settings” program-> faceți clic pe butonul de „Environment Variables „4.2 Modificați variabilele de mediu de mai jos în funcție de versiunea și locația software-ului dumneavoastră. acesta este un exemplu.
JAVA_HOME=C:\Program Files\Java\jre1.8.0_121
SPARK_HOME=C:\somewhere\spark-2.1.0-bin-hadoop2.7
HADOOP_HOME=C:\somewhere\hadoop-2.7.3
4.3 Adăugați variabila de mai jos în „Calea de acces”
%SPARK_HOME%\bin
5.Modificați variabilele de mai jos. Acordați permisiunea de a accesa folderul temp
Crearea unui folder temp sub c:\tmp\hive
Executați comanda de mai jos ca administrator.
winutils.exe chmod 777 C:\tmp\hive
6. Încercați-l.
Veziți la c:\somewhere\spark-2.1.0-bin-hadoop2.7\bin\
executați „spark-shell”, „pyspark” sau „spark-submit <app_name>” pentru programul dumneavoastră.
Sperăm că totul este în regulă.
Dacă ați găsit unele mesaje de eroare legate de HiveSessionState, puteți încerca să executați comanda ca administrator pentru a o evita.