Mehrere Schritte umfassen die Installation von Spark auf Ihrem lokalen Rechner.
0. Vorbedingung: Installieren Sie JVM in Ihrer Umgebung.
Sie können die neueste Version von
http://www.oracle.com/technetwork/java/javase/downloads/index.html
JRE (Java Runtime Environment) wird für diese Aufgabe gut sein.
Wenn Sie ein Java-Entwickler sind, dann können Sie andere Optionen nach Ihren eigenen Anforderungen wählen.
1. Laden Sie die Spark 2.1.0-Installation herunter.
http://spark.apache.org/downloads.htmlYou Wählen Sie den letzten Build. Ab heute ist es 2.1.0 mit Prebuild Hadoop 2.7 Klicken Sie einfach auf den Download-Link, um das Paket zu erhalten.
2. Entpacken und extrahieren Sie Ihren Download in einen lokalen Ordner.
Da die Installation durch gzip und dann tar gepackt wird, müssen Sie es mit einem beliebigen Zip-Tool entpacken, um eine „spark-2.1.0-bin-hadoop2.7“ zu erhalten.Benennen Sie es in spark-2.1.0-bin-hadoop2.7.zip um und entpacken Sie es erneut, um das gesamte Material zu erhalten.
3. Download / Installieren Sie Hadoop 2.7.1 binary for windows 10
Laden Sie Hadoop binary von untenstehendem Link herunter und entpacken/extrahieren Sie es in Ihr lokales Verzeichnishttp://hadoop.apache.org/releases.htmlBecause diese Version enthält keine Windows 10 binary, Sie können unter untenstehendem Link eine pre-build Version für Windows Umgebung herunterladen.Dies ist eine 64-bit Version. Laden Sie alles herunter und legen Sie es in Ihren /somewhere/hadoop-2.7.1/bin/ Ordner.https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin
Es gibt einen guten Artikel zur Hadoop-Installation als Referenz.http://toodey.com/2015/08/10/hadoop-installation-on-windows-without-cygwin-in-10-mints/
4. Konfigurieren Sie Ihre Umgebung.
4.1 Von Windows logo=>suchen zu starten: „Erweiterte Systemeinstellungen suchen“ Programm-> Klicken Sie auf die Schaltfläche „Umgebungsvariablen „4.2 Ändern Sie die folgenden Umgebungsvariablen entsprechend Ihrer Softwareversion und dem Speicherort.
JAVA_HOME=C:\Programme\Java\jre1.8.0_121
SPARK_HOME=C:\irgendwo\spark-2.1.0-bin-hadoop2.7
HADOOP_HOME=C:\irgendwo\hadoop-2.7.3
4.3 Fügen Sie die folgende Variable in „Path“
%SPARK_HOME%\bin
5. Erlauben Sie den temporären Ordner
Erstellen Sie einen temporären Ordner unter c:\tmp\hive
Führen Sie den folgenden Befehl als Administrator aus.
winutils.exe chmod 777 C:\tmp\hive
6. Versuchen Sie es.
Gehen Sie zu c:\somewhere\spark-2.1.0-bin-hadoop2.7\bin\
Führen Sie „spark-shell“, „pyspark“ oder „spark-submit <app_name>“ für Ihr Programm aus.
Hoffen Sie, dass alles gut ist.
Wenn Sie einige Fehlermeldungen im Zusammenhang mit HiveSessionState gefunden haben, können Sie versuchen, den Befehl als Administrator auszuführen, um dies zu vermeiden.