Comment installer Spark 2.1.0 dans un environnement Windows 10 - Cheng-Lin-Li/Spark Wiki - GitHub

Plusieurs étapes incluent l’installation de Spark sur votre machine locale.

0. Pré-requis : Installer JVM dans votre environnement.

Vous pouvez télécharger la dernière version de

http://www.oracle.com/technetwork/java/javase/downloads/index.html

JRE (Java Runtime Environment) sera bon pour cette tâche.Si vous êtes un développeur Java, alors vous pouvez sélectionner toute autre option par vos propres exigences.

1. Télécharger l’installation de Spark 2.1.0.

http://spark.apache.org/downloads.htmlYou peut sélectionner la dernière construction. En date d’aujourd’hui, il est 2.1.0 avec prebuild Hadoop 2.7Just cliquer sur le lien de téléchargement pour obtenir le paquet.

2. Dézippez et extrayez votre téléchargement dans un dossier local.

En raison de l’installation est emballé par gzip puis tar.Donc, vous aurez besoin de le décompresser par n’importe quel outil zip pour obtenir un « spark-2.1.0-bin-hadoop2.7 ».Renommez-le en spark-2.1.0-bin-hadoop2.7.zip et décompressez-le à nouveau pour obtenir tout le matériel.

3. Télécharger / Installer Hadoop 2.7.1 binaire pour windows 10

Télécharger le binaire Hadoop à partir du lien ci-dessous et décompresser/extraire dans votre dossier localhttp://hadoop.apache.org/releases.htmlBecause cette version ne comprend pas le binaire de windows 10, vous pouvez vous référer au lien ci-dessous pour télécharger une version pré-construite pour l’environnement Windows.Il s’agit d’une version 64 bits. Téléchargez tout pour mettre dans/remplacer votre dossier /somewhere/hadoop-2.7.1/bin/.https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin

Il y a un bon article pour l’installation d’Hadoop pour votre référence.http://toodey.com/2015/08/10/hadoop-installation-on-windows-without-cygwin-in-10-mints/

4. Configurez votre environnement.

4.1 Depuis windows logo=>search pour lancer : « Recherche paramètres système avancés » programme-> cliquez sur le bouton de « Variables d’environnement « 4.2 Modifiez les variables d’environnement ci-dessous en fonction de la version et de l’emplacement de votre logiciel.Ceci est un exemple.

JAVA_HOME=C:\Program Files\Java\jre1.8.0_121

SPARK_HOME=C:\somewhere\spark-2.1.0-bin-hadoop2.7

HADOOP_HOME=C:\somewhere\hadoop-2.7.3

4.3 Ajouter la variable ci-dessous dans « Path »

%SPARK_HOME%\bin

5. Accordez la permission au dossier temporaire

Créer un dossier temporaire sous c:\tmp\hive

Exécuter la commande ci-dessous en tant qu’administrateur.

winutils.exe chmod 777 C:\tmp\hive

6. Essayez-le.

Allez dans le répertoire c:\somewhere\spark-2.1.0-bin-hadoop2.7\bin\

exécutez « spark-shell », « pyspark » ou « spark-submit <app_name> » pour votre programme.

Espérons que tout soit bon.

Si vous avez trouvé des messages d’erreur liés à HiveSessionState, vous pouvez essayer d’exécuter la commande en tant qu’administrateur pour l’éviter.

Cheng-Lin-Li / Spark