sql >> Databáze >  >> NoSQL >> MongoDB

Spark neprovádí úkoly

Pokud na to někdo narazil jako já a pracuje na clusteru, ale potřebuje spouštět nějaké místní skripty na cílovém uzlu .

ŘEŠENÍ

Nejjednodušším spolehlivým řešením by bylo nastavení PYSPARK_PYTHON env na začátku skriptu, protože v mém případě to pyspark-shell nemohl vybrat, i když je správně nakonfigurován v $SPARK_HOME/conf/spark-env.sh nebo dokonce v spark-defaults.conf a ~/.bashrc (obě méně žádoucí než první možnost).

import os
os.environ['PYSPARK_PYTHON'] = '/path/to/python3' # Worker executable
os.environ['PYSPARK_DRIVER_PYTHON'] = '/path/to/python3' # Driver executable

PRAVDĚPODOBNÁ PŘÍČINA

Nejsem si úplně jistý, ale odhaduji, že pyspark nainstalovaný z pip ve vašem venv je jiný než ten, který je skutečně načten samotným Sparkem a nenajde správnou proměnnou env, a přesto se uchýlí k výchozím spustitelným souborům pythonu 2.7 všude.



  1. Proč musí být konfigurační servery MongoDB pouze jeden nebo tři?

  2. Implementace fulltextového vyhledávání MongoDB 2.4 v aplikaci Meteor

  3. Připojení k neexistujícímu serveru mongodb nevyvolá výjimku

  4. Používám příslib node.js pro ověření, zda uživatelské jméno existuje v db nebo ne