Myslím, že jsem našel problém:mongodb-hadoop má „statický“ modifikátor na svých instancích kodéru/dekodéru BSON v core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. Když Spark běží ve vícevláknovém režimu, všechna vlákna se snaží deserializovat pomocí stejného instance kodéru/dekodéru, což má předvídatelně špatné výsledky.
Oprava na mém githubu zde (odeslali požadavek na stažení upstream)
Nyní jsem schopen spustit 8jádrový vícevláknový Spark->mongo collection count() z Pythonu!