sql >> Databáze >  >> NoSQL >> MongoDB

Výjimka při připojování k mongodb ve sparku

Myslím, že jsem našel problém:mongodb-hadoop má „statický“ modifikátor na svých instancích kodéru/dekodéru BSON v core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. Když Spark běží ve vícevláknovém režimu, všechna vlákna se snaží deserializovat pomocí stejného instance kodéru/dekodéru, což má předvídatelně špatné výsledky.

Oprava na mém githubu zde (odeslali požadavek na stažení upstream)

Nyní jsem schopen spustit 8jádrový vícevláknový Spark->mongo collection count() z Pythonu!



  1. Odstraňte staré záznamy v mongodb na základě měsíce

  2. MongoDB $ max

  3. mongodb:zvýší limit() rychlost dotazu?

  4. Rails 4 a mongoid:programově sestavte dotaz s více podmínkami AND a OR