sql >> Databáze > >> NoSQL >> MongoDB

Jak odstraním prázdné tweety pomocí filter() v pyspark?

Pokud jsou vaše data takto

tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

můžete použít len(x) jako podmínka filtru:

tweets.filter(lambda x: len(x) > 0).count()

Najděte jeden dokument z celé kolekce s jednou konkrétní hodnotou vnořenou do více vložených dílčích dokumentů Mongo $lookup filtr pomocí vnořeného dotazu