sql >> Databáze >  >> RDS >> PostgreSQL

Pyspark:Odstraňte nulový znak UTF z datového rámce pyspark

Ach počkat - myslím, že to mám. Pokud něco takového udělám, zdá se, že to funguje:

null = u'\u0000'
new_df = df.withColumn('e', regexp_replace(df['e'], null, ''))

A pak mapování na všechny sloupce řetězců:

string_columns = ['d','e']
new_df = df.select(
  *(regexp_replace(col(c), null, '').alias(c) if c in string_columns else c for
    c in df.columns)
  )


  1. PostgreSQL ekvivalent pro MySQL GROUP BY

  2. SQL dotaz pro převod seznamu čísel shodných s několika rozsahy na seznam hodnot

  3. Existuje rozdíl ve výkonu mezi concat vs || v orákulu

  4. Jak získám protokolování psycopg2 doby provádění dotazu?