sql >> Databáze >  >> RDS >> Mysql

Spark JoinWithCassandraTable na klíči oddílu TimeStamp STUCK

Pomocí:

sc.parallelize(startDate to endDate)

S počátečními daty a koncovými daty jako Longs generovanými z Date ve formátu:

("yyyy-MM-dd HH:mm:ss")

Vytvořil jsem jiskru, abych vytvořil obrovské pole (100 000+ objektů), které se spojí s tabulkou C*, a vůbec se to nezaseklo – C* tvrdě pracovalo, aby se spojení uskutečnilo a vrátila data.

Nakonec jsem změnil svůj rozsah na:

case class TableKey(created_dh: String)
val data = Array("2015-10-29 12:00:00", "2015-10-29 13:00:00", "2015-10-29 14:00:00", "2015-10-29 15:00:00")
val snapshotsFiltered = sc.parallelize(data, 2).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tnew")

A teď je to v pořádku.




  1. Vyberte z tabulky více ID

  2. Převést Unixtime na Datetime SQL (Oracle)

  3. Jak dosáhnu toho, aby MySQL používala INDEX pro zobrazení dotazu?

  4. Laravel model s POINT/POLYGON atd. pomocí DB::raw výrazů