sql >> Databáze >  >> NoSQL >> MongoDB

Načtěte data Spark do Mongo / Memcached pro použití webovou službou

Tímto způsobem nemůžete přímo dotazovat RDD. Představte si svou práci Spark jako stream procesor. Co můžete udělat, je poslat aktualizovaný model do nějakého „úložiště“, jako je databáze (s vlastním API nebo JDBC), souborový systém nebo memcached. Můžete dokonce uskutečnit volání webové služby z kódu Spark.

Ať děláte cokoli, dejte pozor, aby doba zpracování každé dávky dat, včetně I/O, byla výrazně pod vámi zadaným intervalem. V opačném případě riskujete úzká hrdla, která by mohla nakonec selhat.

Další věc, na kterou je třeba dávat pozor, je případ, kdy máte data svého modelu ve více než jednom oddílu RDD rozmístěných po clusteru (což je samozřejmě výchozí nastavení). Pokud na pořadí vašich „záznamů“ nezáleží, pak je jejich paralelní vypisování v pořádku. Pokud potřebujete konkrétní celkovou objednávku vypsat postupně (a data opravdu nejsou velká), zavolejte collect abyste je přenesli do jedné datové struktury v paměti uvnitř kódu ovladače (což bude znamenat síťový provoz v distribuované úloze), pak odtud zapište.




  1. Modelování mongodb uložil odkazované vztahy v jádru .net

  2. Jak použít stejné pole vícekrát v MongoDB najít dotaz v NodeJS

  3. Redis jako zprostředkovatel zpráv

  4. Použití Promises v Mongoose Routes