sql >> Databáze >  >> NoSQL >> MongoDB

Jak navrhnu schéma MongoDB pro agregátor článků na Twitteru

dva obecné tipy:1.) nebojte se duplikovat. Často je dobré ukládat stejná data v různých kolekcích v různém formátu.

2.) pokud chcete věci třídit a sčítat, pomáhá vám všude udržovat pole počtu. Metoda atomické aktualizace mongodb spolu s příkazy upsert usnadňují počítání a přidávání polí do existujících dokumentů.

Následující text je zcela jistě chybný, protože je napsán z hlavy. Ale lepší špatné příklady než žádné příklady, které jsem si myslel;)

colletion tweets:

{
  tweetid: 123,
  timeTweeted: 123123234,  //exact time in milliseconds
  dayInMillis: 123412343,  //the day of the tweet kl 00:00:00
  text: 'a tweet with a http://lin.k and an http://u.rl',
  links: [
     'http://lin.k',
     'http://u.rl' 
  ],
  linkCount: 2
}

collection links: 

{
   url: 'http://lin.k'
   totalCount: 17,
   daycounts: {
      1232345543354: 5, //key: the day of the tweet kl 00:00:00
      1234123423442: 2,
      1234354534535: 10
   }
}

přidat nový tweet:

db.x.tweets.insert({...}) //simply insert new document with all fields

//for each found link:
var upsert = true;
var toFind =  { url: '...'};
var updateObj = {'$inc': {'totalCount': 1, 'daycounts.12342342': 1 } }; //12342342 is the day of the tweet
db.x.links.update(toFind, updateObj, upsert);

Získejte deset nejlepších odkazů seřazených podle počtu tweetů, které mají?

db.x.links.find().sort({'totalCount:-1'}).limit(10);

Získat nejvíce tweetovaný odkaz pro konkrétní datum?

db.x.links.find({'$gt':{'daycount.123413453':0}}).sort({'daycount.123413453':-1}).limit(1); //123413453 is the day you're after

Získat tweety jako odkaz?

db.x.tweets.find({'links': 'http://lin.k'});

Chcete získat deset nejnovějších tweetů?

db.x.tweets.find().sort({'timeTweeted': -1}, -1).limit(10);



  1. Stránkování vnořených dokumentů v Mongoose

  2. MongoDB 'count()' je velmi pomalé. Jak to zdokonalíme/obejdeme?

  3. Kroky pro připojení MongoDB a Solr pomocí DataImportHandler

  4. MongoDB odhadovanýDocumentCount()