Odpovídám na svou vlastní otázku, protože se mi podařilo vyhnout se haváriím. Stále však mám problémy se sekundárními chybami a spustil jsem nové vlákno se specifiky.
Můj kód pro obnovení nyní zpracovává sekundární chyby jinak. Několikrát se pokusí o zablokování, ale pouze v případě, že chyba je zablokování. Pokud se vyskytne jakýkoli jiný typ chyby, aplikace to vzdá.
Ačkoli to znamená, že zklamaní uživatelé dostávají chyby, od této změny jsem nezaznamenal pád clusteru a neviděl jsem obávanou chybu „server zmizel“.