Problém, na který narazíte, je ten, že unicode umožňuje více způsobů, jak sestavit stejný symbol. Modul Pythonu unicodedata
poskytuje funkci normalize
který vám umožňuje převést reprezentace unicode na pevný formu
(např. NFC)
from unicodedata import normalize
S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')
print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))
Ve vašem příkladu je tripadvisor zobrazen ve formě NFD, zatímco poznámkový blok používal NFC.