Poiché sui computer venivano utilizzate più lingue, il mondo aveva bisogno di rappresentare più caratteri di testo di quelli consentiti dall'ASCII (1 byte consentiva solo 256 caratteri).
utf-8 è stato introdotto con una lunghezza in byte variabile di 1 -4 byte aumentando notevolmente la gamma di caratteri possibili.
Un vantaggio dei caratteri di dimensione variabile è che il testo non ha byte non necessari per ASCII molto comuni (richiede solo 1 byte ancora in utf-8).
nUno svantaggio dei caratteri di dimensione variabile è che la ricerca dei caratteri non può più essere eseguita rapidamente
(O(1) tempo costante) con una semplice indicizzazione (ad esempio mio_testo[3]
per ottenere il quarto carattere). possibile che i
caratteri precedenti possano avere larghezze variabili, alterando il punto in cui inizia effettivamente il 4° carattere nella sequenza di byte.
Dobbiamo invece scorrere una sequenza di byte utf-8 per capire dove iniziano effettivamente i caratteri Unicode (O(n) tempo lineare).
Ferris: "Per lo più sono semplicemente felice di avere utf-8 per rappresentare gli emoji dei miei amici sott'acqua."
< span class="emoji">🐠🐙🐟🐬🐋