Tour di Rust Indice dei Contenuti

Cos'è utf-8

Poiché sui computer venivano utilizzate più lingue, il mondo aveva bisogno di rappresentare più caratteri di testo di quelli consentiti dall'ASCII (1 byte consentiva solo 256 caratteri).

utf-8 è stato introdotto con una lunghezza in byte variabile di 1 -4 byte aumentando notevolmente la gamma di caratteri possibili.

Un vantaggio dei caratteri di dimensione variabile è che il testo non ha byte non necessari per ASCII molto comuni (richiede solo 1 byte ancora in utf-8). nUno svantaggio dei caratteri di dimensione variabile è che la ricerca dei caratteri non può più essere eseguita rapidamente (O(1) tempo costante) con una semplice indicizzazione (ad esempio mio_testo[3] per ottenere il quarto carattere). possibile che i caratteri precedenti possano avere larghezze variabili, alterando il punto in cui inizia effettivamente il 4° carattere nella sequenza di byte.

Dobbiamo invece scorrere una sequenza di byte utf-8 per capire dove iniziano effettivamente i caratteri Unicode (O(n) tempo lineare).

Ferris: "Per lo più sono semplicemente felice di avere utf-8 per rappresentare gli emoji dei miei amici sott'acqua."

< span class="emoji">🐠🐙🐟🐬🐋

Mascot Ferris