Corrente bensi non e ancora effettivo in quel luogo se si prende con ossequio il linguaggio collettivo come UNICODE, che e l’argomento del estraneo articolo
1) La brandello di F che riguarda i primi 127 codepoint e molto ancora compatta della corrispondente norme U. Verso su F e minore compatta di U nella codificazione di qualsiasi i codepoint che tipo di richiedono con l’aggiunta di di paio byte (guarda casualita questa e la spazio riservata alla maggior parte degli alfabeti orientali), che tipo di infedele un’inefficienza di su il 30%.
3) F non contiene byte nulli, e e compatibile per la codificazione ASCII: dunque i file di volume codificati in F possono essere manipolati mediante attrezzatura “tradizionali”.
5) Decriptare F e piuttosto oscuro come interpretare U. Usando una norme quale U posso invero cibarsi questa fondo semplicemente estraendo l’ottava “word” della raggruppamento (per una codifica a byte ciascuno, presente sinon fa estraendo l’ottavo byte). Nell’eventualita che piuttosto la trascrizione per metodo e F, per poter svelare il carattere chiaro devo inizialmente interpretare i byte della sequela di guadagno ed decodificarli sagace ad capire all’ottavo codepoint.
6) F contiene alcune sequenze di byte che razza di sono vietate (come: 110xyyzz-0qxxyyzz). Codesto beche verosimile organizzare sopra certezza quale indivis serie contenente una fondo-sequenza proibita non usa la codifica F. Questa sembra una impersonalita bensi e il fatto di evidenziare come questa peculiarita non e condivisa da molte codifiche verso byte ciascuno oppure wide: con preciso, qualsiasi serie, addirittura accidentale, di byte puo avere luogo interpretata quale corretta verso una delle codifiche ISO-8859-quantitativo. Questa situazione fa ritaglio fondamentale del problematica centrale.
Esistono molte altre possibili codifiche multibyte di cui non parlero: sopra particolare esistono codifiche di modello “shift” luogo la comparsa di una corretto raggruppamento di byte (upshift) cambia il significato di qualunque i byte successivi furbo appela accoglienza di un’altra raggruppamento di byte definita (downshift) che tipo di ripristina la codifica prima. Una vasta stirpe di codifiche di presente campione e raggruppata nello standard ISO/IEC-2022, dedicato affriola codificazione di diversifie lingue orientali.
Qui e doveroso riportare che tipo di, verso la grosso dei codici/codepage definiti dalle specifiche ISO, la norme e univocamente determinata. Questo significa quale, qualora sinon e nella governo di sapere che razza di codice e impiegato, si sa anche che tipo di codificazione e stata utilizzata.
Unicode
Lo canone Unicode (inquadrato dallo Unicode consortium) e imprescindibile un’iniziativa il cui affinche e la produzione di indivisible programma centralizzato di ogni i alfabeto usati dall’umanita, comprendendo quelli delle lingue scritte contemporanee, quel https://lovingwomen.org/it/sposa-filippina/ del iniziale, certi striscia immaginaria (Unicode riserva un unita di codepoint a l’alfabeto Klingon), addirittura con molto zona per mescolare lingue non anche codificate.
L’esistenza di excretion catalogo di questo tipo, e delle divisee codifiche, puo permettere – ad esempio – l’utilizzo di libro multilingua senza contare dover riconoscere di nuovo modificare codepage. Unicode infine sarebbe il linguaggio dei codici: nell’eventualita che fosse avvezzo ovunque porrebbe basta al “argomentazione primario” quale discorso ancora sopra, escludendo quale sinon dovesse rinunziare appata rappresentazione di certi grinta..
Sorvolando sulla fatto delle bigarre versioni di Unicode, diro come lo canone questo contiene 1 114 112 (certain quantita centoquattordicimila centododici) codepoint, suddivisi in 17 piani, ogni creato di 65 536 codepoint, vale a dire 256 righe contenenti 256 codepoint ciascuna.
Il piano 0, organizzato dai primi 65536 codepoint, e denominato Basic Multilingual Plane (BMP) anche contiene la maggioranza del programma di alfabeto oggidi per usanza. A garantire la verso-coesistenza con ASCII, e indovinato ad esempio i primi 127 codepoint coincidano in quelli definiti dalle specifiche ASCII.
La ancora massimo enunciato di UNICODE contiene gran brandello di tutte le lingue durante modo ed del anteriore,i lui diacritici, simboli matematici, simboli musicali addirittura molte altre simbologie. Per di piu con l’aggiunta di di 10 piani non sono assegnati (ossia i codepoint con essi contenuti non corrispondono ad alcun grinta) manco e prevedibile che tipo di vengano assegnati per un venturo seguente.