ComputerenProgramméiere

UTF-8 - Zeechesaz

Unicode ënnerstëtzt quasi all bestehend Charakter baut. Déi bescht Form vun Zeechesaatz Unicode Charakter Formatioun ass UTF-8 Zeechesaz. Et ënnerstëtzt Onbedenklechkeet mat nopagetext, Resistenz ze cash vun den Daten, d'Effizienz an einfacher Veraarbechtung. Mee éischte Saachen éischt.

coding Form

Computeren Bedreiwen net nëmmen den Zuelen mythologesch mathematesch Objeten, wéi och de Kombinatioune vun Unitéiten vun Stockage an Ëmgank fix-Gréisst Donnéeën - BYTE a 32-bëssen Wierder. Kodéierung Norm muss dës Rechnung huelen wann Bestëmmung wéi bis elo d'Zuel vun de Personnagen.

Am Computer Systemer, an der Erënnerung Zellen vun 8 Deeler (1 BYTE), 16 oder 32 Stécker der integers gespäichert. All Form definéiert eng Unicode Zeechesaatz, déi Haaptrei vun Erënnerung Zellen ass eng ganz fir eng bestëmmte Symbol entspriechend. An der Norm sinn et dräi verschidde Forme vun coding Unicode Zeeche 8, 16 an 32-bëssen spären. Anere Wierder, si se als UTF-8, UTF-16 an UTF-32 bekannt. Numm UTF steet fir Unicode sozialt Format. Jiddereng vun den dräi Forme vun Zeechesaatz heescht ass gläich Representatioun Unicode Charakter huet Virdeeler an verschidde Programmer.

Dateverschlësselung kann benotzt ginn all Charakteren am Unicode Norm ze vertrieden. Also, sinn se kompatibel fir Léisungen aus enger Rei vu Grënn, mat verschiddene Formen vun coding. All coding kann Flugtransport an all vun der aner zwee ouni Verloscht vun Date ëmgerechent ginn.

nenalozheniya Prinzip

Jiddereng vun den Formen Unicode Zeechesaatz am Hibléck vun Net partiell iwwerlageren entwéckelt. Zum Beispill, Formen Windows-932 der Zeeche vun engem oder zwee Bytes vum Code. D'Haaptrei Längt hänkt op der éischter BYTE, sou den Haaptfiguren BYTE Wäerter an der Serie vun zwee-BYTE an eenzeg BYTE disjoint. Allerdéngs kann de Wäert vun enger eenzeger BYTE a Chaos BYTE Haaptrei noutwennegerweis. Dat heescht zum Beispill, dass de Charakter Sich D (CODE 44) fanne kann et an den zweeten Deel vun der Haaptrei vun zwee-BYTE Charakter "D" Versinn Begoe (CODE 84 44). Fir erauszefannen wat Haaptrei richteg ass, soll de Programm Rechnung huelen de virdrun Bytes.

D'Situatioun ass komplizéiert, wann den Haaptfiguren an Chaos Bytes Match. Dat heescht, dass fir d'gewëssen Zuel ze läschen gëtt ëmgedréint ginnSocket ginn virum Ufank vum Text oder der eenzegaarteg Code Haaptrei Erréchen. Dëst ass net nëmmen effikass, mä ass net aus méiglech Feeler geschützt, well nëmmen eng falsch BYTE fir déi voll Text huet onlieserleche ginn.

Format Konversioun Unicode vermeide mer dëse Problem, well de Wäert vun den Haaptfiguren, Chaos, an enger eenzeger Unitéit vun Stockage net déi selwecht Informatiounen sinn. Dat garantéiert datt all Unicode fir Recherche an Verglach, ni fehlerhafter Resultater wéinst den Zoufall vun verschidden Deeler vun der Charakter Code Féierung. Der Tatsaach, datt dës Form vu coding Prinzip nenalozheniya fest, ënnerscheet si vun aneren Osten asiatesch Multi-BYTE Codéierungen.

Aneren Aspekt nonintersection Unicode Codéierungen ass dass all Charakter eng kloer definéiert Grenzen huet. Entfält d'Noutwendegkeet eng onbestëmmten Zuel vun virdrun Symboler ze scannen. Dës Fonktioun ass heiansdo Self-vereinfacht Zeechesaatz genannt. Cash vum Code Unitéiten wäert eng cash vun nëmmen ee Charakter, an der ronderëm Charaktere sinn nach erhalener aféieren. An der 8-bëssen Format Konversioun, wann der gesitt Punkten un der BYTE, mat 10xxxxxx ugefaange (an Duebelstäresystem Code) Ufank vun der Symbol ze fannen ass fir ee bis dräi ëmgedréint Mëttesrascht néideg.

Konsequenz

Unicode Consortium ënnerstëtzt voll all 3 Forme vun Codéierungen. Et ass wichteg net den UTF-8 an Unicode, wéi all Konversioun Formater ze géint - gläich valabel Formen vun Ausdrock vun der Unicode Charakter-Zeechesaz Norm.

BYTE-Orientatioun

Vertrieden UTF-32 Zeeche wäert brauchen eng 32-bëssen Code Eenheet, déi mat der Unicode Code gläichzäiteg. UTF-16 - ee bis zwee 16-bëssen Unitéiten. A UTF-8 benotzt op 4 Bytes weider.

UTF-8 Zeechesaatz ass entworf mat BYTE-konzentréiert nopagetext-baséiert Systemer kompatibel gin. Meeschter um bestehend Software an Praxis vun Informatiounen Technologie fir eng laang Zäit verloossen op der Representatioun vun Zeechen an enger Rei vu Bytes. MÉI Adhésiounsprotokollen hänkt op der constancy vun nopagetext Zeechesaatz a benotzt entweder vermeide mer déi speziell Kontroll Personnagen. Eng einfach Manéier ze Situatiounen ze adaptéieren Unicode kann, mat 8-bit coding fir representéiert Unicode Personnagen, all gläichwäerteg nopagetext Charakter oder eng Kontroll Charakter. Fir dëst Enn, an et ass UTF-8 Zeechesaz.

Variabel Längt

UTF-8 - coding vu verännerleche Längt, aus 8-bëssen Stockage Unitéiten, der ieweschter Deeler déi weg un deem Deel vun der Haaptrei vun all eenzelne BYTE gehéiert. One Gamme vu Wäerter bis déi éischt Element vum Code Haaptrei zougestellter, anerer - fir déi nächst. Dëst stellt disjointness Zeechesaz.

nopagetext

UTF-8 Zeechesaatz ass voll ënnerstëtzt nopagetext Coden (0x00-0x7F). Dat heescht, datt d'Unicode Zeeche U + 0000-U + 007F an eenzeg BYTE 0x00-0x7F UTF-8 ëmgerechent ginn an domat indistinguishable ginn aus nopagetext. Ausserdeem, fir gewëssen Zuel verhënneren, 0x00-0x7F de Wäert keng méi zu engem eenzege BYTE Representatioun vun Unicode Zeeche benotzt. Fir gerannt Symboler neideograficheskih aner wéi nopagetext, eng Rei vu zwee Bytes benotzt. Symboler Gamme U + 0800-U + FFFF vun dräi Bytes vertruede sinn, an zousätzlech Coden mat méi wéi U + FFFF verlaangen véier Bytes.

Sphär vun Applikatioun

UTF-8 Zeechesaatz normalerweis ass Preferenze vun der HTML Protokoll kritt, an d'wëll.

XML huet den éischte Standard mat voller Ënnerstëtzung fir UTF-8 Zeechesaatz ginn. Standarden Organisatiounen recommandéiere et och. Ënnerstëtzung Problem an der URL Adress datt aus dem nopagetext-Zeechen verschidden ass, geléist war wann d'Consortium W3C an IETF Déifbau Grupp fir en Accord iwwert d'coding vun all duerch URL Adressen exklusiv zu UTF-8.

Onbedenklechkeet mat nopagetext erliichtert den Iwwergank zu der neier Software. Mat UTF-8 Wierker stäerkste Text Redaktoren, dorënner JEdit, Emacs, BBEdit, Sonnendäischtert, an "Notizblock" de Windows Betribssystem. Keng aner Form vun Zeechesaatz Unicode kann net bretzen vun esou enger Ënnerstëtzung vun der Outil.

Virdeel coding ass dass et vun enger Rei vu Bytes besteet. Mat UTF-8 String verweist einfach an C an aner programméiere Sproochen ze schaffen. Dëst ass déi eenzeg Form vun Zeechesaatz, d'Uerdnung Etiketten net verlaangen Bytes BOM oder eng Dekodéierungs an XML.

Self-Synchroniséierung

An engem Ëmfeld, datt 8-bëssen Symboler vun der Veraarbechtung benotzt Verglach mat anere Multi-BYTE Charakter baut, UTF-8 ass déi folgend Virdeeler:

  • Déi éischt BYTE Code Haaptrei enthält Informatiounen iwwert seng Längt. Dat geet der Effizienz vun der direkter Sich.
  • Vereinfacht Ufank vun der Symbol fir den Start BYTE zu engem feste Gamme vu Wäerter limitéiert ass.
  • Nee Kräizung BYTE Wäerter.

Vergläichen d'Virdeeler

UTF-8 Zeechesaatz ass kompakt. Mee wann fir Zeechesaatz Osten asiatesch Zeeche benotzt (Chinese, Japanesch, Koreanesch, Chinese geschriwwen Schëlder benotzt) benotzt 3-BYTE Message. Och UTF-8 Zeechesaatz ass schwaach am un aner Forme vun Veraarbechtung Vitesse coding. En Duebelstäresystem Zortéieren Linnen produzéiert déi selwecht Resultat als Duebelstäresystem Zortéieren Unicode.

D'Zeechesaz Schema

D'Zeechesaz Schema regruppéiert Zeechesaatz Symboler Form an Method fir eenzel BYTE Standuert Code Unitéiten. Ze bestëmmen der Zeechesaatz Schema Unicode Norm déi d'Benotzung vun enger éischter BYTE Fir e (BOM, Byte Fir e).

Wann der BOM op UTF-8 Fonktioun Tag ass nëmmen duerch Referenz zu de Gebrauch vun Formen limitéiert vun coding. Problemer am endian UTF-8 Bestëmmung hunn, wéi hir Zeechesaatz Eenheet Gréisst eent BYTE ass. Mat der BOM fir dës Form vu coding ass weder néideg nach recommandéiert. benotzt BYTE Fir uerg oder Ënnerschrëft fir UTF-8 Zeechesaatz BOM kënnen an den Text ze geschéien aus anere codings ëmgerechent ginn. Ass eng Rei vu 3 Bytes EF BB 16 16 BF 16.

Wéi den UTF-8 Zeechesaatz bis ageriicht

Der HTML coding UTF-8 ass mat de folgende Code installéiert:

Kapp

Meta http equiv-= "zefridde-Typ" Inhalt = "Text / HTML; charset = UTF-8" ˃

mat de Wénkel () Funktioun am Ufank vun der Datei am PHP UTF-8 Zeechesaatz ass Formatioun no der Wasserstoff Niveau Wäert Feeler Kader:

˂? PHP

error_reporting (-1);

Kappball ( "zefridde-Typ: Text / HTML; charset = UTF-8 ');

Ze konnektéieren un en MySQL Datebank UTF-8 Zeechesaatz konfiguréiert:

˂? PHP

mysql_set_charset ( "utf8 ');

De CSS-Fichier Zeechesaatz ass UTF-8 Zeechen uginn ass wéi follegt:

@charset "UTF-8";

Wann Dir de Fichier vun all Zorte UTF-8 Zeechesaatz ouni BOM retten wielen, soss gëtt de Site net schaffen. Maachen dat an DreamWeave muss de Menü Punkt "Modificatiounen - Page Properties - Title / Kodéierung" ze wielen an d'Zeechesaatz zu UTF-8 änneren. Gefollegt vun der Säit Amgaang, ewechzehuelen der kontrolléieren uerg aus "Connect Unicode Ënnerschrëft (BOM)» an der Ännerungen gëllen. Wann all Text op enger Säit oder an enger Datebank aner Form vun coding agefouert gouf, ass et néideg fir nei-gitt oder du-gerannt. Wann Dir mat regelméisseg Ausstralung Aarbecht, ginn sécher de geännert U konzentréiert.

Dir kënnt och de Fichier op UTF-8 Zeechesaatz am "Notizblock" vun Windows retten. "- Trend Als ... Fichier" fir déi néideg Form vun Zeechesaatz installéiert an de Fichier am UTF-8 retten de Menü Punkt No auswielen.

An engem Text Redakter Notizblock ++, wann wéi UTF-8 aner virbereet, via de Menü Punkt "Convertéieren zu UTF-8 ouni BOM» de Charakter änneren an UTF-8 retten.

do ass keng Alternativ

Am Kontext vun der Globaliséierung, wou politesch a sproochlech Grenze Youkai sinn, de Charakter besot datt lokal Charakteristiken hunn, si vun wéineg benotzen. Unicode ass eng eenzeg Charakter Formatioun datt all localizations ënnerstëtzt. A UTF-8 - e Beispill vun der adäquate Ëmsetzung vun Unicode, dat ass:

  • Et ënnerstëtzt eng grouss Panoplie vun Instrumenter, inklusiv Onbedenklechkeet mat nopagetext Zeechesaatz;
  • Et ass resistent géint cash Donnéeën;
  • einfach an efficace an der Behandlung;
  • ass Plattform onofhängeg.

Mat deer vun der UTF-8 Debatt iwwer wat Form vun Dekodéierungs oder Charakter Formatioun ass besser, gëtt et Sprooch.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 lb.birmiss.com. Theme powered by WordPress.