कम्प्युटरकार्यक्रम

वर्ण इन्कोडिङ - -8

युनिकोड वस्तुतः सबै अवस्थित वर्ण सेट समर्थन गर्दछ। युनिकोड वर्ण सेट सङ्केतन को सबै भन्दा राम्रो फारम -8 इन्कोडिङ छ। यो डेटा दक्षता र प्रशोधन सजिलो विकृति गर्न ASCII अनुकूलता, प्रतिरोध समर्थन गर्दछ। तर पहिलो कुरा पहिले।

कोडिङ फारम

बाइट र 32-बिट शब्दहरू - कम्प्युटर सार गणितीय वस्तुहरु रूपमा मात्र संख्या, साथै भण्डारण एकाइहरु को संयोजन र ह्यान्डल गर्ने निश्चित आकार डाटा सञ्चालन। कसरी प्रस्तुत गर्न निर्णय गर्दा इन्कोडिङ मानक खातामा यो लिनुपर्छ वर्ण को संख्या।

कम्प्युटर प्रणाली मा, पूर्णाङ्कहरुको 8 बिट (1 बाइट), 16 वा 32 बिट को स्मृति कक्षहरू भण्डार। प्रत्येक फारम स्मृति कक्षहरूको अनुक्रम एक विशेष प्रतीक अनुरूप एक पूर्णांक छ जो एक युनिकोड इन्कोडिङ, परिभाषित। मानक मा युनिकोड वर्ण 8, 16 र 32-बिट ब्लक कोडिङ को तीन अलग अलग प्रकारका छन्। तदनुसार, तिनीहरूले -8, UTF-16 र UTF-32 जानिन्छ। नाम UTF युनिकोड परिवर्तन स्वरूप लागि खडा छ। साधन सङ्केतन तीन प्रकारका प्रत्येक बराबर प्रतिनिधित्व युनिकोड वर्ण विभिन्न आवेदन मा लाभ छ छ।

डाटा एन्क्रिप्शन युनिकोड मानक सबै वर्ण प्रतिनिधित्व गर्न प्रयोग गर्न सकिन्छ। यसरी तिनीहरूले, कारण को एक किसिम को लागि समाधान पूर्णतया उपयुक्त छन् कोडिङ विभिन्न प्रकारका प्रयोग गरेर। प्रत्येक कोडिंग unambiguously डाटा को हानि बिना अन्य दुई को कुनै पनि मा परिवर्तित गर्न सकिन्छ।

nenalozheniya सिद्धान्त

फाराम युनिकोड इन्कोडिङ प्रत्येक आंशिक मिल्दाजुल्दा गैर को दृश्य मा विकास गरे। उदाहरणका लागि, Windows-932 कोड को एक वा दुई बाइट को वर्ण खेल्छ। अनुक्रम लम्बाइ पहिलो बाइट निर्भर, त्यसैले दुई-बाइट र एकल बाइट disjoint को श्रृंखला मा अग्रणी बाइट मान। तथापि, एक बाइट को मूल्य र अनुगामी बाइट अनुक्रम एकै समयमा पर्नु सक्छ। यो खोज वर्ण डी (कोड 44) यो गल्ती दुई-बाइट वर्ण "डी" को अनुक्रम को दोस्रो भाग मा प्रवेश (कोड 84 44) पाउन सक्छन् कि उदाहरणका लागि हो। सही छ जो अनुक्रम पत्ता लगाउन, कार्यक्रम अघिल्लो बाइट खातामा लिनुपर्छ।

स्थिति अग्रणी र अनुगामी बाइट मिलान यदि जटिल छ। यो क्रम पनि अस्पष्टता हटाउन पाठ वा अद्वितीय कोड अनुक्रम को शुरुवात पुग्नु अघि उल्टो लुकअप हुनेछ भन्ने हो। यो मात्र अदक्ष छ, तर, सम्भव त्रुटिहरू सुरक्षित छैन पूर्ण पाठ मात्र एक गलत बाइट पढ्न नसकिने भएको छ देखि।

ढाँचा रूपान्तरण युनिकोड यो समस्या तिरस्कार अग्रणी, ट्रेलिङ को मूल्य र भण्डारण एकल एकाइ नै जानकारी छैन किनभने। यो सबै युनिकोड सुनिश्चित खोजी र तुलना कहिल्यै कारण वर्ण कोड विभिन्न भागहरु को संयोग गर्न गलत परिणाम दिने लागि। यी कोडिङ को प्रकारका सिद्धान्त nenalozheniya पालन भन्ने तथ्यलाई अन्य पूर्व एशियाली बहु-बाइट इन्कोडिङलाई तिनीहरूलाई distinguishes।

nonintersection अर्को पक्ष युनिकोड इन्कोडिङलाई प्रत्येक वर्ण एक स्पष्ट परिभाषित सीमा छ भन्ने छ। यो अघिल्लो प्रतीक को एक अनिश्चित नम्बर स्क्यान गर्न आवश्यकता eliminates। यो सुविधा कहिलेकाहीं आत्म-clocking इन्कोडिङ भनिन्छ। कोड एकाइहरूको विकृति मात्र एक वर्ण एक विकृति परिचय हुनेछ, र वरपरको वर्ण अझै पनि जस्ताको तस्तै छन्। 8-बिट ढाँचा रूपान्तरण मा, 10xxxxxx सुरु हुने (बाइनरी कोड) को बाइट, गर्न सूचक अंक प्रतीकको सुरु एक तीन उल्टो संक्रमण लागि आवश्यक छ पत्ता लगाउन भने।

स्थिरता

युनिकोड कंसोर्टियम पूर्णतया इन्कोडिङलाई सबै 3 प्रकारका समर्थन गर्दछ। को युनिकोड वर्ण-इन्कोडिङ मानक को embodiment को उत्तिकै मान्य प्रकारका - यो -8 र युनिकोड, सबै रूपान्तरण स्वरूप रूपमा विरोध गर्न महत्त्वपूर्ण छ।

बाइट-अभिमुखीकरण

UTF-32 वर्ण प्रतिनिधित्व गर्न युनिकोड कोड coincides जो एक 32-बिट कोड एकाइ, आवश्यक हुनेछ। UTF-16 - दुई 16-बिट एकाइहरु एक। एक -8 4 बाइट सम्म प्रयोग गर्दछ।

-8 सङ्केतनसँग बाइट-उन्मुख ASCII आधारित प्रणाली उपयुक्त हुन डिजाइन गरिएको छ। लामो समय को लागि विद्यमान सफ्टवेयर र सूचना प्रविधि को अभ्यास को सबै भन्दा बाइट को एक अनुक्रम मा वर्ण को प्रतिनिधित्व मा भरोसा। धेरै प्रोटोकल को निरन्तरताले निर्भर ASCII इन्कोडिङ र प्रयोग त विशेष नियन्त्रण वर्ण तिरस्कार गर्छन्। युनिकोड वर्ण, कुनै पनि बराबर ASCII वर्ण वा नियन्त्रण वर्ण प्रतिनिधित्व को लागि 8-बिट कोडिंग प्रयोग गरेर परिस्थिति युनिकोड सक्छन् भिज्न एक सरल तरिका हो। यो अन्त गर्न, र यो UTF-8 सङ्केतन छ।

चर लम्बाइ

-8 - चल लम्बाइ को कोडिङ, 8-बिट भण्डारण एकाइहरूको निर्वाचकगण, माथिल्लो बिट जो संकेत प्रत्येक व्यक्तिगत बाइट को अनुक्रम को जो भाग पर्छ। कोड अनुक्रम को पहिलो तत्व लागि छुट्याइयो एक मान दायरा, अर्को - अर्को लागि। यो disjointness इन्कोडिङ प्रदान गर्दछ।

ASCII

-8 इन्कोडिङ पूर्ण रूपले समर्थित छ ASCII कोड (0x00-0x7F)। यो युनिकोड वर्ण U + 0000-U + 007F एकल बाइट 0x00-0x7F -8 मा परिवर्तित र यसरी छन् ASCII देखि अप्रभेद्य बन्न हो। यसबाहेक, अस्पष्टता जोगिन, मान कुनै पनि थप युनिकोड वर्ण को एक बाइट प्रतिनिधित्व मा प्रयोग 0x00-0x7F। प्रतीक दुई बाइट को एक अनुक्रम प्रयोग गरेर ASCII भन्दा अन्य neideograficheskih सांकेतिक गर्न। प्रतीक U + 0800-U + FFFF तीन बाइट प्रतिनिधित्व गर्दै दायरा, र यू + FFFF भन्दा बढी अतिरिक्त कोड चार बाइट आवश्यक पर्दछ।

आवेदन क्षेत्र

-8 इन्कोडिङ सामान्यतया HTML प्रोटोकल मा प्राथमिकता दिइएको र जस्तै छ।

XML -8 इन्कोडिङ लागि पूर्ण समर्थन संग पहिलो मानक भएको छ। मानक संगठन पनि यो सुझाव दिन्छौं। को ASCII-वर्ण फरक छ कि URL ठेगाना समर्थन समस्या, को कंसोर्टियम W3C र IETF ईन्जिनियरिङ् समूह सबै को कोडिंग मा एउटा सम्झौता गर्न आउँदा समाधान थियो URL ठेगाना विशेष -8 मा।

ASCII अनुकूलता नयाँ सफ्टवेयर गर्न संक्रमण सुविधा। संग -8 JEdit, इमाक्स Name, BBEdit, ग्रहण, र Windows सञ्चालन प्रणाली "नोटप्याड" सहित सबैभन्दा पाठ सम्पादक, काम गर्दछ। युनिकोड इन्कोडिङ को कुनै अन्य फारम उपकरण को एक यस्तो सहयोग को घमण्ड गर्न सक्दैन।

फाइदा कोडिङ यसलाई बाइट को एक अनुक्रम हुन्छन् छ। -8 स्ट्रिङ संग सी र अन्य कार्यक्रम भाषामा काम गर्न सजिलो छ। यो इन्कोडिङ मात्र रुप हो, लेबल आवश्यकता छैन क्रम BOM वा XML मा इन्कोडिङ घोषणा बाइट।

आत्म-समिकरण

अन्य बहु-बाइट वर्ण सेट संग तुलना प्रक्रिया को 8-बिट प्रतीक प्रयोग वातावरण मा, -8 निम्न लाभ छ:

  • पहिलो बाइट कोड अनुक्रम यसको लम्बाइ बारेमा जानकारी छ। यो प्रत्यक्ष खोज को दक्षता बढ्छ।
  • सुरु बाइट मान को एक स्थिर दायरामा सीमित छ रूपमा प्रतीक को शुरुवात फेला सरलीकृत।
  • कुनै चौबाटोको बाइट मान।

लाभ तुलना

-8 इन्कोडिङ संकुचित छ। तर पूर्व एशियाली वर्ण सङ्केतन लागि प्रयोग गर्दा (चिनियाँ, जापानी, कोरियाली, चिनियाँ लेखन संकेत प्रयोग) प्रयोग 3-बाइट दृश्यहरु। पनि -8 इन्कोडिङ प्रक्रिया गति कोडिङ अन्य प्रकारका कमसल छ। एक बाइनरी क्रमबद्ध रेखाहरू क्रमबद्ध युनिकोड को बाइनरी जस्तै परिणाम उत्पादन गर्छ।

योजना इन्कोडिङ वर्ण

इन्कोडिङ वर्ण योजना प्रतीक इन्कोडिङ फारम र एकल बाइट स्थान कोड एकाइहरु लागि विधि comprises। इन्कोडिङ योजना युनिकोड मानक थालनी बाइट अर्डर चिन्ह (BOM, बाइट अर्डर चिन्ह) को प्रयोग प्रदान गर्दछ निर्धारण गर्न।

कोडिङ को प्रकारका प्रयोग गर्न मात्र सन्दर्भ जब -8 सुविधा ट्याग मा BOM सीमित छ। यसको एकाइ इन्कोडिङ आकार एक बाइट छ रूपमा एन्डियन -8 निर्धारण समस्याहरू, छ। कोडिंग को यो फारम लागि BOM प्रयोग आवश्यक न सिफारिस न छ। BOM -8 इन्कोडिङ लागि बाइट अर्डर चिन्ह वा हस्ताक्षर प्रयोग गरेर अन्य codings बाट परिवर्तित गर्न पाठ मा उत्पन्न गर्न सक्छ। 3 बाइट EF बी बी 16 16 BF 16 को एक अनुक्रम छ।

को -8 इन्कोडिङ कसरी सेट

को कोडिङ HTML -8 निम्न कोड संग स्थापित छ:

टाउको

मेटा http-equiv = "सामग्री-प्रकार" सामग्री = "text / html; वर्णहरु = UTF-8" ˃

PHP मा UTF-8 सङ्केतन उत्पादन स्तर मूल्य त्रुटि सेट पछि फाइल को सुरुमा हेडर () प्रकार्य प्रयोग सेट गरिएको छ:

˂? Php

error_reporting (-1);

हेडर ( "सामग्री-प्रकार: पाठ / HTML; वर्णहरु = -8 ');

एक MySQL डेटाबेस -8 इन्कोडिङ सेट जडान गर्न:

˂? Php

mysql_set_charset ( 'UTF8');

सीएसएस-फाइल सङ्केतन छ निम्नानुसार -8 वर्ण निर्दिष्ट गरिएको छ:

@charset "-8";

तपाईं सुरक्षित गर्दा सबै प्रकार को फाइल बिना BOM -8 इन्कोडिङ छनौट, अन्यथा साइट काम गर्ने छैन। -8 गर्न इन्कोडिङ परिवर्तन गर्न DreamWeave यो गर्न मेनु वस्तु "शीर्षक / सङ्केतन - - पृष्ठ गुण संशोधन," चयन गर्न आवश्यक छ। पृष्ठ पुन: लोड पछि देखि "जडान युनिकोड हस्ताक्षर (BOM)» चेक मार्क हटाउन र परिवर्तन लागू हुन्छ। पृष्ठ वा डेटाबेस मा कुनै पनि पाठ कोडिंग को अर्को रूप भएको थियो भने, यो पुन: प्रविष्ट गर्नुहोस् वा पुन ईन्कोड गर्न आवश्यक छ। जब तपाईं नियमित अभिव्यक्ति काम, को परिमार्जक यू प्रयोग गर्न निश्चित हुन।

तपाईं पनि विन्डोज को "नोटप्याड" मा UTF-8 सङ्केतन फाइल बचत गर्न सक्नुहुन्छ। मेनु वस्तु चयन पछि - इन्कोडिङ को आवश्यक फारम स्थापना र -8 मा फाइल बचत गर्न "फाइल बचत गर्नुहोस् ..."।

"एउटा पाठ सम्पादक नोटप्याड ++, यदि मेनु वस्तु मार्फत -8 भन्दा अन्य सेट, मा BOM बिना रूपान्तरण» वर्ण परिवर्तन र -8 मा सुरक्षित -8 गर्न।

कुनै वैकल्पिक छ

जहाँ राजनीतिक र भाषाई सीमाहरु मिट छन् वैश्वीकरण, को सन्दर्भ मा, वर्ण सेट स्थानीय विशेषताहरु छ, सानो प्रयोग हो। युनिकोड सबै स्थानान्क्रित समर्थन एकल वर्ण सेट छ। एक -8 - जो उचित युनिकोड को, कार्यान्वयनको एउटा उदाहरण:

  • यो ASCII इन्कोडिङ अनुकूलता सहित उपकरण, को एक विस्तृत श्रृंखला समर्थन;
  • यो विकृति डेटा प्रतिरोधी छ;
  • सरल र उपचार प्रभावकारी;
  • मंच स्वतन्त्र छ।

राम्रो छ इन्कोडिङ वा वर्ण सेट को के फारम बारेमा -8 बहस को आगमन संग, यो अर्थहीन हुन जान्छ।

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ne.birmiss.com. Theme powered by WordPress.