موضوع مقاله : UTF_8چيست؟
شرح : براي حل مشکل سازگاري نرمافزارهاي قديمي شيوهي جديدي از کدگذاري يونيکد ابداع شد. در اين شيوه که UTF-8 نام دارد، طول هر نويسه بر خلاف سيستم يونيکد و سيستم ASCII ثابت نيست. در سيستم UTF-8 هر نويسه ميتواند از يک تا چهار بايت فضا اشغال کند.
استفاده از نويسههاي زبانهاي مختلف در کامپايلرهاي و مفسرهاي
برنامهنويسي مانند PHP که با سيستم ASCII کار ميکنند، از مهمترين
کاربردهاي سيستم UTF-8 است. با توجه به اينکه دستورات اين زبانها در
محدودهي نويسههاي کمتر از 128 قرار ميگيرند، عملکرد صحيح اين مفسرها و
کامپايلرها تضمين ميشود. به دليل اينکه نويسههاي چندزبانه درون علامتهاي
گيومه يا آپستروف قرار ميگيرند، در ارسال آنها به خروجي نيز اشکالي به
وجود نميآيد.
چرا UTF-8 بسيار محبوب است؟
دليل آن در اين حقيقت نهفته است که تمامي کاراکترهاي اسکي، تحت يک بايت تنها، در UTF-8 قرار ميگيرند. لذا هم کاملا با نسخههاي قديمي سازگار است و هم براي زبان انگليسي و ديگر زبانهاي اروپايي، از نظر حجم بهينهتر است.
به دليل اينکه زبان انگليسي و اروپاي غربي، بيشترين استفاده را در ميان کاربران اينترنت دارند، بنابراين UTF-8 به سرعت تبديل به محبوبترين يونيکد، در محيط وب شد.
مطالب بيشتر : اينترنيک چيست؟
مزاياي utf-8 چيست
UTF-8 تنها الگوريتم موجود براي XML است که نيازي به BOM يا شاخص کدگذاري ندارد.
UTF-8 و UTF-16 روشهاي کدگذاري استاندارد براي متون يونيکد در فايلهاي کد utf-8 در html هستند، و UTF-8 پرکاربردترين آنها است.
رشته کد UTF-8 ميتواند همانند يک الگوريتم اکتشافي ساده به نظر برسد. اين ويژگي که بيشتر روشهاي کدگذاري آن را ندارند، به UTF-8 اجازه ميدهد نوع کدگذاري را تشخيص دهد. با اين روش، بدون اينکه نيازي به افزودن بيت به آن داشته باشد، از خطاهاي معمولي که هنگام تغيير يک سيستم به يک انکدينگ پيشفرض روي ميدهد ، اجتناب خواهد کرد.
UTF-8 ميتواند هر نوع کارکتر يونيکد را کدگذاري کند. فايلها را، بدون اينکه مجبور باشند فونت درستي را انتخاب کنند، با اسکريپتهاي متفاوت به درستي نمايش دهد.
UTF-8، از کدهاي 0-127 براي کاراکترهاي اسکي استفاده ميکند. اين کد بر خلاف ديگر سيستمها، نيازي به افزايش حجم براي نشان دادن کدهاي اسکي ندارد. اين بدين معني است که در تمامي نرمافزارهايي که از کاراکترهاي 7 بيتي پشتيباني ميکنند، قابل پردازش است.
UTF-8 قابليت خود هماهنگي دارد : اگر بايتها به دليل خطا يا مشکلي از بين بروند ، ميتوان شروع کاراکتر معتبر بعدي را پيدا کرد و پردازش را ادامه داد.
کدگذاري درUTF-8 ، نيازي به عمليات رياضي مانند ضرب و تقسيم ندارد و از عمليات ساده بيتي استفاده ميکند.