ISIRI 6219

6219

فناوري اطلاعات –

تبادل و شيوه‏ي نمايش اطلاعات فارسي براساس يوني كد

چاپ اول

آشنايي با موسسه استاندارد و تحقيقات صنعتي ايران

موسسه استاندارد و تحقيقات صنعتي ايران به موجب قانون، تنها مرجع رسمي كشور است كه عهده دار وظيفه تعيين، تدوين و نشر استانداردهاي ملي(رسمي) مي‏باشد.

تدوين استاندارد در رشته‏هاي مختلف توسط كميسيون‏هاي فني مركب از كارشناسان موسسه ، صاحبنظران مراكز و موسسات علمي، پژوهشي، توليدي و اقتصادي آگاه و مرتبط با موضوع صورت مي‏گيرد. سعي بر اين است كه استانداردهاي ملي، درجهت مطلوبيت‏ها و مصالح ملي و با توجه به شرايط توليدي، فني و فن آوري حاصل از مشاركت آگاهانه و منصفانه صاحبان حق و نفع شامل:

توليد كنندگان، مصرف كنندگان، بازرگانان، مراكز علمي و تخصصي و نهادها و سازمان‏هاي دولتي باشد. پيش نويس استانداردهاي ملي جهت نظرخواهي براي مراجع ذينفع و اعضاي كميسيون‏هاي فني مربوط ارسال مي‏شود. و پس از دريافت نظرات و پيشنهادها در كميته ملي مرتبط با آن رشته طرح و درصورت تصويب به عنوان استاندارد ملي(رسمي) چاپ و منتشر مي‏شود.

پيش‏نويس استانداردهايي كه توسط موسسات و سازمان‏هاي علاقمند و ذيصلاح و با رعايت ضوابط تعيين شده تهيه مي‏شود نيز پس از طرح و بررسي در كميته ملي مربوط و درصورت تصويب، به عنوان استاندارد ملي چاپ و منتشر مي‏گردد. بدين ترتيب استاندارهايي ملي تلقي مي‏شود كه بر اساس مفاد مندرج در استاندارد ملي شماره «5» تدوين و در كميته ملي مربوط كه توسط موسسه تشكيل مي‏گردد به تصويب رسيده باشد.

موسسه استاندارد و تحقيقات صنعتي ايران از اعضاء اصلي سازمان بين‏المللي استاندارد مي‏باشد كه در تدوين استانداردهاي ملي ضمن توجه به شرايط كلي و نيازمندي‏هاي خاص كشور، از آخرين پيشرفت‏هاي علمي، فني و صنعتي جهان و استانداردهاي بين‏المللي استفاده مي‏نمايد.

موسسه استاندارد و تحقيقات صنعتي ايران مي‏تواند با رعايت موازين پيش‏بيني شده در قانون به منظور حمايت از مصرف كنندگان، حفظ سلامت و ايمني فردي و عمومي، حصول اطمينان از كيفيت محصولات و ملاحظات زيست محيطي و اقتصادي، اجراي بعضي از استانداردها را با تصويب شوراي عالي استاندارد اجباري نمايد. موسسه مي‏تواند به منظور حفظ بازارهاي بين‏المللي براي محصولات كشور، اجراي استاندارد كالاهاي صادراتي و درجه بندي آن را اجباري نمايد.

همچنين به منظور اطمينان بخشيدن به استفاده كنندگان از خدمات سازمان‏ها و موسسات فعال در ضمينه مشاوره، آموزش، بازرسي، مميزي و گواهي كنندگان سيستم‏هاي مديريت كيفيت و مديريت زيست محيطي، آزمايشگاه‏ها و كاليبره كنندگان وسايل سنجش، موسسه استاندارد اينگونه سازمان‏ها و موسسات را بر اساس ضوابط نظام تائيد صلاحيت ايران مورد ارزيابي قرار داده و در صورت احراز شرايط لازم، گواهي نامه تائيد صلاحيت به آنها اعطا نموده و بر عملكرد آنها نظارت مي‏نمايد. ترويج سيستم بين‏المللي يكاها، كاليبراسيون وسايل سنجش، تعيين عيار فلزات گرانبها و انجام تحقيقات كاربردي براي ارتقاي سطح استانداردهاي ملي از ديگر وظائف اين موسسه مي‏باشد.

كميسيون فني استاندارد فناوري اطلاعات - تبادل و شيوه‏ي نمايش اطلاعات فارسي براساس يوني كد
رئيس
تابش – يحيي	دكتري رياضي	دنشگاه صنعتي شريف
اعضاء
اسفهبد ميرحسين زاده سرابي -‏ سيد بهداد	ليسانس مهندسي كامپيوتر	دانشگاه صنعتي شريف
پورنادر – روزبه	ليسانس مهندسي كامپيوتر	دانشگاه صنعتي شريف
خانبان - علي اصغر	فوق ليسانس رياضي	دانشگاه لندن
علمدار ميلاني – اميد	ليسانس مهندسي كامپيوتر	دانشگاه صنعتي شريف
دبير
پناهي – زهرا	فوق ليسانس علوم كامپيوتر	دانشگاه صنعتي شريف
فصيحي – مريم	ليسانس علوم كامپيوتر	مؤسسه استاندارد و تحقيقات صنعتي ايران

فهرست مطالب

ساختار عمومي استاندارد يوني كد

شيوه تهيه اين استاندارد

مقدمه

آشنايي با استاندارد يوني كد

"فناوري اطلاعات - تبادل و شيوه‏ي نمايش اطلاعات فارسي براساس يوني كد"

هدف و دامنه كاربرد

بعضي از مسائلي كه اين استاندارد به آن‏ها نمي‏پردازد

مراجع الزامي

اصطلاحات و تعاريف

نمادها

نويسه‏هاي مورد استفاده در متون فارسي

بسمه تعالي

پيشگفتار

استاندارد "فناوري اطلاعات - تبادل و شيوه‏ي نمايش اطلاعات فارسي براساس يوني كد "كه پيش نويس آن توسط ))شوراي عالي انفورماتيك كشور ((9در كميسيون‏هاي مربوطه تهيه و تدوين‏شده و در پنجمين جلسه كميته ملي استاندارد رايانه و فرآوري داده‏ها مورخ 1381/12/18مورد تائيد قرار گرفته است‏، اينك به استناد بند يك ماده 3قانون اصلاح قوانين و مقررات مؤسسه استاندارد و تحقيقات صنعتي ايران مصوب بهمن ماه 1371بعنوان استاندارد ملي ايران منتشر مي‏شود.

براي حفظ همگامي و هماهنگي با تحولات و پيشرفت‏هاي ملي و جهاني در زمينه صنايع‏، علوم و خدمات‏، استانداردهاي ملي ايران در مواقع لزوم تجديد نظر خواهند شد و هرگونه پيشنهادي كه براي اصلاح يا تكميل اين استانداردها ارائه شود، در هنگام تجديد نظر در كميسيون‏هاي فني مربوط مورد توجه قرار خواهد گرفت‏. بنابراين براي مراجعه به استانداردهاي ايران بايد همواره از آخرين چاپ و تجديدنظر آنها استفاده كرد.

در تهيه و تدوين اين استاندارد سعي شده است كه ضمن توجه به شرايط موجود و نيازهاي جامعه‏، در حد امكان بين اين استاندارد و استانداردهاي بين‏المللي و استانداردهاي كشورهاي صنعتي و پيشرفته هماهنگي ايجاد شود.

منابع و مراجعي كه براي تهيه اين استاندارد به كار رفته است به شرح زير است‏:

1. The Union Consortium, The Unicode Standard, Version 3.2.0, defined by:

The Unicode Standard, Version 3.0, Addison-Wesley, 2000 as, amended by the UnicodeStandard Anner#27: Unicode 3.1

(http://www. unicode.org/unicode/reports/tr27/)

and by the Unicode Standard Annex#28: Unicode 3.2

(http://www. unicode.org/unicode/reports/tr28/).

2. ISO 10646-1:2000 Information Technology-Universal Multiple-Octet Coded Character Set(UCS) - Part1: Architecture and Basic Multilingual Plane.

3. Dave Ragget, Arnaud Le Hors, Ian Jacobs, "HTML 4.01 Specification", World Wide

3. Dave Ragget, Arnaud Le Hors, Ian Jacobs, "HTML 4.01 Specification", World Wide WebConsortium, December 1999.

4. Tim Bray, Jean Paoli, C.M. Sperberg-McQueen, Eve Maler, "Extensible Markup Language(XML) 1.0" , World Wide Web Consortium, Second Edition, October 2000.

5. Martin J. Durst, Francois Yergeau, Richard Ishida, Misha Wolf, Asmus Freytag, Tex Texin, "Character Model for the World Wide Web 1.0", World Wide Web Consortium, WorkingDraft, April 2002.

.6استاندارد ملي ايران :3342سال 1372كد تبادل اطلاعات 8بيتي فارسي‏.

.7استاندارد ملي ايران :2900سال 1376كد تبادل اطلاعات به زبان فارسي‏.

.8استاندارد ملي ايران :820سال 1351حروف فارسي در ماشين‏هاي تحرير.

.9دستور خط فارسي‏، فرهنگستان زبان و ادب فارسي‏، .1378

.10شيوه نامه‏، مركز نشر دانشگاهي‏، ويرايش دوم‏، .1372

.11نتايج پروژه‏هاي تحقيقاتي گروه ))فارسي در شبكه‏((، مركز محاسبات‏، دانشگاه صنعتي شريف‏، تهران‏، 1377تا .1381

ساختار عمومي استاندارد يوني كد

استاندارد يوني كد، به هر نويسه عدد يكتايي از 0تا 111،114، 1اختصاص مي‏دهد. اين محدوده به 17صفحه 536، 65نويسه‏اي تقسيم مي‏شود. صفحه اول صفحه پايه نام دارد و اكثر نويسه‏هاي مورد استفاده در زبان‏هاي زنده دنيا را دربر مي‏گيرد.

يوني كد بيش از صد هزار نويسه را نيز براي استفاده خصوصي مشخص مي‏كند كه مي‏تواند براي ذخيره سازي داخلي‏، يا با توافق طرفين براي تبادل اطلاعات به كار رود.

يوني كد به هر نويسه نام يكتا و مشخصي تخصيص مي‏دهد كه معنا يا شكل نويسه را مشخص مي‏كند. به علاوه‏، براي هر نويسه ويژگي‏هاي الزامي يا اطلاعاتي‏اي را مشخص مي‏كند كه معناي آن نويسه را معين مي‏كنند.

شيوه تهيه اين استاندارد

استاندارد حاضر براي تبادل خط فارسي )صورت نوشتاري زبان فارسي‏ (تهيه شده است و قصد مشخص كردن شيوه مرجعي براي نگارش‏، يا محدود كردن دايره نويسه‏هاي اين خط را ندارد. بلكه تلاش شده است كليه نويسه‏هاي مورد استفاده روزمره در متون فارسي يا متون شامل نقل قول‏هاي مذهبي‏، در صورتي كه در استاندارد يوني كد موجود باشند، در اين استاندارد ذكر شوند.

كميته فني اين استاندارد نهايت تلاش ممكن را براي اطمينان از سازگاري كامل اين استاندارد با استاندارد يوني كد انجام داده است‏.

يادآوري - پس از اولين جلسه كميته ملي استاندارد براي تصويب استاندارد حاضر، نسخه 3.2استاندارد يوني كد در تاريخ 1381/1/7منتشر شد. استاندارد حاضر با نسخه‏اي اخير استاندارد يوني كد نيز كاملا سازگار است‏. نسخه‏اي اخير، درخواست شوراي انفورماتيك كشور، نويسه‏اي نيز براي علامت ))ريال‏ ((با كد U+FDFC، در نظر گرفته است‏. شيوه صحيح استفاده از اين نويسه در ضميمه‏اي بر استاندارد حاضر منتشر خواهد شد.

مقدمه

آشنايي با استاندارد يوني كد

استاندارد يوني كد (Unicode)شيوه‏اي جهاني براي كدگذاري نويسه‏ها و متون است‏. اين استاندارد روشي هماهنگ براي كدگذاري متون چند زبانه مشخص مي‏كند كه تبادل اطلاعات را در سطوح بين المللي ميسر مي‏سازد. يوني كدگذاري پيش فرض استانداردهاي اينترنت‏، از قبيل HTMLو XMLاست و در كليه سيستم عامل‏ها و زبان‏هاي برنامه سازي امروزي پشتيباني مي‏شود. ثبات داده‏ها، امكان تبادل بين المللي متون‏، ساده شدن نرم افزارها و كم شدن هزينه‏هاي توليد، از جمله مزاياي يوني كد براي صنعت فن آوري اطلاعات است‏.

يوني كد از مجموعه نويسه‏هاي محدود 8بيتي بسيار فراتر رفته و با ظرفيت بيش از يك ميليون نويسه‏، امكان كدگذاري كليه زبان‏هاي نوشتاري دنيا را فراهم مي‏كند. به علاوه‏، براي انتخاب خط و زبان متن‏، نيازي به استفاده از كدهاي كنترلي ندارد. يوني كد رفتار يكساني با نويسه‏هاي الفبايي‏، نويسه‏هاي انديشه نگار، و نمادها و نشانه‏ها دارد، كه امكان استفاده از آن‏ها را در اختلاط با يكديگر فراهم مي‏كند. يوني كد، علاوه بر تعيين كد عددي و نام براي هر نويسه كه در استانداردهاي مشابه معمول بوده است‏، اطلاعات بيشتري را نيز كه براي پردازش و نمايش متون لازم است تأمين مي‏كند، كه از آن جمله مي‏توان به جهت نويسه و ويژگي‏هاي الفبايي اشاره كرد.

يوني كد سه قالب براي تبادل و ذخيره سازي اطلاعات فراهم مي‏كند: UTF-8براي بسترهاي موجود 8بيتي )مناسب براي محيطهاي مبتني بر استاندارد ASCII، از جمله اينترنت‏(، UTF-16براي محيطهاي 16بيتي‏، و UTF-32براي محيطهاي 32بيتي‏. علاوه بر اين‏، استاندارد يوني كد در تخصيص كد به نويسه‏ها كاملا با استاندارد بين‏المللي ISO/IEC10646هماهنگ و معادل است‏. در واقع‏، هر كاربردي كه از استاندارد يوني كد پي روي كند، با استاندارد ISO/IEC10646نيز كاملا سازگار است‏.

براي اطلاعات بيشتر، به فصل 1استاندارد يوني كد مراجعه كنيد.

"فناوري اطلاعات - تبادل و شيوه‏ي نمايش اطلاعات فارسي براساس يوني كد"

-1هدف و دامنه كاربرد

هدف از تدوين اين استاندارد تعيين شيوه استفاده صحيح از دو استاندارد يوني كد و ISO/IEC10646براي متون فارسي و قسمت‏هاي فارسي متون چند زبانه است كه در سيستم‏هاي كامپيوتري‏، يا هرگونه سيستم ديگري كه توانايي‏هاي پردازشي مورد نياز در اين استاندارد را داشته باشد، به كار مي‏رود.

اين استاندارد در نمايش‏، انتقال‏، تبادل‏، پردازش‏، ذخيره سازي‏، ورود، و ارائه صورت نوشتاري زبان فارسي و نمادهاي لازم براي آن به كار مي‏رود.

اين استاندارد، شيوه صحيح تبادل و نمايش اطلاعات فارسي را براساس استانداردهاي همگام يوني كد و ISO/IEC10646مشخص مي‏كند.

اين استاندارد:

●نام‏، معني و كد متناظر با نويسه‏هاي مورد استفاده در خط فارسي را مشخص مي‏كند،

●شيوه نمايش نويسه‏ها را در متون دو جهته‏، و شيوه اتصال حروف فارسي را مشخص مي‏كند،

●قالب‏هاي مختلف يوني كد و ISO/IEC10646را براي تبادل داده‏ها مشخص مي‏كند،

●شيوه معين كردن انتهاي سطرها و بندها را مشخص مي‏كند،

●شيوه مقايسه رشته‏هاي نويسه‏اي را از نظر هم ارزي مشخص مي‏كند.

بعضي از مسائلي كه اين استاندارد به آن‏ها نمي‏پردازد

استاندارد حاضر به موارد زير نمي‏پردازد:

●شيوه‏هاي وارد سازي داده‏ها

●مرتب سازي عبارات فارسي و چند زبانه

●شيوه سطرشكني و سطربندي متون

●شيوه ويرايش‏، درج و حذف زير متن‏ها

●فشرده سازي متون‏، يا مبادله آن‏ها به صورت كم حجم

●مشخص كردن زبان متون و زير متن‏ها

يادآوري -1نهايت تلاش ممكن صورت گرفته است تا آن چه كه اين استاندارد معين مي‏كند، برخلاف استانداردهاي يوني كد و ISO/IEC10646نباشد. در صورتي كه ثابت شود پي روي از قسمت مشخصي از اين استاندارد، كاربردها را با آن دو استاندارد ناسازگار مي‏كند، يا تغيير دو استاندارد فوق الذكر در آينده باعث ناسازگاري شود، آن قسمت )و فقط آن قسمت‏ (از اين استاندارد باطل بوده و آن چه كه در آن دو استاندارد مشخص شده جايگزين قسمت ناسازگار مي‏شود. در چنين صورتي‏، براي سازگار شدن مجدد، ضميمه‏هايي بر اين استاندارد منتشر خواهد شد.

يادآوري -2پيروي از اين استاندارد هيچ گونه ناسازگاري با استفاده از يوني كد براي خطهاي ديگر از جمله عربي‏، اردو، كردي و... ايجاد نمي‏كند. به علاوه‏، حروف مشترك اين خطوط از كدهاي مشترك استفاده مي‏كنند. به عنوان مثال‏، حرف الف در همه اين خطها از كد يكساني استفاده مي‏كند.

-2مراجع الزامي

مدارك الزامي زير حاوي مقرراتي است كه در متن اين استاندارد به آن‏ها ارجاع داده شده است‏. بدين ترتيب آن مقررات‏، جزئي از اين استاندارد محسوب مي‏شود. در مورد مراجع داراي تاريخ چار و /يا تجديد نظر، اصلاحيه‏ها و تجديدنظرهاي بعدي اين مدارك مورد نظر نيست‏. مع هذا بهتر است كاربران ذينفع اين استاندارد، امكان كاربرد آخرين اصلاحيه‏ها و تجديدنظرهاي مدارك الزامي زير را مورد بررسي قرار دهند. در مورد مراجع بدون تاريخ چاپ و /يا تجديد نظر، آخرين چاپ و /يا تجديدنظر آن مدارك الزامي ارجاع داده شده مورد نظر است‏.

استفاده از مراجع زير براي كاربرد اين استاندارد الزامي است‏.

1. The Unicode Consortium , The Unicode Standard , available from

http://www.unicode.org/

2. Mark Davis, "The Unicode Standard Annex#9, The Bidirectional Algorithm", availableform http://www.unicode.org/unicode/reports/tr9/

3. Mark Davis, "The Unicode Standard Annex#13, Unicode Newline Guidelines", availableform http://www.unicode.org/unicode/reports/tr13/

4. Mark Davis, Martin Durst, "The Unicode Standard Annex#15, Unicode NormalizationForms", available form http://www.unicode.org/unicode/reports/tr15/

5. Francois Yergeau, "UTF-8, a transformation format of ISO 10646", RFC 2279, January ",1998, available form http://www.unicode.ietf.org/rfc/rfc2279.txt

6. Paul Hoffman, Francois Yergeau, "UTF-16, an encoding of ISO10646", RFC2781, February2000, 79, January ", 1998, available form http://www.unicode.ietf.org/rfc/rfc2781.txt

7. Mark Davis, "Unicode Standard Annex#19, UTF-32", available formhttp://www.unicode.org/unicode/reports/tr19/

-3اصطلاحات و تعاريف

در اين استاندارد اصطلاحات و /يا واژه‏ها با تعاريف زير به كار مي‏رود:

-1-3متن

در اين استاندارد عمومأ منظور از ))متن‏ ((متن كد شده يا ذخيره شده روي كامپيوتر است‏. در برابر textبه كار مي‏رود.

-2-3خط

))خط ((مجموعه‏اي از نمادها است كه مي‏توان با آن كلمات يك يا چند زبان را نشان داد. در برابر scriptبه كار مي‏رود.

-3-3نويسه

))نويسه‏ ((كوچكترين واحد متن نوشته شده است‏، مستقل از شكل آن‏. در برابر characterبه كار مي‏رود.

-4-3مجموعه نويسه

))مجموعه نويسه‏ ((مجموعه‏اي از نويسه‏هايي است كه براي ارائه اطلاعات نوشتاري استفاده شوند. در برابر character setبه كار مي‏رود.

-5-3شكل

))شكل‏ ((صورت نمايشي نويسه در يك زمينه خاص است‏. نويسه‏ها مي‏توانند شكل‏هاي متعددي داشته باشند. در برابر glyphبه كار مي‏رود.

-6-3متن ساده

))متن ساده‏ ((متني است كه شامل اطلاعات ساختاري يا ارائه‏اي نيست‏. در برابر plain textبه كار مي‏رود.

-7-3كد گذاري كردن

))كد گذاري كردن‏ ((اختصاص يك به يك كدها به نويسه‏ها است‏. در برابر encodeبه كار مي‏رود.

-4نمادها

در متن اين استاندارد از نمادهاي زير استفاده شده است‏:

عدد يا كد متناظر با نويسه‏هاي يوني كد به شكل U+nمشخص مي‏شود، كه در آن nيك عدد چهار تا شش رقمي در مبناي شانزده است‏، و ارقام لاتين 0تا 9، و حروف لاتين Aتا ) Fجاي گزين 10تا (15استفاده مي‏كند. عدد nنبايد با صفر شروع شود، مگر اين كه كمتر از چهار رقم داشته باشد. مثلا: U+0001، U+0012، U+0123، U+1234و .U+102345در جدول‏ها ممكن است براي اختصار U+حذف شود.

مثال - U+066Bكد يوني كد نويسه‏ي ))مميز فارسي‏ ((است‏.

محدوده‏اي از نويسه‏هاي يوني كد به شكل U+x..U+yيا x..yمشخص مي‏شود، كه در آن xو اولين yو آخرين نويسه‏هاي محدوده‏اند و نقطه‏ها نمايانگر محدوده پيوسته‏اي از نويسه‏ها، كه شامل دو نويسه اول و آخر فهرست نيز مي‏شود.

مثال - U+0900..U+097Fشامل 128كد يوني كد است‏.

دنباله دو يا چند كد يوني كد با ويرگول لاتين جدا شده و به شكل (U+x,U+y,...,U+z)مشخص مي‏شود. ترتيب نويسه‏ها در نمادگذاري فوق از چپ به راست است‏. نماد U+اختياري است‏.

استاندارد حاضر به كليه نويسه‏هايي كه تعريف مي‏كند نامي يكتا اختصاص داده است‏. اين نامه‏ها لزومأ ترجمه دقيق نام انگليسي نويسه‏هاي استانداردهاي يوني كد و ISO/IEC10646نيستند، بلكه براساس كاربرد آن نويسه‏ها در كاربردهاي فارسي انتخاب شده‏اند. در اين نام‏ها فقط از حروف و نشانه‏هاي زبان فارسي استفاده شده است‏.

-5نويسه‏هاي مورد استفاده در متون فارسي

اين بخش نويسه‏هايي را در برمي‏گيرد كه در اين استاندارد معناي مشخصي به آن‏ها تخصيص داده شده است‏. اگر كاربردي از نويسه‏اي كه در اين بخش آمده پشتيباني كند، بايد اين نويسه را دقيقأ بر مبناي معناي ذكر شده در اين استاندارد تفسير يا توليد كند.

پشتيباني اين نويسه‏ها اجباري است‏، مگر نويسه‏هايي كه با علامت ستاره مشخص شده‏اند. پشتيباني نويسه‏هاي ستاره‏دار اختياري است‏، ولي در صورت پشتيباني شدن‏، آن‏ها نيز بايد برمبناي معناي ذكر شده در اين استاندارد تفسير يا توليد شوند.

در صورتي كه كاربردها نياز به نويسه‏هاي ديگري نيز داشته باشند، اين استفاده بايد دقيقأ براساس معناي تعريف شده در استاندارد يوني كد صورت گيرد.

يادآوري -1از آن جا كه استاندارد ISO/IEC10646معناي چندان مشخصي به نويسه‏ها تخصيص نمي‏دهد، سازگار بودن با آن استاندارد كافي نيست و استفاده از نويسه‏هاي ديگر بايد با استاندارد يوني كد نيز سازگار باشد.

يادآوري -2شكل مشخص شده براي نويسه‏ها در اين استاندارد فقط جنبه اطلاعاتي دارد و مگر در مواردي كه خلاف آن ذكر شده باشد. نويسه‏ها مجازند بسته به قلم مورد استفاده‏، به هر شكلي كه نمايانگر آن نويسه باشد، نمايش داده شوند. حتي ممكن است كاربردها براي نمايش نويسه‏ها از خطي مانند بريل كه شباهتي به خط فارسي ندارد استفاده كنند.

-1-5نويسه‏هاي كنترلي

جدول -1نويسه‏هاي كنترلي

يادآوري -1در صورتي كه متن در قالب UTF-8باشد، براي جدا كردن سطرها و بندها بايد بسته به بستر كاربرد از LF، CRيا LF)، (CRاستفاده شود. استفاده از LSو PSدر متون با قالب UTF-8مجاز نيست‏. براي اطلاع از شيوه صحيح استفاده از اين نويسه‏ها، به پيوست ت مراجعه كنيد.

يادآوري -2نويسه‏هاي ))فاصله مجازي‏ ((و ))اتصال مجازي‏ ((در الگوريتم اتصال فارسي به كار مي‏روند. براي اطلاعات بيشتر به پيوست ب مراجعه كنيد.

يادآوري -3نويسه‏هاي LRM، RLM، LRE، RLE، PDF، LROو RLOدر الگوريتم دو جهته به كار مي‏روند. براي اطلاعات بيشتر به پيوست الف مراجعه كنيد.

يادآوري -4نويسه BOMبايد براي تمييز متوني كه در صورت عدم وجود اين نويسه ممكن است اشتباه پردازش شوند، به كار برده شود. استفاده از اين نويسه در ابتداي پرونده‏هاي UTF-6و UTF-32توصيه مي‏شود ولي در ابتداي پرونده‏هاي UTF-8كه ترتيب بايت‏ها معني ندارد شديدا نهي مي‏شود. استفاده از اين نويسه براي مقاصد ديگر مجاز نيست‏. براي اطلاعات بيشتر به پيوست پ مراجعه كنيد.

-2-5علائم نقطه گذاري مشترك

كاربردها موظفند از شكل‏هاي نمايشي مختلفي براي اين دو نويسه استفاده كنند )مگر در مواردي كه محدوديت‏هاي خاص نمايشي وجود دارد، مانند دستگاه‏هاي تلفن همراه‏.(

يادآوري -2نويسه‏هاي جفتي‏، از قبيل پرانتزها و قلاب‏ها، بسته به موقعيت خود در متن‏، شكل‏هاي مختلفي مي‏پذيرند. مثلا ))پرانتز باز (U+0028) ((در متون راست به چپ به شكل «)»و در متون چپ به راست به شكل «(»ظاهر مي‏شود. مشروح اين رفتار در پيوست الف آمده است‏.

يادآوري -3نويسه ))تيره‏منها ((فقط در مواردي به كار مي‏رود كه تفكيك ))خط تيره‏ (U+2010) ((از علامت منها (U+2212)ممكن نباشد، مثلا هنگامي كه داده‏ها از قالب ديگري كه اين دو نويسه را متمايز نمي‏داند به قالب يوني كد تبديل شده باشند. در صورت مشخص بودن معناي نويسه‏، بايد از نويسه‏هاي دقيق يعني U+2010يا U+2212استفاده كرد.

-3-5علائم نقطه گذاري فارسي

جدول -3علائم نقطه گذاري فارسي

يادآوري - »علامت كوچكتر «و » علامت بزرگتر «بسته به موقعيت خود در متن‏، شكل‏هاي مختلفي مي‏گيرند. مشروح اين رفتار در پيوست الف آمده است‏. شكل اين نويسه‏ها در جدول فوق با توجه به زمينه معمول آن‏ها، يعني در ميان اعداد، آمده است‏.

-5-5حروف اصلي فارسي

يادآوري -1بعضي از نويسه‏هاي جدول فوق را مي‏توان به صورت دو نويسه نيز مبادله كرد. مثلا ))حرف فارسي آ ((را مي‏توان هم به صورت U+0622و هم به صورت (U+0627,U+653)مبادله كرد. در اين موارد، شكل تك نويسه‏اي مرجح است‏. براي اطلاع دقيقتر در اين باره‏، به پيوست ث مراجعه كنيد.

يادآوري -2حروف فارسي شكل‏هاي مختلفي به خود مي‏پذيرند، مثلا ))حرف فارسي عين‏ ((به شكل‏هاي ))ع(('، '))ع (('و ')ع‏ ((و ))ع‏ ((ديده مي‏شود. اين شكل‏ها در الگوريتم اتصال فارسي تعيين مي‏شوند. اين الگوريتم در پيوست ب تشريح شده است‏. شكل‏هايي كه در جدول فوق آمده‏اند فقط جنبه اطلاعاتي دارند.

-6-5حروف فرعي

يادآوري -1استفاده از ))حرف كاف عربي‏ ((به جاي ))حرف فارسي كاف‏ ((و استفاده از حرف ي عربي نقطه‏دار ((يا ))حرف ي عربي بي‏نقطه‏ ((به جاي ))حرف فارسي ي‏ ((به هيچ عنوان مجاز نيست‏. تنها در صورتي مي‏توان از اين نويسه‏ها استفاده كرد كه شكل خاص آن‏ها مورد نظر بوده‏، يا متن به زبان عربي‏، اردو و امثال آن‏ها باشد. كاربردها موظفند اين نويسه‏ها را به شكل درست آن‏ها نمايش دهند. ))حرف ي عربي نقطه دار ((هيچ گاه نبايد بدون نقطه نمايش داده شود.

))حرف كاف عربي‏ ((در شكل‏هاي اول و وسط مانند ))حرف فارسي كاف‏ ((است‏، اما در شكل‏هاي آخر و تنها بدون سركش و به همراهس علامتي شبيه به همزه ظاهر مي‏شود. ))حرف ي عربي نقطه دار ((در شكل‏هاي اول و وسط مانند ))حرف فارسي‏ ((است‏، اما در شكل‏هاي آخر و تنها با دو نقطه در زيرش ظاهر مي‏شود. ))حرف ي عربي بي‏نقطه‏ ((در شكل‏هاي آخر و تنها مانند ))حرف فارسي ي‏ ((است‏، اما در شكل‏هاي اول و وسط بدون نقطه ظاهر مي‏شود.

-7-5نشانه‏هاي فارسي

يادآوري -1نويسه‏هاي فوق خاصيت تركيب شونده دارند و بايد برحسب مورد، بالا يا زير نويسه قبل از خود نمايش داده شوند. در مورد تأثير اين نويسه‏ها بر الگوريتم اتصال‏، به پيوست ب مراجعه كنيد.

يادآوري -2در صورتي كه نويسه‏هاي ))همزه فارسي بالا ((و ))همزه فارسي پايين‏ ((روي ))حرف فارسي ي‏ ((يا ))حرف ي عربي نقطه‏دار ((بيابند، نويسه كرسي نقطه‏هاي خود را از دست مي‏دهد.

يادآوري -3كاربردها مي‏توانند براي نمايش تركيب نشانه‏ها از شكل‏هاي خاص استفاده كنند. مثلا براي تركيب ))تشديد فارسي‏ ((و ))زير فارسي‏ ((بهتر است به جاي نمايش دادن ))زير فارسي‏ ((در زير حرف كرسي‏، آن را در زير ))تشديد فارسي‏ ((نمايش داد.

-8-5نويسه‏هاي ممنوع

اين نويسه‏ها نبايد در متون فارسي استفاده شوند. استفاده از آن‏ها در متون زبان‏هاي ديگر مانند عربي و اردو بايد براساس تعريف موجود در استاندارد يوني كد صورت گيرد.

يادآوري -1نام نويسه‏هاي جدول فوق استاندارد نيست و فقط جنبه اطلاعاتي دارد. اين استاندارد به نويسه‏هاي جدول فوق نامي اختصاص نمي‏دهد.

يادآوري -2نويسه U+06C0نبايد به هيچ عنوان براي متون فارسي استفاده شود. براي نوشتن عباراتي مثل ))خانه ما ((بايد از نويسه ))حرف فارسي ه (U+0647) (('به همراه ))همزه فارسي بالا (U+0654) ((استفاده شود. كاربردها مي‏توانند در صورتي كه در متون فارسي به اين نويسه برخوردند آن را بسته به مورد با (0647,0654)يا (0647,0654,200C)جاي گزينند. در صورتي كه متن يا زير متن به زبان فارسي نباشد، اين جايگزيني نبايد صورت گيرد.

يادآوري -3استفاده از ارقام عربي (U+0660..U+0669)مگر در مواردي كه كاربرد بخواهد ميان ارقام فارسي و عربي تمايز قائل شود مجاز نيست‏. كاربردهايي كه بخواهند ارقام عربي را پشتيباني كنند بهتر است ميان شكل ارقام چهار، پنج و شش فارسي و عربي تمايز قائل شوند. بايد دقت شود كه ارقام فارسي و عربي از لحاظ جهت پذيري در الگوريتم دو جهته يوني كد تفاوت دارند.

-9-5نويسه‏هاي منسوخ

كليه نويسه‏هايي كه در استاندارد يوني كد به عنوان منسوخ مشخص شده‏اند، در اين استاندارد نيز منسوخ تلقي مي‏شوند. كاربردها نبايد اين نويسه‏ها را توليد كنند، و در صورت برخوردن به آن‏ها مي‏توانند از آن‏ها چشم پوشي كرده‏، يا آن‏ها را براساس آخرين نسخه استاندارد يوني كد تفسير كنند.

پيوست الف

الگوريتم دو جهته

)الزامي‏(

به علت تفاوت جهت نوشتن خطهاي فارسي و لاتين‏، و از آن جا كه متون فارسي شامل اعداد و علائم رياضي‏، يا متون چند زبانه‏، در هنگام پردازش با ابهام روبه رو مي‏شوند، استاندارد يوني كد نويسه‏هاي اين متون را به ترتيب معنايي‏، يعني ترتيبي كه نويسه‏ها از ذهن خواننده متن مي‏گذرند كدگذاري مي‏كند. الگوريتم دو جهته براي تبديل اين ترتيب به يك ترتيب قابل نمايش به كار مي‏رود.

در كاربردهاي مبتني بر اين استاندارد، نويسه‏ها بايد به ترتيب معنايي مبادله شوند. بنابراين براي نمايش اطلاعات فارسي‏، ممكن است لازم باشد رشته نويسه‏هاي ورودي به ترتيب ديداري تبديل شود. شيوه انجام اين تبديل‏، بايد دقيقأ از ضميمه 9استاندارد يوني كد پي روي كند. كاربردهايي كه از ضميمه فوق الذكر پي روي نكنند، با اين استاندارد سازگار نيستند.

يادآوري -1شكل بعضي از نويسه‏ها، از جمله ))پرانتز باز ((به نويسه‏هاي اطراف خود بستگي دارد. اين نويسه‏ها در صورتي كه در متون با جهت مخالف قرار گيرند، به اصطلاح قرينه مي‏شوند. كاربردها بايد قرينه سازي را پشتيباني كنند. مشروح اين رفتار در ضميمه 9استاندارد يوني كد آمده است‏.

يادآوري -2در كد گذاري متون دو جهته‏، مواردي پيش مي‏آيد كه ترتيب ديداري ضمني اي كه از نويسه‏ها به دست مي‏آيد مطلوب نيست‏. در اين حالت‏ها مي‏توان از نويسه‏هاي كنترل جهت جدول 1بخش 1-5استفاده كرد. اين نويسه‏ها فقط براي تصحيح ترتيب نمايش متن به كار مي‏روند و بايد در پردازش‏هاي ديگر )مانند مرتب سازي متن با جستجوي عبارات‏ (ناديده گرفته شوند. براي اطلاعات بيشتر به ضميمه 9استاندارد يوني كد مراجعه كنيد.

پيوست ب

الگوريتم اتصال

)الزامي‏(

از آنجا كه حروف فارسي‏، بسته به حروف قبل و بعد از خود اشكال مختلفي مي‏گيرند، در صورتي كه كاربردها بخواهند نويسه‏ها

را با خط فارسي نمايش دهند، براي نمايش اطلاعات فارسي و انتخاب شكل مناسب‏، بايد از الگوريتم مشخص شده در اين پيوست استفاده كنند. اين الگوريتم‏، حداقل تغيير شكل مورد نياز را براي نمايش متون فارسي مشخص مي‏كند، ولي ممكن است‏، بسته به كاربرد، از الگوريتم پيچيده‏تري نيز استفاده شود )مثلا در كاربردهايي كه متن را با خط نستعليق نمايش مي‏دهند.(

الگوريتم اتصال بايد، با در نظر گرفتن نويسه‏هاي شفاف‏، پس از الگوريتم دو جهته انجام شود )يا خروجيش با حالتي كه اين الگوريتم پس از الگوريتم دو جهته انجام مي‏شود يكسان باشد.(

ب‏- -1رده‏ي اتصال

هر نويسه‏، در يكي از رده‏هاي اتصال دسته بندي مي‏شود. اين رده‏ها، شيوه تغيير شكل نويسه و تأثير آن را بر نويسه‏هاي ديگر مشخص مي‏كنند. اين رده‏ها به شرح زيرند:

●راست وصل‏: نويسه‏هاي دو شكلي از قبيل ))آ((، ))الف‏((، ))دال‏((، ))ر((، ))واو ((و ))ت گرد .((با حرف Rمشخص مي‏شوند.

●دو وصل‏: نويسه‏هاي چهار شكلي از قبيل ))ب‏((، ))جيم‏((، ))سين‏((، و ))صاد .((با حرف Dمشخص مي‏شوند.

●واصل‏: نويسه‏هاي ايجاد كننده اتصال‏، از قبيل ))كشيدگي‏ ((و ))اتصال مجازي‏ .((تفاوت اين نويسه‏ها با نويسه‏هاي ))دو وصل‏ ((اين است كه تغيير شكل نمي‏دهند. با حرف Cمشخص مي‏شوند.

●فاصل‏: نويسه‏هاي قطع كننده اتصال‏، شامل ))فاصله مجازي‏ ((و كليه نويسه‏هاي غير تركيب شونده كه در دسته‏بندي فوق قرار نمي‏گيرند، از قبيل ))همزه‏ ((فاصله‏ها، ارقام‏، علائم نقطه گذاري‏، و حروف خطهاي لاتين‏، يوناني و غيره‏. با حرف Uمشخص مي‏شوند.

●شفاف‏: نويسه‏هاي شفاف نسبت به اتصال‏، شامل نويسه‏هاي تركيب شونده و كنترلي‏، از قبيل ))زبر((، ))دو زبر((، ))سكون‏((، ))تشديد((، ))الف مقصوره‏ ((و ))نشانه راست به چپ‏ .((با حرف Tمشخص مي‏شوند.

در اين پيوست‏، از اصطلاح ))متصل به چپ‏ ((براي نويسه‏هاي ))دو وصل‏ ((و ))واصل‏ ;((و از اصطلاح ))متصل به راست‏ ((براي نويسه‏ها، بايد براساس پرونده ArabicShaping.txtاز پرونده‏هاي داده‏اي يوني كد، كه آخرين نسخه آن در نشاني اينترنتي

http://www.unicode.org/Public/UNIDATA/ArabicShapingtxt

در دسترس است تعيين شود.

يادآوري - نويسه‏هاي ))فاصله مجازي‏ ((و ))اتصال مجازي‏ ((براي تغيير شكل نويسه‏ها به كار مي‏روند. از اين دو نويسه براي ممانعت از اتصال دو حرف مجاور )مثلا در كلمه ))خانه‏ها(((، يا انتخاب شكلي غير از شكل معمول حروف )مثلا در ))ه.'ش‏.((، به عنوان ))هجري شمسي‏ (((استفاده مي‏شود.

ب‏- -2الگوريتم

براي نويسه‏ها، بسته به رده اتصالشان‏، تا چهار شكل تعيين مي‏شود. اين شكل‏ها در اصطلاح ))اول‏((، ))وسط((، ))آخر((، و ))تنها ((ناميده مي‏شوند. نويسه‏هاي ))راست وصل‏ ((فقط دو شكل ))آخر ((و ))تنها ((را مي‏گيرند.

الگوريتم اتصال به شرح زير است‏:

-1نويسه‏هاي ))شفاف‏ ((رفتار اتصالي نويسه‏هاي پايه را تغيير نمي‏دهند. )بنابراين از اين به بعد، منظور از نويسه سمت راست‏، اولين نويسه غير شفاف سمت راست خواهد بود; همين طور در مورد نويسه سمت چپ‏.(

-2اگر نويسه‏اي ))راست وصل‏ ((باشد، و نويسه سمت راستش ))متصل به چپ‏ ((باشد، به شكل ))آخر ((در مي‏آيد.

-3اگر نويسه‏اي ))دو وصل‏ ((باشد، نويسه سمت راستش ))متصل به چپ‏ ((باشد، و نويسه سمت چپش ))متصل به راست‏ ((باشد، به شكل ))وسط ((در مي‏آيد.

-4اگر نويسه‏اي ))دو وصل‏ ((باشد، نويسه سمت راستش ))متصل به چپ‏ ((باشد، و نويسه سمت چپش ))متصل به راست‏ ((نباشد، به شكل ))آخر ((درمي‏آيد.

-5اگر نويسه‏اي ))دو وصل‏ ((باشد، نويسه سمت راستش ))متصل به چپ‏ ((نباشد، و نويسه سمت چپش متصل به راست‏ ((باشد، به شكل ))اول‏ ((درمي‏آيد.

-6در صورتي كه هيچ يك از حالت‏هاي فوق برقرار نباشند، نويسه به شكل ))تنها ((درمي‏آيد.

يادآوري -1در صورتي كه نويسه‏اي اولين نويسه غير ))شفاف‏ ((سطر يا بند خود باشد، نويسه سمت راستش ))فاصل‏ ((فرض مي‏شود. همين طور، در صورتي كه نويسه‏اي آخرين نويسه غير ))شفاف‏ ((سطر يا بند خود باشد، نويسه سمت چپش ))فاصل‏ ((فرض مي‏شود.

يادآوري -2از آن جا كه اين الگوريتم پس از الگوريتم دو جهته انجام مي‏شود، نويسه‏هاي سمت راست و چپ براساس ترتيب ديداري تعيين مي‏شوند.

ب‏- -3گروه اتصال

هر يك از حروف فارسي‏اي كه شكل‏هاي مختلف مي‏گيرند، بسته به شكل ظاهري در گروه‏هاي اتصال دسته‏بندي مي‏شوند. اين گروه‏ها نيز بايد براساس پرونده ArabicShaping.txtاز پرونده‏هاي داده‏اي يوني كد، كه آخرين نسخه آن در نشاني اينترنتي

http://ww.unicode.org/Public/UNIDATA/ArabicShaping.txt

در دسترس است تعيين شود.

براساس آخرين نسخه در دسترس در زمان تدوين اين استاندارد، حروف شكل پذيري كه در بخش‏هاي 5-5و 6-5آمده‏اند در اين گروه‏ها قرار مي‏گيرند:

يادآوري - فهرست فوق فقط جنبه اطلاعاتي دارد. كاربردها موظفند به اطلاعات موجود در پرونده ArabicShaping.txtمراجعه كنند.

ب‏- -4ليگاتورها

حروف فارسي مي‏توانند بسته به قلم مورد استفاده‏، اشكال چند حرفي‏اي به نام ليگاتور بسازند. مثلا تركيب ))لام‏ ((و ))الف‏ ((مي‏تواند به شكل ))لا ((و تركيب ))ف‏ ((و ))ي‏ ((مي‏تواند به شكل ))في‏ ((بيايد.

بعضي از ليگاتورها اختياري و بعضي ديگر اجباري‏اند. ليگاتورهاي اجباري‏، ليگاتورهايي هستند كه حرف اولشان از گروه اتصال ))لام‏ (LAM) ((و حرف دومشان از گروه اتصال ))الف‏ (ALEF) ((باشد. ليگاتورهاي اختياري‏، ليگاتورهاي ديگر هستند كه بسته به قلم نمايشي ممكن است به شكل ليگاتور نمايش يابند. كاربردها موظفند در نمايش متون‏، ليگاتورهاي اجباري را به شكل ليگاتور نمايش دهند، مگر در مواردي كه جلوه‏هاي بصري خاص مورد نظر باشد، يا دستگاه نمايش محدوديت‏هاي ويژه‏اي داشته باشد.

براي اعمال اين ليگاتورها، از الگوريتم زير استفاده مي‏شود:

-1نويسه‏هاي ))شفاف‏ ((رفتار ليگاتوري نويسه‏هاي پايه را تغيير نمي‏دهند.

-2هردنباله دوتايي از نويسه‏ها كه نويسه سمت راستش در گروه ))لام‏ ((و به شكل ))وسط((، و نويسه سمت چپش در گروه ))الف‏ ((و به شكل ))آخر ((باشد، ليگاتوري از دسته ))لام الف‏ ((را به شكل ))آخر ((تشكل مي‏دهد.

-3هر دنباله دوتايي از نويسه‏ها كه نويسه سمت راستش در گروه ))لام‏ ((و به شكل ))اول‏((، و نويسه سمت چپش در گروه ))الف‏ ((و به شكل ))آخر ((باشد، ليگاتوري از دسته ))لام الف‏ ((را به شكل ))تنها ((تشكيل مي‏دهد.

-4هرگاه بين دو يا چند نويسه كه به طور پيش فرض به هم متصل مي‏شوند ولي ليگاتور نمي‏شوند، يك يا چند نويسه ))اتصال مجازي‏ ((قرار گيرد، در صورت موجود بودن شكل ليگاتوري نويسه‏ها در قلم مورد استفاده براي نمايش‏، بايد از شكل ليگاتوري استفاده شود.

-5هرگاه بين دو يا چند نويسه‏، نويسه ))فاصله مجازي‏ ((قرار گيرد، بايد شكل عادي نويسه‏ها مورد استفاده قرار گيرد. مثلا اگر دنباله ))اتصال مجازي فاصله مجازي‏، اتصال مجازي‏ ((بين ))لام‏ ((و ))الف‏ ((قرار گيرد، اين دو حرف نبايد ليگاتور شوند، بلكه بايد به شكل ))لا ((نمايش يابند.

پيوست پ

قالب‏هاي تبادل داده‏ها

)الزامي‏(

در استاندارد يوني كد مي‏توان از قالب‏هاي متعددي براي تبادل اطلاعات استفاده كرد. ولي استاندارد حاضر فقط به قالب‏هاي اصلي‏، يعني UTF-8، UTF-16، و UTF-32، مي‏پردازد. قالب‏هاي مشتق‏، مثلا UTF-16LE، حالت خاصي از قالب اصلي نظيرشان )در اين مثال (UTF-16فرض مي‏شوند.

كاربردهايي كه در قالب‏هاي يوني كدي خروجي مي‏دهند، يا ورودي قبول مي‏كنند، موظفند در صورت استفاده از قالب‏هاي UTF-8، UTF-16و UTF-32، به ترتيب از RFC2279، RFC2781، و ضميمه 19استاندارد يوني كد پيروي كنند. در صورتي كه كاربردها از قالب UTF-8استفاده مي‏كنند، بهتر است نويسه U+FEFFرا در ابتداي خروجي توليد نكنند، ولي بهتر است در صورتي كه اين نويسه در ابتداي ورودي‏هاي در قالب UTF-8بيايد، آن را به عنوان علامت مشخص كننده در نظر گرفته‏، و پردازشش نكنند.

يادآوري - كاربردها بهتر است يكي از صورت‏هاي نرمال مشخص شده در ضميمه 15استاندارد يوني كد را انتخاب كرده و خروجي‏هاي خود را در آن قالب توليد كنند. )براي اطلاعات بيشتر به پيوست ث مراجعه كنيد.(

پيوست ت

سطربندي و پاراگراف بندي

)الزامي‏(

كرابردها موظفند نويسه‏هاي جداكننده سطرها و بندها را براساس توصيه‏هاي ضميمه 13استاندارد يوني كد تفسير كنند.

علاوه بر محدوديت‏هاي مشخص شده در ضميمه فوق الذكر، در صورتي كه كاربردي بخواهد متني در قالب UTF-8توليد كند، نبايد از نويسه‏هاي ))جداكننده سطرها (U+2028) ((و ))جداكننده بندها (U+2029) ((استفاده كند. بلكه بايد از علامت مخصوص جدا كردن سطرها در بستر كاربرد استفاده كند كه معمولا U+000A، U+000D، يا (U+000D,U+000A)است‏.

پيوست ث

نرمال سازي و هم ارزي

)اطلاعاتي‏(

از آنجا كه دنباله‏اي از حروف و نمادها مي‏تواند به روش‏هاي مختلفي به رشته‏اي از نويسه‏ها تبديل شود )مثلا كلمه ))مؤمن‏ ((را هم مي‏توان هم با نويسه ))واو با همزه بالا((، و هم با دنباله نويسه‏هاي ))واو، همزه بالا ((كدگذاري كرد(، كاربردها بهتر است به منظور هماهنگي خروجي‏هاي خود، آن‏ها را به صورت يكي از صورت‏هاي نرمال يوني كد، كه در ضميمه 15استاندارد يوني كد توصيف شده است توليد كنند.

استاندارد حاضر، به عنوان قالب مرجح در تبادل داده‏ها، صورت نرمال (Normalization Form C) Cو قالب UTF-8را توصيه مي‏كند. اين انتخاب به علت فراگير بودن اين قالب‏، و توصيه شدن آن در استانداردهاي كنسرسيوم World Wide Webاز جمله HTMLو XML، صورت گرفته است‏.

در ))صورت نرمال ((C، نويسه‏هايي كه مي‏توانند به چند شكل مختلف كدگذاري شوند، به شكل تك نويسه‏اي كدگذاري مي‏شوند. به علاوه‏، ترتيب واحدي براي حالت‏هايي كه چند علامت تركيب شونده روي يك حرف كرسي قرار مي‏گيرند تعيين مي‏شود.

از طرف ديگر، در صورتي كه كاربردها صورت‏هاي نرمال مختلفي را پشتيباني مي‏كنند، بهتر است رشته‏هاي ))هم ارز ((را تشخيص دهند. براي اطلاع بيشتر، به فصل‏هاي 2و 3استاندارد يوني كد مراجعه كنيد.

يادآوري - كاربردها مي‏توانند لايه‏هاي بالاتري از ))هم ارزي‏ ((را نيز پشتيباني كنند، مثلا هم ارزي ضعيف بين نويسه‏هايي مانند ))كاف‏ ((و ))كاف عربي‏((، يا بين رشته نويسه‏هاي ))ي‏، همزه بالا ((و ))ي عربي نقطه‏دار، همزه بالا .((اين استاندارد به اين گونه هم‏ارزي‏ها نمي‏پردازد.