Note: Due to lack of Persian script support in other browsers, this page can be only viewed on Internet Explorer 5 or later. Also, for better readablity, we recommend you to download this font.


سازمان‌ مديريت‌ و برنامه‌ريز‌ى‌ کشور
شورای عالی انفورماتيک
د‌انشگاه‌ صنعتى‌ شريف‌
مرکز محاسبات

پروژه‌‌ى‌ ‌استاند‌ارد خط‌ فارسى‌ در يونى‌کد

گز‌ارش‌ شماره‌‌ى‌ ۱، شرح فعاليت‌‌ها

د‌ى‌ ماه‌ ۱۳۷۹

چکيده

پروژه‌‌ى‌ «‌استاند‌ارد خط‌ فارسى‌ در يونى‌کد»، بر ‌اساس‌ قر‌ارد‌اد منعقده‌ بين‌ شور‌ا‌ى‌ ‌عالى‌ ‌انفورماتيک‌ و د‌انشگاه‌ صنعتى‌ شريف‌، به‌ بررسى‌ مسائل‌ ‌امروز خط‌ فارسى‌ و ترويج‌ ر‌اه‌حل‌‌ها‌ى‌ ‌استاند‌ارد تبادل‌ ‌اطلا‌عات‌ در شر‌ايط‌ ‌امروز‌ى‌ فر‌اگير شدن‌ شبکه‌‌ى‌ جهانى‌ ‌اينترنت‌ مى‌پرد‌ازد. در ‌اين‌ پروژه‌ مشکلات‌ نظر‌ى‌ و ‌عملى‌ موجود در ر‌اه‌ تبادل‌ ‌اطلا‌عات‌ فارسى‌ ‌از طريق‌ ‌استاند‌ارد يونى‌کد بررسى‌ مى‌شوند.

‌اين‌ گز‌ارش‌ که‌ ‌اولين‌ گز‌ارش‌ ‌از مجمو‌عه‌ گز‌ارش‌‌ها‌ى‌ ‌اين‌ پروژه‌ ‌است‌، به‌طور مختصر به‌ شرح‌ فعاليت‌‌هايى‌ که‌ تاکنون‌ در ‌اين‌ پروژه‌ ‌انجام‌ شده‌ ‌است‌ مى‌پرد‌ازد.

۱ مقدمه‌

‌از زمانى‌ که‌ ‌اولين‌ گز‌ارش‌ «زبان‌ فارسى‌ و کامپيوتر» در سال‌ ۱۳۵۶ در د‌انشکده‌‌ى‌ رياضى‌ و ‌علوم‌ کامپيوتر د‌انشگاه‌ صنعتى‌ شريف‌ نوشته‌ شد تا ‌امروز که‌ شبکه‌‌ى‌ ‌اينترنت‌ چهره‌‌ى‌ ديگر‌ى‌ به‌ ‌اطلا‌ع‌رسانى‌ د‌اده‌ ‌است‌، مدت‌‌ها گذشته‌ ‌است‌. ‌امروزه‌ ديگر محدوديت‌ سخت‌‌افز‌ار‌ها يا نرم‌‌افز‌ار‌ها نمى‌تو‌اند مانع‌ پياده‌ساز‌ى‌ يک‌ سيستم‌ ذخيره‌ساز‌ى‌، نمايش‌، و تبادل‌ ‌اطلا‌عات‌ چندزبانه‌ شود. موسسات‌ بزرگ‌ ‌استاند‌اردساز‌ى‌‌ا‌ى‌ چون‌ ‌ايزو و W3 Consortium نيز، ديگر در ‌استاند‌ارد‌هايشان‌ مشکلات‌ و مسائل‌ مربوط‌ به‌ بين‌‌المللى‌ساز‌ى‌ ر‌ا در نظر مى‌گيرند.

منتها‌ى‌ ‌امر، به‌ نظر مى‌رسد که‌ زبان‌ فارسى‌ قدر‌ى‌ ‌غريب‌ مانده‌ ‌است‌. به‌‌عنو‌ان‌ مثال‌، ‌هنوز در بين‌ صد‌ها مجمو‌عه‌نويسه‌‌ى‌ ثبت‌شده‌ در ‌اينترنت‌ توسط‌ يانا (Internet Assigned Number Authority)، تنها يکى‌ به‌ فارسى‌ ‌اختصاص‌ د‌ارد و ‌آن‌ ‌هم‌ مجمو‌عه‌کد فارسى‌ ‌اختصاصى‌ شرکت‌ ‌آ‌ى‌بى‌‌ام‌ ‌است‌. شبکه‌نورد‌ها‌ى‌ پرکاربر مثل‌ Netscape Communicator و Internet Explorer نيز به‌ ‌علت‌ نامعلوم‌ بودن‌ وضعيت‌ زبان‌ فارسى‌، پشتيبانى‌ ‌آن‌ ر‌ا مسکوت‌ گذ‌اشته‌‌اند، که‌ سبب‌ساز بى‌نظمى‌ موجود و مشکلات‌ ‌آشنا‌ى‌ فعلى‌ در سکّو‌ها‌ى‌ وب‌ فارسى‌ گشته‌ ‌است‌.

حتى‌ در مورد ‌استاند‌ارد ذخيره‌ساز‌ى‌ و تبادل‌ ‌اطلا‌عات‌ نيز قالبى‌ که‌ مورد تو‌افق‌ ‌همه‌ باشد وجود ند‌ارد. سه‌ قالب‌ ‌استاند‌ارد موجود، ‌اير‌ان‌سيستم‌، ‌استاند‌ارد ۲۹۰۰، و ‌استاند‌ارد ۳۳۴۲ ‌هر يک‌ مشکلاتى‌ د‌ارند که‌ سبب‌ شده‌ ‌است‌ شرکت‌‌ها و موسسات‌ د‌اخلى‌ به‌ جدول‌‌ها‌ى‌ خاص‌ خود رو‌ى‌ ‌آورند. به‌ ‌عنو‌ان‌ نمونه‌‌ا‌ى‌ ‌از ‌ابهام‌‌ها و کاستى‌‌هايى‌ که‌ در ‌هريک‌ ‌از ‌اين‌ قالب‌‌ها وجود د‌ارد مى‌تو‌ان‌ به‌ ذخيره‌ساز‌ى‌ ديد‌ار‌ى‌ به‌جا‌ى‌ مفهومى‌ در قالب‌ ‌اير‌ان‌سيستم‌، ‌ابهام‌ ذخيره‌ساز‌ى‌ دونماد‌ها‌ى‌ ‌هم‌شکل‌ در ‌استاند‌ارد ۲۹۰۰، و ‌ابهام‌ ‌همزه‌ در ‌استاند‌ارد ۳۳۴۲ ‌اشاره‌ کرد. و ‌اين‌‌ها ‌همه‌ به‌ فرض‌ قابل‌‌ا‌غماض‌ بودن‌ مشکل‌ کمبود نويسه‌‌ها و گسترش‌ناپذير‌ى‌ قالب‌‌ها‌ى‌ فوق‌ ‌است‌: مثلاً قالب‌ ‌اير‌ان‌سيستم‌ چند نسخه‌‌ى‌ محلى‌شده‌‌ى‌ مختلف‌ د‌ارد، و جدول‌ ‌استاند‌ارد ۲۹۰۰ کاملاً پر شده‌ ‌است‌. ‌هيچ‌يک‌ ‌از دو ‌استاند‌ارد تاييدشده‌‌ى‌ موسسه‌‌ى‌ ‌استاند‌ارد و تحقيقات‌ صنعتى‌ ‌اير‌ان‌ نيز ‌امکان‌ گسترش‌ توسط‌ کاربر ر‌ا در نظر نگرفته‌‌اند. و مهم‌تر ‌از ‌همه‌‌ى‌ ‌اين‌‌ها، ‌اين‌که‌ ‌استاند‌ارد‌ها‌ى‌ فعلى‌، کد گريز (escape sequence) مورد تاييد ‌ايزو ند‌ارند که‌ سبب‌ مى‌شود نتو‌ان‌ ‌از ‌آنها به‌‌همر‌اه‌ توسيع‌‌ها‌ى‌ ديگر ISO 2022 ‌استفاده‌ کرد، يعنى‌ کاربر فارسى‌ تو‌انايى‌ مبادله‌‌ى‌ کلمات‌ ساده‌‌ا‌ى‌ چون‌ français ر‌ا در ميان‌ متن‌ فارسى‌ نخو‌ا‌هد د‌اشت‌ و در و‌اقع‌ فقط‌ مى‌تو‌ان‌ متون‌ فارسى‌/‌انگليسى‌ ر‌ا با ‌آن‌‌ها مبادله‌ کرد.

در ‌هر يک‌ ‌از مسائل‌ خاص‌ مربوط‌ به‌ تبادل‌ ‌اطلا‌عات‌، ‌اخير‌اً ر‌اه‌حل‌‌هايى‌ بر‌ا‌ى‌ بين‌‌المللى‌ساز‌ى‌ پيش‌نهاد شده‌ ‌است‌، ولى‌ ‌هرچند ‌اين‌ ر‌اه‌حل‌‌ها بسيار ساخت‌يافته‌تر ‌از ر‌اه‌حل‌‌هايى‌ که‌ در ‌اير‌ان‌ پيش‌نهاد شده‌ ‌است‌ ‌هستند، به‌ ‌علت‌ ‌عدم‌ دسترسى‌ ‌استاند‌اردگذ‌ار‌ان‌ به‌ مر‌اجع‌ موثق‌ در مورد خط‌ و زبان‌ فارسى‌، مسائل‌ ‌اين‌ زبان‌ يا در نظر گرفته‌ نشده‌ ‌است‌، ويا به‌ شکل‌ ناقص‌ منظور شده‌ ‌است‌. بنابر‌اين‌ نياز به‌ تصحيح‌ ‌اين‌ ‌استاند‌ارد‌ها ‌احساس‌ مى‌شود. ‌البته‌ خوشبختانه‌ بسيار‌ى‌ ‌از ‌اين‌ ‌استاند‌ارد‌ها ‌امکان‌ گسترش‌ بعد‌ى‌ ر‌ا در نظر گرفته‌‌اند که‌ ‌اين‌ روند ر‌ا تسهيل‌ مى‌کند.

‌از جمله‌‌ى‌ ‌اين‌ ‌استاند‌ارد‌ها‌ى‌ بين‌‌المللى‌، مى‌تو‌ان‌ به‌ ‌استاند‌ارد يونى‌کد (منطبق‌ بر ‌استاند‌ارد ‌ايزو ۱۰۶۴۶) ‌اشاره‌ کرد. ‌اين‌ ‌استاند‌ارد، تقريباً توسط‌ تمامى‌ شرکت‌‌ها‌ى‌ بين‌‌المللى‌ کامپيوتر‌ى‌، مثل‌ ‌آ‌ى‌بى‌‌ام‌، مايکروسافت‌، و سان‌، و نيز موسسات‌ ملى‌ ‌استاند‌ارد در کشور‌ها‌ى‌ مختلف‌ جهان‌ بر‌ا‌ى‌ تبادل‌ ‌اطلا‌عات‌ چندزبانه‌ مورد تو‌افق‌ قر‌ار گرفته‌ ‌است‌ و سر‌عت‌ رشد بسيار زياد‌ى‌ نيز در ميان‌ کاربر‌ان‌ د‌ارد. ‌همين‌طور، در حال‌ حاضر کليه‌‌ى‌ ‌استاند‌ارد‌ها‌ى‌ جديد‌ى‌ که‌ بر‌ا‌ى‌ شبکه‌‌ى‌ ‌اينترنت‌ طر‌احى‌ مى‌شوند، ‌اين‌ دو ‌استاند‌ارد ر‌ا به‌‌عنو‌ان‌ مجمو‌عه‌کد پيش‌فرض‌ مى‌پذيرند که‌ ‌استاند‌ارد XML و زبان‌ جاو‌ا ‌از ‌آن‌ جمله‌‌اند. نياز مبرمى‌ به‌ حضور در ‌اين‌ کنسرسيوم‌ ‌از طرف‌ ‌اير‌انيان‌ و فارسى‌زبانان‌ ‌احساس‌ مى‌شد.

‌اين‌ پروژه‌، پروژه‌‌ا‌ى‌ ملى‌ و مورد حمايت‌ شور‌ا‌ى‌ ‌عالى‌ ‌انفورماتيک‌ ‌است‌ که‌ در و‌احد طرح‌ و توسعه‌‌ى‌ مرکز محاسبات‌ د‌انشگاه‌ صنعتى‌ شريف‌ ‌انجام‌ مى‌شود.

۲ و‌اژه‌‌ها

و‌اژه‌‌ها‌ى‌ زير در متن‌ ‌اين‌ گز‌ارش‌ به‌کار رفته‌‌اند:

بين‌‌المللى‌ساز‌ى‌:
در بر‌ابر internationalization يا چنان‌ که‌ در محافل‌ ‌اينترنتى‌ خلاصه‌ مى‌شود: i18n. در نظرد‌اشتن‌ پشتيبانى‌ محيط‌‌هايى‌ با شر‌ايط‌، زبان‌ و قو‌انين‌ محلى‌ مختلف‌ در طر‌احى‌ نرم‌‌افز‌ار‌ها. به‌‌عنو‌ان‌ مثال‌، قابليت‌ نوشتن‌ متون‌ چندزبانه‌ در ويندوز ۲۰۰۰. ‌امروزه‌ يکى‌ ‌از ‌عو‌امل‌ مهم‌ در برنامه‌‌ها‌ى‌ کاربرد‌ى‌ ‌همه‌منظوره‌ محسوب‌ مى‌شود.
محلى‌ساز‌ى‌:
در بر‌ابر localization يا l10n. ‌افزودن‌ قو‌انين‌ محلى‌ به‌ نرم‌‌افز‌ار به‌منظور سهل‌‌الاستفاده‌ کردن‌ نرم‌‌افز‌ار بر‌ا‌ى‌ کاربر محلى‌. به‌‌عنو‌ان‌ مثال‌، فارسى‌کردن‌ منو‌ها و ‌افزودن‌ ‌امکان‌ مرتب‌ساز‌ى‌ فارسى‌ در يک‌ برنامه‌‌ى‌ کاربرد‌ى‌.
نويسه‌:
در مقابل‌ character. کوچک‌ترين‌ و‌احد متن‌. مثلاً يک‌ حرف‌ لاتين‌، يک‌ ‌ا‌عر‌اب‌ فارسى‌، يک‌ ‌علامت‌ نقطه‌گذ‌ار‌ى‌، يک‌ نشانه‌‌ى‌ بريل‌، يا يک‌ نماد رياضى‌.
شکل‌:
در مقابل‌ glyph. کوچک‌ترين‌ و‌احد نمايش‌ متن‌. بر‌ا‌ى‌ بعضى‌ نويسه‌‌ها مثل‌ حروف‌ فارسى‌ و ‌هند‌ى‌ ممکن‌ ‌است‌ چند شکل‌ موجود باشد. مثلاً « ﺑ » و « ﻊ » ‌از ‌اشکال‌ نمايشى‌ محسوب‌ مى‌شوند.
مجمو‌عه‌نويسه‌:
در مقابل‌ character set. مجمو‌عه‌‌ا‌ى‌ ‌از نويسه‌‌ها که‌ به‌ ‌هر نويسه‌ ‌عدد‌ى‌ ‌اختصاص‌ مى‌د‌هد که‌ نماينده‌‌ى‌ ‌آن‌ نويسه‌ محسوب‌ مى‌شود و در تبادل‌ ‌اطلا‌عات‌ مورد ‌استفاده‌ قر‌ار مى‌گيرد.
مجمو‌عه‌کد:
در مقابل‌ codepage. سيستمى‌ که‌ به‌ ‌هر نويسه‌ دنباله‌‌ى‌ مشخصى‌ ‌از بايت‌‌ها ر‌ا متناظر مى‌کند. مجمو‌عه‌نويسه‌‌ها مى‌تو‌انند به‌شکل‌ يک‌ يا چند مجمو‌عه‌کد قابل‌ ‌استفاده‌ باشند.
‌اسکى‌:
‌استاند‌ارد ۷بيتى‌ مصوب‌ موسسه‌‌ى‌ ملى‌ ‌استاند‌ارد ‌امريکا و تاييد شده‌ توسط‌ ‌ايزو که‌ مبنا‌ى‌ تقريباً تمامى‌ مجمو‌عه‌نويسه‌‌ها‌ى‌ ‌امروز‌ى‌ ‌است‌.
ترتيب‌ مفهومى‌:
نگه‌ د‌اشتن‌ رشته‌‌ا‌ى‌ ‌از نويسه‌‌ها به‌ ‌همان‌ شکل‌ که‌ توسط‌ ‌انسان‌ خو‌انده‌ مى‌شود. بر‌ا‌ى‌ پرد‌ازش‌ متون‌ بسيار مناسب‌ ‌است‌ ولى‌ بر‌ا‌ى‌ نمايش‌ دشو‌ار‌ى‌‌ها‌ى‌ به‌‌همر‌اه‌ د‌ارد. ‌الگوريتم‌‌ها‌ى‌ مشخصى‌ بر‌ا‌ى‌ تبديل‌ ‌آن‌ به‌ ترتيب‌ ديد‌ار‌ى‌ وجود د‌ارد.
ترتيب‌ ديد‌ار‌ى‌:
نگه‌ د‌اشتن‌ رشته‌‌ا‌ى‌ ‌از نويسه‌ به‌ ترتيبى‌ که‌ ‌از چپ‌ به‌ ر‌است‌ نمايش‌ مى‌يابد. ‌عمدتاً در سيستم‌‌ها‌ى‌ قديمى‌ که‌ مشکلات‌ نمايش‌ وجود د‌ارد به‌کار مى‌رود. ‌اين‌ ترتيب‌ به‌ خاطر ‌اين‌ که‌ پرد‌ازش‌ متون‌ ر‌ا دشو‌ار مى‌کند و به‌طور يکتا قابل‌ تبديل‌ به‌ ترتيب‌ مفهومى‌ نيست‌ توصيه‌ نمى‌شود.
کدگذ‌ار‌ى‌ تک‌نماد‌ى‌:
‌اختصاص‌ فقط‌ يک‌ کد به‌ ‌هر حرف‌ فارسى‌ يا حرف‌ ‌از زبان‌‌ها‌ى‌ ديگر‌ى‌ که‌ چند شکل‌ نمايشى‌ د‌ارند. در ‌اين‌ سيستم‌، به‌ کد‌هايى‌ ‌از قبيل‌ «فاصله‌‌ى‌ مجاز‌ى‌» و «‌اتصال‌ مجاز‌ى‌» نيز ‌احتياج‌ ‌است‌. به‌منظور ‌آسانى‌ پرد‌ازش‌ معنايى‌، بسيار مناسب‌ محسوب‌ مى‌شود.
کدگذ‌ار‌ى‌ چندنماد‌ى‌:
‌اختصاص‌ دو، سه‌، يا چهار کد به‌ ‌اشکال‌ مختلف‌ حروف‌ فارسى‌. مزيت‌ ‌اين‌ سيستم‌ بر‌ا‌ى‌ برنامه‌نويسان‌، ‌هم‌‌عرض‌ بودن‌ دنباله‌‌ى‌ نويسه‌‌ها با متنى‌ بوده‌ ‌است‌ که‌ در نهايت‌ نمايش‌ مى‌يابد. در ‌ابتد‌ا کاربر‌ان‌ مجبور بودند خودشان‌ شکل‌ مورد نظر ر‌ا رو‌ى‌ صفحه‌کليد بزنند، ولى‌ با پيشرفت‌ سيستم‌‌ها‌ى‌ صفحه‌کليد، ‌اين‌ لايه‌‌ى‌ ‌هوشمند‌ى‌ به‌ خود برنامه‌‌ها‌ى‌ فارسى‌ ‌اضافه‌ شد. خوشبختانه‌ ‌اين‌ کدگذ‌ار‌ى‌ به‌ طور يکتا قابل‌ تبديل‌ به‌ کدگذ‌ار‌ى‌ تک‌نماد‌ى‌ ‌است‌. ولى‌ به‌ ‌علت‌ دشو‌ار‌ى‌ در پرد‌ازش‌، ‌استفاده‌ ‌از ‌آن‌ توصيه‌ نمى‌شود.
فاصله‌‌ى‌ مجاز‌ى‌:
نويسه‌‌ا‌ى‌ که‌ با‌عث‌ قطع‌ شدن‌ ‌ارتباط‌ حروفى‌ مى‌شود که‌ در دو طرفش‌ قر‌ار گرفته‌‌اند ولى‌ ‌ايجاد فاصله‌ نمى‌کند. مورد ‌استفاده‌ در کدگذ‌ار‌ى‌ تک‌نماد‌ى‌ بر‌ا‌ى‌ مشخص‌ کردن‌ کلمه‌‌هايى‌ چون‌ «لک‌لک‌» و «د‌انش‌‌آموز».
‌اتصال‌ مجاز‌ى‌:
نويسه‌‌ا‌ى‌ که‌ با‌عث‌ وصل‌ شدن‌ يکى‌ ‌از نويسه‌‌ها‌ى‌ دو طرفش‌، در صورت‌ ‌امکان‌، مى‌شود. مثلاً بر‌ا‌ى‌ ‌ايجاد کلمه‌‌ى‌ «ﻫ. ش‌.» که‌ مخفف‌ «‌هجر‌ى‌ شمسى‌» ‌است‌، بر‌ا‌ى‌ ‌اين‌ که‌ به‌ شکل‌ «ه‌. ش‌.» نمايش‌ نيابد، کاربر ناگزير ‌از ‌استفاده‌ ‌از يک‌ ‌اتصال‌ مجاز‌ى‌ بعد ‌از «ه‌» ‌است‌.

۳ مر‌احل‌ ‌اجر‌ا

۳-۱ مطالعه‌‌ى‌ ‌استاند‌ارد‌ها‌ى‌ ملى‌ و قالب‌‌ها‌ى‌ متد‌اول‌

در ‌آ‌غاز، کليه‌‌ى‌ ‌استاند‌ارد‌ها‌ى‌ ملى‌ و قالب‌‌ها‌ى‌ متد‌اول ‌مربوط‌ به‌ خط‌ فارسى‌، گرد‌آور‌ى‌ و بررسى‌ شدند. ‌اين‌ ‌استاند‌ارد‌ها به‌ شرح‌ زيرند:

۳-۲ مطالعه‌‌ى‌ دقيق‌ ‌استاند‌ارد يونى‌کد

در ‌اين‌ مرحله‌، قسمت‌‌ها‌ى‌ مرتبط‌ ‌آخرين‌ نسخه‌‌ها‌ى‌ ‌استاند‌ارد يونى‌کد بررسى‌ و تحليل‌ کامل‌ شد. ‌اين‌ بررسى‌ ‌از زمانى‌ که‌ ‌آخرين‌ نسخه‌ ۱. ۲ بود شرو‌ع‌ شد و تا ‌امروز که‌ ‌آخرين‌ نسخه‌‌ى‌ رسمى‌ ۱. ۰. ۳ ‌است‌ و نسخه‌‌ها‌ى‌ ۱. ۳ و ۲. ۳ نيز در ر‌ا‌هند ‌اد‌امه‌ د‌ارد.

«‌استاند‌ارد يونى‌کد» ‌استاند‌ارد جهانى‌ کدگذ‌ار‌ى‌ نويسه‌‌هاست‌ که‌ بر‌ا‌ى‌ ‌ار‌ائه‌‌ى‌ متون‌ بر‌ا‌ى‌ پرد‌ازش‌ کامپيوتر‌ى‌ به‌کار مى‌رود. ‌اين‌ ‌استاند‌ارد با وير‌ايش‌ دوم‌ ‌استاند‌ارد بين‌‌المللى‌ ISO/IEC 10646-1:2000 کاملاً سازگار ‌است‌ و ‌همان‌ نويسه‌‌ها و کد‌ها‌ى‌ ISO/IEC 10646 ر‌ا د‌ارد. ‌استاند‌ارد يونى‌کد ‌اطلا‌عات‌ بيشتر‌ى‌ نيز در مورد نويسه‌‌ها و کاربرد‌هايشان‌ فر‌ا‌هم‌ کرده‌ ‌است‌، پس‌ در و‌اقع‌ ‌هر پياده‌ساز‌ى‌ سازگار با يونى‌کد، با ISO/IEC 10646 نيز سازگار ‌است‌.

يونى‌کد ‌امکان‌ کدگذ‌ار‌ى‌ ‌همه‌‌ى‌ نويسه‌‌ها‌ى‌ مورد ‌استفاده‌ در نوشتن‌ زبان‌‌ها‌ى‌ دنيا ر‌ا فر‌ا‌هم‌ مى‌سازد. ‌اين‌ ‌استاند‌ارد ‌از کدگذ‌ار‌ى‌ ۱۶بيتى‌‌ا‌ى‌ ‌استفاده‌ مى‌کند که‌ بر‌ا‌ى‌ بيش‌ ‌از ۰۰۰'۶۵ نويسه‌ جا فر‌ا‌هم‌ مى‌کند. ‌اگر چه‌ ۰۰۰'۶۵ نويسه‌ بر‌ا‌ى‌ کدگذ‌ار‌ى‌ ‌اکثر نويسه‌‌هايى‌ که‌ در زبان‌‌ها‌ى‌ مهم‌ دنيا ‌استفاده‌ مى‌شود کافى‌ ‌است‌، يونى‌کد و ISO 10646 شيوه‌‌ى‌ گسترشى‌ به‌نام‌ UTF-16 فر‌ا‌هم‌ کرده‌‌اند که‌ ‌امکان‌ ‌اضافه‌ کردن‌ حدود يک‌ ميليون‌ نويسه‌‌ى‌ ديگر ر‌ا نيز مى‌د‌هد. ‌اين‌ د‌امنه‌ بر‌ا‌ى‌ کليه‌‌ى‌ نويسه‌‌ها‌ى‌ ‌عالم‌، ‌از جمله‌ پوشش‌ کامل‌ ‌همه‌‌ى‌ خط‌‌ها‌ى‌ باستانى‌ نيز کافى‌ ‌است‌.

يونى‌کد بر‌ا‌ى‌ کليه‌‌ها‌ى‌ نويسه‌‌ها‌ى‌ مورد ‌استفاده‌ در زبان‌‌ها‌ى‌ ‌عمده‌‌ى‌ دنيا کد تعيين‌ کرده‌ ‌است‌. به‌‌علت‌ فر‌اخ‌ بودن‌ فضا‌ى‌ تخصيص‌ نويسه‌، ‌اين‌ ‌استاند‌ارد بسيار‌ى‌ ‌از نماد‌ها‌ى‌ لازم‌ بر‌ا‌ى‌ حروفچينى‌ با کيفيت‌ بالا ر‌ا نيز در بر گرفته‌ ‌است‌. ‌از خط‌‌ها‌ى‌ مورد پشتيبانى‌ ‌اين‌ ‌استاند‌ارد مى‌تو‌ان‌ به‌ لاتين‌ (در بر گيرنده‌‌ى‌ ‌اکثر زبان‌‌ها‌ى‌ ‌اروپايى‌)، سيريليک‌ (روسى‌، صربى‌، )، يونانى‌، ‌عربى‌ (شامل‌ ‌عربى‌، فارسى‌، ‌اردو، کرد‌ى‌، )، ‌عبر‌ى‌، ‌هند‌ى‌، ‌ارمنى‌، ‌آسور‌ى‌، چينى‌، کاتاکانا و ‌هير‌اگانا (ژ‌اپنى‌)، و ‌هانگول‌ (کره‌‌ا‌ى‌) ‌اشاره‌ کرد. به‌‌علاوه‌، تعد‌اد زياد‌ى‌ نماد رياضى‌ و فنى‌، ‌علائم‌ نقطه‌گذ‌ار‌ى‌، پيکان‌، و ‌علامت‌‌ها‌ى‌ متفرقه‌ در ‌اين‌ ‌استاند‌ارد وجود د‌ارد. ‌اين‌ ‌استاند‌ارد بر‌ا‌ى‌ ‌علامت‌‌ها‌ى‌ ترکيب‌شونده‌ يا ‌ا‌عر‌اب‌‌ها نيز کد‌هايى‌ در نظر گرفته‌ ‌است‌ که‌ ‌از جمله‌‌ى‌ ‌آن‌‌ها ‌علامت‌‌هايى‌ چون‌ «˜» ‌هستند که‌ در ترکيب‌ با حروف‌ پايه‌، حروف‌ تغييرلحن‌يافته‌‌ا‌ى‌ چون «ñ» ‌ر‌ا مى‌سازند. ‌آخرين‌ نسخه‌‌ى‌ يونى‌کد، در مجمو‌ع‌، ۱۹۴'۴۹ نويسه‌ د‌ارد. به‌‌علاوه‌، ۴۰۰'۶ کد نيز بر‌ا‌ى‌ مصرف‌ خصوصى‌ در نظر گرفته‌ شده‌ ‌است‌ که‌ برنامه‌نويسان‌ مى‌تو‌انند ‌از ‌آن‌‌ها بر‌ا‌ى‌ نويسه‌‌ها و نماد‌ها‌ى‌ خودشان‌ ‌استفاده‌ کنند.

به‌طور کلى‌، ‌اصول‌ يونى‌کد به‌ شرح‌ زيرند:

يونى‌کد شيوه‌‌ا‌ى‌ نيز بر‌ا‌ى‌ کدگذ‌ار‌ى‌ ۸بيتى‌ متون‌ مشخص‌ کرده‌ ‌است‌ که‌ نويسه‌‌ها ر‌ا پس‌ ‌از ‌ا‌عمال‌ يک‌ تابع‌ خاص‌ به‌ کدشان‌، به‌صورت‌ دنباله‌‌هايى‌ که‌ ‌از يک‌ تا چهار بايت‌ د‌ارند نگه‌ مى‌د‌ارد. ‌اين‌ شيوه‌ که‌ با نام‌ UTF-8 شناخته‌ مى‌شود، به‌ ‌اين‌ خاطر که‌ نويسه‌‌ها‌ى‌ ‌اسکى‌ ر‌ا ‌عيناً حفظ‌ مى‌کند و در نتيجه‌، ‌هم‌ برنامه‌‌ها‌ى‌ قديمى‌ ر‌احت‌تر با ‌آن‌ کنار مى‌‌آيند و ‌هم‌ طول‌ پرونده‌‌ها‌ى‌ لاتين‌ ر‌ا زياد نمى‌کند، بسيار محبوب‌ ‌است‌. در و‌اقع‌ بسيار‌ى‌ ‌از سيستم‌‌هايى‌ که‌ ‌اد‌عا‌ى‌ پشتيبانى‌ يونى‌کد ر‌ا مى‌کنند، تنها UTF-8 ر‌ا پشتيبانى‌ مى‌کنند و پرونده‌‌ها‌ى‌ يونى‌کد‌ى‌، ‌ا‌عم‌ ‌از کاربرد‌ها‌ى‌ ‌اينترنتى‌ يا مو‌ارد ‌استفاده‌‌ى‌ محلى‌، ‌عمدتاً در قالب‌ UTF-8 ذخيره‌ شده‌‌اند.

در ‌استاند‌ارد يونى‌کد، نويسه‌‌ها‌ى‌ فارسى‌ در بلوک‌ مربوط‌ به‌ خط‌ ‌عربى‌ قر‌ار د‌ارند. ‌اين‌ بلوک‌ بر‌ا‌ى‌ دربرگرفتن‌ نويسه‌‌ها‌ى‌ زبان‌‌هايى‌ که‌ ‌از خط‌ ‌عربى‌ ‌استفاده‌ مى‌کنند، مثل‌ فارسى‌، ‌اردو، پشتو، سند‌ى‌، و کرد‌ى‌ گسترش‌ يافته‌ ‌است‌. ‌اين‌ بلوک‌ نشانه‌‌ها‌ى‌ قر‌آنى‌ ‌از قبيل‌ نشانه‌‌ها‌ى‌ سجده‌ و پايان‌ ‌آيه‌، و ‌علائم‌ وقف‌ ر‌ا نيز در بر د‌ارد.

در يونى‌کد با وجود يکى‌ساز‌ى‌ کد‌ها‌ى‌ حروف‌ مشترک‌، بر‌ا‌ى‌ حروف‌ فارسى‌‌ا‌ى‌ که‌ بار معنايى‌ يا نمايشى‌ متفاوت‌ با حروف‌ ‌عربى‌ د‌ارند، نويسه‌‌ها‌ى‌ جد‌اگانه‌ در نظر گرفته‌ شده‌ ‌است‌. يعنى‌ کليه‌‌ى‌ حروف‌ خاص‌ فارسى‌ (پ‌، چ‌، ژ، گ‌) و نيز «ک‌» و «‌ى‌»‌ى‌ فارسى‌ که‌ با حرف‌ مشابه‌ در ‌عربى‌ تفاوت‌ نمايشى‌ د‌ارند، مکان‌ جد‌اگانه‌‌ا‌ى‌ به‌ خود ‌اختصاص‌ د‌اده‌‌اند. کليه‌‌ى‌ ‌ا‌عر‌اب‌‌ها‌ى‌ متد‌اول‌ حضور د‌ارند و ميان‌ شکل‌ فارسى‌/‌اردو و ‌عربى‌ ‌ارقام‌ نيز به‌‌علت‌ شکل‌ و رفتار متفاوت‌ تفاوت‌‌هايى‌ منظور گشته‌ ‌است‌.

‌از طرف‌ ديگر، ‌علائم‌ نقطه‌گذ‌ار‌ى‌‌ا‌ى‌ چون‌ نقطه‌ و فاصله‌ که‌ شکل‌ يکسانى‌ در خط‌‌ها‌ى‌ لاتين‌ و ‌عربى‌ د‌ارند، کد يکسان‌ د‌ارند. ‌علائمى‌ چون‌ پر‌انتز نيز، بسته‌ به‌ جهت‌ متن‌، ‌آينه‌‌ا‌ى‌ مى‌شوند، يعنى‌ به‌طور مثال‌، نويسه‌‌ى‌ 0028 نماينده‌‌ى‌ «پر‌انتز باز» ‌است‌، و نه‌ «پر‌انتز سمت‌ چپ‌». يونى‌کد ‌اتصال‌ مجاز‌ى‌ و فاصله‌‌ى‌ مجاز‌ى‌ ر‌ا نيز تحت‌ نام‌‌ها‌ى‌ «‌اتصال‌ با ‌عرض‌ صفر» و «بى‌‌اتصالى‌ با ‌عرض‌ صفر» به‌ رسميت‌ مى‌شناسد. به‌خاطر سازگار‌ى‌ با ‌استاند‌ارد‌ها‌ى‌ موجود در بعضى‌ ‌از کشور‌ها‌ى‌ ‌عربى‌، ISO 10646 و نتيجتاً يونى‌کد بلوک‌ جد‌اگانه‌‌ا‌ى‌ ر‌ا نيز به‌ شکل‌‌ها‌ى‌ مختلف‌ حروف‌ ‌عربى‌ ‌اختصاص‌ د‌اده‌ ‌است‌ که‌ ‌استفاده‌ ‌از ‌آن‌‌ها شديد‌اً منع‌ شده‌ ‌است‌. ‌اين‌ بلوک‌ معمولاً فقط‌ بر‌ا‌ى‌ تعيين‌ جا‌ى‌ شکل‌‌ها‌ى‌ مختلف‌ حروف‌ در قلم‌‌ها به‌کار مى‌رود.

‌همچنين‌ ‌اين‌ ‌استاند‌ارد توضيحات‌ مفصل‌ و دقيقى‌ درباره‌‌ى‌ شيوه‌‌ها‌ى‌ پياده‌ساز‌ى‌، ‌از جمله‌ شيوه‌‌ى‌ «متصل‌ساز‌ى‌ حروف‌» و «نمايش‌ متون‌ ر‌است‌به‌چپ‌ و دوجهته‌» د‌ارد که‌ برنامه‌نويس‌ ر‌ا ‌از مر‌اجعه‌ به‌ ر‌ا‌هنما‌ى‌ محلى‌ بى‌نياز مى‌سازد. ‌از ‌آنجا که‌ توضيح‌ ‌اين‌ دو، در حوصله‌‌ى‌ ‌اين‌ گز‌ارش‌ نيست‌، خو‌اننده‌ ر‌ا به‌ متن‌ ‌اصلى‌ در کتاب‌ يونى‌کد ‌ارجا‌ع‌ مى‌د‌هيم‌.

۳-۳ بررسى‌ پشتيبانى بين‌‌المللى‌ساز‌ى‌ در محيط‌‌ها‌ى‌ مختلف‌

در ‌اين‌ مرحله‌ ‌آخرين‌ نسخه‌‌ى‌ نرم‌‌افز‌ار‌ها‌ى‌ موجود ‌از لحاظ‌ سازگار‌ى‌ بررسى‌ شدند. در سطح‌ سيستم‌‌عامل‌:

ويندوز:
ويندوز ۲۰۰۰ و ويندوز NT نسخه‌‌ى‌ ۴ کاملاً مبتنى‌ بر يونى‌کد ‌هستند. در حال‌ حاضر برنامه‌‌ها‌ى‌ کاربرد‌ى‌ مى‌تو‌انند با ‌استفاده‌ ‌از ر‌ابط‌‌ها‌ى‌ برنامه‌نويسى‌ موجود در ‌اين‌ سيستم‌‌عامل‌‌ها، ‌هر خطى‌ ر‌ا که‌ سيستم‌‌عامل‌ پشتيبانى‌ ‌آن‌ ر‌ا ‌اضافه‌ کرده‌ باشد (که‌ در مورد ويندوز ۲۰۰۰، ‌عربى‌ ر‌ا نيز شامل‌ مى‌شود) نمايش‌ د‌هند، ‌هرچند به‌ ‌هر حال‌، پشتيبانى‌ صحيح‌ ‌از يک‌ زبان‌، نياز به‌ ريزه‌کار‌ى‌‌ها‌ى‌ بيشتر و در و‌اقع‌ ‌آگا‌هى‌ ‌آن‌ برنامه‌ ‌از قو‌انين‌ زبان‌ مورد نظر د‌ارد. ويندوز ۲۰۰۰ کار‌ها‌ى‌ پيچيده‌تر‌ى‌ ‌از قبيل‌ مرتب‌ساز‌ى‌ محلى‌ و نمايش‌ محلى‌ تاريخ‌ ر‌ا نيز پشتيبانى‌ مى‌کند که‌ متاسفانه‌ در مورد فارسى‌ ‌هنوز مغلوط‌ ‌است‌.

ويندوز‌ها‌ى‌ نسخه‌‌ى‌ ۹۵، ۹۸، و ME در ‌هسته‌ مبتنى‌ بر يونى‌کد نيستند، ولى‌ با نصب‌ کتاب‌خانه‌‌ى‌ تو‌ابعى‌ به‌نام‌ Uniscribe که‌ به‌‌همر‌اه‌ بسيار‌ى‌ ‌از برنامه‌‌ها‌ى‌ مايکروسافت‌ ‌از قبيل‌ Internet Explorer 5 و Office 2000 مى‌‌آيد، برنامه‌‌ها مى‌تو‌انند با ‌استفاده‌ ‌از تو‌ابع‌ ‌اين‌ کتاب‌خانه‌، متن‌ مورد نظر خود ر‌ا نمايش‌ د‌هند.

لينکس‌:
تنها قسمت‌‌هايى‌ ‌از ‌هسته‌‌ى‌ لينکس‌ که‌ به‌ نمايش‌ نويسه‌‌ها مربوط‌ مى‌شوند، مربوط‌ به‌ نمايش‌ د‌اده‌‌ها رو‌ى‌ صفحه‌‌ى‌ متنى‌ ‌است‌ که‌ گرچه‌ ‌هسته‌‌ى‌ لينکس‌ نويسه‌‌ها ر‌ا در قالب‌ يونى‌کد بر‌ا‌ى‌ گرد‌اننده‌‌ى‌ صفحه‌‌ى‌ نمايش‌ مى‌فرستد ولى‌ به‌‌علت‌ کمبود‌ها‌ى‌ ذ‌اتى‌ صفحه‌‌ى‌ متن‌ PC، ‌اين‌ نمايش‌ به‌شکل‌ بسيار ‌ابتد‌ايى‌ پشتيبانى‌ مى‌شود. بنابر‌اين‌ ‌هر برنامه‌ موظف‌ ‌است‌ خود پشتيبانى‌ لازم‌ ر‌ا فر‌ا‌هم‌ کند.

در مورد محيط‌ گر‌افيکى‌ لينکس‌ (X) شر‌ايط‌ فرق‌ مى‌کند. رو‌ى‌ ‌هر يک‌ ‌از گسترش‌‌ها‌ى‌ محبوب‌ و مورد ‌استفاده‌‌ى‌ X، يعنى‌ Gnome و KDE، پشتيبانى‌ خوبى‌ بر‌ا‌ى‌ يونى‌کد وجود د‌ارد که‌ ‌از طريق‌ کتاب‌خانه‌‌هايى‌ چون‌ پن‌گو (Pango) و GTK+ صورت‌ مى‌گيرد. پن‌گو تو‌ابع‌ بسيار پيشرفته‌‌ا‌ى‌ در پشتيبانى‌ ‌از خطوط‌ دشو‌ار د‌ارد و در حال‌ حاضر نمايش‌ ‌آن‌ نسبت‌ به‌ ويندوز مشکلات‌ کمتر‌ى‌ د‌ارد.

در کتاب‌خانه‌‌ها‌ى‌ لايه‌‌ها‌ى‌ پايين‌تر، به‌مدد کتاب‌خانه‌‌ها‌ى‌ C گنو، که‌ کاملاً مطابق‌ ‌استاند‌ارد‌ها‌ى‌ محلى‌ساز‌ى‌ ISO ‌از جمله‌ ‌استاند‌ارد POSIX طر‌احى‌ شده‌‌اند، ‌امکان‌ ‌اضافه‌کردن‌ پشتيبانى‌ فارسى‌ بسيار ‌آسان‌ ‌است‌ و ‌آخرين‌ نسخه‌‌ى‌ کتاب‌خانه‌‌ى‌ glibc، با کمک‌ ‌اطلا‌عاتى‌ که‌ در پروژه‌‌ى‌ «‌استاند‌ارد خط‌ فارسى‌» تهيه‌ شده‌ ‌است‌، مقرر‌ات‌ نمايش‌ ‌اطلا‌عات‌ فارسى‌ ر‌ا (به‌جز مرتب‌ساز‌ى‌) پشتيبانى‌ مى‌کند.

‌از ‌آنجايى‌ که‌ يکى‌ ‌از گر‌ايش‌‌ها‌ى‌ ‌اصلى‌ ‌اين‌ پروژه‌، فارسى‌ساز‌ى‌ محيط‌‌ها‌ى‌ مبتنى‌ بر وب‌ بوده‌ ‌است‌، دو شبکه‌نورد ‌اصلى‌ نيز بررسى‌ شدند:

Internet Explorer:
‌اين‌ شبکه‌نورد در نسخه‌‌ى‌ ۵ و بعد ‌از ‌آن‌، پشتيبانى‌ خوبى‌ ‌از يونى‌کد ۰. ۲ د‌ارد، ‌هر چند در مورد فارسى‌ يک‌ ‌اير‌اد ‌عمده‌ د‌ارد: ‌اين‌ شبکه‌نورد حرف‌ «‌ى‌» فارسى‌ ر‌ا با ‌اشکال‌ نشان‌ مى‌د‌هد، بدين‌ معنى‌ که‌ شکل‌‌ها‌ى‌ «‌اول‌» و «وسط‌» ‌آن‌ ر‌ا به‌ شکل‌ «تنها» نمايش‌ مى‌د‌هد. ‌اين‌ مشکل‌ در و‌اقع‌ ‌اشکال‌ قلم‌‌هايى‌ ‌است‌ که‌ به‌‌همر‌اه‌ ‌اين‌ شبکه‌نورد ‌عرضه‌ مى‌شوند.
Netscape:
نسخه‌‌ى‌ ۴ ‌اين‌ شبکه‌نورد ‌اگرچه‌ نمايش‌ يونى‌کد ر‌ا در حد‌اقل‌ پشتيبانى‌ مى‌کند، ‌اما در نمايش‌ متون‌ چندزبانه‌ در يک‌ صفحه‌ مشکل‌ د‌ارد. ‌اين‌ مشکل‌ پس‌ ‌از بازنويسى‌ موتور ‌اين‌ شبکه‌نورد در نسخه‌‌ى‌ ۶ (با نام‌ رمز‌ى‌ Mozilla) و بنا کردن‌ ‌آن‌ بر يونى‌کد حل‌ شد، منتها به‌‌علت‌ کامل‌ نشدن‌ پشتيبانى‌ زبان‌‌ها‌ى‌ ر‌است‌به‌چپ‌، نسخه‌‌ى‌ ۰. ۶ ‌اين‌ شبکه‌نورد بدون‌ پشتيبانى‌ ‌عربى‌ و ‌عبر‌ى‌ توزيع‌ شد. در حال‌ حاضر فعاليت‌ رو‌ى‌ ‌اين‌ خط‌‌ها ‌اد‌امه‌ د‌ارد.

‌همچنين‌ بسيار‌ى‌ ‌از برنامه‌‌ها‌ى‌ ديگر، ‌از قبيل‌ Office مايکروسافت‌، StarOffice سان‌، پايگاه‌‌ها‌ى‌ د‌اده‌‌ا‌ى‌ mySQL، PostgreSQL، Oracle، و SQL Server مايکروسافت‌، و کتاب‌خانه‌‌ها‌ى‌ بين‌‌المللى‌ساز‌ى‌ سان‌ و ‌آ‌ى‌بى‌‌ام‌ مورد بررسى‌ قر‌ار گرفت‌ که‌ ‌از حوصله‌‌ى‌ ‌اين‌ گز‌ارش‌ خارج‌‌اند.

۳-۴ بررسى‌ تکنولوژ‌ى‌‌ها‌ى مرتبط

بسيار‌ى‌ ‌از تکنولوژ‌ى‌‌ها‌ى‌ سطح‌ بالاتر، يونى‌کد ر‌ا به‌‌عنو‌ان‌ مجمو‌عه‌نويسه‌‌ى‌ معيار خود توصيه‌ کرده‌‌اند. جد‌ا ‌از يکى‌ ‌از ‌استاند‌ارد‌ها‌ى‌ RFC متعلق‌ به‌ «گروه‌ ضربت‌ مهندسى‌ ‌اينترنت‌» (IETF) که‌ بر‌ا‌ى‌ کليه‌‌ى‌ برنامه‌‌ها‌ى‌ ‌اينترنتى‌‌ا‌ى‌ که‌ پس‌ ‌از ‌اول‌ ژ‌انويه‌‌ى‌ ۱۹۹۹ منتشر مى‌شوند پشتيبانى‌ UTF-8 ر‌ا ‌اجبار‌ى‌ مى‌د‌اند، ‌استاند‌ارد‌ها‌ى‌ زير بررسى‌ شده‌‌اند:

HTML:
نسخه‌‌ى‌ ۰۱. ۴ ‌اين‌ ‌استاند‌ارد که‌ ‌استاند‌ارد تبادل‌ ‌اطلا‌عات‌ در محيط‌‌ها‌ى‌ ‌ابرمتنى‌ ‌است‌ و توسط‌ کنسرسيوم‌ W3 پيشنهاد شده‌‌است‌، ‌ايزو ۱۰۶۴۶ و يونى‌کد ر‌ا به‌‌عنو‌ان‌ مجمو‌عه‌نويسه‌‌ى‌ مرجع‌ خود معرفى‌ مى‌کند. بدين‌ معنى‌ که‌ ‌هرگاه‌ نويسه‌‌ا‌ى‌ به‌جا‌ى‌ کد با شماره‌‌ى‌ نويسه‌ معرفى‌ شود، ‌آن‌ شماره‌، شماره‌‌ى‌ نويسه‌ در يونى‌کد محسوب‌ مى‌شود، ‌هرچند مجمو‌عه‌نويسه‌‌ى‌ مورد ‌استفاده‌ در نوشتار مورد بحث‌، چيز ديگر‌ى‌ باشد. منتها، بر‌ا‌ى‌ سازگار ماندن‌ با نسخه‌‌ها‌ى‌ قبلى‌ HTML، در صورتى‌ که‌ ‌هيچ‌ مجمو‌عه‌نويسه‌‌ا‌ى‌ به‌‌عنو‌ان‌ پيشفرض‌ مشخص‌ نشود، مجمو‌عه‌نويسه‌‌ى‌ ISO 8859-1 که‌ مورد ‌استفاده‌ در ‌اروپا‌ى‌ ‌غربى‌ ‌است‌ فرض‌ مى‌شود. HTML بخش‌ مفصلى‌ ر‌ا نيز به‌ رفتار مورد ‌انتظار در متن‌‌ها‌ى‌ چندزبانه‌ يا دوجهته‌ ‌اختصاص‌ د‌اده‌ ‌است‌.
XML:
نسخه‌‌ى‌ ۰. ۱ ‌اين‌ ‌استاند‌ارد که‌ مقبوليت‌ بسيار زياد‌ى‌ يافته‌ ‌است‌، ‌از بين‌ چندصد مجمو‌عه‌نويسه‌‌ى‌ مورد ‌استفاده‌ در جهان‌، فقط‌ پشتيبانى‌ يونى‌کد ر‌ا (UTF-8 و UTF-16) ‌اجبار‌ى‌ مى‌د‌اند. کاربر مى‌تو‌اند ‌از مجمو‌عه‌نويسه‌‌ها‌ى‌ ديگر نيز ‌استفاده‌ کند، ولى‌ برنامه‌‌ها بايد بر‌ا‌ى‌ ‌استفاده‌‌ى‌ د‌اخلى‌ پرونده‌ ر‌ا به‌ يونى‌کد تبديل‌ کنند. ‌از ‌آن‌جا که‌ ‌اين‌ ‌استاند‌ارد در و‌اقع‌ يک‌ متازبان‌ ‌است‌ و بيش‌تر معنايى‌ ‌است‌ تا نمايشى‌، ‌هيچ‌ معنا‌ى‌ خاصى‌ بر‌ا‌ى‌ متن‌ مشخص‌ نمى‌کند و نتيجتاً شيوه‌‌ها‌ى‌ نمايش‌ ر‌ا به‌ لايه‌‌ها‌ى‌ بالاتر و‌اگذ‌ار کرده‌ ‌است‌. ‌هر چند، در توصيه‌نامه‌‌ا‌ى‌ که‌ ‌اخير‌اً به‌طور مشترک‌ توسط‌ کنسرسيوم‌ يونى‌کد و کنسرسيوم‌ W3 نوشته‌ شده‌ ‌است‌، شيوه‌‌ى‌ دقيق‌ ‌استفاده‌ ‌از يونى‌کد در زبان‌‌ها‌ى‌ نشان‌گذ‌ار‌ى‌ مشخص‌ شده‌ ‌است‌.

‌استاند‌ارد XHTML نسخه‌‌ى‌ ۰. ۱ نيز که‌ به‌نو‌عى‌ HTML ر‌ا در قالب‌ XML قر‌ار مى‌د‌هد، ‌استفاده‌ ‌از يونى‌کد ر‌ا ‌اکيد‌اً توصيه‌ مى‌کند.

‌همين‌ طور ‌استاند‌ارد WML که‌ ‌استاند‌ارد تبادل‌ ‌اطلا‌عات‌ در محيط‌‌ها‌ى‌ بيسيم‌ ‌است‌، يونى‌کد ر‌ا به‌‌عنو‌ان‌ مجمو‌عه‌نويسه‌‌ى‌ مرجع‌ مى‌شناسد، ‌هرچند تلفن‌‌ها‌ى‌ ‌همر‌اه‌ ‌امروز‌ى‌ ‌هنوز تو‌انايى‌‌ها‌ى‌ لازم‌ ر‌ا بر‌ا‌ى‌ پشتيبانى‌ بسيار‌ى‌ ‌از قسمت‌‌ها‌ى‌ يونى‌کد ند‌ارند.

OpenType:
که‌ ‌استاند‌ارد‌ى‌ بر‌ا‌ى‌ قلم‌‌هاست‌ و تعميم‌ TrueType محسوب‌ مى‌شود، توسط‌ شرکت‌‌ها‌ى‌ مايکروسافت‌، ‌اپل‌، و ‌ادبى‌ طر‌احى‌ شده‌ ‌است‌. ‌اين‌ ‌استاند‌ارد که‌ به‌طور جد‌ى‌ توسط‌ طر‌احان‌ قلم‌ پشتيبانى‌ مى‌شود، کاملاً مبتنى‌ بر يونى‌کد ‌است‌ و ظر‌ائف‌ حروف‌چينى‌ ر‌ا با حفظ‌ سازگار‌ى‌ با يونى‌کد پشتيبانى‌ مى‌کند. در قلم‌‌هايى‌ که‌ ‌از ‌اين‌ ‌استاند‌ارد پيرو‌ى‌ مى‌کنند، با وجود ‌اين‌ که‌ شکل‌‌ها مجازند در ‌هر محلى‌ که‌ مى‌خو‌ا‌هند بيايند، جد‌اولى‌ وجود د‌ارد که‌ نويسه‌‌ها ر‌ا به‌ ‌اشکال‌ تبديل‌ مى‌کند.
Java و JavaScript:
‌اين‌ دو زبان‌، با وجود تفاوت‌‌هايشان‌، به‌‌علت‌ نزديک‌ بودن‌ شرکت‌‌هايى‌ که‌ ‌آن‌‌ها ر‌ا طر‌احى‌ کرده‌‌اند، يعنى‌ سان‌ و نت‌سْکيپ‌، ‌از ‌ايده‌‌ها‌ى‌ مشابهى‌ در سطح‌ نحو زبان‌ پيرو‌ى‌ مى‌کنند. در ‌هردو‌ى‌ ‌اين‌ زبان‌‌ها، نويسه‌‌ها و رشته‌‌ها در قالب‌ يونى‌کد نگه‌د‌ار‌ى‌ و پرد‌ازش‌ مى‌شوند و در صورتى‌ که‌ بستر‌ى‌ که‌ برنامه‌‌ها در ‌آن‌ ‌اجر‌ا مى‌شوند تو‌انايى‌ نمايش‌ نويسه‌‌ها‌ى‌ يونى‌کد‌ى‌ ر‌ا د‌اشته‌ باشند، مشکلى‌ بر‌ا‌ى‌ نمايش‌ وجود نخو‌ا‌هد د‌اشت‌.

تقريباً ‌هر تکنولوژ‌ى‌ ‌امروز‌ى‌‌ا‌ى‌ که‌ مسائل‌ بين‌‌المللى‌ساز‌ى‌ ر‌ا در نظر گرفته‌ ‌است‌، به‌سمت‌ يونى‌کد رفته‌ ‌است‌ يا مى‌رود. ‌اين‌ فهرست‌ بزرگتر ‌از ‌آن‌ ‌است‌ که‌ در ‌اين‌ مقال‌ بگنجد.

۳-۵ فعاليت‌ در فهرست‌‌ها‌ى پستى‌

‌عمده‌ترين‌ فعاليت‌ ‌اين‌ پروژه‌، حضور در فهرست‌‌ها‌ى‌ پستى‌ مربوط‌ به‌ بين‌‌المللى‌ساز‌ى‌ بوده‌ ‌است‌. پروژه‌ ‌از ‌آ‌غاز حضور فعالى‌ در ‌اين‌ فهرست‌‌ها د‌اشته‌ ‌است‌ و نهايت‌ تلاش‌ ممکن‌ ر‌ا بر‌ا‌ى‌ شناساندن‌ ‌استاند‌ارد‌ها‌ى‌ ملى‌ و مسائل‌ خاص‌ خط‌ و زبان‌ فارسى‌ به‌ ‌عمل‌ ‌آورده‌ ‌است‌.

unicode:
که‌ فهرست‌ ‌اصلى‌ مربوط‌ به‌ بين‌‌المللى‌ساز‌ى‌ ‌است‌ و ‌ا‌عضا‌ى‌ کنسرسيوم‌ يونى‌کد در ‌آن‌ حضور د‌ارند، در بيشترين‌ درجه‌‌ى‌ ‌ا‌هميت‌ قر‌ار د‌ارد. پروژه‌ با حضور مستمر در کليه‌‌ى‌ بحث‌‌هايى‌ که‌ به‌ ‌هر نحو‌ى‌ به‌ خط‌ فارسى‌ مربوط‌ مى‌شدند، ديگر در سطح‌ بين‌‌المللى‌ به‌‌عنو‌ان‌ مرجع‌ مسائل‌ فارسى‌ شناخته‌ شده‌ ‌است‌.
فهرست‌‌ها‌ى‌ ISO:
که‌ فهرست‌‌ها‌ى‌ مربوط‌ به‌ زيرکميته‌‌ى‌ JTC1/SC2 ‌از ‌ايزو ‌است‌ که‌ تدوين‌ ‌استاند‌ارد‌هايى‌ ‌از ‌ايزو ر‌ا که‌ مربوط‌ به‌ مجمو‌عه‌نويسه‌‌ها مى‌شود (و ‌از جمله‌ ‌ايزو ۱۰۶۴۶) بر ‌عهده‌ د‌ارد. پروژه‌ به‌‌عنو‌ان‌ نماينده‌‌ى‌ شور‌ا‌ى‌ ‌عالى‌ ‌انفورماتيک‌، که‌ وظيفه‌‌ى‌ تدوين‌ ‌استاند‌ارد‌ها‌ى‌ ملى‌ در زمينه‌‌ى‌ ‌انفورماتيک‌ ر‌ا به‌‌عهده‌ د‌ارد، نماينده‌‌ى‌ ‌اير‌ان‌ در ‌اين‌ زيرکميته‌‌ى‌ ‌ايزو شد و ‌اگر چه‌ ‌هنوز پيشنهاد جديد‌ى‌ ر‌ا به‌ ‌اين‌ زيرکميته‌ ند‌اده‌ ‌است‌، در بررسى‌ پيشنهاد‌ها‌ى‌ ديگر‌ان‌ نهايت‌ دقت‌ ر‌ا مبذول‌ د‌اشته‌ ‌است‌ و ‌هرگاه‌ که‌ مسئله‌‌ا‌ى‌ مربوط‌ به‌ خط‌ فارسى‌ وجود د‌اشته‌ ‌است‌، فعالانه‌ در مباحثات‌ حضور د‌اشته‌ ‌است‌.
linux-utf8، arabic-linux و چند فهرست‌ مشابه‌ ديگر:
که‌ به‌ مسائل‌ مربوط‌ به‌ ‌اضافه‌ کردن‌ پشتيبانى‌ يونى‌کد و بين‌‌المللى‌ساز‌ى‌ به‌ سيستم‌‌عامل‌ لينکس‌ مى‌پرد‌ازند. به‌ ‌علت‌ ما‌هيت‌ باز و ‌آز‌اد پروژه‌، و ‌اين‌ که‌ لينکس‌ نيز در ر‌استا‌ى‌ ‌اين‌ ‌ا‌هد‌اف‌ حرکت‌ مى‌کند، پروژه‌ ‌ا‌هميت‌ زياد‌ى‌ به‌ ‌افزودن‌ تو‌انايى‌‌ها‌ى‌ فارسى‌ به‌ لينکس‌ د‌اده‌ ‌است‌. ‌اکثر برنامه‌‌هايى‌ که‌ در ‌اين‌ مدت‌ توسط‌ ديگر‌ان‌ با پشتيبانى‌ فارسى‌/‌عربى‌ تهيه‌ شده‌ ‌است‌، توسط‌ پروژه‌ کنترل‌ کيفيت‌ شده‌‌اند و گا‌هى‌ حتى‌ پروژه‌ به‌ ‌آن‌‌ها ‌امکاناتى‌ ر‌ا ‌اضافه‌ کرده‌ يا مشکلاتى‌ ر‌ا در ‌آن‌‌ها برطرف‌ کرده‌ ‌است‌.
www-i18n:
که‌ بررسى‌ مسائل‌ مربوط‌ به‌ بين‌‌المللى‌ساز‌ى‌ در وب‌ ر‌ا، ‌از جمله‌ HTML و XML، به‌‌عهده‌ د‌ارد.
opentype:
که‌ به‌ تکنولوژ‌ى‌ OpenType مى‌پرد‌ازد.

‌علاوه‌ بر ‌اين‌‌ها، دو فهرست‌ به‌نام‌‌ها‌ى‌ FarsiWeb (بر‌ا‌ى‌ بررسى‌ مسائل‌ فارسى‌ در ‌اينترنت‌) و PersianComputing (بر‌ا‌ى‌ مسائل‌ ‌عمومى‌تر فارسى‌ و کامپيوتر) توسط‌ پروژه‌ ‌ايجاد شده‌‌اند که‌ در ‌اين‌ مدت‌ به‌منظور ‌اطلا‌ع‌رسانى‌ به‌ برنامه‌نويسان‌ فارسى‌ مقيم‌ د‌اخل‌ و خارج‌ ‌از کشور به‌کار رفته‌‌اند.

پروژه‌ در فهرست‌‌ها‌ى‌ ‌اختصاصى‌ بعضى‌ برنامه‌‌ها‌ى‌ Open Source نيز شرکت‌ د‌اشته‌ ‌است‌ که‌ در بخش‌ ۳-۷ ذکر مى‌شود.

۳-۶ توليد ‌ابز‌ار‌ها‌ى‌ آزمايشى‌

پروژه‌ بر‌ا‌ى‌ ‌آزمايش‌ ر‌اه‌حل‌‌ها و يا حل‌ مشکلات‌ فارسى‌زبانان‌، تاکنون‌ دست‌ به‌ تهيه‌‌ى‌ برنامه‌‌ها‌ى‌ زير زده‌ که‌ ‌اد‌امه‌ نيز خو‌ا‌هند يافت‌. ‌اين‌ برنامه‌‌ها ‌از طريق‌ تماس‌ با پروژه‌ ‌همر‌اه‌ با کد مبد‌اشان‌ و به‌صورت‌ ر‌ايگان‌ در دسترسند:

قلم‌ Nesf:
که‌ قلمى‌ سازگار با يونى‌کد ‌است‌ و در ‌اند‌ازه‌‌ها‌ى‌ کوچک‌ نيز که‌ بر‌ا‌ى‌ کارکرد‌ها‌ى‌ مبتنى‌ بر وب‌ مناسب‌ ‌است‌ کاملاً خو‌اناست‌. ‌اين‌ قلم‌ ‌از نظر زيبايى‌شناسى‌ فارسى‌زبانان‌ قابل‌ قبول‌ بوده‌ و ‌از ‌اين‌ نظر به‌ ‌هيچ‌ وجه‌ «‌عربى‌» محسوب‌ نمى‌شود!
برنامه‌‌ى‌ TTFix:
که‌ در و‌اقع‌ ‌اشکال‌ موجود در پشتيبانى‌ ‌استاند‌ارد «‌ى‌»‌ى‌ فارسى‌ در قلم‌‌ها‌ى‌ مايکروسافت‌ و پارسا ر‌ا برطرف‌ مى‌کند. ‌اين‌ برنامه‌ کل‌ جدول‌ قلم‌ OpenType ر‌ا مى‌خو‌اند و در صورتى‌ که‌ ‌اين‌ ‌اشکال‌ در قلم‌ موجود باشد، ‌آن‌ ر‌ا برطرف‌ مى‌کند. ‌اين‌ برنامه‌ نهايى‌ شده‌ و به‌‌همر‌اه‌ کد مبد‌اش‌ ‌از ‌اينترنت‌ قابل‌ download ‌است‌.
مجمو‌عه‌‌ى‌ مبدل‌‌ها:
که‌ تبديل‌ پرونده‌‌ها ‌از قالب‌‌ها‌ى‌ ديگر به‌ يونى‌کد ر‌ا به‌‌عهده‌ د‌ارند. در حال‌ حاضر مبدل‌‌هايى‌ ‌از قالب‌‌ها‌ى‌ ‌اير‌ان‌سيستم‌، ۳۳۴۲، فارسى‌تک‌، و سينا (مورد ‌استفاده‌ در زرنگار) به‌ يونى‌کد تهيه‌ شده‌ که‌ کاملاً قابل‌ ‌استفاده‌‌اند و مر‌احل‌ نهايى‌ ‌آزمايش‌ ر‌ا مى‌گذر‌انند.
‌ابز‌ار‌ها‌ى‌ تبديل‌ خودکار متن‌ به‌ تصوير:
‌اين‌ ‌ابز‌ار‌ها که‌ به‌ زبان‌ PHP و با ‌استفاده‌ ‌از کتاب‌خانه‌‌ى‌ تو‌ابع‌ FreeType نوشته‌ شده‌‌اند، مى‌تو‌انند در برنامه‌‌ها‌ى‌ مبتنى‌ بر وبى‌ که‌ مى‌خو‌ا‌هند در شبکه‌نورد‌ها‌ى‌ قديمى‌ پشتيبانى‌ فارسى‌ د‌اشته‌ باشند، مورد ‌استفاده‌ قر‌ار گيرند. ‌اين‌ ‌ابز‌ار‌ها رشته‌‌ا‌ى‌ ‌از نويسه‌‌ها‌ى‌ يونى‌کد‌ى‌ و يک‌ قلم‌ OpenType ر‌ا به‌‌عنو‌ان‌ ورود‌ى‌ گرفته‌ و تصوير ‌آن‌ متن‌ ر‌ا در قالب‌‌ها‌ى‌ GIF، JPEG، و PNG توليد مى‌کنند.

‌اين‌ پروژه‌ ‌ابز‌ار‌ها‌ى‌ ديگر‌ى‌ ر‌ا نيز تهيه‌ کرده‌ و يا در دست‌ تهيه‌ د‌ارد که‌ ‌از جمله‌‌ى‌ ‌آن‌‌ها مى‌تو‌ان‌ به‌ تو‌ابع‌ تبديل‌ تاريخ‌ بين‌ تقويم‌ گرگور‌ى‌ و تقويم‌ جلالى‌، تو‌ابع‌ کشيده‌گذ‌ار‌ى‌ خودکار ‌اشعار فارسى‌ در وب‌، يک‌ جعبه‌‌ى‌ وير‌ايش‌ فارسى‌ وبى‌ و مبتنى‌ بر JavaScript، و يک‌ ‌غلط‌ياب‌ متن‌ ‌اشاره‌ کرد.

۳-۷ همکار‌ى‌ با پروژه‌‌ها‌ى Open Source

پروژه‌ با فعاليت‌ در فهرست‌ ‌ها‌ى‌ پستى‌، کنترل‌ کيفيت‌، و ‌ا‌هد‌ا‌ى‌ کد به‌ پروژه‌‌ها‌ى‌ ‌عام‌‌المنفعه‌‌ى‌ زير کمک‌ کرده‌ ‌است‌:

GNU libc:
کتاب‌خانه‌‌ى‌ تو‌ابع‌ ‌استاند‌ارد گنو، مورد ‌استفاده‌ در لينکس‌ و سيستم‌‌عامل‌‌ها‌ى‌ ديگر. پروژه‌ به‌ ‌اين‌ کتاب‌خانه‌ پشتيبانى‌ فارسى‌ و قو‌ائد محلى‌ ‌اير‌ان‌ ر‌ا با پى‌رو‌ى‌ ‌از ‌اصول‌ ‌استاند‌ارد شماره‌‌ى‌ ۱۴۶۵۱ ‌ايزو ‌اضافه‌ کرده‌ ‌است‌. ‌اين‌ قو‌ائد که‌ توسط‌ پروژه‌ جمع‌‌آور‌ى‌ و کد شده‌‌اند در ‌آخرين‌ نسخه‌‌ى‌ ‌اين‌ کتاب‌خانه‌ (۲. ۲) وجود د‌ارند.
Fribidi:
که‌ کتاب‌خانه‌‌ى‌ ‌آز‌اد‌ى‌ بر‌ا‌ى‌ ‌افزودن‌ تو‌انايى‌‌ها‌ى‌ دوجهته‌ به‌ برنامه‌‌هاست‌ و تبديل‌ ترتيب‌ معنايى‌ به‌ ديد‌ار‌ى‌ ر‌ا به‌‌عهده‌ د‌ارد. پروژه‌ در حال‌ تکميل‌ پشتيبانى‌ ‌اين‌ کتاب‌خانه‌ ‌از يونى‌کد ‌است‌ که‌ در نتيجه‌‌ى‌ ‌آن‌ ‌اين‌ کتاب‌خانه‌ ‌اولين‌ کتابخانه‌‌ى‌ ‌آز‌اد و ر‌ايگانى‌ خو‌ا‌هد بود که‌ ‌الگوريتم‌ دوجهته‌‌ى‌ يونى‌کد ر‌ا به‌طور دقيق‌ پشتيبانى‌ مى‌کند.
Xterm با پشتيبانى‌ خط‌ ‌عربى‌:
در ‌اين‌ برنامه‌ که‌ يک‌ شبيه‌ساز ترمينال‌ با تو‌انايى‌ نمايش‌ متون‌ دوجهته‌ و ‌اتصال‌ حروف‌ ‌عربى‌ ‌است‌، پروژه‌ ‌هم‌ کد نوشته‌ ‌است‌ و ‌هم‌ در ‌آزمايش‌ دقيق‌ برنامه‌ کمک‌ کرده‌ ‌است‌. ‌اين‌ پشتيبانى‌ ‌هنوز نهايى‌ نيست‌ و ‌از ‌آن‌جا که‌ Xterm ‌از کتابخانه‌‌ى‌ Fribidi ‌استفاده‌ مى‌کند، تا زمانى‌ که‌ پشتيبانى‌ Fribidi ‌از يونى‌کد کامل‌ نشود در نمايش‌ متون‌ دوجهته‌ مشکل‌ خو‌ا‌هد د‌اشت‌.
Mozilla:
که‌ يک‌ شبکه‌نورد Open Source ‌است‌ که‌ موتور شبکه‌نورد محبوب‌ نت‌سْکيپ‌ ر‌ا تشکيل‌ مى‌د‌هد، ‌از ‌همان‌ ‌ابتد‌ا‌ى‌ فعاليت‌ پروژه‌ شناسايى‌ شد و فعاليت‌ رو‌ى‌ ‌آن‌ ‌آ‌غاز گشت‌. ‌از ‌آن‌ جا که‌ کد مورد ‌استفاده‌ در ‌اين‌ سيستم‌ پيچيده‌ بود و پروژه‌ بودجه‌ و نيرو‌ى‌ ‌انسانى‌ لازم‌ بر‌ا‌ى‌ سرمايه‌گذ‌ار‌ى‌ رو‌ى‌ ‌آن‌ ر‌ا ند‌اشت‌، پروژه‌ فقط‌ در پيد‌ا کردن‌ ‌اشکالات‌ و کنترل‌ کيفيت‌ بسيار فعالانه‌ به‌ پروژه‌‌ى‌ موزيلا کمک‌ کرده‌ ‌است‌. پشتيبانى‌ متون‌ دوجهته‌ ‌هنوز در ‌هسته‌‌ى‌ مرکز‌ى‌ موزيلا وجود ند‌ارد، و بنابر‌اين‌ نسخه‌‌ى‌ ۰. ۶ شبکه‌نورد نت‌سْکيپ‌ (معادل‌ نسخه‌‌ى‌ ۶. ۰ موزيلا) بدون‌ پشتيبانى‌ فارسى‌ منتشر شد. ‌اين‌ پشتيبانى‌ ‌هنوز در نسخه‌‌ى‌ ۷. ۰ موزيلا نيز نهايى‌ نشده‌ ‌است‌، ولى‌ پروژه‌ بر‌ا‌ى‌ رساندن‌ ‌اين‌ پشتيبانى‌ به‌ ‌اولين‌ نسخه‌‌ى‌ ممکن‌، نهايت‌ تلاش‌ ر‌ا مبذول‌ د‌اشته‌ ‌است‌.
GTK+ و Pango:
که‌ کتاب‌خانه‌‌ها‌ى‌ مورد ‌استفاده‌ در Gnome بر‌ا‌ى‌ بين‌‌المللى‌ساز‌ى‌ ‌هستند. فعاليت‌ پروژه‌ در ‌اين‌ پروژه‌‌ها ‌عمدتاً کنترل‌ کيفيت‌ و گز‌ارش‌ ‌اشکالات‌ بوده‌ ‌است‌. ‌هم‌چنين‌ با کمک‌ پروژه‌ صفحه‌کليد فارسى‌‌ا‌ى‌ مطابق‌ با ‌استاند‌ارد ۲۹۰۱ به‌ ‌اين‌ کتاب‌خانه‌‌ها ‌اضافه‌ شده‌ ‌است‌. پن‌گو نيز ‌از Fribidi ‌استفاده‌ مى‌کند، بنابر‌اين‌ کار پروژه‌ رو‌ى‌ Fribidi، ‌عملاً در پن‌گو نيز موثر خو‌ا‌هد بود.
Bidi-emacs:
که‌ پروژه‌‌ا‌ى‌ بر‌ا‌ى‌ ‌افزودن‌ ‌امکانات‌ دوجهته‌ به‌ وير‌ايشگر Emacs ‌است‌.

۳-۸ ايجاد صفحه‌‌ى‌ وب پروژه‌

پروژه‌ به‌ منظور ‌اطلا‌ع‌رسانى‌ به‌ برنامه‌نويسان‌ فارسى‌ صفحه‌‌ا‌ى‌ در نشانى‌

http://www.farsiweb.info/

قر‌ار د‌اده‌ ‌است‌ که‌ شامل‌ ر‌ا‌هنمايى‌‌ها‌ى‌ بر‌ا‌ى‌ ‌آن‌‌ها و بعضى‌ ‌از برنامه‌‌هايى‌ ‌است‌ که‌ خود پروژه‌ تهيه‌ کرده‌ ‌است‌.

۳-۹ کتاب‌خانه‌‌ى‌ ديجيتال فارسى‌

پروژه‌ به‌ منظور ‌آزمايش‌ توصيه‌‌ها‌ى‌ خود، بستر مبتنى‌ بر وبى‌ ر‌ا در نظر گرفت‌ که‌ بتو‌اند ‌ابز‌ار‌ها‌ى‌ خود ر‌ا در مقياس‌ بزرگ‌ بيازمايد. بدين‌ منظور پروژه‌‌ا‌ى‌ به‌نام‌ کتاب‌خانه‌‌ى‌ ديجيتال‌ فارسى‌ ‌آ‌غاز شد که‌ ‌هدف‌ ‌آن‌ گرد‌آور‌ى‌ و ‌انتشار گنجينه‌‌ى‌ ‌ادبيات‌ فارسى‌ در يک‌ سايت‌ وب‌ ‌است‌، به‌منظور سادگى‌ و کار‌ايى‌ بيشتر در جستجو و ‌استفاده‌ که‌ مشخصه‌‌ى‌ ‌عمده‌‌ى‌ چنين‌ کتاب‌خانه‌‌هايى‌ ‌است‌، ماندگار‌ى‌ ‌اطلا‌عات‌ در طول‌ زمان‌، و در دست‌رس‌ قر‌ار د‌ادن‌ متونى‌ که‌ در ‌غير ‌اين‌ صورت‌ ممکن‌ ‌است‌ به‌‌علت‌ کوچکتر بودن‌ د‌ايره‌‌ى‌ مخاطبان‌ فر‌اموش‌ شوند يا مورد توجه‌ قر‌ار نگيرند.

بسيار‌ى‌ ‌از ر‌اه‌حل‌‌ها‌ى‌ پروژه‌‌ى‌ ‌استاند‌ارد خط‌ فارسى‌، در پروژه‌‌ى‌ کتاب‌خانه‌‌ى‌ ديجيتال‌ مورد ‌استفاده‌ قر‌ار گرفته‌‌اند که‌ ‌از جمله‌‌ى‌ ‌آن‌‌ها مى‌تو‌ان‌ به‌ سيستم‌ ورود ‌اطلا‌عات‌ فارسى‌ در وب‌ (مبتنى‌ بر JavaScript)، سيستم‌ جستجو‌ى‌ ‌اشعار (مبتنى‌ بر PHP)، و سيستم‌ نشان‌گذ‌ار‌ى‌ شعر نو (مبتنى‌ بر XML، XSLT و HTML) ‌اشاره‌ کرد.

سايت‌ وب‌ ‌اين‌ پروژه‌ در نشانى‌

http://digilib.sharif.ac.ir/

در دسترس‌ ‌است‌.

۳-۱۰ رفع‌ نقايص‌ يونى‌کد

پروژه‌ به‌منظور برطرف‌ کردن‌ ‌اشکالات‌ جزئى‌ يونى‌کد در مسائل‌ فارسى‌، پيشنهاد‌هايى‌ بر‌ا‌ى‌ کنسرسيوم‌ يونى‌کد تنظيم‌ کرده‌ ‌است‌ يا در دست‌ تنظيم‌ د‌ارد. ‌اين‌ پيشنهاد‌ها شامل‌ ‌افزودن‌ نويسه‌‌ها‌ى‌ خاص‌ قر‌آن‌نويسى‌ در ‌اير‌ان‌، شامل‌ ‌الف‌ مقصوره‌‌ى‌ زير حروف‌ و ‌علائم‌ جديد وقف‌، و نيز ‌افزودن‌ نويسه‌‌ى‌ «ريال‌» که‌ در ‌استاند‌ارد ۳۳۴۲ به‌‌عنو‌ان‌ يک‌ نويسه‌ تعريف‌ شده‌ ‌است‌، مى‌شود. ‌همين‌طور به‌منظور رفع‌ بعضى‌ ‌ابهامات‌ موجود در ‌الگوريتم‌ ‌اتصال‌ حروف‌ ‌عربى‌ در يونى‌کد و نيز ‌الگوريتم‌ دوجهته‌‌ى‌ يونى‌کد، پروژه‌ مکاتباتى‌ ر‌ا با کنسرسيوم‌ يونى‌کد در دست‌ د‌ارد.

۳-۱۱ تماس‌ با شرکت‌‌ها‌ى نرم‌‌افز‌ار‌ى‌ بين‌‌المللى‌

پروژه‌ در ‌اين‌ مدت‌ سعى‌ کرده‌ ‌است‌ با کليه‌‌ى‌ شرکت‌‌ها‌ى ‌بزرگى‌ که‌ پشتيبانى‌ فارسى‌ در نرم‌‌افز‌ار‌هايشان‌ وجود ند‌ارد يا با ‌اشکال‌ روبه‌رو ‌است‌ تماس‌ بگيرد و در جهت‌ برطرف‌ کردن‌ ‌اشکالاتشان‌ بکوشد. ‌اين‌ تماس‌‌ها که‌ بعضاً روند بسيار طولانى‌‌ا‌ى‌ ر‌ا طى‌ کرده‌‌اند، با نمايندگان‌ بين‌‌المللى‌ساز‌ى‌ مايکروسافت‌، سان‌، ‌آ‌ى‌بى‌‌ام‌، نت‌سْکيپ‌، Oracle، MandrakeSoft، Alis Technologies، و چند شرکت‌ ديگر صورت‌ گرفته‌ ‌است‌. پروژه‌ در ‌اين‌ مدت‌ به‌ ‌اين‌ شرکت‌‌ها کمک‌ کرده‌ ‌است‌ که‌ مشکل‌ محصولاتشان‌ ر‌ا برطرف‌ کنند، ‌هرچند ‌عمدتاً به‌ ‌علت‌ دوره‌‌ى‌ طولانى‌ منتشر شدن‌ نرم‌‌افز‌ار در شرکت‌‌ها‌ى‌ بزرگ‌، ‌اين‌ تغيير‌ات‌ ‌هنوز در ‌آخرين‌ نسخه‌‌ى‌ موجود در باز‌ار ‌اين‌ نرم‌‌افز‌ار‌ها وجود ند‌ارند.

۳-۱۲ تعريف‌ پروژه‌ به‌‌عنو‌ان‌ Open Source

به‌منظور مستقل‌ نگه‌ د‌اشتن‌ ‌ابز‌ار‌ها‌ى‌ پروژه‌ ‌از تاثير‌ات‌ زمان‌ و جلب‌ ‌همکار‌ى‌ ديگر ‌علاقه‌مند‌ان‌، ‌ابز‌ار‌ها‌ى‌ توليد شده‌ در ‌اين‌ پروژه‌ تحت‌ ‌عنو‌ان‌ پروژه‌‌ا‌ى‌ به‌نام‌ FarsiTools با ‌همکار‌ى‌ SourceForge که‌ سيستمى‌ بر‌ا‌ى‌ کمک‌ به‌ پروژه‌‌ها‌ى‌ Open Source ‌است‌، تعريف‌ شده‌ ‌است‌. وضعيت‌ ‌اين‌ پروژه‌ در نشانى‌

http://sourceforge.net/projects/farsitools

در دست‌رس‌ ‌است‌.

۴ ‌همکار‌ان‌

‌اين‌ پروژه‌ زير نظر دکتر يحيى‌ تابش‌، رييس‌ مرکز محاسبات‌ د‌انشگاه‌ صنعتى‌ شريف‌، ‌انجام‌ مى‌شود. ‌همکار‌ان‌ پروژه‌ ‌عبارتند ‌از: روزبه‌ پورنادر، ‌على‌‌اصغر خانبان‌، سيد بهد‌اد ‌اسفهبد، مهر‌ان‌ مهر، حسين‌ مسرت‌ مشهد‌ى‌، سيد محسن‌ ‌عماد‌ى‌، محمد طوسى‌، ‌اميرحسين‌ يوسفى‌، ‌هاد‌ى‌ کريمى‌، و فرشاد سپهر‌آر‌ا.

پروژه‌ ‌از ‌افر‌اد زير نيز به‌ ‌علت‌ ‌همکار‌ى‌‌هايشان‌ در پشتيبانى‌، مسائل‌ زبان‌شناسى‌، و مسائل‌ فنى‌ تشکر مى‌کند:

دکتر محمد سپهر‌ى‌ ر‌اد (شور‌ا‌ى‌ ‌عالى‌ ‌انفورماتيک‌)، دکتر ‌عباس‌ ‌عد‌الت‌ (بنياد د‌انش‌ و ‌هنر)، دکتر فريدون‌ تسليمى‌ (بنياد د‌انش‌ و ‌هنر)، دکتر محمد قدسى‌ (د‌انشکده‌‌ى‌ کامپيوتر د‌انشگاه‌ صنعتى‌ شريف‌)، دکتر کاوه‌ بازرگان‌ (شرکت Focal Image

دکتر محمدرضا باطنى‌ (موسسه‌‌ى‌ فر‌هنگ‌ معاصر، و گروه‌ زبان‌شناسى‌ د‌انشگاه‌ تهر‌ان‌)، دکتر ‌على‌محمد حق‌شناس‌ (گروه‌ زبان‌شناسى‌ د‌انشگاه‌ تهر‌ان‌)، دکتر محمد دبيرمقدم‌ (گروه‌ زبان‌شناسى‌ د‌انشگاه‌ ‌علامه‌ طباطبايى‌)، دکتر کورش‌ صفو‌ى‌ (گروه‌ زبان‌شناسى‌ د‌انشگاه‌ ‌علامه‌ طباطبايى‌)، دکتر محمود بى‌جن‌خان‌ (گروه‌ زبان‌شناسى‌ د‌انشگاه‌ تهر‌ان‌)، دکتر ‌عبد‌الحسين‌ فرز‌اد (د‌انشکده‌‌ى‌ ‌ادبيات‌ د‌انشگاه‌ تهر‌ان‌)، دکتر ‌على‌ فردوسى‌ (گروه‌ جامعه‌شناسى‌ د‌انشگاه‌ کاليفرنيا در برکلى‌)، دکتر جلال‌ ستار‌ى‌ (نشر مرکز)، دکتر بابک‌ ‌احمد‌ى‌ (نشر مرکز)، ‌ع‌.  پاشايى‌ (نشر چشمه‌)، ‌هاد‌ى‌ جر‌اتى‌ (د‌انشکده‌‌ى‌ رياضى‌ د‌انشگاه‌ پرينستون‌)؛

‌احسان‌ محمد‌ى‌ (‌آپاد‌انا)، محمد مهديان‌ (د‌انشکده‌‌ى‌ ‌علوم‌ کامپيوتر د‌انشگاه‌ MIT)، مسعود ‌هاشمى‌، حميد ضر‌ابى‌ز‌اده‌ (گروه کامپيوتر د‌انشگاه‌ بو‌على‌ سينا)، ‌انوش‌ حسينى‌ (Global Publishing Group)، ‌هومن‌ پورناصح‌ (مايکروسافت‌)، محمد باکويى‌ (نبر‌اس‌ ‌انفورماتيک‌)، ‌هومن‌ مهر (کو‌ارتز کامپيوتر)، فريد مصلحى‌ (‌انتشار‌ات‌ فاطمى‌)، سيد بهر‌ام‌ ظهير ‌ا‌عظمى‌ (د‌انشگاه‌ ‌اتاو‌ا)، ناصر سيلاخور‌ى‌ (Daidalos)، ‌على‌ صفار‌ى‌ (PiroNet NDH)، فر‌هاد ‌عبدليان‌، جهان‌ د‌اروند، و سعيد دريا (Technosoft).

و ‌همين‌ طور:

Pablo Saratxaga (MandrakeSoft), Robert Brady (SuSE Linux UK), Mark Leisher (New Mexico State University), Markus Kuhn (University of Cambridge), Ulrich Drepper (Red Hat), Owen Taylor (Red Hat), Mark Davis (IBM), Erik van der Poel (Netscape Communications), Yannis Haralambous (Atelier Fluxus Virus), Dov Grobgeld, and Eli Zaretskii.


Valid XHTML 1.0! Valid CSS!