ezilnila.ca
A Tamil web portal since 1997
யுத்தமில்லாத பூமி வேண்டும் logo

யுனிகோட் தமிழும் கணினியும் – 1

முத்து நெடுமாறன் நேர்காணல்
சந்திப்பு: சிபிச்செல்வன்
மூலம்: உலகத்தமிழ்

யூனிகோடு பற்றிய உங்கள் கருத்து என்ன? இப்போது இருக்கும் முறையை ஆதரிக்கிறீர்களா அல்லது மாற்றங்களுடன்கூடிய யூனிகோடு முறையை வரவேற்கிறீர்களா?
யூனிகோடு என்பது நமக்குக் கிடைத்த ஒரு வரப்பிரசாதம் என்றுதான் சொல்வேன். எமக்கிருந்த குறியீட்டு வேறுபாடுகளையெல்லாம் தவிர்த்து, ஒரு ஒருங்கணிந்த குறியீட்டு முறையை (encoding) அறிமுகப்படுதியது யூனிகோடு முறைதான். இந்திய மொழிகள், உலக மொழிகள் எல்லாவற்றிற்கும் ஒரே ஒரு குறியீட்டு முறைதான் இருக்க வேண்டும் என்ற நோக்கத்துடன் அமைக்கப்பட்டதுதான் யூனிகோடு முறை.

அதில் தமிழுக்கு ஒரு இடம் இருக்கிறது, இது சரியாகவும் இயங்குகிறது என்பதை நிரூபித்திருக்கிறார்கள். தமிழில் சிறப்பாகவே யூனிகோடில் இயங்கலாம். யூனிகோடில் பதிப்பிக்கப்பட்ட கட்டுரைகள், பதிக்கப்பட்ட பக்கங்களை, யாஹு, கூகுல், எம்.எஸ்.என். ஆகிய தேடுபொறிகளில் தேடுகிற வாய்ப்பும் நமக்குக் கிடைக்கிருக்கிறது.

உடனே நாம் யூனிகோடுக்கு மாறிவிட முடியாது. காரணம் இன்னும் பழைய கம்யூட்டர்னு வைத்திருப்பவர்கள் இருப்பார்கள். யூனிகோடுக்கு புதிய கம்ப்யூட்டர்கள் வேண்டும். பழையன கழிதலும், புதியன புகுதலுக்கும் ஏற்ப யூனிகோடின் பயன்பாடு மெல்ல மெல்ல அதிகரிக்கும் என்றுதான் நான் எதிர்பார்க்கிறேன்.

நீங்கள் மாநாட்டில் பரிந்துரை செய்த யூனிகோடு முறை எந்த வகையைச் சார்ந்தது?

இப்போது பயன்பாட்டில் இருக்கிற யூனிகோடு முறையைத்தான் சொன்னேன். குறியீட்டு முறையில் அகரமேறிய உயிர்மெய்க்கும், உயிர் எழுத்துகளுக்கும் மட்டுமே இடமிருக்கிறது. மற்ற எழுத்துகளுக்கு இடமில்லை என்பது தவறு. அப்படி சொல்லக்கூடாது. ஏனெனில் அதனுடைய அமைப்புமுறை அப்படி.

இந்திய மொழிகள் மட்டுமல்லாமல் தாய்லாந்தில் பயன்படுத்துகிற தாய்மொழி, ஹிப்ரு, அரபி போன்ற மொழிகளுக்கு எல்லா எழுத்துகளுக்கும் குறியீடு தேவையில்லை.

நமக்கு ஒரு உயிர்மெய் எழுத்து வேண்டுமென்றால் அகரமேறிய உயிர்மெய் எழுத்துகளுக்குத் தொடர்பான ஒரு உயிர்குறி பக்கத்தில் வந்தது என்று சொன்னால் அந்த இரண்டு எழுத்துகளையும் மாற்றி உயிர் மெய்யாக வழங்குவது operating system இன் பணி. இதுதான் யூனிகோடு இயங்குகிற அனைத்து operating system களும் செய்யக்கூடிய பணி. இதைதான் நான் மாநாட்டில் பேசினேன். யூனிகோடு இயங்குவதைத்தான் சில விளக்கக் காட்சிகளோடும் டெமான்ஸ்டிரேஷன்களோடும் போட்டுக் காட்டினேன்.

நீங்கள்போட்டு காட்டியது 8 Bit இல் இல்லையா?

இல்லை. யூனிகோடு 16 bit இல்தான் இயங்கியது.

கிருஷ்ணமூர்த்தி (OCR) 16 bit இல் இயக்குகிற யூனிகோடு முறையை தானே மாநாட்டில் பரிந்துரை செய்தார்?

கு-என்ற ஒரு எழுத்துக்கு ‘க’என்ற குறியீடும், ‘உ’என்ற குறியீடும் பக்கத்து பக்கத்தில் இருந்தால் ‘கு’என்ற எழுத்து வரும். அப்போது ஒரு எழுத்துக்கு ஏன் இரண்டு எழுத்து செலவு செய்ய வேண்டும் என்பதுதான் அவர்கள் வாதம். யுனிகோடில் புள்ளி எழுத்து வராது. அடிப்படை எழுத்துகள் எல்லாமே அகரமேறிய உயிர்மெய்.

குறியீடு முறை என்பது புரோகிராமரின் வேலை. அதில் க்+அ=க வா? அல்லது வெறும் ‘க’வா என்பதெல்லாம் புரோகிராமரின் வேலை. இவர்களின் வாதம் என்னவென்றால் ஒவ்வொரு எழுத்துக்கும் இரண்டு எழுத்துகளைப்போட வேண்டியிருப்பதால் File Size, Process Time ஆகியன அதிகமாகும் என்பதுதான். இதற்கு சில புள்ளி விவரங்களையும் போட்டுக் காட்டினார்கள். இதற்காக நாம் யூனிகோட்டை மாற்றியமைக்க வேண்டும் என்பதுதான் அவர்களின் வாதம்.

ஆனால் திரு. அன்பரசன் இன்னொரு கருத்தை சொன்னார் மூன்று முறை நடத்தப்பட்ட சோதனையில் மூன்று வெவ்வெறு முடிவுகள் கிடைத்திருக்கிறது. இது இயற்கை. ஏனெனில் அது எழுதப்பட்ட Software ஐப் பொறுத்திருக்கிறது.

எந்தக் கணினியில் அதை டெஸ்ட் செய்தார்கள் என்பதும் இருக்கிறது. மூன்றாவது, வட்டின் வேகம், டிஸ்க்கின் சூழற்சி வேகம், டிஸ்க்கிலிருந்து CPU – விற்கு Transfer ஆகும் Speed இதெல்லாம் இருக்கிறது. இதையெல்லாம் பொறுத்துதான். நாம் வேகத்தைக் கண்டுபிடிக்க முடியும். அதோடு அல்லாமல் இந்தப் புள்ளிவிவரங்களைப் பார்க்கும்போது ஏறக்குறைய 60%, 70% வரை வருகிறது – அப்படி என்றால், படைக்கப்பட்ட கருத்தின்படி சேமிப்பு 40% முதல் 30% வரைதான். அதுவும் இப்போதுள்ள கணினிமுறையில், 3gmhz கணினிகள் வந்தால் இந்த இடைவெளி இன்னும் குறைவாகத்தான் இருக்கும்.

இந்த Marginal Savings க்காக இவ்வளவு பெரிய குறியீட்டுத் தளத்தின் அடித்தளத்தையே மாற்றி அமைக்க வேண்டுமா என்பது பெரிய கேள்வி. வரும் காலங்களில், யூனிகோடு முறையையே மையமாகக் கொண்டு இயங்கும் கணினி முறைகள் (microprocessor உட்பட) வரும்போது, இந்த சோதனைகள் (tests) பொருந்துமா என்பது ஒரு பெரிய கேள்வி.

அன்பரசன் 32Bit முறையைப் பற்றி தானே அன்று பேசினார்?

யூனிகோடு 16Bit. யூனிகோடு encoding 16 Bit தான். சில எழுத்துகளுக்கு சில மொழியில் இருக்கிற குறியிடுகளுக்கு, குறிப்பாக சீனா, ஜப்பான், கொரிய எழுத்துகளுக்கு. எழுத்து என்றுகூட சொல்ல முடியாது. ஒவ்வொரு எழுத்தும் ஒவ்வொரு படம். அதெல்லாம் Basic Multilingual Plain (BMP) என்று போட்டால் இடம் போதாது. அதனால் SMP என்று இன்னொரு Supplimentry Multilingual Plain அதை சேர்த்து எழுதினால்தான் 32Bit.. தமிழ் 16 Bit ஆகதான் இயங்கும்.

இப்போது இருக்கிற Unicode முறையே சரியாக இயங்குகிறது. Working implement இருக்கிறது. பெரும்பாலான பெரிய பெரிய Operating System களில் Implementation செய்திருக்கிறார்கள்.

Browser Implementation, Yahoo Search Engine. Office Tools, Linux. OpenOffice. PalamOS ஆகியோர் எல்லாம் பெரியளவில் வேலைகள் செய்திருக்கிறார்கள். இனிபோய் அந்தக் குறியீட்டு முறையை மாற்றச் சொல்வது வீண் வேலை. அதனால் மாற்ற வேண்டாம், இப்போது இருக்கிற முறையே சரியானதுதான்.

இல்லை. மாற்றம் செய்தால் என்ன? தமிழுக்கு நல்லது என்றால் மாற்றம் செய்யலாமே? ஏன் செய்யக் கூடாது என்கிறீர்கள்?

இதைச் செய்வதுதான் (அதாவது மாற்றுவதுதான்) நன்மை என்பதை நான் மறுக்கிறேன். மாற்றம் செய்யாமல் இருப்பதுதான் தமிழக்கு நன்மை என்று கருதுகிறேன். காரணம் தமிழின் வளர்ச்சி தொழில்நுட்பத்தில் அல்ல.

தமிழின் வளர்ச்சி தொழில் நுட்பத்தின் பயன்பாட்டில் இருக்கிறது. பயன்பாடு கூட வேண்டும் என்றால் தொழில்நுட்பச் சிக்கல்கள் கூடிய விரைவில் தீர்க்கப்பட வேண்டும். ஒரு உதாரணம் சொல்கிறேன். TSCII-TAB பிரச்சினையை ஒருமுகப்படுத்திய பிறகு அதில் வாதங்கள் ஏதுமில்லை. அதற்கப்புறம் அதனுடைய பயன்பாடு அதிகரித்திருக்கிறது. பள்ளிகளில் இது பயன்படுத்தப்படுகிறது. புதிய புதிய மென்பொருள்கள் வந்திருக்கிருக்கின்றன. புதிய குறுந்தகடுகள் (CD), மல்ட்டிமீடியா சி.டி. ஆகியவை வெளிவந்திருக்கின்றன. ஏனென்றால் Keyboard பிரச்சினை இப்போது இல்லை, குறியீட்டு பிரச்சினை இப்போது இல்லை.

யூனிகோடு அறிமுகப்படுத்தப்பட்டது 80களில். இப்போதுதான் Operating Systemகளில் Implementation செய்ய ஆரம்பித்திருக்கிறார்கள். இப்போது போய் ஒரு புகுக்குறியீட்டு முறையை கொடுக்கிறீர்கள் என்று சொன்னால் அதை Operation System கள் ஏற்றுக்கொண்டு Implement செய்வதற்கு எவ்வளவு காலம் ஆகும்?

எவ்வளவு காலத்தை நாம் விரயமாக்க வேண்டும்? இப்போது இருக்கிற குறியீட்டு முறையில் செய்ய முடியாதது இருக்கின்றன. இதனால் நமது பயன்பாடு சரியாக இல்லாமல் இருக்கிறது. சில செயல்களை பாதி வேக்காடக்கூட வெளியிட முடியாமல் இருக்கிறது என்ற சூழ்நிலை இருந்தால் அதை மாற்றுவதில் எந்தவித தவறும் கிடையாது.

எல்லா மொழிகளுக்கும் யூனிகோடு சிறப்பாக செயல்படுகின்றது என்பதை நிரூபித்த பிறகு, அதை பெரும்பாலான பெரிய பெரிய நிறுவனங்கள் ஏற்றுக்கொண்ட பிறகு லட்சக்கணக்கில், கோடிக்கணக்கான ரூபாய் செலவழித்து புதிய புதிய மென்பொருள்கள் உருவாக்கப்பட்ட பிறகு, இப்போதுபோய் அடித்தளத்தையே மாற்றுவது என்பது ஒரு மரத்தை வேரோடு தூக்கி வீசி எறிவது போன்றது அல்லவா?.

யூனிகோடிற்கு ஏற்றபடி எல்லா Operating Systems களையும் மாற்றி அமைத்திருக்கிறார்களா?

Windows XP. Windows 2000 இவற்றில் எல்லாம் தமிழ் யூனிகோடு சிறப்பாக இயங்க வழி செய்திருக்கிறார்கள். கூகுல் தேடுபொறியில் தமிழில் தேடினால் கிடைக்கும்படி செய்திருக்கிறார்கள். அமேஸனில் போட்டுத் தேடினாலும் வரும். தமிழில் வருகிற Word document ஐ எல்லாம் இப்போதே search செய்யலாம். உங்கள் Password கூட தமிழில் செய்துகொள்ளாலாம்.

அதெல்லாம் சரி. 128 எழுத்துகளுக்கு மட்டும்தான் இப்போது Unicode Layout-இடம் கொடுத்திருக்கிறார்கள். 247 உடன் பிற எழுத்துகளுக்கும் சேர்த்து 388 எழுத்துகளுக்கும் இடம் வேண்டும் என்கிறார்கள். இந்த முறையில் அமைக்கப்பட்ட 16 Bit Unicode file size, processing time, speed எல்லாமே பிரச்சினையாக இருக்கின்றன. இதைப்பற்றி நாம் கவலைப்படாமல் இருக்க முடியுமா?

இதை நாம் ரொம்ப Clincal-ஆகப் பார்க்கவேண்டும். Broadசூழூசிறீ Comment பண்ணிவிட முடியாது. ஒவ்வொரு விஷயத்தையும் அலசி அராய்ந்து பார்க்க வேண்டும். இன்றைய சூழலை மட்டும் கண்டு கணக்கிட்டால் போதாது – எதிர்காலத்தையும் பார்க்கவேண்டும். மூன்று முக்கிய கருத்துகளை இங்கே முன்வைக்கிறேன்:

முதலாவது – 128 இடங்களில் தமிழ் குறியீடுகள் அமைந்துள்ளதால், சுருக்கும் செயல்கள் எளிமையாகின்றன. காரணம், 128 இடங்களைக் கொண்ட ஒரு பிளாக்கை (கட்டத்தை) 16 பிட்டில் இருந்து 8 பிட்டிற்கு மாற்றுவது மிகவும் எளிது. High-byte என்று கூறப்படுகின்ற முதல் 8 பிட்டை நீக்கிவிட்டால் எஞ்சி இருக்கும் 8 பிட் களில் எல்லா குறியீடுகளையும் அடக்கி விடலாம். 512 பிளாக்கில் இது இயலாது. எனவே, குறியீட்டுமுறையை மாற்றுவதை விட, தமிழுக்கான (ஏன் இந்திய மொழிகளுக்குப் பொதுவான) சுருக்குமுறையை காண்பதே பயனுள்ள செயலாகும். எதிர்காலத்தில் வரும் வட்டுகள் யாவுமே, தகவல்களை சுருக்கியே சேமிகின்றன – இதை நாம் கவணிக்க வேண்டும். இன்றய கருவிகளை மட்டுமே கொண்டு எதிர்காலத்தை எடைபோடக் கூடாது.

இரண்டாவது – 128 குறியீட்டு முறைகளை மட்டுமே கையாளுவது, பெரும்பாலான மென்பொருள் மேம்பாட்டை எளிமையாக்குகிறது. அத்தோடு, ஒரு மொழிக்கு எழுதப் பட்ட ஒரு செயலியை, மற்றொரு மொழியில் இயங்க வைப்பதும் எளிமையாகிறது. இதனால் உலகத் தரத்திலான செயலிகள், தமிழிலும் வழங்கப் படுவதை நம்மால் காணமுடிகிறது.

மூன்றாவது – முதற்பகுதி 8 பீட்டை நீக்கும் வாய்ப்பின் மூலம், கைத் தொலைபேசிகளின் வழியோ அல்லது மற்ற தொடர்புதுறை சாதனங்களின் வழியோ அனுப்பப்படும் தமிழ் “செய்திகள்” குறைந்த அளவிலான இடங்களையே பயன் படுத்துகின்றன. இவ்வாறே, தமிழில் குறுஞ்செய்தி (SMS) சேவை ஒன்றை நாங்கள் அறிமுகப் படுத்தியுள்ளோம்.

நாம் இப்போது 64 Bit பற்றி கவலைப்பட வேண்டியதில்லை. நம்முடைய கவலையெல்லாம் இப்போது 8 Bit, 16 Bit தான். உங்கள் Software பழைய, புதிய கணினியில் உள்ளீடு செய்வதில் எந்த விதமான தடையும் இருக்கக்கூடாது, TAB, TSCII இலேயே 8 Bit இலேயே பயன்படுத்திவிட முடியும்.

ஆனால் எதிர்காலத்தில் நாம் செய்வது பாதுகாக்கப்பட வேண்டும். மற்றவர்களால் Search Engine இல் தேட உதவ வேண்டும் என்று நீங்கள் நினைத்தால் 16 Bit Unicode ஐப் பயன்படுத்தவேண்டும். 64 Bit பற்றிக் கவலைப்படவேண்டியதில்லை. ஏனெனில் அது CJK மொழிகளுக்குதான் தேவை. (Chinese, Japanese, Korean) அவர்களுக்கு எக்கச்சக்கமான இடம் தேவை. அவர்களுக்கு Surragate Space தேவைப்படுகிறது. அதற்காகதான் அவர்களுக்கு 32 Bit தேவைப்படுகிறது. நமக்குத் தேவையில்லை.

நன்றி: உலகத்தமிழ்

ToTop