ISSN : 2231-4989

हिन्दी शब्दतंत्र की संरचना - प्रभाकर पाण्डेय, लक्ष्मी कश्यप, पुष्पक भट्टाचार्य

शब्दतंत्र (Wordnet) किसी भी भाषा का एक बहुत बड़ा शब्द संचय (Database) होता है, जिसमें संज्ञा, विशेषण, क्रिया और क्रिया-विशेषण संज्ञानात्मक समानार्थक शब्दों या पर्यायों को समूह में एकत्रित किया गया होता है और जिनमें से प्रत्येक शब्द एक पृथक संकल्पना को स्पष्ट करता है। शब्दों के ये पर्याय-समूह संकल्पनीय अर्थों तथा शाब्दिक संबंधों के माध्यम से एक-दूसरे से जुड़े हुए होते हैं। एक वाक्य में कहें तो शब्दतंत्र अर्थों के माध्यम से सुव्यवस्थित किया गया मशीन के पढ़ने योग्य एक शाब्दिक संचय है। शब्दतंत्र की संरचना प्राकृतिक भाषा संसाधन के क्षेत्र में हो रहे शोधों के लिए भी उपयोगी साधन होती है। अर्थपूर्ण ढंग से जुड़े हुए शब्दों और संकल्पनाओं के इस परिणामित तंत्र (Network) को विचरक (Browser) से देखा जा सकता है। अधिकतर शब्दतंत्र डाउनलोड करने के लिए सार्वजनिक रूप से निःशुल्क उपलब्ध हैं।

शब्दतंत्र शब्दों के मध्य विभिन्न शाब्दिक तथा अर्थ-संबंधी संबंधों को एक साथ लाने के लिए निर्मित तंत्र है। यह शाब्दिक जानकारियों को शब्दों के अर्थों के रूप में सुव्यवस्थित करता है तथा इसे मनोभाषाविज्ञान पर आधारित एक शब्दकोश कहा जा सकता है।

हिन्दी शब्दतंत्र शब्दों के मध्य विभिन्न प्रकार के सम्बन्धों को दर्शाने का एक संगणकीय शाब्दिक तंत्र है । यह पारम्परिक शब्दकोशों से अलग है, जिसमें वैज्ञानिकता के आधार पर शब्दों के बारे में यथार्थ जानकारी उपलब्ध कराता है। इसकी संरचना अंग्रेजी शब्दतंत्र पर आधारित है पर यह हिन्दी की विशिष्टता को समाहित किए हुए है ।

हिन्दी शब्दतंत्र में अर्थ की समानता के आधार पर पर्याय-समूह (Synset) का निर्माण एक स्पष्ट व्याख्या और वाक्य-प्रयोग के साथ किया जाता है ताकि शब्दों की अनेकार्थता के कारण अर्थ की स्पष्टता बाधित न हो । वास्तव में, ये पर्याय-समूह (Synset) ही हिन्दी शब्दतंत्र के आधार हैं । फिलहाल अभी तक हिन्दी शब्दतंत्र में संज्ञा, विशेषण, क्रिया एवं क्रियाविशेषण वर्ग के शब्दों को ही स्थान दिया गया है ।

इस शब्दतंत्र की संरचना में योगदान देने वाले प्रत्येक तत्त्वों से निम्न सीमाएं हैं-

  1. पर्याय-समूह (Synset) – इसमें किसी संकल्पना की यथार्थता को सूचित करनेवाले शब्दों को क्रम से बारम्बारता के आधार पर व्याख्या और उदाहरण के साथ दर्शाया जाता है ।

जैसे- गाय, गऊ, धेनु- सींगवाला एक शाकाहारी मादा चौपाया “गाय अपने बछड़े को दूध पिला रही है ।”

इसमें तीन सिद्धांतों के आधार पर कार्य किया जाता है यथा-

  1. संक्षिप्तता :- कम से कम पर्याय-शब्दों के प्रयोग से संकल्पना की एकार्थता का स्पष्टीकरण। जैसे- घर, गृह ।
  2. व्यापकता :- संकल्पना की एकार्थता को दर्शानेवाले सभी पर्याय-शब्दों को क्रम से उनकी बारम्बारता के आधार पर पर्यायवाची-समूह में प्रविष्टि। जैसे- घर, गृह, मकान, सदन, शाला, आलय, धाम, निकेतन, वास्तु, पण ।
  3. प्रतिस्थापनीयता :- पर्याय-समूह में आए हुए अधिकतर शब्दों का वाक्य में बिना अर्थ परिवर्तन के प्रतिस्थापना संभव है-

जैसे- घर, गृह, मकान, सदन, शाला, आलय, धाम, निकेतन, वास्तु, पण ।

इनके आधार पर इस वाक्य को देखा जा सकता है यथा- मनुष्यों का छाया हुआ वह स्थान, जो दीवारों से घेरकर बनाया जाता है - "इस घर में पाँच कमरे हैं "

  1. सत्ता-मीमांसा (Ontology) – हिन्दी शब्दतंत्र में शब्द-भेद के आधार पर शब्द की संकल्पना को सुस्पष्ट करने के लिए सत्ता-मीमांसा भी दी जाती है ।

जैसे- गाय, गऊ, धेनु

ð पालतू पशु

ð पशु

ð सजीव

ð संज्ञा

हिन्दी शब्दतंत्र में संबंधों की रूपरेखा :- हिन्दी शब्दतंत्र संकल्पना पर आधारित है एवं ये संकल्पनाएँ भाव की दृष्टि से प्रत्यक्ष या अप्रत्यक्ष रूप से एक दूसरे से जुड़ी होती हैं। अस्तु इन संकल्पनाओं को एक दूसरे से जोड़ने के लिए अधिवाची, अधोवाची, अंगवाची, अंगीवाची, विपर्यायवाची आदि संबंधसूचक अवधारणाओं का उपयोग किया जाता है । इनमें से कुछ शब्दों के मध्य के सम्बन्धों को तो कुछ पर्याय-समूहों के मध्य के संबंधों को दर्शाती हैं ।

1. अधिवाची (Hypernymy) एवं अधःवाची (Hyponymy) :- पर्याय-समूहों के मध्य महत्वपूर्ण सम्बन्ध को दर्शानेवाली ये दोनों अवधारणाएँ एक दूसरे की पूरक हैं । यदि ‘क’ एक प्रकार का ‘ख’ है तो ‘ख’ ‘क’ का अधिवाचक और ‘क’ ‘ख’ का अधःवाचक है और ये संबंध अधिवाची और अधःवाची कहलाते हैं। जैसे

गाय (क) ----- चौपाया (ख)

2. ंगवाची (Meronymy) एवंंगी वाची (Holonymy):- ये सम्बन्ध सूचक अवधारणाएँ भी पर्याय-समूहों के मध्य होती हैं । यदि ‘क’ ‘ख’ का भाग है तो ‘क’ ‘ख’ का अंगवाचक और ‘ख’ ‘क’ का अंगीवाचक है और ये सम्बन्ध अंगवाची एवं अंगीवाची कहलाते हैं । जैसे

गाय (ख) ----- थन (क)

3. विपर्यायवाची (Antonymy):- यह सम्बन्धसूचक अवधारणा पर्याय-समूहों के मध्य न होकर शब्दों के मध्य होती है । यह अवधारणा दो शब्दों के मध्य अवस्था, कार्य, समय, गुण आदि के आधार पर विपरीत अर्थ को दर्शाती है । जैसे

बेटा – बेटी

पुत्र – पुत्री

4. श्रेणीकरण (Gradation):- यह सम्बन्धसूचक अवधारणा दो विपर्याय शब्द संकल्पनाओं के बीच की एक तीसरी शब्द संकल्पना को दर्शाती है । जैसे – सुबह – दुपहर – शाम

5. अपरिहार्यतावाची (Entailment):- यह सम्बन्ध दो क्रिया पर्याय-समूहों के मध्य होता है । यदि ‘क’ क्रिया ‘ख’ क्रिया में निहित है तो ‘क’ ‘ख’ का अपरिहार्यतावाचक है और यह सम्बन्ध अपरिहार्यतावाची कहलाता है । जैसे

‘खर्राटा लेना’ क्रिया में ‘सोना’ क्रिया निहित है ।

6. प्रकारवाची (Troponymy):- यह सम्बन्ध भी केवल दो क्रिया पर्याय-समूहों के मध्य होता है । इसमें एक क्रिया किसी दूसरी क्रिया के किसी विशेष ढंग को दर्शाती है । जैसे – ‘मुस्कुराना’ ‘हँसना’ का प्रकारवाचक है और यह सम्बन्ध प्रकारवाची कहलाता है ।

7. प्रेरणार्थक क्रिया (Causative Verb):- इसमें मूल एवं प्रेरणार्थक क्रियाओं के मध्य सम्बन्ध दर्शाया जाता है ।

जैसे – चलना – चलाना

पढ़ना – पढ़ाना

शब्द-भेदों के मध्य सम्बन्ध :- हिन्दी शब्दतंत्र में कुछ सम्बन्ध शब्द-भेदों के मध्य भी दिए गए हैं यथा-

1. संज्ञा-पद एवं क्रिया-पद के मध्य सम्बन्ध

A. आन्तर-योग्यता निर्देशी क्रिया (Ability Link):- इस सम्बन्ध के अन्तर्गत कोई क्रिया-पद किसी संज्ञा-पद के प्राकृतिक (मूल) गुण को दर्शाता है । जैसे

· मछली, मीन, मत्स्य (संज्ञा-पद)

  • तैरना, पैरना (क्रिया-पद)

B. बाह्य-योग्यता निर्देशी क्रिया (Capability Link):- इस सम्बन्ध के अन्तर्गत कोई क्रिया-पद किसी संज्ञा-पद के बाह्य या अर्जित योग्यता को दर्शाता है । जैसे

· व्यक्ति, मानस (संज्ञा-पद)

  • तैरना, पैरना (क्रिया-पद)

C. कर्म निर्देशी क्रिया ( Function Link):- इस सम्बन्ध के अन्तर्गत कोई क्रिया-पद किसी संज्ञा-पद के कर्म को निर्दिष्ट करता है जैसे-

  • अध्यापक, शिक्षक (संज्ञा-पद)
  • पढ़ाना, शिक्षा देना (क्रिया-पद)

 

2. संज्ञा-पद एवं विशेषण-पद के मध्य सम्बन्ध

A. गुणवाची (Attribute):- इस सम्बन्ध के अन्तर्गत कोई विशेषण-पद किसी विशेष संज्ञा-पद के गुणधर्म को सूचित करता है । जैसे

  • बाघ (संज्ञा-पद)

· मांसाहारी (विशेषण-पद)

B. अर्थ संकुचन-संज्ञा (Modified Noun) :- कुछ विशेषण-पद केवल कुछ विशेष संज्ञा-पद या संज्ञा-पदों को ही विशेषित करते हैं । ऐसे विशेषण-पद एवं संज्ञा-पद, अर्थ संकुचन-संज्ञा सम्बन्ध द्वारा एक दूसरे से जुड़े होते हैं । जैसे

· पंखदार, पाँखदार (विशेषण-पद)

· पक्षी, चिड़िया (संज्ञा-पद)

3. क्रिया-पद एवं क्रियाविशेषण-पद के मध्य सम्बन्ध :-

A. अर्थ संकुचन-क्रिया (Modified Verb):- कुछ क्रियाविशेषण-पद केवल कुछ विशेष क्रिया-पद या क्रिया-पदों को ही विशेषित करते हैं । ऐसे क्रियाविशेषण-पद एवं क्रिया-पद, अर्थ संकुचन-क्रिया सम्बन्ध द्वारा एक दूसरे से जुड़े होते हैं ।

जैसे

  • रिमझिम-रिमझिम, (क्रियाविशेषण-पद)
  • बरसना, वर्षा होना (संज्ञा-पद)

B. से व्युतपन्न ( Derived from) :- इस सम्बन्धबोधक अवधारणा द्वारा यह दर्शाया जाता है कि व्युत्पन्न शब्द की व्युत्पत्ति किस मूल शब्द से हुई है जैसे

· क्रमशः, क्रमानुसार, क्रमवार, सिलसिलेवार

  • क्रम, सिलसिला

इस प्रकार, हम देख सकते हैं कि शब्द की अर्थ-स्पष्टता और विषय-वस्तु के सटीक वर्गीकरण के साथ-साथ शब्दों के मध्य के आपसी संबंधों को दर्शानेवाला हिन्दी शब्दतंत्र भाषा और संगणक का एक चमत्कारी सुमेल है जो शब्दों का उचित विश्लेषण करके प्रयोगकर्ताओं के आगे अथाह शब्द-व्यंजनों को परोसता है ।

हिन्दी शब्दतंत्र का निर्माण-कार्य अभी भी ‘भारतीय प्रौद्योगिकी संस्थान मुम्बई’ के ‘संगणक विज्ञान एवं अभियांत्रिकी विभाग’ में प्रो. पुष्पक भट्टाचार्या के मार्गदर्शन में अविराम चल रहा है । अभी 25/11/09 तक इसमें तैंतीस हजार छह सौ से ऊपर पर्याय-समूह (Synset) हैं जो अस्सी हजार नौ सौ मूल शब्दों को समाहित किए हुए है। हिंदी शब्दतंत्र के लगभग तेरह हजार पांच सौ प्रयाय-समूहों को अंग्रेजी शब्दतंत्र के इतने ही समतुल्य पर्याय-समूहों से जोड़ा भी जा चुका है, जो आनलाइन उपलब्ध हैं । अभी तक हिंदी शब्दतंत्र में लोगों द्वारा दो लाख पचहत्तर हजार पाँच सौ से ऊपर शब्दों की खोज की जा चुकी है तथा पाँच हजार एक सौ बासठ लोगों द्वारा इसको डाउनलोड किया जा चुका है। हिन्दी शब्दतंत्र के आधार पर ही मराठी, संस्कृत, तमिल, तेलगु, मलयालम, कन्नड़, कोंकणी, नेपाली, मणिपुरी, बोड़ो, आसामी और काश्मीरी में भी शब्दतंत्र का निर्माण किया जा रहा है। यह यूरोप (ELRA) एवं यूएसए (LDC) के सुप्रतिष्ठित प्राकृतिक भाषा संसाधन समूहों में शामिल है एवं साथ ही साथ विश्व के अन्य कई प्राकृतिक भाषा संसाधन समुदायों द्वारा उपयोग में लाया जा रहा है। यांत्रिक अनुवाद में तेजी लाने और सूचना-संचयन के लिए यह गूगल द्वारा भी अपनाया गया है। इसको 2008 के पी.के. पटवर्धन प्रौद्योगिकी विकास पुरस्कार से भी सम्मानित किया गया है।


लेखक त्रय भारतीय प्रौद्योगिकी संस्थान , मुंबई से संबद्ध हैं और प्रो. पुष्पक भट्टाचार्या के निर्देशन में हिन्दी शब्दतंत्र के विकास में कार्यरत हैं.

News: >>प्रकाशकीय नीति>>संकटग्रस्त भाषाओं के सर्वेक्षण का काम शुरू>> हेलो शब्द कहाँ से आया? >>देश की भाषाओं के लिए नई ऊर्जा से काम करने की आवश्यकता है