भाषेतील बदल फूटपट्टी लाऊन मोजताना

नुकताच पुस्तक दिवस साजरा झाला. पुस्तके म्हणजे समकालीन भाषेचा ठसा असतो. भाषा ही निरंतर बदलत असते. बरेच वेळी तिला नदीची उपमा देतात. काळाच्या विस्तीर्ण पटावरून वाहणारी ती नदी समाजली जाते जणूकाही इसवी सनाची दशके म्हणजे त्या नदीकाठची गावे असून आणि ज्या त्या दशकात छापलेली पुस्तके म्हणजे त्या गावातील नदीचे काढलेले छायाचित्रच जणू! अर्थात प्रत्येक छायाचित्रकाराचा वकूब वेगळा वेगळा. प्रत्येकाची फोटो काढायची रीत वेगळी.

त्यामुळे खूप पुरातन काळातील पुस्तके वाचताना भाषा कठीण वाटते. प्राचीन ग्रंथांतील मराठी आपणास आताच्या मराठीपेक्षा कठीण वाटते, पण शंभर सव्वाशे वर्षांपूर्वी लिहिलेले मराठी साहित्य सुगम वाटते. भाषेचा लहेजा बदलतो तसा शब्दसंग्रह उत्क्रांत होत जातो. जुने शब्द मागे पडतात नवीन प्रविष्ट होतात. उदाहरणार्थ कचेरी शब्द मागे पडून कार्यालय हा शब्द सध्याच्या काळात रुढावलेला आहे. शब्दांचे अर्थ बदलतात उदा. बायको हा शब्द १९व्या शतकात कोणतीही स्त्री असा बृहदार्थाने वापरला जायचा पण सद्याच्या काळात तो पत्नीसाठी वापरतात. अर्थात अनेकवचनात म्हणजे बायका या रूपात तो त्याचा तेव्हाच अर्थ टिकवून आहे. काही शब्द नवीन तयार होतात जसे की दिनांक. शंभर वर्षांपूर्वीचे साहित्य शोधल्यास हा शब्द कदाचित सापडणारही नाही.

पण अशा भाषबादलांवर संशोधन करावयाचे झाल्यास एकट्या माणसास मर्यादा आहेत. शब्दकोशांच्या आधारे व पूर्वसुरींच्या संशोधनाच्या आधारे एकटा माणूस काहीतरी अर्थपूर्ण अनुमान काढेलही पण त्याचे अनुमान पूर्ण भाषेला लागू पडते असे तो छातीठोकपणे सांगू शकणार नाही. शितावरून भाताची परीक्षा होते पण तो न्याय आपण भाषेसारख्या सदा प्रवाही, उत्क्रांत होणाऱ्या व एकाच गोष्टीसाठी वेगवेगळ्या प्रकारच्या विविधतेने नटलेल्या विषयाला लावता येत नाही. पण भाषेच्या अभ्यासकांची ही अडचण थोड्या अंशी का होईना आता सुटली आहे.

इंटरनेट आले आणि पाठोपाठ माहितीचा महापूर आला. आणि या महापुरात तग धरून इप्सित ठिकाणी पोचवणारा नौका म्हणजे गूगल चे सर्च इंजिन. याच गूगल कंपनीने एक मोठा पराक्रम २०१० च्या आसपास केला. या लेखात त्याचीच मी चर्चा करतोय.

तुम्हाला माहीत असेलच की तुम्ही गुगल सर्च वापरले की त्यात अनेक पर्याय परिणामांच्या पृष्ठावर सर्चबॉक्स खाली दिसतात त्यातला एक पर्याय म्हणजे बुक्स. गुगल बुक्सची स्वतःची वेबसाईट देखील आहे.

गूगलने काय केले? तर वेगवेगळ्या विद्यापीठांच्या ग्रंथालयांबरोबर भागीदारी केली. आणि त्या सर्व ग्रंथालयांत असणारे ग्रंथ डिजिटल स्वरूपात आणले. २०११ मध्ये अशा पुस्तकांची संख्या किती होती माहीत आहे का? तब्बल दीड कोटी पुस्तके! ह्या दीड कोटी पुस्तकांतून तज्ज्ञांनी ५१ लाख निवडली व त्यांचा पाठयसंग्रह (कॉर्पस) तयार केला. ५१ लाख पुस्तकांत शब्द होते ५०० अब्ज त्यातील ३६० एकट्या इंग्रजी भाषेतील. एवढे मोठे साहित्य गुगलच्या हाती पडले आणि लागलीच आपले तंत्रज्ञान वापरून त्यातील सर्व शब्द सुटे केले व त्यांचा अभ्यास केला. अर्थात ते माणसाचे काम नाही त्यासाठी मशिन्सच हवीत. इंग्रजी खालोखाल स्पॅनिश, फ्रेंच, जर्मन, व हिब्रू भाषांचा त्यात समावेश केला. अमेरिकेतील विद्यापीठांत मराठी पुस्तके किंवा भारतीय भाषांतील पुस्तके या भाषांच्या इतकी नाहीत त्यामुळे कदाचित कोणतीही भारतीय भाषा या पाठ्यसंग्रहात प्रवेश करू शकली नाही. असो. तर या पाठ्याची कॉम्पुटरने वर्षावार विभागणी केली. म्हणजे त्या त्या वर्षी प्रसिद्ध झालेले एकूण शब्द त्या विभागात घातले गेले. उदा. १८६१ साली 386,434,758 शब्द आले. मग गूगलच्या या उपक्रमावर राबणाऱ्या शास्त्रज्ञानी इंग्रजीत किती शब्द आहेत याचे अनुमान लावले. त्यांना आढळले की सन १९०० मध्ये इंग्रजी भाषेत ५ लाख शब्द होते सन १९५० पर्यंत ते ६ लाख झाले आणि २००० मध्ये तीच संख्या १० लाख झाली. अर्थात हे अनुमान आहे.

ह्या शब्दसंग्रहाचा अभ्यास करण्यासाठी गूगलने एक आगळ्या प्रकारचे सर्च इंजिन बनवले जे google search सारखे दिसते पण फक्त या कॉर्पसवर काम करते. आणि आजपर्यंतच्या पुस्तकांमधील शब्द किंवा वाक्यांशांचा वापर आलेखच्या स्वरूपात दाखवते. त्याला गूगल Ngram Viewer म्हणतात. थोडक्यात ते गुगल सर्च प्रमाणे दिसते पण पूर्ण वेगळी संकल्पना आहे. तो आता सर्व लोकांसाठी गूगलने मोफत दिलेला आहे Google Ngram Viewer: https://books.google.com/ngrams.

ह्या मशीनचा वापर इतका प्रभावी होता की २०११ साली भाषा व संस्कृति अभ्यासणाऱ्या एका शास्त्रज्ञांच्या चमूने या मशीनचा वापर करून सायन्स या मानाच्या व लोकप्रिय नियतकालिकात आपले निष्कर्ष शोधपत्राच्या रूपाने प्रकाशित केले. (Michel, J.-B., et al. (2011). Quantitative Analysis of Culture Using Millions of Digitized Books. Science.)

जर तुम्ही सर्चबॉक्स मध्ये एक शब्द टाकला तर तो होतो १-gram, जर दोन असतील तर २-ग्राम तसेच पुढे ३-ग्राम , ४-ग्रॅम याप्रमाणे एन-ग्राम . कॉपीराईटक्षतीची डोकेदुखी नको म्हणून गुगलने ५ पर्यंतच मर्यादा ठेवली, आता वळूयात वारंवारता कशी ठरवतात त्याकडे.

आधी सांगितल्याप्रमाणे कॉम्प्युटर ने प्रत्येक वर्षाची शब्दसंख्या विभागलेली आहे. आता जो शब्दसमूह सर्चमध्ये टाकला आहे तो प्रत्येक वर्षाच्या कॉर्पस मध्ये शोधली जाते. आणि त्या शब्दसमूहाचा वापर भागिले त्या वर्षीच्या पाठ्यातील एकूण शब्द म्हणजे त्या ngram ची वारंवारता. आता क्ष अक्षावर वर्षे आणि य अक्षावर वारंवारता असा आलेख तयार होतो. म्हणजे शब्दवापराची वारंवारता वर्षागणिक वाढते की कमी होते हे आपणास तयार झालेल्या आलेखात दिसते. हे झाले एका ngram चे असे तुम्ही अनेक ngram टाकून त्यांची तुलना करू शकता.

उदाहरण:

मला परवा एक लेख वाचताना paradigm हा शब्द आढळला. कुतूहल म्हणून हा शब्द इंग्रजीत कधी आला हे मी कृत्रिम बुद्धिमत्तेवर आधारित अनुप्रायोग grokला विचारले. Grok ने मला खालील उत्तर दिले:

“Paradigm” हा शब्द इंग्रजी भाषेत सर्वप्रथम १५व्या शतकात वापरण्यात आला, जो मूळतः लॅटिन शब्द “paradigma” आणि ग्रीक शब्द “paradeigma” (παράδειγμα) यावरून आला, ज्याचा अर्थ “उदाहरण” किंवा “नमुना” आहे. हा शब्द व्याकरणात शब्दांच्या रूपांचे व्यवस्थित प्रदर्शन दर्शवण्यासाठी वापरला गेला, उदाहरणार्थ, लॅटिन किंवा ग्रीक भाषेतील संज्ञा किंवा क्रियापदांचे विविध रूप दाखवण्यासाठी.

आधुनिक संदर्भात, विशेषतः वैज्ञानिक आणि तात्विक अर्थाने, “paradigm” हा शब्द थॉमस एस. कुह्न (Thomas S. Kuhn) यांनी त्यांच्या १९६२ मध्ये प्रकाशित “The Structure of Scientific Revolutions” या पुस्तकात लोकप्रिय केला. त्यांनी “paradigm” हा शब्द वैज्ञानिक संशोधनातील मूळ संकल्पना, सिद्धांत आणि पद्धतींचा संच दर्शवण्यासाठी वापरला आणि जेव्हा त्या संचात क्रांतिकारी बदल होतो ज्याला “paradigm shift” म्हणूनही ओळखले जाते. थोडक्यात, हा शब्द इंग्रजीत १५व्या शतकापासून वापरला जात असला तरी, कुह्न यांनी त्याला आधुनिक वैज्ञानिक संदर्भात प्रसिद्धी मिळवून दिली.

हेच उत्तर मी Ngram वापरून ताडून पहिले तर ते तथ्यपूर्ण निघाले. (कृत्रिम बुद्धिमत्तेने मिळवलेली उत्तरे सध्यातरी अशी तपासून पाहतो, कधी कधी हे बॉट्स खोटारडेपणा देखील करतात)

ह्या उदाहरणाची लिंक

Ngram Viewer थोडक्यात : हा अनुप्रयोग गूगल बुक्सच्या डेटाबेसवर अवलंबून आहे. यात युरोपियन आणि अमेरिकन पुस्तकांचा समावेश आहे. इंग्रजी, फ्रेंच, जर्मन, स्पॅनिश, रशियन आणि चिनी यासारख्या भाषांचा अभ्यास करता येतो.

शब्द निवड: एक किंवा अधिक शब्द किंवा वाक्प्रचार सार्चबॉक्स मध्ये घाला, अनेक ngram असतील तर स्वल्पविरमाने वेगळे करा
कालावधी निवडा: उदा., 1800-2000.
भाषा निवडा
परिणाम पाहा: शब्दाच्या वापराची वारंवारता आणि आलेख पाहा

उपयोग

भाषिक बदलांचा अभ्यास:

शब्दांचा वापर कालांतराने कसा बदलतो हे समजण्यासाठी. उदा.,

“Telegraph” हा शब्द 20व्या शतकाच्या सुरुवातीस लोकप्रिय होता, पण नंतर कमी झाला. वैज्ञानिक व व्यावसायिक शोध कधी लागले हे आपणास पाहता येते. उदाहरणाची लिंक.
- माझ्या आजोबांचे एक मित्र कारसाठी टुरिंग हा शब्द वापरायचे. आम्हा मुलांना तेव्हा हसू आणि कुतूहल दोन्ही यायचे पण touring car जेव्हा मी प्रत्यक्षात टाकून बघितलं तेव्हा तो शब्द खरंच विसाव्या शतकाच्या पूर्वार्धात अस्तित्वात व वापरात होता हे जाणवले. उदाहरणाची लिंक.

शब्दकोश सहसा व्यक्तिनामे व ट्रेडमार्क्सबाबत मौन धरतात, पण Ngram ला ती वर्ज्य नाहीत त्यामुळे कोणत्या अभिनेत्याची किंवा क्रिकेटपटूची केव्हा चलती होती हे देखील सोदाहरण पाहता येते . उदाहरणाची लिंक.
- इंग्रजीत पूर्वी जेलचे स्पेलिंग jail न करता gaol करायचे. उदाहरणाची लिंक.

सांस्कृतिक बदल : सामाजिक आणि सांस्कृतिक बदलांचा मागोवा घेण्यासाठी. उदा.,

“feminism” हा शब्द 1970 च्या दशकात अधिक वापरला गेला.
- विसाव्या शतकाच्या सुरवातीला जीन्स, टेलिविजन, इंटरनेट हे काहीच नव्हते सर्वज्ञात आहे, पण ते नेमके कधी लोकप्रिय झाले हे कळते. उदाहरणाची लिंक.

शैक्षणिक संशोधन: साहित्य, इतिहास आणि समाजशास्त्रातील संशोधकांना डेटा आधारित सबळ पुरावा मिळतो. गेल्या दशकात गूगल Ngram viewer चा वापर करून अनेक मेडिकल रिसर्च पेपर्स आले.
शब्दकोश विकास: नवीन शब्द किंवा त्यांच्या अर्थांचा उदय कधी झाला याचा अभ्यास करता येतो.

मराठी भाषेतील संशोधनासाठी उपयोग

मराठी भाषेच्या संदर्भात, गूगल Ngram Viewer मराठी पुस्तकांमधील शब्दांचा वापर विश्लेषित करू शकते, जरी मराठी डेटाबेस तुलनेने मर्यादित आहे. जे काही देवनागरी शब्द या संग्रहात घुसले ते इंग्रजी किंवा उभयभाषी पुस्तकांतून असावेत. उदा., “दिनांक” आणि “तारीख” यांची तुलना करता येते.

मराठी पुस्तकांची शीर्षके टाकली तर थोडी माहिती मिळू शकते किंवा मराठी लेखकांची इंग्रजी स्पेलिंग्ज टाकून पाहता येतात.

मर्यादा

डेटाबेसची मर्यादा: गूगल बुक्समध्ये सर्व पुस्तके डिजिटल स्वरूपात उपलब्ध नाहीत, विशेषतः मराठीसारख्या प्रादेशिक भाषांसाठी.
भाषिक कल(बायस): इंग्रजी आणि युरोपियन भाषांना प्राधान्य मिळते, तर मराठीसारख्या भाषांचा डेटा कमी आहे.
संदर्भाचा अभाव: Ngram Viewer शब्दांचा वापर दाखवते, पण त्यांचा संदर्भ किंवा अर्थ स्पष्ट करत नाही.तो स्वतः शोधावा लागतो.

निष्कर्ष

गूगल Ngram Viewer हे भाषा आणि संस्कृतीच्या अभ्यासासाठी एक चांगले साधन आहे. त्याच्या साहाय्याने कालानुक्रमे शब्दांचा वापर आणि सामाजिक ट्रेंड समजून घेता येतात. पण मराठीसाठी ते अद्याप इंग्रजीभाषेसाठीइतके प्रगत नाही. पण भाषाशास्त्राची आवड असणाऱ्याना त्याचा नक्की वापर करता येईल.

टीप: Google सर्च गूगल Ngram हे गूगल चे ट्रेडमार्क्स असून, या लेखासाठी या ट्रेडमार्क्स चा वापर केवळ माहितीसाठी केलेला आहे व त्याचे कोणतेही व्यावसायिक वापर करावयाचे लेखकाचे प्रयोजन नाही. तसेच हा गूगल पुरस्कृत लेख नाही व लेखकाचा गुगलशी काही संबंध नाही.

डॉ. सुधन्वा रा. पाठक
मिरज
दि. २५ एप्रिल २०२५

भाषेतील बदल फूटपट्टी लाऊन मोजताना

Leave a Reply Cancel reply