गठन, कलेज र विश्वविद्यालय
Corpus भाषाविज्ञान के हो?
बस पहिले केही दशक को भाषाई अनुसन्धान स्वचालित गर्न वैज्ञानिकहरूले मात्र को सपना सकेन। काम हात, यो विद्यार्थीहरूको एक ठूलो संख्या आकर्षित, वहाँ एक पर्याप्त likelihood "लापरवाह" गल्ती छ सबै भन्दा महत्वपूर्ण गरेको थियो, र - यो सबै एक लामो, लामो समय लाग्यो।
कम्प्युटर प्रविधिको विकास छिटो परिमाण को आदेश मा अनुसन्धान सञ्चालन गर्न सम्भव भएको छ संग, र आज भाषा को अध्ययन मा सबै भन्दा होनहार निर्देशनहरू को एक कर्पस भाषा बिज्ञान छ। यसको मुख्य विशेषता एक विशेष तरिकामा एक डेटाबेस मा पाठ जानकारी, जानकारी को ठूलो रकम को प्रयोग, छ र चिह्नित शरीर भनिन्छ।
मिति, त्यहाँ lexical एकाइहरूको अरबौं दसौं गर्न लाखौं देखि फैले विभिन्न भाषाई सामाग्री को आधार मा विभिन्न उद्देश्यका साथ सिर्जना धेरै भवनहरु छन्। यो निर्देशन एक होनहार रूपमा मान्यता र आवेदन र अनुसन्धान उद्देश्यका तिर महत्वपूर्ण प्रगति देखाउनुहुन्छ छ। विशेषज्ञहरु, एउटा तरिका वा प्राकृतिक भाषामा अर्को व्यवहार, यो कम्तिमा आधारभूत तहमा पदहरू को शरीर थाह गर्न सिफारिस गरिएको छ।
कर्पस भाषा बिज्ञान को इतिहास
यो प्रवृत्ति को गठन गत शताब्दीको प्रारम्भिक 60-एँ मा ब्राउन शरीर मा संयुक्त राज्य अमेरिका को सिर्जना कारण हो। संग्रह शब्द प्रकारका सबै 1 लाख को पदहरू समावेश, र आज यो आकार को शरीर पूर्ण uncompetitive हुनेछ। यो नयाँ अनुसन्धान स्रोतहरू लागि बढ्दो माग कम्प्युटर प्रविधिको विकास को गति, साथै गर्न धेरै हदसम्म कारण छ।
कर्पस भाषा बिज्ञान पूर्ण र स्वतन्त्र अनुशासन मा देखा को 90 को दशक मा, पदहरू एक संग्रह माथि कोरिएका र भाषाहरू दर्जनौँ लागि चिन्ह लगाइएको छ। यो अवधिमा यो उदाहरणका लागि, ब्रिटिश राष्ट्रीय Corpus 100 मिलियन टोकनहरू सिर्जना गरिएको थियो।
भाषा बिज्ञान को यो क्षेत्र विकास संग, पाठ मात्रा बढी र थप हुँदै गइरहेका छन् (र शब्दकोश एकाइहरूको अरबौं पुग्न), र लेआउट थप विविध बन्दैछ। मिति, इन्टरनेट ठाउँ लिखित शवों फेला र भाषा, बहुभाषी र सिक्ने-उन्मुख कलात्मक वा शैक्षिक साहित्य, साथै अन्य धेरै प्रजाति बोली गर्न सकिन्छ।
आवास के हुन्
शरीर भाषा बिज्ञान मा शारीरिक प्रकार धेरै कारण प्रदान गर्न सकिन्छ। Intuitively, को वर्गीकरण लागि आधार पाठ भाषा (रूसी, जर्मन), पहुँच मोड (खुला स्रोत, बन्द, व्यावसायिक), स्रोत सामाग्री (कल्पना, वृत्तचित्र, शैक्षिक, पत्रकारिता) को विधा हुन सक्छ।
रोचक तरिका बोली भाषा को सामाग्री उत्पन्न गर्छ। यस्तो बोलीको जानबूझकर रेकर्डिङ गर्ने उत्तरदाताओं लागि कृत्रिम वातावरण सिर्जना गर्न देखि, र परिणामस्वरूप सामाग्री "स्वभाविक" छैन भनिन्छ सकेन, आधुनिक कर्पस भाषा बिज्ञान अन्य तरिका गएको छ। एक स्वयंसेवक एक माइक्रोफोन संग सुसज्जित छ, र दिनमा यो भाग जसमा सबै कुराकानी, एक रेकर्ड उत्पादन। मान्छे वरिपरि, को पाठ्यक्रम, दैनिक कुराकानी को पाठ्यक्रम मा विज्ञान को विकास गर्न योगदान भनेर थाहा नहुन सक्छ।
पछि डेटाबेसमा भण्डारण रेकर्ड प्राप्त र छापेको पाठ ट्रान्सक्रिप्ट प्रकार सँगसँगै छन्। यसरी, यो सम्भव मार्कअप एक मौखिक दैनिक बोली आवास सिर्जना गर्न आवश्यक हुन्छ।
आवेदन
सम्भव जहाँ भाषा को प्रयोग, र सायद भवन पदहरू को प्रयोग। भाषा बिज्ञान मा hull लागू तरिका हुन सक्छ:
- प्रमुख निर्धारण एक कार्यक्रम सिर्जना गर्ने, व्यापक क्रमशः, मतदाता र ग्राहकहरु सकारात्मक र नकारात्मक प्रतिक्रियाहरू ट्रयाक राख्न प्रयोग गरिन्छ राजनीति र व्यापार मा।
- शब्दकोश र अनुवादकहरू जडान जानकारी सिस्टम आफ्नो प्रदर्शन सुधार गर्न।
- भाषा एकाइ, निकट भविष्यमा परिवर्तन यसको विकास र भविष्यवाणी को इतिहास को समझ योगदान कि अनुसन्धान कार्यहरू एक किसिम।
- को, morphological syntactic, जनक र अन्य सुविधाहरू आधारित जानकारी पुनर्प्राप्ति प्रणाली को विकास।
- विभिन्न भाषाई प्रणाली र अरूको अनुकूलन।
भवन प्रयोग
एक विशिष्ट खोज इन्जिन संग समान स्रोत इन्टरफेस र जानकारी आधार खोजी गर्न शब्दहरू शब्द वा संयोजन प्रवेश गर्न प्रयोगकर्ता उत्प्रेरित गर्छ। अलग सही प्रश्न जो वस्तुतः कुनै पनि भाषाई मापदण्ड पाठ जानकारी पाउन अनुमति दिन्छ को उन्नत संस्करण, प्रयोग गर्न सक्नुहुन्छ गठन।
खोज आधार हुन सक्छ:
- बोलीको भागहरु को एक विशेष समूह को सदस्यता;
- व्याकरण सुविधाहरू;
- अर्थ विज्ञान;
- stylistic र भावनात्मक रंग।
तपाईं पनि खोजी मापदण्ड शब्दहरू एक अनुक्रम लागि, उदाहरणका लागि, वर्तमान काल, पहिलो जो "मा" को निपात र कर्ता कारक मामला मा संज्ञा पछि आउँछ व्यक्ति Singular, मा क्रिया को सबै घटनाहरू फेला पार्न संयोजन गर्न सक्नुहुन्छ। यस्तो सरल कार्य समाधान प्रयोगकर्ता केही सेकेन्ड लाग्छ र केवल एक निर्दिष्ट क्षेत्रहरू केही माउस क्लिक आवश्यक छ।
सिर्जना प्रक्रिया
खोज नै सबै subcorpus मा बाहिर गर्न सकिन्छ र एक विशेष, एक विशेष लक्ष्य प्राप्त मा आवश्यकता आधारमा चुनिएको:
- पहिलो चरण जो पदहरू मामला लागि आधार गठन परिभाषित छ। व्यावहारिक उद्देश्यका लागि, यो प्राय journalistic, समाचार कथाहरू, अनलाइन टिप्पणी प्रयोग गरिन्छ। अनुसन्धान परियोजना प्याकेज प्रकार को एक विस्तृत विविधता को प्रयोग हो, तर पाठ केही सामान्य जमीन अनुसार चयन गर्नुपर्छ।
- pretreatment गर्न subjected पदहरू को परिणामस्वरूप संग्रह, त्यहाँ पाठ को bibliographic र अतिरिक्त-भाषाई विवरण द्वारा तयार त्रुटिहरू को सुधार छ, कुनै पनि भने,।
- सबै गैर-पाठ जानकारी सफाया छ: ग्राफिक्स, चित्र, टेबल हटाउँछ।
- सामान्यतया थप प्रशोधनका लागि, भाषण छन् जो टोकन, एक निर्धारण छ।
- अन्तमा, तत्व को, morphological syntactical र अन्य चिह्नों प्राप्त अधिकता लगे।
केही अवस्थामा, को अर्थ विशेषताहरु मा बोली, व्याकरण भाग पहिचान र, छ प्रत्येक जो तत्व, एक अधिकता therein वितरण संग एक syntactic संरचना गरेको सबै लेनदेन को परिणाम।
भवन बनाउदा कठिनाइ
यो कि शरीर को लागि शब्द वा वाक्य को एक सेट सँगै राख्न पर्याप्त छैन बुझ्न महत्त्वपूर्ण छ। एक हात मा, पदहरू एक संग्रह सन्तुलित हुनुपर्छ, कि छ, केही अनुपात मा पदहरू विभिन्न प्रकारका प्रतिनिधित्व गर्छ। अन्य मा - बाडे सामग्रीहरू एक विशेष तरिकामा अन्तरालमा गर्नुपर्छ।
पहिलो समस्या एउटा सम्झौता गरेर हल छ: उदाहरणका लागि, संग्रह मा साहित्यिक पदहरू को 60%, वृत्तचित्र को 20% समावेश, एक निश्चित प्रतिशत आज सिद्ध नुस्खा सन्तुलित शरीर अवस्थित बोली भाषा, कानून, वैज्ञानिक काम, आदि को एक लिखित प्रतिनिधित्व दिइएको छ ...
सामग्री लेआउट विषयमा दोस्रो प्रश्न, चुनौतीपूर्ण समाधान। त्यहाँ विशेष कार्यक्रम र स्वचालित पदहरू को अंकन लागि प्रयोग एल्गोरिदम छन्, तर तिनीहरू सिद्ध परिणाम दिन छैन, अवरोधहरू हुन सक्छ र मार्गदर्शन rework आवश्यक पर्दछ। यो समस्या सामना अवसर र चुनौतीहरू कर्पस भाषा बिज्ञान को एक कागज वी पी Zaharova मा विस्तृत वर्णन गर्दै हुनुहुन्छ।
पाठ मार्कअप तल हामी सूची जो धेरै स्तर, मा लागू गरिएको छ।
morphological ट्याग
स्कूल देखि, हामी रूसी भाषामा, त्यहाँ बोली विभिन्न भागहरु छन् कि सम्झना, र तिनीहरूलाई प्रत्येक यसको आफ्नै विशेषताहरु छन्। उदाहरणका लागि, क्रिया झुकाव को विभाग र समय जो कुनै संज्ञा छ। बिना कुनै हिचकिचाहट एक देशी वक्ता nouns र संयुग्मी क्रिया अस्वीकार, तर 100 मिलियन को शरीर चिनो। मार्गदर्शन श्रम काम गर्ने छैनन् टोकन। सबै आवश्यक अपरेसन यो सिकाउनुभयो गर्न आवश्यक यस को लागि, कम्प्युटर कार्यान्वयन गर्न सक्नुहुन्छ तर।
Morphological ट्याग, कम्प्युटर केही व्याकरण सुविधाहरू भइरहेको बोलीको एक निश्चित रूपमा प्रत्येक शब्द "बुझ्न" हुनुपर्छ। रूसी (र कुनै पनि अन्य भाषा) नियमित नियम को एक नम्बर संचालित भएकोले यो एल्गोरिदम को एक नम्बर को लागि कार लगानी गर्ने morphological विश्लेषणका लागि एक स्वचालित प्रक्रिया निर्माण गर्न सम्भव छ। तथापि, त्यहाँ नियम, साथै विभिन्न complicating कारक अपवाद हुन्छन्। फलस्वरूप, आज को नेट कम्प्युटर विश्लेषण टाढा आदर्श हो, र 4% त्रुटि 4 mln को मान पैदावार। मार्गदर्शन rework आवश्यकता 100 मिलियन। एकाइहरूको शरीरमा शब्द।
विस्तृत पुस्तक समस्या Zaharova वी पी "Corpus भाषाविज्ञान" वर्णन गर्दछ।
syntactic एनोटेसन
पदवर्णनगर्दैछ वा पार्सिङ - एक वाक्यमा शब्दहरूको सम्बन्ध निर्धारण गर्ने एक प्रक्रिया। एल्गोरिदम को एक सेट प्रयोग विषय, predicate, थपिएको, बोलीको धेरै पालैपालो पाठ निर्धारण गर्न सम्भव छ। पत्ता जो शब्दहरू मुख्य अनुक्रम, र जो - निर्भर, हामी प्रभावकारी पाठ जानकारी निकाल्न सक्ने र खोज अनुरोध प्रतिक्रिया हामीलाई रोचक मात्र जानकारी जारी गर्न मिसिन सिकाउन।
खैर, आधुनिक खोज इन्जिन जस्तै सान्दर्भिक प्रश्नहरु प्रतिक्रिया विशिष्ट लामो पदहरू सट्टा संख्या बाहिर दिन प्रयोग गर्न वा "कति क्यालोरी एक स्याउ मा" "मास्को देखि सेन्ट पीटर्सबर्ग गर्न दूरी।" तर, वा अन्य आधारभूत ट्युटोरियल को "को Corpus भाषाविज्ञान परिचय" परामर्श गर्न आवश्यकता द्वारा वर्णन प्रक्रिया पनि मूल कुराहरू बुझ्न।
जनक मार्कअप
शब्द को अर्थ विज्ञान - सरल सर्तहरू, अर्थ छ। एक शब्द विशेषण ट्याग को अर्थ विश्लेषण प्रतिबिम्बित आफ्नो जनक विभाग र Subcategories एक सेट स्वामित्वको गर्न व्यापक लागू दृष्टिकोण। यस्तो जानकारी एल्गोरिदम पाठ टोन, स्वचालित संक्षिप्तीकरण र कर्पस भाषा बिज्ञान अन्य कार्यहरू विधिहरू विश्लेषण अनुकूलन लागि मूल्यवान छ।
त्यहाँ धेरै व्यापक अर्थ विज्ञान एउटा अमूर्त शब्द प्रतिनिधित्व रूखको "मूल", एक नम्बर हो। रूख बिन्दुहरुको शाखा गठन रूपमा, थप र थप विशिष्ट lexical तत्व युक्त। उदाहरणका लागि, शब्द "प्राणी" "मानव" र "पशु" जस्ता अवधारणाहरु संग सम्बन्धित हुन सक्छ। वर्ग र जनावरहरूको प्रकार मा - पहिलो शब्द फरक पेशों, kinship सर्तहरू, राष्ट्रियता र दोस्रो बाहिर शाखा जारी हुनेछ।
जानकारी पुनर्प्राप्ति प्रणाली को प्रयोग
कर्पस भाषा बिज्ञान को प्रयोग को क्षेत्रहरु गतिविधिको विविध क्षेत्रहरू कवर। Housings शब्दकोश को तयारी र सुधार को लागि प्रयोग गरिन्छ, स्वचालित अनुवाद प्रणाली, annotating, तथ्यहरू प्राप्त, टोनलाई र अन्य पाठ प्रक्रिया निर्धारण सिर्जना गर्नुहोस्।
साथै, यस्तो स्रोतहरू सक्रिय दुनिया भाषा तथा सामान्य भाषा को कार्य को तंत्र को अध्ययन मा प्रयोग गरिन्छ। पूर्व-तयार जानकारी को ठूलो मात्रा पहुँच विकास भाषाहरूको प्रचलन को तीव्र र व्यापक अध्ययन सुविधा र स्थिर गठन neologisms भाषण गति परिवर्तन lexical एकाइहरु र अरूलाई मोल।
डाटा यस्तो ठूलो रकम संग काम स्वचालन आवश्यक भएकोले आज त्यहाँ कम्प्युटर र कर्पस भाषा बिज्ञान बीच घनिष्ठ अन्तरक्रिया छ।
रूसी राष्ट्रीय Corpus
यस मामला (संक्षिप्त NKRYA) एक कार्यहरू एक विस्तृत विविधता को लागि एक स्रोत को प्रयोग गर्न अनुमति दिने, subcorpus संख्या समावेश छ।
डाटाबेस मा सामाग्री NKRYA विभाजित छन्:
- मिडिया '90 को दशक र 2000s, दुवै घरेलू र विदेशी मा प्रकाशनहरू;
- रेकर्ड बोली;
- aktsentologicheski पदहरू चिन्ह लगाइएको (अर्थात्, तनाव को चिह्न);
- क्षेत्रीय भाषा बोली;
- कविता;
- syntactic र अन्य चिह्नों संग सामाग्री।
जानकारी प्रणाली पनि अंग्रेजी, जर्मन फ्रान्सेली र अन्य धेरै भाषाहरू (र विपरित) मा रूसी देखि काम समानान्तर अनुवाद संग Subcorpus समावेश छ।
पनि डाटाबेस त्यहाँ एक यसको विकास विभिन्न अवधि मा मा रूसी को लिखित भाषण प्रतिनिधित्व, ऐतिहासिक पदहरू को खण्ड छ। एक प्रशिक्षण शरीर, जो रूसी भाषा mastering मा विदेशी नागरिक लागि उपयोगी हुन सक्छ पनि छ।
रूसी राष्ट्रीय Corpus 400 मिलियन lexical एकाइहरु comprises, र युरोप शरीर को भाषा को एक महत्वपूर्ण भाग अगाडी थुप्रै तरिकामा।
संभावनाहरु
यो प्रवृत्ति को पहिचान को पक्षमा वास्तवमा विदेशी रूपमा रूसी विश्वविद्यालयहरु मा प्रयोगशाला कर्पस भाषा बिज्ञान प्रतिज्ञा गर्नुभएको, साथै को उपलब्धता छ। यो जानकारी र खोज स्रोतहरू को रूपरेखा मा प्रयोग र अनुसन्धान संग उच्च प्रविधिहरू, प्रश्न-जवाफ प्रणाली को क्षेत्र मा केही क्षेत्रको विकास entails, तर यो माथि छलफल भएको छ।
कर्पस भाषा बिज्ञान थप विकास किनभने प्रयोगकर्ता आफ्नो दैनिक मा स्रोत को यस प्रकार प्रयोग गर्न थप र थप तरिकाहरू छन्, प्राविधिक देखि र खोजी र जानकारी प्रशोधन, कम्प्युटर बनाउनमा को प्रक्रिया अनुकूलन नयाँ एल्गोरिदम, थप राम को कार्यान्वयन को मामला मा, र उपभोक्ता गर्न लिएर, सबै स्तर मा भविष्यवाणी गरिएको छ जीवन र काम।
निश्कर्षमा
जहाँ spaceships ब्रह्माण्डको मार्फत यात्रा र रोबोट मानिसहरूको लागि सबै काम 2017 मा अन्तिम शताब्दीको बीचमा, टाढा भविष्य देखिन्थ्यो। वास्तवमा, विज्ञान "सेतो स्थलहरू" र परेशान शताब्दीयौंदेखि मानिसजातिको प्रश्नहरूको जवाफ निराशाजनक प्रयासहरू बनाउन संग replete छ। भाषा को कार्य यहाँ प्रश्न सम्मान को एक स्थान मा कब्जा, र मन्त्री र गणना भाषा बिज्ञान हामीलाई तिनीहरूलाई जवाफ मद्दत गर्न सक्छ।
ठूलो डाटा सेट संसाधन, ढाँचाहरू पत्ता लगाउन सक्नुहुन्छ पहिले दुर्गम, मा लगभग वास्तविक समय शब्दहरूको गठन ट्रयाक गर्न विशेष भाषा सुविधाहरू विकास भविष्यवाणी।
एक व्यावहारिक स्तर मा, ग्लोबल बाडों, उदाहरणका लागि, देख्न सकिन्छ सार्वजनिक मुड आकलन गर्न सम्भाव्य उपकरण रूपमा - इन्टरनेटमा एक निरन्तर अद्यावधिक दैनिक आधार विभिन्न वास्तविक प्रयोगकर्ता द्वारा सिर्जना पदहरू छ: यो टिप्पणी र समीक्षा र लेख, भाषण अन्य थुप्रै प्रकारका।
साथै, काम शरीर संग जानकारी पुनर्प्राप्ति संलग्न छन् कि एउटै हार्डवेयर, विकास गर्न योगदान, हामी सेवा "गुगल" वा "Yandex", मिसिन अनुवाद, इलेक्ट्रोनिक शब्दकोश परिचित छन्।
हामी निर्धक्क कर्पस भाषा बिज्ञान मात्र पहिलो कदम बनाउँछ भन्ने ठोकुवा गर्न सक्नुहुन्छ, र निकट भविष्यमा फलिफाप हुनेछ।
Similar articles
Trending Now