गठनकलेज र विश्वविद्यालय

Corpus भाषाविज्ञान के हो?

बस पहिले केही दशक को भाषाई अनुसन्धान स्वचालित गर्न वैज्ञानिकहरूले मात्र को सपना सकेन। काम हात, यो विद्यार्थीहरूको एक ठूलो संख्या आकर्षित, वहाँ एक पर्याप्त likelihood "लापरवाह" गल्ती छ सबै भन्दा महत्वपूर्ण गरेको थियो, र - यो सबै एक लामो, लामो समय लाग्यो।

कम्प्युटर प्रविधिको विकास छिटो परिमाण को आदेश मा अनुसन्धान सञ्चालन गर्न सम्भव भएको छ संग, र आज भाषा को अध्ययन मा सबै भन्दा होनहार निर्देशनहरू को एक कर्पस भाषा बिज्ञान छ। यसको मुख्य विशेषता एक विशेष तरिकामा एक डेटाबेस मा पाठ जानकारी, जानकारी को ठूलो रकम को प्रयोग, छ र चिह्नित शरीर भनिन्छ।

मिति, त्यहाँ lexical एकाइहरूको अरबौं दसौं गर्न लाखौं देखि फैले विभिन्न भाषाई सामाग्री को आधार मा विभिन्न उद्देश्यका साथ सिर्जना धेरै भवनहरु छन्। यो निर्देशन एक होनहार रूपमा मान्यता र आवेदन र अनुसन्धान उद्देश्यका तिर महत्वपूर्ण प्रगति देखाउनुहुन्छ छ। विशेषज्ञहरु, एउटा तरिका वा प्राकृतिक भाषामा अर्को व्यवहार, यो कम्तिमा आधारभूत तहमा पदहरू को शरीर थाह गर्न सिफारिस गरिएको छ।

कर्पस भाषा बिज्ञान को इतिहास

यो प्रवृत्ति को गठन गत शताब्दीको प्रारम्भिक 60-एँ मा ब्राउन शरीर मा संयुक्त राज्य अमेरिका को सिर्जना कारण हो। संग्रह शब्द प्रकारका सबै 1 लाख को पदहरू समावेश, र आज यो आकार को शरीर पूर्ण uncompetitive हुनेछ। यो नयाँ अनुसन्धान स्रोतहरू लागि बढ्दो माग कम्प्युटर प्रविधिको विकास को गति, साथै गर्न धेरै हदसम्म कारण छ।

कर्पस भाषा बिज्ञान पूर्ण र स्वतन्त्र अनुशासन मा देखा को 90 को दशक मा, पदहरू एक संग्रह माथि कोरिएका र भाषाहरू दर्जनौँ लागि चिन्ह लगाइएको छ। यो अवधिमा यो उदाहरणका लागि, ब्रिटिश राष्ट्रीय Corpus 100 मिलियन टोकनहरू सिर्जना गरिएको थियो।

भाषा बिज्ञान को यो क्षेत्र विकास संग, पाठ मात्रा बढी र थप हुँदै गइरहेका छन् (र शब्दकोश एकाइहरूको अरबौं पुग्न), र लेआउट थप विविध बन्दैछ। मिति, इन्टरनेट ठाउँ लिखित शवों फेला र भाषा, बहुभाषी र सिक्ने-उन्मुख कलात्मक वा शैक्षिक साहित्य, साथै अन्य धेरै प्रजाति बोली गर्न सकिन्छ।

आवास के हुन्

शरीर भाषा बिज्ञान मा शारीरिक प्रकार धेरै कारण प्रदान गर्न सकिन्छ। Intuitively, को वर्गीकरण लागि आधार पाठ भाषा (रूसी, जर्मन), पहुँच मोड (खुला स्रोत, बन्द, व्यावसायिक), स्रोत सामाग्री (कल्पना, वृत्तचित्र, शैक्षिक, पत्रकारिता) को विधा हुन सक्छ।

रोचक तरिका बोली भाषा को सामाग्री उत्पन्न गर्छ। यस्तो बोलीको जानबूझकर रेकर्डिङ गर्ने उत्तरदाताओं लागि कृत्रिम वातावरण सिर्जना गर्न देखि, र परिणामस्वरूप सामाग्री "स्वभाविक" छैन भनिन्छ सकेन, आधुनिक कर्पस भाषा बिज्ञान अन्य तरिका गएको छ। एक स्वयंसेवक एक माइक्रोफोन संग सुसज्जित छ, र दिनमा यो भाग जसमा सबै कुराकानी, एक रेकर्ड उत्पादन। मान्छे वरिपरि, को पाठ्यक्रम, दैनिक कुराकानी को पाठ्यक्रम मा विज्ञान को विकास गर्न योगदान भनेर थाहा नहुन सक्छ।

पछि डेटाबेसमा भण्डारण रेकर्ड प्राप्त र छापेको पाठ ट्रान्सक्रिप्ट प्रकार सँगसँगै छन्। यसरी, यो सम्भव मार्कअप एक मौखिक दैनिक बोली आवास सिर्जना गर्न आवश्यक हुन्छ।

आवेदन

सम्भव जहाँ भाषा को प्रयोग, र सायद भवन पदहरू को प्रयोग। भाषा बिज्ञान मा hull लागू तरिका हुन सक्छ:

  • प्रमुख निर्धारण एक कार्यक्रम सिर्जना गर्ने, व्यापक क्रमशः, मतदाता र ग्राहकहरु सकारात्मक र नकारात्मक प्रतिक्रियाहरू ट्रयाक राख्न प्रयोग गरिन्छ राजनीति र व्यापार मा।
  • शब्दकोश र अनुवादकहरू जडान जानकारी सिस्टम आफ्नो प्रदर्शन सुधार गर्न।
  • भाषा एकाइ, निकट भविष्यमा परिवर्तन यसको विकास र भविष्यवाणी को इतिहास को समझ योगदान कि अनुसन्धान कार्यहरू एक किसिम।
  • को, morphological syntactic, जनक र अन्य सुविधाहरू आधारित जानकारी पुनर्प्राप्ति प्रणाली को विकास।
  • विभिन्न भाषाई प्रणाली र अरूको अनुकूलन।

भवन प्रयोग

एक विशिष्ट खोज इन्जिन संग समान स्रोत इन्टरफेस र जानकारी आधार खोजी गर्न शब्दहरू शब्द वा संयोजन प्रवेश गर्न प्रयोगकर्ता उत्प्रेरित गर्छ। अलग सही प्रश्न जो वस्तुतः कुनै पनि भाषाई मापदण्ड पाठ जानकारी पाउन अनुमति दिन्छ को उन्नत संस्करण, प्रयोग गर्न सक्नुहुन्छ गठन।

खोज आधार हुन सक्छ:

  • बोलीको भागहरु को एक विशेष समूह को सदस्यता;
  • व्याकरण सुविधाहरू;
  • अर्थ विज्ञान;
  • stylistic र भावनात्मक रंग।

तपाईं पनि खोजी मापदण्ड शब्दहरू एक अनुक्रम लागि, उदाहरणका लागि, वर्तमान काल, पहिलो जो "मा" को निपात र कर्ता कारक मामला मा संज्ञा पछि आउँछ व्यक्ति Singular, मा क्रिया को सबै घटनाहरू फेला पार्न संयोजन गर्न सक्नुहुन्छ। यस्तो सरल कार्य समाधान प्रयोगकर्ता केही सेकेन्ड लाग्छ र केवल एक निर्दिष्ट क्षेत्रहरू केही माउस क्लिक आवश्यक छ।

सिर्जना प्रक्रिया

खोज नै सबै subcorpus मा बाहिर गर्न सकिन्छ र एक विशेष, एक विशेष लक्ष्य प्राप्त मा आवश्यकता आधारमा चुनिएको:

  1. पहिलो चरण जो पदहरू मामला लागि आधार गठन परिभाषित छ। व्यावहारिक उद्देश्यका लागि, यो प्राय journalistic, समाचार कथाहरू, अनलाइन टिप्पणी प्रयोग गरिन्छ। अनुसन्धान परियोजना प्याकेज प्रकार को एक विस्तृत विविधता को प्रयोग हो, तर पाठ केही सामान्य जमीन अनुसार चयन गर्नुपर्छ।
  2. pretreatment गर्न subjected पदहरू को परिणामस्वरूप संग्रह, त्यहाँ पाठ को bibliographic र अतिरिक्त-भाषाई विवरण द्वारा तयार त्रुटिहरू को सुधार छ, कुनै पनि भने,।
  3. सबै गैर-पाठ जानकारी सफाया छ: ग्राफिक्स, चित्र, टेबल हटाउँछ।
  4. सामान्यतया थप प्रशोधनका लागि, भाषण छन् जो टोकन, एक निर्धारण छ।
  5. अन्तमा, तत्व को, morphological syntactical र अन्य चिह्नों प्राप्त अधिकता लगे।

केही अवस्थामा, को अर्थ विशेषताहरु मा बोली, व्याकरण भाग पहिचान र, छ प्रत्येक जो तत्व, एक अधिकता therein वितरण संग एक syntactic संरचना गरेको सबै लेनदेन को परिणाम।

भवन बनाउदा कठिनाइ

यो कि शरीर को लागि शब्द वा वाक्य को एक सेट सँगै राख्न पर्याप्त छैन बुझ्न महत्त्वपूर्ण छ। एक हात मा, पदहरू एक संग्रह सन्तुलित हुनुपर्छ, कि छ, केही अनुपात मा पदहरू विभिन्न प्रकारका प्रतिनिधित्व गर्छ। अन्य मा - बाडे सामग्रीहरू एक विशेष तरिकामा अन्तरालमा गर्नुपर्छ।

पहिलो समस्या एउटा सम्झौता गरेर हल छ: उदाहरणका लागि, संग्रह मा साहित्यिक पदहरू को 60%, वृत्तचित्र को 20% समावेश, एक निश्चित प्रतिशत आज सिद्ध नुस्खा सन्तुलित शरीर अवस्थित बोली भाषा, कानून, वैज्ञानिक काम, आदि को एक लिखित प्रतिनिधित्व दिइएको छ ...

सामग्री लेआउट विषयमा दोस्रो प्रश्न, चुनौतीपूर्ण समाधान। त्यहाँ विशेष कार्यक्रम र स्वचालित पदहरू को अंकन लागि प्रयोग एल्गोरिदम छन्, तर तिनीहरू सिद्ध परिणाम दिन छैन, अवरोधहरू हुन सक्छ र मार्गदर्शन rework आवश्यक पर्दछ। यो समस्या सामना अवसर र चुनौतीहरू कर्पस भाषा बिज्ञान को एक कागज वी पी Zaharova मा विस्तृत वर्णन गर्दै हुनुहुन्छ।

पाठ मार्कअप तल हामी सूची जो धेरै स्तर, मा लागू गरिएको छ।

morphological ट्याग

स्कूल देखि, हामी रूसी भाषामा, त्यहाँ बोली विभिन्न भागहरु छन् कि सम्झना, र तिनीहरूलाई प्रत्येक यसको आफ्नै विशेषताहरु छन्। उदाहरणका लागि, क्रिया झुकाव को विभाग र समय जो कुनै संज्ञा छ। बिना कुनै हिचकिचाहट एक देशी वक्ता nouns र संयुग्मी क्रिया अस्वीकार, तर 100 मिलियन को शरीर चिनो। मार्गदर्शन श्रम काम गर्ने छैनन् टोकन। सबै आवश्यक अपरेसन यो सिकाउनुभयो गर्न आवश्यक यस को लागि, कम्प्युटर कार्यान्वयन गर्न सक्नुहुन्छ तर।

Morphological ट्याग, कम्प्युटर केही व्याकरण सुविधाहरू भइरहेको बोलीको एक निश्चित रूपमा प्रत्येक शब्द "बुझ्न" हुनुपर्छ। रूसी (र कुनै पनि अन्य भाषा) नियमित नियम को एक नम्बर संचालित भएकोले यो एल्गोरिदम को एक नम्बर को लागि कार लगानी गर्ने morphological विश्लेषणका लागि एक स्वचालित प्रक्रिया निर्माण गर्न सम्भव छ। तथापि, त्यहाँ नियम, साथै विभिन्न complicating कारक अपवाद हुन्छन्। फलस्वरूप, आज को नेट कम्प्युटर विश्लेषण टाढा आदर्श हो, र 4% त्रुटि 4 mln को मान पैदावार। मार्गदर्शन rework आवश्यकता 100 मिलियन। एकाइहरूको शरीरमा शब्द।

विस्तृत पुस्तक समस्या Zaharova वी पी "Corpus भाषाविज्ञान" वर्णन गर्दछ।

syntactic एनोटेसन

पदवर्णनगर्दैछ वा पार्सिङ - एक वाक्यमा शब्दहरूको सम्बन्ध निर्धारण गर्ने एक प्रक्रिया। एल्गोरिदम को एक सेट प्रयोग विषय, predicate, थपिएको, बोलीको धेरै पालैपालो पाठ निर्धारण गर्न सम्भव छ। पत्ता जो शब्दहरू मुख्य अनुक्रम, र जो - निर्भर, हामी प्रभावकारी पाठ जानकारी निकाल्न सक्ने र खोज अनुरोध प्रतिक्रिया हामीलाई रोचक मात्र जानकारी जारी गर्न मिसिन सिकाउन।

खैर, आधुनिक खोज इन्जिन जस्तै सान्दर्भिक प्रश्नहरु प्रतिक्रिया विशिष्ट लामो पदहरू सट्टा संख्या बाहिर दिन प्रयोग गर्न वा "कति क्यालोरी एक स्याउ मा" "मास्को देखि सेन्ट पीटर्सबर्ग गर्न दूरी।" तर, वा अन्य आधारभूत ट्युटोरियल को "को Corpus भाषाविज्ञान परिचय" परामर्श गर्न आवश्यकता द्वारा वर्णन प्रक्रिया पनि मूल कुराहरू बुझ्न।

जनक मार्कअप

शब्द को अर्थ विज्ञान - सरल सर्तहरू, अर्थ छ। एक शब्द विशेषण ट्याग को अर्थ विश्लेषण प्रतिबिम्बित आफ्नो जनक विभाग र Subcategories एक सेट स्वामित्वको गर्न व्यापक लागू दृष्टिकोण। यस्तो जानकारी एल्गोरिदम पाठ टोन, स्वचालित संक्षिप्तीकरण र कर्पस भाषा बिज्ञान अन्य कार्यहरू विधिहरू विश्लेषण अनुकूलन लागि मूल्यवान छ।

त्यहाँ धेरै व्यापक अर्थ विज्ञान एउटा अमूर्त शब्द प्रतिनिधित्व रूखको "मूल", एक नम्बर हो। रूख बिन्दुहरुको शाखा गठन रूपमा, थप र थप विशिष्ट lexical तत्व युक्त। उदाहरणका लागि, शब्द "प्राणी" "मानव" र "पशु" जस्ता अवधारणाहरु संग सम्बन्धित हुन सक्छ। वर्ग र जनावरहरूको प्रकार मा - पहिलो शब्द फरक पेशों, kinship सर्तहरू, राष्ट्रियता र दोस्रो बाहिर शाखा जारी हुनेछ।

जानकारी पुनर्प्राप्ति प्रणाली को प्रयोग

कर्पस भाषा बिज्ञान को प्रयोग को क्षेत्रहरु गतिविधिको विविध क्षेत्रहरू कवर। Housings शब्दकोश को तयारी र सुधार को लागि प्रयोग गरिन्छ, स्वचालित अनुवाद प्रणाली, annotating, तथ्यहरू प्राप्त, टोनलाई र अन्य पाठ प्रक्रिया निर्धारण सिर्जना गर्नुहोस्।

साथै, यस्तो स्रोतहरू सक्रिय दुनिया भाषा तथा सामान्य भाषा को कार्य को तंत्र को अध्ययन मा प्रयोग गरिन्छ। पूर्व-तयार जानकारी को ठूलो मात्रा पहुँच विकास भाषाहरूको प्रचलन को तीव्र र व्यापक अध्ययन सुविधा र स्थिर गठन neologisms भाषण गति परिवर्तन lexical एकाइहरु र अरूलाई मोल।

डाटा यस्तो ठूलो रकम संग काम स्वचालन आवश्यक भएकोले आज त्यहाँ कम्प्युटर र कर्पस भाषा बिज्ञान बीच घनिष्ठ अन्तरक्रिया छ।

रूसी राष्ट्रीय Corpus

यस मामला (संक्षिप्त NKRYA) एक कार्यहरू एक विस्तृत विविधता को लागि एक स्रोत को प्रयोग गर्न अनुमति दिने, subcorpus संख्या समावेश छ।

डाटाबेस मा सामाग्री NKRYA विभाजित छन्:

  • मिडिया '90 को दशक र 2000s, दुवै घरेलू र विदेशी मा प्रकाशनहरू;
  • रेकर्ड बोली;
  • aktsentologicheski पदहरू चिन्ह लगाइएको (अर्थात्, तनाव को चिह्न);
  • क्षेत्रीय भाषा बोली;
  • कविता;
  • syntactic र अन्य चिह्नों संग सामाग्री।

जानकारी प्रणाली पनि अंग्रेजी, जर्मन फ्रान्सेली र अन्य धेरै भाषाहरू (र विपरित) मा रूसी देखि काम समानान्तर अनुवाद संग Subcorpus समावेश छ।

पनि डाटाबेस त्यहाँ एक यसको विकास विभिन्न अवधि मा मा रूसी को लिखित भाषण प्रतिनिधित्व, ऐतिहासिक पदहरू को खण्ड छ। एक प्रशिक्षण शरीर, जो रूसी भाषा mastering मा विदेशी नागरिक लागि उपयोगी हुन सक्छ पनि छ।

रूसी राष्ट्रीय Corpus 400 मिलियन lexical एकाइहरु comprises, र युरोप शरीर को भाषा को एक महत्वपूर्ण भाग अगाडी थुप्रै तरिकामा।

संभावनाहरु

यो प्रवृत्ति को पहिचान को पक्षमा वास्तवमा विदेशी रूपमा रूसी विश्वविद्यालयहरु मा प्रयोगशाला कर्पस भाषा बिज्ञान प्रतिज्ञा गर्नुभएको, साथै को उपलब्धता छ। यो जानकारी र खोज स्रोतहरू को रूपरेखा मा प्रयोग र अनुसन्धान संग उच्च प्रविधिहरू, प्रश्न-जवाफ प्रणाली को क्षेत्र मा केही क्षेत्रको विकास entails, तर यो माथि छलफल भएको छ।

कर्पस भाषा बिज्ञान थप विकास किनभने प्रयोगकर्ता आफ्नो दैनिक मा स्रोत को यस प्रकार प्रयोग गर्न थप र थप तरिकाहरू छन्, प्राविधिक देखि र खोजी र जानकारी प्रशोधन, कम्प्युटर बनाउनमा को प्रक्रिया अनुकूलन नयाँ एल्गोरिदम, थप राम को कार्यान्वयन को मामला मा, र उपभोक्ता गर्न लिएर, सबै स्तर मा भविष्यवाणी गरिएको छ जीवन र काम।

निश्कर्षमा

जहाँ spaceships ब्रह्माण्डको मार्फत यात्रा र रोबोट मानिसहरूको लागि सबै काम 2017 मा अन्तिम शताब्दीको बीचमा, टाढा भविष्य देखिन्थ्यो। वास्तवमा, विज्ञान "सेतो स्थलहरू" र परेशान शताब्दीयौंदेखि मानिसजातिको प्रश्नहरूको जवाफ निराशाजनक प्रयासहरू बनाउन संग replete छ। भाषा को कार्य यहाँ प्रश्न सम्मान को एक स्थान मा कब्जा, र मन्त्री र गणना भाषा बिज्ञान हामीलाई तिनीहरूलाई जवाफ मद्दत गर्न सक्छ।

ठूलो डाटा सेट संसाधन, ढाँचाहरू पत्ता लगाउन सक्नुहुन्छ पहिले दुर्गम, मा लगभग वास्तविक समय शब्दहरूको गठन ट्रयाक गर्न विशेष भाषा सुविधाहरू विकास भविष्यवाणी।

एक व्यावहारिक स्तर मा, ग्लोबल बाडों, उदाहरणका लागि, देख्न सकिन्छ सार्वजनिक मुड आकलन गर्न सम्भाव्य उपकरण रूपमा - इन्टरनेटमा एक निरन्तर अद्यावधिक दैनिक आधार विभिन्न वास्तविक प्रयोगकर्ता द्वारा सिर्जना पदहरू छ: यो टिप्पणी र समीक्षा र लेख, भाषण अन्य थुप्रै प्रकारका।

साथै, काम शरीर संग जानकारी पुनर्प्राप्ति संलग्न छन् कि एउटै हार्डवेयर, विकास गर्न योगदान, हामी सेवा "गुगल" वा "Yandex", मिसिन अनुवाद, इलेक्ट्रोनिक शब्दकोश परिचित छन्।

हामी निर्धक्क कर्पस भाषा बिज्ञान मात्र पहिलो कदम बनाउँछ भन्ने ठोकुवा गर्न सक्नुहुन्छ, र निकट भविष्यमा फलिफाप हुनेछ।

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ne.birmiss.com. Theme powered by WordPress.