ÉquipeUniversitéitsprofesser an Universitéiten

Wat ass Corpus Sproochwëssenschaft?

Just e puer Joerzéngten virun der sproochlecher Fuerschung ze automatiséieren, konnt Wëssenschaftler nëmmen Dram vun. Der Aarbecht war vun Hand gemaach, et eng grouss Zuel vu Schüler motivéiert, et ass eng substantiell Chancen "topeg" Feeler, an Wichteg - all dat huet eng laang, laang Zäit.

Mat der Entwécklung vun Computer Technologie méiglech ginn huet séier Fuerschung iwwert d'Commande vun Magnitude bis Exercice, an haut ee vun de stäerkste villverspriechend Richtungen an der Etude vun der Sprooch ass e Corpus Linguistik. Seng wichtegst Fonktioun ass de Gebrauch vun grouss Bänn vun textual Informatiounen, Informatiounen an engem eenzege Datebank, an eng speziell Manéier an genannt der markéiert Kierper.

Fir Datum, sinn et vill Gebaier mat verschidden Zwecker op der Basis vun verschiddenen sproochlech Material hunn Rennsport aus Millioune fir Zénger vun Milliarden vun lexikalesch Eenheeten. Dës Richtung ass als villverspriechend unerkannt a weist däitlech Fortschrëtter bei der Applikatioun a Fuerschung Zwecker. Experten, eng Manéier oder aneren bewäerten mat natierlecher Sprooch, ass et recommandéiert gespillt besser mat de Kierper vun Texter op d'mannst op engem normalen Niveau.

Geschicht vun Corpus Linguistik

Der Opstellung vun dësem Trend ass fir d'Kreatioun vun den USA um Brown Kierper am fréie 60-zoutreffen vum leschte Joerhonnert duerch. D'Kollektioun ëmfaasst d'Texter vun all 1 Millioun vun Wuert Formen, an haut de Kierper vun dëser Gréisst wier total uncompetitive ginn. Dat ass fir de Score vun Entwécklung vun Computer Technik haaptsächlech wéinst, wéi och de wuessen verlaangt fir nei Fuerschung Ressourcen.

An de 90er Corpus Linguistik an engem voll an onofhängeg Nawell Gedenkminutt, eng Sammlung vun Texter fir Dosende vu Sproochen opgesat an markéiert ginn. An dëser Period dat war hunn, zum Beispill, d'British National Corpus 100 Milliounen Stongen.

Mat der Entwécklung vun dëser Géigend vun Linguistik, sinn ëmmer Text Bänn méi a méi (a Milliarden vun Wierderbuch Unitéiten erreechen), an de Layout gëtt ëmmer méi divers. Fir Datum, kann den Internet Plaz fonnt ginn carcasses geschriwwen a geschwat Sprooch, méisproocheg, a Léieren-konzentréiert artistesch oder akademesch Literatur, wéi och vill aner Arten.

Wat sinn d'Wunnengen

Kierper Zorte am Kierper Linguistik vläicht fir e puer Grënn gëtt gin. Intuitiv, d'Basis fir d'Klassifikatioun kann engem Text Sprooch (Russesch, Däitsch) ginn, den Zougang Modus (Open Source, zougemaach, kommerziell), de Genre vun der Quell Material (Fiction, Documentaire, akademesch, Journalismus).

Interessant Manéier generéiert Material vun geschwat Sprooch. Zanter der volontär Originalopnahm vun esou Ried eng kënschtlech Ëmwelt fir den Interviewten ze schafen, an déi doraus resultéierend Material net "spontan", modern Corpus Linguistik huet genannt ginn hätt déi aner Manéier huet. Als Fräiwëllegen ass mat engem Mikro equipéiert, a während dem Dag e Rekord vun alle Gespréicher produzéiert, an deem et bedeelegt. Leit ronderëm, natierlech, weess vläicht net, dass op d'Entwécklung vun der Wëssenschaft an der Laf vun alldeeglechen Gespréich dréit.

Spéit krut Rekord an der Datebank gespäichert a sinn déi gedréckt Text ët Typ begleet. Sou, lo ass et méiglech Wikisyntax eng mëndlech Dag Ried Wunnraum ze schafen waren.

Applikatioun

Iwwerall méiglech de Gebrauch vun Sprooch, a vläicht de Gebrauch vun Gebaier Texter. Methode der Hull am Linguistik ze gëlle kann:

  • Créatioun engem Programm Bestëmmung vun der Schlëssel, ass dagsiwwer an der Politik an Affär benotzt ze halen Streck vun positiv an negativ Äntwerte vun Wieler a Clienten, bzw..
  • Verbindung Informatiounen System ze Dictionnairen an Iwwersetzer hir Leeschtung ze verbesseren.
  • A ville Fuerschung Aufgaben déi de Versteesdemech vun der Sprooch Eenheet, d'Geschicht vu senger Entwécklung a Cepheid vun Ännerungen an der nächster Zukunft bäidroen.
  • Entwécklung vun Informatiounen retrieval Systemer baséiert op der morphological, syntactic, Schüler an aner Fonctiounen.
  • Akeef vun der verschidden sproochlech Systemer an anerer.

Benotzung vun Gebaier

ähnleche Ressource Interface mat enger typesch Sich Motor, an hin de Benotzer engem Wuert oder Kombinatioun vu Wierder fir d'Informatiounen Basis ze Sich ze gitt. Ausser Form der exakt Paieziedel der verstäerkte Versioun benotzen kann, wat textual Informatiounen iwwert quasi keng sproochlech Critèren ze fannen erlaabt.

Sich Basis kann:

  • Memberschaft vun engem bestëmmte Grupp vun Deeler vun Ried;
  • grammatesch Fonctiounen;
  • semantics;
  • franséische Kino an emotionalen gemoolt.

Dir kënnt och Sich Critèrë fir eng Rei vu Wierder, zum Beispill kombinéieren, all Optriede vum Verb am Présent, éischt Persoun individuell, déi no der lëtzebuerger Sport "zu" an der Adress weist am Akkusativ kënnt ze fannen. D'Léisung fir esou eng einfach Aufgab ass de Benotzer e puer Sekonnen a verlaangt nëmmen e puer Maus Avantagen an der spezifizéierter Felder.

De Prozess vun schafen

D'Sich selwer kann op all subcorpus duerchgefouert ginn an eng speziell dëse Match gaangen, je no de Besoine vun enger besonnesch Zil erreechen:

  1. Den éischte Schrëtt ass, fir déi Texter Form d'Basis fir de Fall definéieren. Fir praktesch Zwecker, ass et dacks journalistesch, news Geschichte, online Kommentaren benotzt. De Fuerschungsprojet ass d'Benotzung vun enger grousser Villfalt vu Pak Zorte, mä den Text soll no e puer gemeinsam Buedem ausgewielt ginn.
  2. Déi doraus resultéierend Sammlung vun Texter ze pretreatment deen, ass do Verbesserung vun Feeler, wann iwwerhaapt, virbereet duerch lecht an extra-sproochlech Beschreiwung vum Text.
  3. Ass éliminéiert all Net-textual Informatiounen: kläert Grafiken, Biller, Dëscher.
  4. Ass eng Bewëllegung vun Stongen, déi typesch Ried sinn, fir weider Veraarbechtung.
  5. Endlech, et duerchgefouert morphological, syntactical an aner Marquage Majorzsystem vun Elementer kritt.

D'Resultat vun all vun engem syntactic Struktur gemaach Transaktiounen mat androen e Majorzsystem vun Elementer verdeelt, ass all vun deem Deel vun Ried identifizéiert, grammatesch an, an e puer Fäll, d'Gebai Attributer.

Schwieregkeeten an deems Gebaier

Et ass wichteg ze verstoen datt net genuch ass eng Formatioun vu Wierder oder Sätz fir de Kierper fir säi zesummen. Op der engersäits, soll eng Sammlung vun Texter ginn equilibréiert, dat ass, vertrieden verschidden Zorte vun Texter a bestëmmte Undeeler. Wéinst - den Inhalt vun der Gebai soll an engem speziell Manéier virleet ginn.

Den éischte Problem vun en Accord geléist ass: zum Beispill, an der Kollektioun ëmfaasst 60% vun literaresch Texter, 20% vun dokumentéieren, ass eng bestëmmte Prozentsaz eng schrëftlech Representatioun vun der geschwat Sprooch, Gesetzgebung, wëssenschaftlech Wierker, etc. perfekt Rezept equilibréiert Kierper haut existéieren net kritt ...

Déi zweet Fro, den Inhalt Layout betreffend, léisen Erausfuerderung. Et gi speziell Programmer a benotzt algorithms fir automatesch Marquage vun Texter, mä si ginn net perfekt Resultat, kann Pann Ursaach an brauchen manuell loossen. Chancegläichheet an Erausfuerderungen an mat dësem Problem bewäerten sinn am Detail an engem Pabeier V. P. Zaharova vun Corpus Linguistik beschriwwen.

Text Wikisyntax ass op e puer Niveauen ëmgesat, déi mir hei drënner setzen.

morphological IV Empfänger

Aus der Schoul, erënnere mir, datt et an der russescher Sprooch, verschidden Deeler vun Ried sinn, an jiddereen vun hinnen huet seng eegen Charakteristiken. Zum Beispill, huet d'Verb Kategorien vun bewegen an der Zäit bei deem kee Adress weist. engem seng Mammesprooch ouni Zweiwele declines rentabel a conjugate Frijoer, mä de Kierper vun 100 Milliounen ze uerg. Stongen manuell Aarbechtsmaart wäert net schaffen. All déi néideg Operatiounen kann de Computer exekutéieren Ee, fir dës et gin geléiert brauch.

Morphological IV Empfänger, muss de Computer "verstoen" all Wuert als bestëmmten Deel vun Ried eng gewësse grammatesche Fonctiounen. Zanter der Russesch (an all aner Sprooch) eng Rei vun offiziellen Regelen bedreift, ass et méiglech eng automatesch Prozedur fir de morphological Analyse ze bauen, fir eng Rei vun algorithms am Auto Investitioun. Mä et ginn Ausnahmen zu der Regel, souwéi verschidde Facteuren onnéideg komplizéiert. Als Resultat, ass net Computer Analyse vun haut wäit vun ideal, an nach 4% Feeler noginn engem Wäert vun 4 mln. Wierder iwwert d Kierper vun 100 Milliounen. Eenheete Retouchen manuell loossen.

Detailléierte Buch beschreift de Problem Zaharova V. P. "Corpus Sproochwëssenschaft".

syntactic Annotation

Analyséiere oder Analyséiere - eng Prozedur dass d'Relatioun vun Wierder an engem Saz bestëmmt. eng Formatioun vun algorithms benotzt ass méiglech den Text vun Sujet, predicate, Ergänzunge, MÉI ausgeglach vun Ried ze bestëmmen. Gewuer déi Wierder sinn der Haaptrei, an déi - ofhängeg, kënne mir effektiv Informatioune vum Text Extrait an der Maschinn ze léieren an Äntwert zu enger Sich Ufro un Thema nëmmen d'Informatiounen eis interessant.

Iwwregens, benotzen modern Sich Motore dës spezifesch Zuelen ginn eraus ze kommen amplaz laangen Texter an Äntwert op relevant ufroën wéi "wéivill Kalorien an engem Apple" oder "déi Distanz vu Moskau zu St. Petersburg." Allerdéngs ze verstoen och d'Grondlage vun der Prozess vun der brauchen beschriwwen der "Aféierung an de Corpus Sproochwëssenschaft" oder aner Basis Tutorial ze consultéieren.

Schüler Wikisyntax

D'semantics vum Wuert - ass, an einfach Begrëffer, déi Bedeitung. Iwwerall applicabel Approche zu de Schüler Analyse vun engem Wuert BY kennen, bidden säi zu engem Set vu Schüler Kategorien an Ënnerkategorien gehéiert. Esou Informatiounen ass wäertvoll fir Optimisatioun Text Tonalitéit, automatesch summarization an aner Aufgaben Methode vun Corpus Linguistik algorithms analyséieren.

Et ginn eng Rei vun "root" vum Bam, eng mythologesch Wuert mat engem ganz breet semantics representéiert. Als Sparten vun der Bam Wirbelen gemaach ginn, méi a méi spezifesch lexikalesch Elementer mat. Zum Beispill, mat sou Konzepter wéi "Mënsch" an "Déier" d'Wuert "Gäscht" ka verbonne sinn. Déi éischt Wuert gëtt weider an verschiddenen Beruffer bis nämlech eraus, sougenannt Begrëffer, Nationalitéit, an der zweeter - op Klassen an Zorte vun Déieren.

D'Benotzung vun Informatiounen retrieval Systemer

Beräicher vun Gebrauch vun Corpus Linguistik Cover verschiddenste Beräicher vun Aktivitéit. Haiser si fir d'Virbereedung an Verbesserung vun Dictionnairen benotzt, automatiséiert Iwwersetzung Systemer schafen, annotating, Fakten Fotoen, der Tonalitéit an aner Text Veraarbechtung Bestëmmung.

Zousätzlech, sinn esou Ressourcen an der Etude vun der Welt Sproochen a Mechanismen vum Fonctionnement vun Sprooch am Allgemengen aktiv benotzt ginn. Zougang zu grousse Bänn vun Pre-virbereet Informatiounen erliichtert rapid an ëmfaassend Etude vun der Trends vun Entwécklung Sproochen, a stabil Opstellung neologisms Ried Vitesse änneren Wäerter lexikalesch Eenheeten an anerer.

Zanter der Aarbecht mat esou grouss Quantitéiten vun Daten Bekannte verlaangt, haut do ass no Interaktioun tëscht dem Computer an Corpus Linguistik.

Russesch National Corpus

Dësem Fall (Gewerkschaftsbond NKRYA) ëmfaasst eng Rei vun subcorpus, de Gebrauch vun enger Ressource fir eng breet Panoplie vu Aufgaben Délaie.

D'Material vun der Datebank sinn NKRYA ënnerdeelt:

  • zu Publikatiounen am 90er 'Medien an 2000s, souwuel Gewalt an auslännesch;
  • Originalopnahm Ried;
  • aktsentologicheski Texter markéiert (i.e., d'Mark vun Stress);
  • Dialekt Ried;
  • Poesie;
  • Material mat syntactic an aner Marquage.

D'Informatiounen System ëmfaasst och Subcorpus mat parallel Iwwersetzunge vu Wierker aus Russesch an Englesch, Däitsch, Franséisch a vill aner Sproochen (a Vize versa).

Och an der Datebank do ass eng Sektioun vun historeschen Texter, representéiert d'schrëftlech Ried am Russesch an verschidden Perioden vu senger Entwécklung. Et gëtt och eng Formatioun Kierper, wat fir auslännesch Bierger zu Spaass der russescher Sprooch nëtzlech kann.

Russesch National Corpus regruppéiert 400 Milliounen lexikalesch Eenheeten, an zu vill Manéiere Supporter vun engem groussen Deel vun de Sproochen vun Europa Kierper.

Perspektiven

Tatsaach zugonschte vun dësem Trend datt ass d'Disponibilitéit vun Labo Corpus Linguistik zu russesch Universitéiten versprécht, wéi och auslännesch. Mat der Benotzung vun a Fuerschung am Kader vun dëser Informatiounen an Sich Ressourcen eben d'Entwécklung vu verschidde Beräicher am Beräich vun héich Technologien, Fro-deemno Systemer, mä et ass virun diskutéiert.

Weiderentwécklung vun Corpus Linguistik ass bei all Niveauen virausgesot, aus techneschen gefächert a wat vun Ëmsetzung vun neie algorithms datt d'Prozesser vun Recherche an Veraarbechtung Informatiounen optimiséieren, Computeren, méi RAM, an Konsument empowering, well Benotzer sinn méi an méi Méiglechkeeten dës Zort vun Ressource ze benotzen an hirem Alldag Liewen an Aarbecht.

an Conclusioun

An der Mëtt vum leschte Joerhonnert an 2017 war wäiter Zukunft, wou spaceships duerch d'Universum reesen an Roboteren do all d'Aarbecht fir d'Leit. An Tatsaach, ass Wëssenschaft replete mat "wäiss Flecken" an nees gemierkt Versich beonrouegend d'Froen vun der Fräiheet fir Joerhonnerte ze äntweren. Froen vun Sprooch hei Fonctionnement gelant eng Plaz vun Éier, an Cabinet an computational Linguistik kënnen eis hinnen ze hëllefen Äntwert.

Veraarbechtung vu grousse Daten baut kann Mustere entdecken, virdrun onzougänglechen, Viraus der Entwécklung vun spezifesch Sprooch Fonctiounen am bal real Zäit d'Équipe vun Wierder ze Streck.

Op eng praktesch Niveau, kann d'global Logement zum Beispill gesinn, ginn, wéi e Potential Outil de Public Stëmmung ze bewäerten - Internet ass eng permanent aktualiséiert daagdeeglech verschiddenen Texter vun real Benotzer ugeluecht: dës Kommentaren an Kritiken, an Artikelen, a vill aner Formen vun Ried.

Zousätzlech, mat Kierper schaffen dréit zu der Entwécklung déi selwecht Schrauwen, datt am Informatiounen retrieval Équipe sinn, si mir mat de Service "Google" oder "Yandex", Maschinn Iwwersetzung, elektronesch Dictionnairen kennt.

Mir kënne mat Sécherheet nét, dass de Corpus Linguistik nëmmen déi éischt Schrëtt mécht, an an der nächster Zukunft wäerten Patrick.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 lb.birmiss.com. Theme powered by WordPress.