/ Korpus dilbilim nedir?

Korpus dilbilim nedir?

Birkaç yıl önce, otomasyonDilbilim araştırmaları bilim adamları sadece hayal edebiliyorlardı. İş elle yapıldı, çok sayıda öğrenci buna karıştı, dikkatsizlik yüzünden önemli bir hata ihtimali vardı ve en önemlisi - çok zaman aldı.

Bilgisayar teknolojisinin gelişimi ile birliktearaştırmayı daha hızlı bir şekilde gerçekleştirmek mümkündür ve bugün, korpus dilbilim, dil çalışmasında en umut verici yönlerden biridir. Ana özelliği, tek bir veritabanında birleştirilen, özel olarak işaretlenmiş ve cesedi adlandırılmış çok miktarda metinsel bilginin kullanılmasıdır.

Bugüne kadar pek çokMilyonlarca milyondan milyondan milyondan fazla sözel birimi kapsayan çeşitli dil materyalleri temelinde farklı hedeflerle yaratılan Kolordu. Bu yön umut vericidir ve uygulanan ve araştırma hedeflerine ulaşmada önemli ilerleme göstermektedir. Bir şekilde doğal dille uğraşan uzmanlar, en azından temel seviyede olan metinlerin cesedini tanımanız önerilir.

Korpus dilbilim tarihi

Bu yönde oluşum şu şekildedir:Geçen yüzyılın başlarında ABD'de Brown'un kolordu kurulması. Metinlerin koleksiyonunda sadece 1 milyon kelime biçimi vardı ve bugün bu boyuttaki bir kolordu tamamen rekabetsiz olacaktır. Bu büyük oranda, bilgisayar teknolojilerinin gelişimi ve yeni araştırma kaynakları için artan taleplerden kaynaklanmaktadır.

90'larda, korpus dilbilim kuruldutam ve bağımsız disiplin içinde, metinlerin toplanması birkaç düzine dil için derlenmiş ve işaretlenmiştir. Bu dönemde, örneğin İngiliz Ulusal Birliği, 100 milyon kullanım için yaratılmıştır.

korpus dilbilim

Dilbilimin bu yönü geliştikçe,metinlerin hacimleri gittikçe artmakta (ve milyarlarca kelime dağılımına ulaşmaktadır) ve düzen giderek daha çeşitlidir. Bugüne kadar İnternet alanında, sanatsal veya akademik literatüre yönelik yazılı ve sözlü konuşma, çok dilli ve öğretim vakalarını ve diğer pek çok çeşidi bulabilirsiniz.

Cesetler nelerdir

Dilbilimde dava türleri olabilirçeşitli nedenlerle sunulmuştur. Sınıflandırmanın temelinin, metinlerin dili (Rusça, Almanca), erişim biçimi (açık kaynak, kapalı, ticari), kaynak materyal türü (kurgu, belgesel, akademik, gazetecilik) olabileceği sezgisel olarak açıktır.

corpus dilbilim yöntemleri

İlginç bir şekilde nesildirSözlü konuşmayı temsil eden materyaller. Böyle bir konuşmanın kasıtlı kaydı, katılımcılar için yapay koşullar yaratacağından ve sonuçta ortaya çıkan materyale “kendiliğinden” çağrılmayacağından, modern toplum dilbilimi farklı bir yol izledi. Gönüllü bir mikrofon ile donatılmıştır ve gün boyunca katıldığı tüm konuşmalar kaydedilir. Çevreleyen insanlar, elbette, ev içi konuşma sırasında bilimin gelişmesine katkıda bulunduklarını bilemezler.

Daha sonra alınan ses bankada saklanır.veri ve transkript türüne göre basılı metin eşlik eder. Böylece, sözlü gündelik konuşmanın bir vücut oluşturmak için gerekli işaretleme mümkün hale gelir.

uygulama

Dilin kullanılması mümkün olduğunda, metin kutularını kullanmak da mümkündür. Dilbilimin dil yöntemlerine uygulanmasının amacı:

  • Seçmenlerden ve müşterilerden gelen olumlu ve olumsuz yanıtları izlemek için politika ve iş dünyasında aktif olarak kullanılan ton belirleme programlarının oluşturulması.
  • Bilgi sistemini performanslarını iyileştirmek için sözlüklere ve çevirmenlere bağlanması.
  • Dilin yapısını, gelişim tarihini ve yakın gelecekteki değişiminin tahminlerini anlamada katkıda bulunan çeşitli araştırma görevleri.
  • Bilgi alma sistemlerinin morfolojik, sözdizimsel, semantik ve diğer özelliklerine göre geliştirilmesi.
  • Çeşitli dilbilim sistemlerinin çalışmalarının optimizasyonu, vb.

Konut kullanımı

Kaynak arayüzü, tipik arama motoruna benzersisteme girer ve kullanıcının bilgi tabanını aramak için bir kelime veya kelime birleşimi girmesini ister. Tam istek formuna ek olarak, hemen hemen her dilsel ölçüt için metin bilgisi bulmanızı sağlayan genişletilmiş sürümü kullanabilirsiniz.

bilgisayar ve vaka dilbilimi

Aramanın temeli şunlar olabilir:

  • belirli bir grup konuşmaya ait;
  • dilbilgisel işaretler;
  • semantik;
  • üslup ve duygusal renklendirme.

Ayrıca, arama ölçütlerini bir araya getirebilirsiniz.sözcük dizileri: örneğin, şimdiki zamanda bir fiilin tüm oluşumlarını bulmak için, ilk kişide, tekil olarak, ardından “içinde” edatını ve suçlayıcı da adında bir isim bul. Böyle basit bir görevin çözümü kullanıcıyı birkaç saniye alır ve belirtilen alanlarda sadece birkaç fare tıklaması gerektirir.

Yaratılış süreci

Aramanın kendisi hem tüm alt dersler için hem de belirli bir hedefe ulaşırken ihtiyaçlara bağlı olarak özel olarak seçilen bir seferde gerçekleştirilebilir:

  1. İlk adım, hangi metinlerin girileceğini belirlemektir.taban muhafazası. Pratik amaçlar için, gazetecilik, gazete materyalleri ve internet yorumları sıklıkla kullanılmaktadır. Araştırma projelerinde çok çeşitli korpus tipleri kullanılmaktadır, ancak metinler ortak baz için seçilmelidir.
  2. Elde edilen metin grubu önceden işlenir, hatalar düzeltilir, eğer varsa, metnin bir bibliyografik ve dışsal söylem açıklaması hazırlanır.
  3. Metin olmayan tüm bilgiler silinir: grafikler, resimler, tablolar silinir.
  4. Daha sonraki işlemler için, genellikle kelimeleri temsil eden bir dizi belirteç vardır.
  5. Son olarak, elde edilen element kümesinin morfolojik, sözdizimsel ve diğer işaretlemeleri gerçekleştirilir.

Yapılan tüm işlemlerin sonucuher biri konuşmanın bir parçası gramer ve bazı durumlarda anlamsal özelliklerin tanımlandığı, üzerine dağılmış bir dizi eleman içeren bir sözdizimsel yapı

Muhafaza inşa ederken karşılaşılan zorluklar

Davayı almak için bunu anlamak önemlidirbirçok kelime veya cümleyi bir araya getirmek yeterli değildir. Bir yandan, metin koleksiyonu dengelenmeli, yani belirli oranlardaki farklı metin türlerini temsil etmelidir. Öte yandan, vücudun içeriği özel olarak işaretlenmelidir.

Bullies Corpus Dilbilimi

İlk soru anlaşmayla çözüldü: örneğin, edebi metinlerin% 60'ı koleksiyona dahil, belgesel yazılarının% 20'si, sözlü konuşma, yasama eylemleri, bilimsel çalışmalar vb. yazılı sunumlara belli bir yüzde verildi.

İkinci soru içerik işaretlemesi ile ilgilidaha zor çözüldü. Metinlerin otomatik olarak işaretlenmesi için kullanılan özel programlar ve algoritmalar vardır, ancak yüzde yüz sonuç vermezler, hatalara neden olabilirler ve manuel ayrıntılandırma gerektirebilirler. Bu sorunu çözmedeki olasılıklar ve problemler V.P Zakharov'un korpus dilbilimi konusundaki çalışmasında detaylı olarak açıklanmıştır.

Metnin işaretlenmesi, aşağıda listelediğimiz birkaç düzeyde gerçekleştirilir.

Morfolojik işaretleme

Okuldan bunu Rusça olarak hatırlıyoruzkonuşmanın farklı bölümleri var ve her birinin kendine has özellikleri var. Örneğin, bir fiilin bir ismin sahip olmadığı eğim ve gerginlik kategorileri vardır. Tereddüt etmeden ana dili konuşan bir kişi isimleri eğlendirir ve fiilleri birleştirir, ancak el emeği 100 milyon kelimelik bir cesedi işaretlemek için uygun değildir. Gerekli tüm işlemler bilgisayarı gerçekleştirebilecek, ancak bunun için öğretilmesi gerekiyor.

Morfolojik işaretler gereklibilgisayar her bir kelimeyi belirli gramer özelliklerine sahip konuşmanın bir parçası olarak “anladı”. Rusça'da (başka herhangi bir dilde olduğu gibi) bazı düzenli kurallar işlediği için, makineye bir dizi algoritma yatırmış olan morfolojik analiz için otomatik bir prosedür oluşturmak mümkündür. Ancak, kuralların yanı sıra çeşitli karmaşık faktörlerin istisnaları da vardır. Sonuç olarak, günümüzde saf bilgisayar analizi ideal olmaktan uzaktır ve hataların% 4'ü bile, manuel arıtma gerektiren 100 milyon birimde 4 milyon kelimelik bir değer vermektedir.

Bu problem V. P. Zakharov’un “Corpus Dilbilim” kitabında ayrıntılı olarak açıklanmaktadır.

Sözdizimi İşaretlemesi

Ayrıştırma veya ayrıştırmaBir cümle içindeki kelimelerin ilişkisini tanımlayan prosedür. Bir dizi algoritma yardımıyla, metinde konuyu belirlemek, tahminde bulunmak, eklemeler yapmak, çeşitli konuşmalar yapmak mümkün hale gelir. Dizideki hangi kelimelerin ana ve hangilerinin bağımlı olduğunu bulmak için, metinden bilgileri verimli bir şekilde çıkarabilir ve makineyi yalnızca bir arama sorgusuna cevap olarak ilgilenilen bilgileri yayınlayacak şekilde eğitebiliriz.

Rus üniversitelerinde Corpus dilbilim laboratuarları

Bu arada, modern arama motorları kullanıyorbununla, uzun metinler yerine belirli rakamlar üretmek için, “bir elmada ne kadar kalori” veya “Moskova'dan St. Bununla birlikte, açıklanan sürecin temellerini bile anlamak için, “Corpus Dilbilimine Giriş” veya başka bir temel ders kitabı hakkında bilgi edinmeniz gerekecektir.

Anlamsal işaretleme

Bir kelimenin anlambilimi, basit anlamda,anlamına gelir. Anlamsal çözümlemede yaygın olarak uygulanabilir bir yaklaşım, etiketlerin bir semantik kategori ve alt kategoriye ait olduğunu yansıtan bir kelimeye atfetmesidir. Bu bilgiler metinsel tonellik analiz algoritmalarını, otomatik özetlemeyi ve corpus dilbilimini kullanan diğer görevleri optimize etmek için değerlidir.

Ağacın bir çok kökü vardır.çok geniş anlambilimsel olan soyut kelimeleri temsil eder. Bu ağaç dallandıkça, daha fazla spesifik sözcüksel unsur içeren düğümler oluşur. Örneğin, "yaratık" kelimesi "insan" ve "hayvan" gibi kavramlarla ilişkilendirilebilir. İlk kelime çeşitli mesleklere, akrabalık terimlerine, milliyetçiliğe ve ikinciye - hayvan sınıflarına ve türlerine dallanmaya devam edecek.

Bilgi erişim sistemlerinin kullanımı

Corpus Dilbiliminin KapsamıÇok çeşitli faaliyet alanlarını kapsar. Vakalar sözlükleri derlemek ve düzeltmek, otomatik çeviri sistemleri oluşturmak, özetlemek, gerçekleri çıkarmak, makamı ve diğer kelime işlemlerini belirlemek için kullanılır.

korpus dilbilimi korpus türleri

Ek olarak, bu tür kaynaklar aktif olarak kullanılmaktadır.Dünya dilleri ve bir bütün olarak dilin işleyiş mekanizmaları üzerine yapılan çalışmalarda. Önceden hazırlanmış bilgilerin büyük bir kısmına erişim, dillerin gelişimi, neologizmlerin oluşumu ve istikrarlı konuşma dönüşleri, sözcüksel birimlerin değerlerinde değişiklikler vs.

Bu kadar büyük miktarda veriyle çalışmak otomasyon gerektirdiğinden, bugün bilgisayar ve korpus dilbiliminin yakın bir etkileşimi vardır.

Rus Dili Ulusal Korusu

Bu korpus (NCRF olarak kısaltılır), kaynağın çok çeşitli görevleri çözmek için kullanılmasına izin veren birkaç alt kütüphaneyi içerir.

NCRF tabanındaki malzemeler aşağıdakilere ayrılmıştır:

  • yerli ve yabancı, 90'lı ve 2000'li yılların medyasında yayınlanması üzerine;
  • konuşma kayıtları;
  • aksakolojik olarak işaretlenmiş metinler (yani, stres işaretleriyle);
  • lehçe konuşması;
  • şiirsel eserler;
  • sentaks işaretlemesi olan materyaller

Bilgi sistemi ayrıca, Rusça'dan İngilizceye, Almanca'ya, Fransızca'ya ve diğer birçok dile (ve tersi) yapılan eserlerin paralel çevirileri olan alt dersleri de içermektedir.

Ayrıca veri tabanında tarihi metinlerin bir bölümü var.Yazılı dili, gelişiminin çeşitli dönemlerinde Rusça olarak temsil eder. Yabancı dil vatandaşlarına Rus dilini öğrenmede yardımcı olabilecek bir öğrenme birimi de vardır.

Rus dilinin ulusal kurumu 400 milyon sözcük birimi içermektedir ve birçok bakımdan, Avrupa dillerinin kurucularının önemli bir bölümünün önündedir.

umutları

Bu yönü tanımak lehineumut verici bir yanı Rus üniversitelerinde ve yabancı ülkelerde korpus dilbilim laboratuarlarının varlığıdır. İncelenen bilgi arama kaynakları çerçevesinde kullanılması ve araştırılmasıyla birlikte, yüksek teknolojiler ve soru-cevap sistemleri alanındaki bazı alanların gelişimi de ilişkilidir, ancak yukarıda tartışılmıştır.

korpus dilbiliminin tarihi

Korpus dilbiliminin daha da geliştirilmesiKullanıcılar, bu tür kaynakları günlük hayatta ve işte kullanmanın daha fazla yolunu buldukça, bilgi arama ve işleme sürecini optimize eden yeni algoritmalar getirme, bilgisayar özelliklerini genişletme, RAM'i artırma ve günlük olanlarla bitirme açısından tüm seviyelerde öngörüldü .

Sonuç olarak

Geçen yüzyılın ortasında, 2017 sunulduuzay aracının evrende gezdiği ve robotların insanlar için tüm işleri yaptığı uzak bir gelecek. Gerçekte, bilim “beyaz lekeler” içinde bolca bulunur ve yüzyıllar boyunca insanlığı endişelendiren soruları cevaplamak için umutsuz girişimlerde bulunur. Buradaki dilin işleyişiyle ilgili sorular onurlu bir yer işgal ediyor. Korpus ve bilgisayar dilbilimi, onlara cevap vermemize yardımcı olabilir.

Büyük miktarda veri işlemekönceden mevcut olmayan kalıpları tespit etmek, belirli dil özelliklerinin gelişimini tahmin etmek, neredeyse gerçek zamanlı olarak kelimelerin oluşumunu izlemek

Pratik bir küresel seviyede, gövdelerÖrneğin, kamu duyarlılığını değerlendirmek için potansiyel bir araç olarak kabul edilir - İnternet, gerçek kullanıcılar tarafından oluşturulan çeşitli metinlerin sürekli güncellenen bir veritabanıdır: yorumlar ve incelemeler, makaleler ve diğer birçok konuşma şekli.

Ek olarak, muhafazalarla çalışmakGoogle’a ya da Yandex’e aşina olduğumuz, makine çevirisi, elektronik sözlükler gibi bilgi aramalarında yer alan teknik araçların geliştirilmesi.

Korpus dilbiliminin sadece ilk adımları attığını ve yakın gelecekte hızla gelişeceğini söylemek güvenlidir.

</ p>>
Devamını oku: