Абнавіўся Беларускі N-корпус

Выйшаў новы рэліз Беларускага N-корпусу (20160810). У параўнанні з папярэдняй версіяй (~15 млн. словаўжыванняў, 1945 тэкстаў), аб’ём корпусу вырас на ~65 млн. словаўжыванняў і на сённяшні дзень складае каля 80 млн. словаўжыванняў і 185 097 тэкстаў.

Асноўны корпус дазваляе рабіць пошук па аўтарах, гадах (часткова), жанрах (часткова), граматычных прыкметах, пачатковых і ўскосных формах. Усе параметры пошуку можна камбінаваць. Пошук слоў і іх формаў ажыццяўляецца на падставе правапісаў 1957 і 2008 гг., іншыя правапісы пакуль не ўлічваюцца (у распрацоўцы), але ёсць магчымасць шукаць кожную асобную форму: напрыклад, нельга знайсці слова "сьнег" з усімі словаформамі, але можна шукаць асобна словаформы "сьнегам", "сьнезе" і г.д.

Дадаткова размешчаны падкорпус неапрацаваных тэкстаў, які ўяўляе сабой збор тэкстаў, што былі распазнаныя ў аўтаматычным рэжыме і не прайшлі вычытку (ёсць праблемы з пераносамі, падзелам на сказы, абзацы і інш.). Падкорпус дазваляе шукаць слова і словаформы, але не мае паўнавартаснай метаразметкі (аўтар, твор, год напісання). Крыніцу тэксту можна паглядзець па спасылцы, якая падаецца пры разгортванні сказа. Аб’ём падкорпусу складае ~174 млн. словаўжыванняў.

Істотна абноўлена Лексіка-граматычная база, даступная на ўмовах ліцэнзіі CC-BY-SA 4.0. Аб’ём базы складае 124417 парадыгмаў 1840835 формаў. Лексіка-граматычнай базай можна карыстацца ў анлайн-рэжыме. Дазваляецца выбарка па граматычных прыкметах, па частках слова, па леме (пачатковай форме). Выбраны спіс слоў можна адсартаваць у адваротным парадку.

Для спампоўвання даступны праграмы праверкі арфаграфіі для LibreOffice(абноўлена), Firefox/Thunderbird (абноўлена) і Microsoft Office 2007/2010/2013/2016 (абнаўленне будзе неўзабаве), а таксама рухавік корпусу (на ўмовах ліцензіі GNU General Public License, Version 3).

Вітаецца любая дапамога: прапановы і крытычныя заўвагі, вычытаныя тэксты (з выходнымі звесткамі), дапамога ў зняцці аманіміі і інш.

Калі вы карыстаецеся базай ці корпусам для стварэньня іншых прадуктаў, кантактуйце, калі ласка, з аўтарамі, якія могуць даць парады і, магчыма, падзяліцца напрацоўкамі, што пакуль не ўвайшлі ў канчатковы варыянт базы і корпусу.

Па пытаннях дапамогі і супрацоўніцтва звяртайцеся па адрасе bnkorpus@gmail.com

ДАВЕДКА

Корпус - апрацаваны паводле пэўных правілаў збор тэкстаў у электроннай форме, які можа выкарыстоўвацца як у якасці базы для даследавання мовы, так і ў іншых сферах, што патрабуюць аналізу тэксту.

Лексіка-граматычная база - збор слоў з іх формамі (напр., склон, род. лік і пад.), пры якіх падаюцца граматычныя і іншыя паметы (правапіс, крыніца слова, семантыка і г.д.).

Корпусы і граматычныя базы шырока выкарыстоўваюцца ў такіх сферах, як:

Мовазнаўства і сумежныя дысцыпліны

-   стварэнне электронных (і таксама папяровых) слоўнікаў, анталогій, тэзаўрусаў, якія ў сваю чаргу выкарыстоўваюцца для распрацоўкі далейшых праграмных сродкаў (праграмы праверкі арфаграфіі, перакладу і г.д). Вядучыя выдавецтвы свету ствараюць лексікаграфічныя рэсурсы выключна на падставе корпусаў. Немагчыма ўкласці слоўнік ці граматыку, якія адпавядалі б сучасным стандартам, без выкарыстання корпусу;
-   у навукова-даследчай рабоце пры распрацоўцы складаных тэарэтычных пытанняў лексікалогіі, лексікаграфіі, пры правядзенні навуковых даследаванняў тэксту і яго рознаўзроўневага моўнага аналізу (статыстычнага, марфалагічнага, стылістычнага, семантычнага і г.д.);
-   пры аўтаматычным перакладзе тэкстаў. Прыкладам перакладчыка на аснове корпусаў з’яўляецца Google Translate;
-   пры навучанні матэматычных мадэлей для стварэння праграм, якія могуць апрацоўваць тэксты (рабіць марфалагічны, сінтаксічны, семантычны аналіз і інш.) і вымаць з іх факты (напрыклад, праграмы пошуку, праграмы выдзялення ключавых слоў і г.д.);
-   пры аўтаматычнай апрацоўцы тэкстаў і выманні фактаў (напрыклад, пошукавыя сістэмы);
-   пры аўтаматычным распазнаванні маўлення;
-   пры аўтаматычным сінтэзе маўлення;
-   пры стварэнні праграм праверкі арфаграфіі.

Сфера адукацыі:

-   пры падборы прыкладаў да заданняў, пры праверцы слоў на прадмет іх адпаведнасці нормам беларускай мовы, пры ўкладанні падручнікаў і вучэбных дапаможнікаў;
-   пры вывучэнні беларускай мовы як замежнай і як другой мовы для беларусаў;
-   пры напісанні курсавых, дыпломных, кандыдацкіх прац па лінгвістыцы, літаратуразнаўстве і г.д.

Выдавецкая дзейнасць:

Звесткі корпусаў шырока выкарыстоўваюцца ў рэдактарскай рабоце пры вырашэнні пытанняў узусу: пры праверцы ўжывальнасці таго ці іншага слова, граматычнай канструкцыі і г.д.

Корпус можа таксама выкарыстоўвацца як энцыклапедычны даведнік. Паколькі ў корпус уваходзяць не толькі мастацкія тэксты, але энцыклапедычныя і навуковыя, карыстальнік можа атрымаць поўную інфармацыю пра пэўную лексему.

Глядзіце таксама