Выйшаў новы рэліз Беларускага N-корпусу (20160810). У параўнанні з папярэдняй версіяй (~15 млн. словаўжыванняў, 1945 тэкстаў), аб’ём корпусу вырас на ~65 млн. словаўжыванняў і на сённяшні дзень складае каля 80 млн. словаўжыванняў і 185 097 тэкстаў.
Асноўны корпус дазваляе рабіць пошук па аўтарах, гадах (часткова), жанрах (часткова), граматычных прыкметах, пачатковых і ўскосных формах. Усе параметры пошуку можна камбінаваць. Пошук слоў і іх формаў ажыццяўляецца на падставе правапісаў 1957 і 2008 гг., іншыя правапісы пакуль не ўлічваюцца (у распрацоўцы), але ёсць магчымасць шукаць кожную асобную форму: напрыклад, нельга знайсці слова "сьнег" з усімі словаформамі, але можна шукаць асобна словаформы "сьнегам", "сьнезе" і г.д.
Дадаткова размешчаны падкорпус неапрацаваных тэкстаў, які ўяўляе сабой збор тэкстаў, што былі распазнаныя ў аўтаматычным рэжыме і не прайшлі вычытку (ёсць праблемы з пераносамі, падзелам на сказы, абзацы і інш.). Падкорпус дазваляе шукаць слова і словаформы, але не мае паўнавартаснай метаразметкі (аўтар, твор, год напісання). Крыніцу тэксту можна паглядзець па спасылцы, якая падаецца пры разгортванні сказа. Аб’ём падкорпусу складае ~174 млн. словаўжыванняў.
Істотна абноўлена Лексіка-граматычная база, даступная на ўмовах ліцэнзіі CC-BY-SA 4.0. Аб’ём базы складае 124417 парадыгмаў 1840835 формаў. Лексіка-граматычнай базай можна карыстацца ў анлайн-рэжыме. Дазваляецца выбарка па граматычных прыкметах, па частках слова, па леме (пачатковай форме). Выбраны спіс слоў можна адсартаваць у адваротным парадку.
Для спампоўвання даступны праграмы праверкі арфаграфіі для LibreOffice(абноўлена), Firefox/Thunderbird (абноўлена) і Microsoft Office 2007/2010/2013/2016 (абнаўленне будзе неўзабаве), а таксама рухавік корпусу (на ўмовах ліцензіі GNU General Public License, Version 3).
Вітаецца любая дапамога: прапановы і крытычныя заўвагі, вычытаныя тэксты (з выходнымі звесткамі), дапамога ў зняцці аманіміі і інш.
Калі вы карыстаецеся базай ці корпусам для стварэньня іншых прадуктаў, кантактуйце, калі ласка, з аўтарамі, якія могуць даць парады і, магчыма, падзяліцца напрацоўкамі, што пакуль не ўвайшлі ў канчатковы варыянт базы і корпусу.
Па пытаннях дапамогі і супрацоўніцтва звяртайцеся па адрасе bnkorpus@gmail.com
ДАВЕДКА
Корпус - апрацаваны паводле пэўных правілаў збор тэкстаў у электроннай форме, які можа выкарыстоўвацца як у якасці базы для даследавання мовы, так і ў іншых сферах, што патрабуюць аналізу тэксту.
Лексіка-граматычная база - збор слоў з іх формамі (напр., склон, род. лік і пад.), пры якіх падаюцца граматычныя і іншыя паметы (правапіс, крыніца слова, семантыка і г.д.).
Корпусы і граматычныя базы шырока выкарыстоўваюцца ў такіх сферах, як:
Мовазнаўства і сумежныя дысцыпліны
- стварэнне электронных (і таксама папяровых) слоўнікаў, анталогій, тэзаўрусаў, якія ў сваю чаргу выкарыстоўваюцца для распрацоўкі далейшых праграмных сродкаў (праграмы праверкі арфаграфіі, перакладу і г.д). Вядучыя выдавецтвы свету ствараюць лексікаграфічныя рэсурсы выключна на падставе корпусаў. Немагчыма ўкласці слоўнік ці граматыку, якія адпавядалі б сучасным стандартам, без выкарыстання корпусу;
- у навукова-даследчай рабоце пры распрацоўцы складаных тэарэтычных пытанняў лексікалогіі, лексікаграфіі, пры правядзенні навуковых даследаванняў тэксту і яго рознаўзроўневага моўнага аналізу (статыстычнага, марфалагічнага, стылістычнага, семантычнага і г.д.);
- пры аўтаматычным перакладзе тэкстаў. Прыкладам перакладчыка на аснове корпусаў з’яўляецца Google Translate;
- пры навучанні матэматычных мадэлей для стварэння праграм, якія могуць апрацоўваць тэксты (рабіць марфалагічны, сінтаксічны, семантычны аналіз і інш.) і вымаць з іх факты (напрыклад, праграмы пошуку, праграмы выдзялення ключавых слоў і г.д.);
- пры аўтаматычнай апрацоўцы тэкстаў і выманні фактаў (напрыклад, пошукавыя сістэмы);
- пры аўтаматычным распазнаванні маўлення;
- пры аўтаматычным сінтэзе маўлення;
- пры стварэнні праграм праверкі арфаграфіі.
Сфера адукацыі:
- пры падборы прыкладаў да заданняў, пры праверцы слоў на прадмет іх адпаведнасці нормам беларускай мовы, пры ўкладанні падручнікаў і вучэбных дапаможнікаў;
- пры вывучэнні беларускай мовы як замежнай і як другой мовы для беларусаў;
- пры напісанні курсавых, дыпломных, кандыдацкіх прац па лінгвістыцы, літаратуразнаўстве і г.д.
Выдавецкая дзейнасць:
Звесткі корпусаў шырока выкарыстоўваюцца ў рэдактарскай рабоце пры вырашэнні пытанняў узусу: пры праверцы ўжывальнасці таго ці іншага слова, граматычнай канструкцыі і г.д.
Корпус можа таксама выкарыстоўвацца як энцыклапедычны даведнік. Паколькі ў корпус уваходзяць не толькі мастацкія тэксты, але энцыклапедычныя і навуковыя, карыстальнік можа атрымаць поўную інфармацыю пра пэўную лексему.