Компанія Grammarly презентувала другу версію GEC-корпусу української мови

Компанія Grammarly опублікувала у вільному доступі другу версію анотованого GEC-корпусу української мови, що містить майже 34 000 речень.Зазначається, що команда Grammarly запустила волонтерський проєкт зі створення цього набору даних у серпні 2020 року.

Першу версію корпусу UA-GEC, яка містила близько 20 000 речень, опублікували у відкритому доступі у січні 2021 року та відтоді працювали над його розширенням та покращенням. Другу версію вже можна вільно завантажити на платформі GitHub.

GEC-корпус (GEC — grammatical error correction) — це сукупність текстів, авторами яких може стати кожен. Grammarly перевіряє ці тексти на наявність граматичних, стилістичних чи орфографічних помилок та викладає отримані дані у відкритий доступ. Після цього їх можна використати для тренування та оцінки програм виправлення граматичних помилок. Корпус використовують для наукового та практичного вивчення мови.

Чому це важливо?

Тоді як для англійської мови є чимало анотованих GEC-корпусів, історично для багатьох мов, зокрема і для української, таких даних у публічному доступі не було. Команда Grammarly поставила за мету створити такий ресурс для української мови та зробити його доступним науковій спільноті.

GEC-корпус може бути корисним для досліджень у сфері обробки природної мови, а також тренування та покращення моделей машинного навчання. Що більше даних у корпусі, то краще працюють моделі на його основі. Для порівняння: GEC-корпус німецької мови нараховує 25 тис. речень, чеської — близько 47 тис. речень, а англійської —  1 млн 167 тис. речень. Корпус UA-GEC 2.0 містить 33 735 речень.

Чим відрізняється версія UA-GEC 2.0 від попередньої?

  • Збільшився розмір корпусу — до майже 34 000 речень;
  • Додали більш деталізовану класифікацію помилок (зокрема розділили категорії «граматика» і «стиль» на ще 13 і 5 підкатегорій відповідно);
  • Завантажили корпус у двох варіантах — тепер його можна використовувати у двох різних завданнях: виправленні тільки граматики і виправленні граматики та стилю.

Grammarly подякували всім волонтерам (а це понад 800 людей), які долучилися до збору текстів, та сподівається, що корпус UA-GEC буде корисним українським та міжнародним науковим спільнотам, які займаються обробкою природної мови, а також сприятиме практичному дослідженню української мови і покращенню інструментів для роботи з нею.

Про Grammarly

Grammarly — українська онлайн-платформа на основі штучного інтелекту для допомоги у спілкуванні англійською мовою, запущена 2009 року. Grammarly підвищує якість письмового спілкування, пропонуючи рекомендації щодо правильності (граматика та механіки письма), чіткості (стислість та зрозумілість), захопливості (словниковий запас та розмаїття) та тону повідомлення (формальність, ввічливість і впевненість). Має представництва у Києві, Сан-Франциско, Нью-Йорку та Ванкувері.

ДЖЕРЕЛО: https://shotam.info/kompaniia-grammarly-prezentuvala-druhu-versiiu-gec-korpusu-ukrainskoi-movy/
2

Автор публікації

Офлайн 1 день

anka

151
Коментарі: 0Публікації: 58Реєстрація: 20-11-2021

You may also like...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Авторизація
*
*
Реєстрація
*
*
*
Генерація паролю