Ученые из Санкт-Петербургского филиала РАН (СПб ФИЦ РАН) соз...
Ученые из Санкт-Петербургского филиала РАН (СПб ФИЦ РАН) создали первую в России нейросеть для распознавания карельского языка, пишет «НеМосква». Она упростит работу переводчиков и поможет лингвистам собирать аудиоархивы устной речи карелов.
Кроме нашей системы, в мире есть лишь одна модель, поддерживающая карельский язык. ее обучение базировалось на очень небольшом объеме данных, что существенно снижает точность распознавания именно карельской речи,
— объяснила одна из создателей программы Ирина Кипяткова.
Обучали нейросеть по материалам карельских СМИ и по текстам на ливвиковском наречии из открытого корпуса вепсского и карельского языков. Ливвиковское наречие — самое популярное из трех основных в карельском языке. На нем говорят коренные жители Олонецкой Карелии и Приладожья.
Всего карельский язык знают около 30 тысяч человек по всему миру, около 25 тысяч из них живут в России. Ежедневно карельский язык используют до 7 тысяч человек. Это очень мало — карельский язык находится под угрозой исчезновения.
Ситуацию ухудшает то, что он — единственный язык титульного этноса республики в составе России без статуса государственного: государственным языкам запрещено иметь письменность на латинице, а в карельском языке используется именно латинское письмо.
Изучение карельского языка имеет огромное значение не только для сохранения культурного наследия, но и для поддержки языковой традиции его носителей. Создание системы распознавания карельской речи — один из способов если не возродить, то хотя бы задокументировать этот язык, — отметила Ирина Кипяткова.
Похожие каналы
