1
Приветствую.

Есть интерес заняться выравниваем параллельных текстов. За основу будут браться переводы ГОСТов, мультиязычные мануалы, двуязычный учебный материал и примеры из узкоспециализированных словарей. В будущем возможен перенос готовых TMX в примеры BKRS и дообучение языковой модели LLaMA под свои нужды.

Существующие проблемы на данный момент:
- Поиск материала (ГОСТы не всегда свободном доступе, мануалы сложно найти)
- Оцифровка материалов (то, что на бумаге нужно оцифровать и распознать)
- Выравнивание текстов (форматирование содержимого ГОСТов на разных языках может отличаться, переводами ГОСТов с английского на китайский и русский могут быть издания разных лет)

Прошу отписаться кому интересно.
Китаец всегда вас понимает, но вы никогда не знаете, правильно или нет
2023.06.18
ЛС Ответить