Приветствую.
Есть интерес заняться выравниваем параллельных текстов. За основу будут браться переводы ГОСТов, мультиязычные мануалы, двуязычный учебный материал и примеры из узкоспециализированных словарей. В будущем возможен перенос готовых TMX в примеры BKRS и дообучение языковой модели LLaMA под свои нужды.
Существующие проблемы на данный момент:
- Поиск материала (ГОСТы не всегда свободном доступе, мануалы сложно найти)
- Оцифровка материалов (то, что на бумаге нужно оцифровать и распознать)
- Выравнивание текстов (форматирование содержимого ГОСТов на разных языках может отличаться, переводами ГОСТов с английского на китайский и русский могут быть издания разных лет)
Прошу отписаться кому интересно.
Есть интерес заняться выравниваем параллельных текстов. За основу будут браться переводы ГОСТов, мультиязычные мануалы, двуязычный учебный материал и примеры из узкоспециализированных словарей. В будущем возможен перенос готовых TMX в примеры BKRS и дообучение языковой модели LLaMA под свои нужды.
Существующие проблемы на данный момент:
- Поиск материала (ГОСТы не всегда свободном доступе, мануалы сложно найти)
- Оцифровка материалов (то, что на бумаге нужно оцифровать и распознать)
- Выравнивание текстов (форматирование содержимого ГОСТов на разных языках может отличаться, переводами ГОСТов с английского на китайский и русский могут быть издания разных лет)
Прошу отписаться кому интересно.
Китаец всегда вас понимает, но вы никогда не знаете, правильно или нет