Программа для перевода по текстовой базе слов

NeitTan

Доброго времени суток. Суть проблемы такова: у меня есть excel файл с переводом необходимых мне слов и выражений. Выглядит как таблица в 2 столбца - слово или выражение на китайском в первом и перевод на английский во втором. (при необходимости могу перевести таблицу в текстовый формат). Так вот для моего использования необходимо чтобы программа искала и заменяла в тексте только те слова, которые указаны в файле(так сказать в личном словаре), на английский перевод из моего словаря, а остальную часть текста оставляла нетронутой. Использовать программу буду в личных целях для перевода интересующего меня текста, поэтому достаточно заменить термины из моего словаря, остальное переведет гугл переводчик. Пробовал разные синонимайзеры - но они не поддерживают китайский язык. Программами для перевода не пользовался так как сам не являюсь переводчиком. По возможности хотелось бы найти простенькую программку без лишних сложностей. С нетерпением жду ваших советов!

бкрс

У меня есть именно такая, самописная (на ruby), похоже на пословный перевод на данном сайте, успешно использую для перевод чего-то стандартного. Подобное всегда очень кастомное, сделать её распространяемой крайне накладно. Если вы не програмист, вряд ли что-то подходящее найдёте.

Но если я правильно понимаю задачу, вам подойдёт какая-нибудь переводческая система. А вашу базу преврать в её словник. Типа OmegaT, другие ищитие по "translation memory".

NeitTan

OmegaT я установил, но пока только разбираюсь. Легко создал глоссарий - этот глоссарий абсолютно точно находит слова из моего файлика. Но вот я не смог разобраться как сделать свой личный словарик для омеги =(

бкрс

разбирайтесь, это самый простой путь, всё остальное гораздо сложнее
ищите там импорт, там легко сконвертить, если что поможем

Всё определяется размером базы. Если вы хотите просто найти и заменить по небольшому списку, то написать скрипт на любом языке очень легко. Я даже могу на произвольной страничке запилить - список "слово - перевод", текст, нажал кнопку - готово. По сути это и есть словник в системе перевода.

Но когда слов становится много, становится нетривиально выбрать какие слова нужно использовать, если есть более одного варианта. И чем больше слов, тем больше становится эта проблема.

Бкрс как и есть подобная программа. У нас есть список слов (база словаря) и текст - вбиваете его в поиск, он разбивает по словам. Можно отфильтровать слова (грубо говоря, взять только первый или наиболее частый перевод) и соединить, чтобы получился текст более менее примлимый текст. Я именно это и использую в своей программке. У меня были планы сделать её доступной, но это по сути для большинства частых слова нужен дополнительный перевод. Можно опухнуть и так тут правок бесконечно.

бкрс

Программы машинного перевода - очень близки к тому, что вы хотите. Они очень помогают переводить однотипные тексты. Там не только словники, но и fuzzy match, т.е. вы не будете переводить похожие предложения дважды. Изучайте их.

Они реально помогают только когда тексты очень похожи. Иначе с ними больше мороки, чем выгоды.

Словник свой импортируйте туда и не жабтесь добавлять в БКРС. Я в своём как раз базу бкрс использую (немного модифицированную, чтобы перевод был в одно значение). Хотя у меня накопилось немало недобавленных слов, но я их всей кучей изредка добавляю в словарь.

WTiggA

2015.09.15NeitTan OmegaT я установил, но пока только разбираюсь. Легко создал глоссарий - этот глоссарий абсолютно точно находит слова из моего файлика. Но вот я не смог разобраться как сделать свой личный словарик для омеги =(

Вам нужен не глоссарий, а память перевода. Глоссарий только выводит подсказки. Память перевода (*.tmx) будет именно переводить. Поищите программу Olifant, она может создавать памяти перевода из табличных файлов, довольно проста в использовании. Потом готовый *.tmx поместите в проект омеги в поддиректорию \tm\auto

NeitTan

2015.09.15WTiggA Вам нужен не глоссарий, а память перевода. Глоссарий только выводит подсказки. Память перевода (*.tmx) будет именно переводить. Поищите программу Olifant, она может создавать памяти перевода из табличных файлов, довольно проста в использовании. Потом готовый *.tmx поместите в проект омеги в поддиректорию \tm\auto

Сделал я TMX файлик, поместил куда надо. Только вот не переводится. Я так понимаю проблема в том что у меня в файлике переводы по несколько иероглифов, а омега проверяет сразу сегментами по несколько слов или даже предложений, и потому не находит соответствия. Глоссарий-то всё подхватывает посимвольно, а вот как сделать чтобы и перевод выполнялся не целыми сегментами или чтобы заменялись совпадения в частях сегментов?

WTiggA

2015.09.15NeitTan Сделал я TMX файлик, поместил куда надо. Только вот не переводится. Я так понимаю проблема в том что у меня в файлике переводы по несколько иероглифов, а омега проверяет сразу сегментами по несколько слов или даже предложений, и потому не находит соответствия. Глоссарий-то всё подхватывает посимвольно, а вот как сделать чтобы и перевод выполнялся не целыми сегментами или чтобы заменялись совпадения в частях сегментов?

А, у вас не целые строки нужно заменять, а только их часть... Тогда, пожалуй, пора изучать Ruby :-) Не слышал о подобных готовых программах.

NeitTan

Практически в любом текстовом редакторе есть функция "найти и заменить" по всему тексту. Это базовая процедура. Неужели нет ни одной простенькой программки которая точно так же будет выполнять процедуру поиска и замены, только поочередно. Как это делается я представляю. Заполняется массив Nx2 из файла-словарика, в каждой строке массива слово и замена, а дальше цикл от 1 до N заменяем во всем текстовом файле сперва совпадающие с первой парой, затем 2й, и так до конца файла-словарика. Только вот языком подходящим не владею, тем более там нужна поддержка UTF-8.

бкрс

2015.09.15WTiggA Глоссарий только выводит подсказки.

Лень устанавливать, но мне запомнилось, что это найти и заменить. Я как раз думал стоит ли попробовать всю бкрс базу импотировать. Это уже потом пришёл при к своему решению, когда понял, что это технически неоправдано.