Программа для конвертации упрощенных иероглифов в традиционные

Рейхсканцлер

djden2008

Короче, пока найденное решение такое
1) Ставите LibreOffice (отсюда https://ru.libreoffice.org/download/)
2) Открываете LibreOffice -> Word и подключаете в нем поддержку азиатских языков
Сервис - Параметры - Настройки языка - Языки.
3) Открываете в нем сразу pdf файл (без промежуточных конвертаций) и через Сервис - Язык - Преобразование для китайского языка меняете что надо
4) Сохраняете результат обратно в pdf через экспорт в PDF

Картинки, скорее всего, немного поедут. Но пока более грамотных способов не знаю.

Рейхсканцлер

>>>

2018.12.06djden2008 Текстовый слой отчасти есть. Если можно было бы сконвертить хотя бы его, жизнь была бы легче. В китайском интернете нашел способ. В китайском ворде во вкладке "Рецензирование" можно выбрать функцию, которая делает иероглифы 简体. Но worda китайского нет, а со скачиванием из китайского интернета всего что угодно, у меня всегда были проблемы))

Еще на старом ворде (уже и не припомню, какая была версия) у меня были шрифты, при выборе которых иероглифы становились простыми или же наоборот сложными. Но сейчас уже не помню даже названия тех шрифтов.

Есть пример пары страниц в pdf?

Рейхсканцлер

>>>

2018.12.06djden2008 Может чего-то еще появилось, что можете посоветовать? У меня задача-конвертрнуть 繁体字 в 简体字 в рамках большого файла pdf с картинками и прочей лабудой. Если бы было что-то типа традоса, который сам файл расчехляет, потом ты его переводишь, а результат традос упаковывает в те же одежды, в которых файл был изначально, то было 好.

Если текстового слоя в pdf нет, то дело плохо.

Если текстовый слой есть, то чуть получше. Но и тут есть проблемы: многообразие тех символов, которые может показать конкретный pdf файл, ограничено списком интегрированных в него шрифтов. То есть, даже если состряпать утилиту, которая умеет в pdf делать replace конкретных символов (для этого есть пара модулей под python), без интеграции в тот же pdf дополнительного 简体字-шрифта ничего не прокатит, замененные символы не отобразятся.

Пока мне пришло в голову только такое решение: сконвертить pdf в docx (стандартными средствами adobe), а затем в полученном документе сделать макрос на Visual Basic, который делает нужный replace, а затем сформировать опять pdf. Как вариант - открыть docx в OpenOffice и сделать макрос замены на python (OpenOffice вроде как уже поддерживает python), а нужный код на python был приведен bkrs.

Рейхсканцлер

>>>

2018.11.29бкрс Подобные задачи как решаются таким образом, скриптовыми языками. Даже код знать не нужно, достаточно понимать как его запускать (также, как и любая другая программа). Вопрос должен быть "подскажите скрипт конвертации на питоне/руби/пхп", такие простые любой с удовольствием найдёт/сделает, т.к. это пара строчек кода.
Запуск подобного элементарен.

Вот мой традиционные в упрощённые: http://bkrs.info/downloads/scripts/trad_to_simp.py
Установить питон, положить рядом data.txt с текстом, запустить скрипт - готово.
Если файл большой, может немного пожужжать, должен с любым размером справиться.

Для больших файлов "жужжит" много. Книжка в текстовом виде на 10 мегов конвертируется более минуты.

Но если в конце скрипта часть кода

Код:

counter = 0

for fanti, jianti in hanzi.items():

text = text.replace(fanti, jianti)

counter = counter + 1

print(str(counter))

заменить на

Код:

text=text.translate(str.maketrans(''.join(hanzi.keys()),''.join(hanzi.values())))

то будет примерно в 100 раз шустрее.