Программа для конвертации упрощенных иероглифов в традиционные

Лёлят

Да, я этим словарём и пользуюсь. Есть dsl-файл с толковым китайским словарём, но он весь составлен традиционными иероглифами. Надо перевести в упрощённые. Вчера попробовал этот файл разбить на 7 файлов. Ворд всё же переработал один из них (35Мб получилась эта 1/7-я), около получаса. Затем переименовал обратно txt в dsl и поменял кодировку (не помню уже на какую), и этот кусок словаря заработал, с упрощёнными.

Прошу прощения, ошибся, запостил в тему с обратным направлением! Нужно было наоборот, из традиционных в упрощённые

Arhaluk

Лёлят, мб попробовать поэкспериментировать с файлом, как описано здесь

бкрс

2018.11.29Лёлят Чтобы применить даже простенький код, надо хотя бы основы этого языка выучить. А также скачать его и установить на компьютер (и к тому же сделать это правильно, взяв правильную версию и т.п.). Спасибо, но поищу пока что другие способы.

Подобные задачи как решаются таким образом, скриптовыми языками. Даже код знать не нужно, достаточно понимать как его запускать (также, как и любая другая программа). Вопрос должен быть "подскажите скрипт конвертации на питоне/руби/пхп", такие простые любой с удовольствием найдёт/сделает, т.к. это пара строчек кода.
Запуск подобного элементарен.

Вот мой традиционные в упрощённые: http://bkrs.info/downloads/scripts/trad_to_simp.py
Установить питон, положить рядом data.txt с текстом, запустить скрипт - готово.
Если файл большой, может немного пожужжать, должен с любым размером справиться.

Рейхсканцлер

2018.11.29бкрс Подобные задачи как решаются таким образом, скриптовыми языками. Даже код знать не нужно, достаточно понимать как его запускать (также, как и любая другая программа). Вопрос должен быть "подскажите скрипт конвертации на питоне/руби/пхп", такие простые любой с удовольствием найдёт/сделает, т.к. это пара строчек кода.
Запуск подобного элементарен.

Вот мой традиционные в упрощённые: http://bkrs.info/downloads/scripts/trad_to_simp.py
Установить питон, положить рядом data.txt с текстом, запустить скрипт - готово.
Если файл большой, может немного пожужжать, должен с любым размером справиться.

Для больших файлов "жужжит" много. Книжка в текстовом виде на 10 мегов конвертируется более минуты.

Но если в конце скрипта часть кода

Код:

counter = 0

for fanti, jianti in hanzi.items():

text = text.replace(fanti, jianti)

counter = counter + 1

print(str(counter))

заменить на

Код:

text=text.translate(str.maketrans(''.join(hanzi.keys()),''.join(hanzi.values())))

то будет примерно в 100 раз шустрее.

djden2008

Может чего-то еще появилось, что можете посоветовать? У меня задача-конвертрнуть 繁体字 в 简体字 в рамках большого файла pdf с картинками и прочей лабудой. Если бы было что-то типа традоса, который сам файл расчехляет, потом ты его переводишь, а результат традос упаковывает в те же одежды, в которых файл был изначально, то было 好.

Рейхсканцлер

2018.12.06djden2008 Может чего-то еще появилось, что можете посоветовать? У меня задача-конвертрнуть 繁体字 в 简体字 в рамках большого файла pdf с картинками и прочей лабудой. Если бы было что-то типа традоса, который сам файл расчехляет, потом ты его переводишь, а результат традос упаковывает в те же одежды, в которых файл был изначально, то было 好.

Если текстового слоя в pdf нет, то дело плохо.

Если текстовый слой есть, то чуть получше. Но и тут есть проблемы: многообразие тех символов, которые может показать конкретный pdf файл, ограничено списком интегрированных в него шрифтов. То есть, даже если состряпать утилиту, которая умеет в pdf делать replace конкретных символов (для этого есть пара модулей под python), без интеграции в тот же pdf дополнительного 简体字-шрифта ничего не прокатит, замененные символы не отобразятся.

Пока мне пришло в голову только такое решение: сконвертить pdf в docx (стандартными средствами adobe), а затем в полученном документе сделать макрос на Visual Basic, который делает нужный replace, а затем сформировать опять pdf. Как вариант - открыть docx в OpenOffice и сделать макрос замены на python (OpenOffice вроде как уже поддерживает python), а нужный код на python был приведен bkrs.

djden2008

2018.12.06Рейхсканцлер Если текстового слоя в pdf нет, то дело плохо.

Текстовый слой отчасти есть. Если можно было бы сконвертить хотя бы его, жизнь была бы легче. В китайском интернете нашел способ. В китайском ворде во вкладке "Рецензирование" можно выбрать функцию, которая делает иероглифы 简体. Но worda китайского нет, а со скачиванием из китайского интернета всего что угодно, у меня всегда были проблемы))

Еще на старом ворде (уже и не припомню, какая была версия) у меня были шрифты, при выборе которых иероглифы становились простыми или же наоборот сложными. Но сейчас уже не помню даже названия тех шрифтов.

Рейхсканцлер

2018.12.06djden2008 Текстовый слой отчасти есть. Если можно было бы сконвертить хотя бы его, жизнь была бы легче. В китайском интернете нашел способ. В китайском ворде во вкладке "Рецензирование" можно выбрать функцию, которая делает иероглифы 简体. Но worda китайского нет, а со скачиванием из китайского интернета всего что угодно, у меня всегда были проблемы))

Еще на старом ворде (уже и не припомню, какая была версия) у меня были шрифты, при выборе которых иероглифы становились простыми или же наоборот сложными. Но сейчас уже не помню даже названия тех шрифтов.

Есть пример пары страниц в pdf?

Рейхсканцлер

djden2008

Короче, пока найденное решение такое
1) Ставите LibreOffice (отсюда https://ru.libreoffice.org/download/)
2) Открываете LibreOffice -> Word и подключаете в нем поддержку азиатских языков
Сервис - Параметры - Настройки языка - Языки.
3) Открываете в нем сразу pdf файл (без промежуточных конвертаций) и через Сервис - Язык - Преобразование для китайского языка меняете что надо
4) Сохраняете результат обратно в pdf через экспорт в PDF

Картинки, скорее всего, немного поедут. Но пока более грамотных способов не знаю.

djden2008

2018.12.06Рейхсканцлер djden2008

Короче, пока найденное решение такое
1) Ставите LibreOffice (отсюда https://ru.libreoffice.org/download/)
2) Открываете LibreOffice -> Word и подключаете в нем поддержку азиатских языков
Сервис - Параметры - Настройки языка - Языки.
3) Открываете в нем сразу pdf файл (без промежуточных конвертаций) и через Сервис - Язык - Преобразование для китайского языка меняете что надо
4) Сохраняете результат обратно в pdf через экспорт в PDF

Картинки, скорее всего, немного поедут. Но пока более грамотных способов не знаю.

Спасибо большое, как раз сейчас пробую Ваш способ.