А ещё по ходу обсуждения хочу спросить. Кто-нибудь может дать ссылку на инcтрукцию, как и чем из имеющихся сканов книги сделать словарь mdd? И есть ли у кого такой опыт?
Сат Абхава, базовая инструкция есть тут. Если вы умеете пользоваться HTML (и CSS), то в общем, сами поймёте. Если, как я, вы не совсем в этом разбираетесь, то проще использовать т.н. метод reverse engineering. Возьмите уже готовый код, и подстройте под нужный вам словарь. Для этого надо этот код извлечь (см. вышеупомянутый скрипт), создать папку (назовите, как хотите, скажем, data), поместить там сканы страниц, и дальше уже редактировать файл. Базовые элементы (на примере файла 古辭辯 - вот) будут выглядеть так (если не хотите, ссылку на пред./след. страницы можете не ставить):
Сами страницы:
Код:
</>
GCBZ0001
<img src="/0001.jpg" width=100%><br><br><center><a href="entry://GCBZ1100">上一葉</a> <a href="entry://GCBZ0002">下一葉</a>
</>
GCBZ0002
<img src="/0002.jpg" width=100%><br><br><center><a href="entry://GCBZ0001">上一葉</a> <a href="entry://GCBZ0003">下一葉</a>
</>
Прямые ссылки на страницы (чтобы не дублировать файл каждый раз):
Код:
</>
【宵、夜】
@@@LINK=GCBZ0001
</>
Ссылки с отдельных иероглифов (косвенная ссылка, если хотите: 宵->【宵、夜】->GCBZ0001):
Код:
</>
宵
@@@LINK=【宵、夜】
</>
После того, как закончили работать с файлом, скачайте MDXBuilder. Там в source выбираете вышеупомянутый текстовой файл с кодом, в target - выберите папку, где хотите создать файл, и напишите имя файла (напр. C:\example.mdx), в data - выберите папку со сканами. Нажмите start - и готово.
Разумеется, это много возни (хотя, возможно, если вы умеете как-то автоматизировать процесс создания ссылок, будет проще, но это не ко мне - может кто-то другой знает), и я это гиблое дело бросил - но если вам это принципиально важно - то такой метод работает, даже если это не совсем элегантно.
Hongweibing, Спасибо огромное за такой подробный ответ! В HTML и CSS разбираюсь, если потребуется, то могу и поскриптовать в JavaScript для автоматизации процессов. Так что, думаю, задачу осилю.
2023.04.06 Hongweibing Разумеется, это много возни (хотя, возможно, если вы умеете как-то автоматизировать процесс создания ссылок, будет проще, но это не ко мне - может кто-то другой знает), и я это гиблое дело бросил - но если вам это принципиально важно - то такой метод работает, даже если это не совсем элегантно.
"Бешеной собаке сто вёрст - не круг!" (с)
С Вашей подачи приступил к редактированию уже имеющихся MDic словарей, чтобы добавить в них индекс поиска по традиционной иероглифике (заметил, что для многих словарей это проблема, а для меня традиционные иероглифы - это не для понтов, а жизненная необходимость  ). Сейчас идёт накатка методы, дальше пойдёт, как нож в масло. Помнится, 20 лет назад произвести адекватный перевод из упрощенной иероглифики в традиционную было целым искусством. Сколько скриптов на эту тему понаписывал! А сейчас... при каждом затруднительном скрипте можно попросить помощи у GPT! Это же Эльдорадо, Карл!!!
Сат Абхава, ясно, удачи с этим, "безумству храбрых поём мы песню" и всё такое 
Если всё получится (и если захотите) - выкладывайте индексы тут, уверен, могут пригодиться (впрочем, с поиском разобраться ещё можно, но мне больше мешают, например, древнекитайские тексты, которые издают на упрощённых иероглифах, и где со всеми вариантами ещё понять надо, с какого же иероглифа они упрощали. А когда попадаются издания с конца 70-х до конца 80-х - использовавшие упрощённые иероглифы, которые потом отменили - это вообще ужас. Впрочем, это уже лирическое отступление). Надеюсь, заграница ChatGPT вам поможет, я такие махинации там не пробовал делать (только задал ему несколько вопросов из 天問 и разочаровался, ибо он не сумел ни разу распознать источник. Зато он попытался на них ответить. Кстати, на вопрос 吾安得忘言之人而與之言哉?из Чжуан-цзы он по существу не ответил, а жаль).
2023.04.07 Hongweibing  Сат Абхава, ясно, удачи с этим, "безумству храбрых поём мы песню" и всё такое 
Если всё получится (и если захотите) - выкладывайте индексы тут, уверен, могут пригодиться (впрочем, с поиском разобраться ещё можно, но мне больше мешают, например, древнекитайские тексты, которые издают на упрощённых иероглифах, и где со всеми вариантами ещё понять надо, с какого же иероглифа они упрощали. А когда попадаются издания с конца 70-х до конца 80-х - использовавшие упрощённые иероглифы, которые потом отменили - это вообще ужас. Впрочем, это уже лирическое отступление).
Вэньянь на упрощенных - это просто издевательство над психикой!  Я стараюсь избегать подобных процедур, благо, что любой текст вполне можно найти в полноиероглифическом воплощении.
2023.04.07 Hongweibing Надеюсь, заграница ChatGPT вам поможет, я такие махинации там не пробовал делать (только задал ему несколько вопросов из 天問 и разочаровался, ибо он не сумел ни разу распознать источник. Зато он попытался на них ответить. Кстати, на вопрос 吾安得忘言之人而與之言哉?из Чжуан-цзы он по существу не ответил, а жаль).
Вы, конечно, замахнулись с подобными вопросами к ChatGPT!  Я пока использую его лишь как справочник по программированию - проще спросить, чем интернет в поисках бороздить, и еще с запросами помощи в нахождении ошибок в программном коде - с этим он справляется неплохо!
Кстати, а какой ответ Вы ожидали услышать от ChatGPT на изречение из Чжуан-цзы? С таким же успехом, наверное, его можно спросить: To be, or not to be, that is the question:...
Сат Абхава, текст-то найти можно, тем более если этот текст канонический, с одной общепринятой версией. Но если это не так, то даже если можно найти каждую из версий в 正體字, это ещё не значит, что можно найти более-менее современное хорошее научное издание. Иногда бывает, что лучшее издание в плане организации текста, комментариев и пр., использует именно упрощённые иероглифы. Конечно, в оптимальном варианте, хотелось бы иметь и хорошее издание, и чтобы оно было на 正體字, но это не повод отказываться от хорошего издания с упрощёнными иероглифами (как говорится у Мэн-цзы, 魚,我所欲也;熊掌,亦我所欲也,二者不可得兼,舍魚而取熊掌者也), но тогда и начинается "хождение по мукам." Впрочем это так, к слову.
Что касается ChatGPT, то я-то ничего не ждал - хотя я надеялся, что он мне ответит полностью на вэньяне, что, увы, не сбылось. Помимо любопытства, касаемо возможностей ИИ в целом, тут преследуются две разные цели:
1) Понять компетенцию сего ИИ касаемо текстов на древнекитайском. В положительном ключе - он мог бы (в идеале) помочь найти скрытые цитаты и отсылки к другим текстам - это он сейчас не умеет от слова "совсем." Да чего там - он и вполне очевидные цитаты не может распознать. Конкретно вопрос из Чжуан-цзы он решил, что исходит из 登高 Ду Фу (это не так)) - зато он сочинил якобы это стихотворение (на вэньяне) на основе того вопроса, приписал его Ду Фу (там есть небольшая часть из настоящего 登高), перевёл его на байхуа, и объяснил, почему Ду Фу хотел поговорить с человеком, забывшим слова.
Это приводит нас к потенциальным негативным методам использования ИИ - подделки древних текстов. Собственно, как вам известно, за последние лет 30 появилось множество "новых" древних текстов. Часть была найдена археологами в древних захоронениях, и там всё ясно. Но часть была куплена, и как правило, не совсем ясно откуда они взялись - часть, очевидно, оригинальные тексты, которые были украдены местными "предпринимателями" из захоронений. Часть - очевидные подделки. А ещё часть, это продвинутые подделки - берут оригинальные материалы (бамбуковые дощечки из захоронений) на которых текст не сохранился, и просто пишут текст в древнем стиле (тем более во времена, когда зарплаты у учёных были мизерными - так вот подрабатывали). Во многих случаях, и такие подделки можно разоблачить (анахронизмы, слишком стандартные варианты иероглифов и пр.), но не всегда. Так вот, я надеюсь, что ИИ всё же не сможет соблюдать все нужные нюансы, хотя если он уже "подделывает" стихотворение Ду Фу, то если ему "скормить" базу данных таких текстов, мало ли что он сможет натворить.
2) Философская мета-ирония - это немного как разговор Чжуан-цзы с черепом, если хотите. С одной стороны, этот ИИ столь многословен, а с другой стороны - он ведь не помнит слова (и вообще ничего не помнит, строго говоря) - он производит слова, не помня (="забыв") их (а ведь один из ключевых мотивов Чжуан-цзы - и его трагедия - это глубокий скептицизм, касаемо соответствии слов реальности, и одновременно столь искусное использование слов). В каком-то смысле, его состояние чем-то напоминает 坐忘 из Чжуан-цзы (曰:「回坐忘矣。」仲尼蹴然曰:「何謂坐忘?」顏回曰:「墮肢體,黜聰明,離形去知,同於大通,此謂坐忘。」仲尼曰:「同則無好也,化則無常也。而果其賢乎!丘也請從而後也。」) и воплощает принцип 無為. Тут можно идти ещё дальше, и рассуждать о субъектности ИИ и о (не)возможности отделения субъекта от объекта/действия от делающего (весьма популярные у Чжуан-цзы, и уж тем более у мыслителей древней Индии, типа Нагарджуны). Но это было бы уже слишком серьёзно - просто было забавно задавать ИИ такие вопросы, учитывая вышеупомянутое
(Пардон, получился полный оффтоп - уж очень далеко мы ушли от семантической классификации иероглифов, наверное, эту тему можно поделить на три части, как минимум)
Про подделки тут вы подзагнули  Это вам не рукопись с буквами подделать. Я видел в достаточном колличестве пробы классных каллиграфов писать к примеру в стиле 帛书 из 马王堆. Разница огромная. А уж для профессионального палеографа так и вообще мало общего. На базаре разве что можно продать как раритет  А уж оригинальный текст создать типа мавандуйского 道德经 так это вообще из области ненаучной фантастики 
Просто подумайте как на 汉文言 написать такую простую фразу как: я простудился
|