Здорово. Здесь, смотрю, декомпозиция с уровнями вложенности. Заметил, что первым иероглифом является 的 (кнопки "предыдущий" нет). Видимо, порядок принят исходя из частоты встречаемости. Как вариант, думаю данные можно спарсить начиная с этого иероглифа и рекурсивно переходя по ссылке "следующий" до ее исчезновения или что там произойдет. Спасибо огромное!
В этом я не очень силен. Бьюсь безуспешно уже несколько дней. Насчёт формата хранения - подумываю о json, а вот как лучше визуализировать - ума не приложу.
Буду благодарен за любую подсказку.
возможно не совсем то, что вы ищете, но на en.wiktionary.org неплохо разобраны иероглифы, есть дополнительная инфа о происхождении, для многих есть варианты древних написаний. также есть отличная база данных всех иеспользуемых на данный момент иероглифов hanzidb.org, где иероглифы рассортированы по уровню ХСК, по частоте употребления, по количеству черт и т. д.
В этом я не очень силен. Бьюсь безуспешно уже несколько дней. Насчёт формата хранения - подумываю о json, а вот как лучше визуализировать - ума не приложу.
Буду благодарен за любую подсказку.
Непрогнозируемых размеров дерево удобно визуализировать в Excel:
Скажите, пожалуйста, что это за исследование и можно ли о нем где-нибудь прочитать?
2020.04.09雨琦 возможно не совсем то, что вы ищете, но на en.wiktionary.org неплохо разобраны иероглифы, есть дополнительная инфа о происхождении, для многих есть варианты древних написаний. также есть отличная база данных всех иеспользуемых на данный момент иероглифов hanzidb.org, где иероглифы рассортированы по уровню ХСК, по частоте употребления, по количеству черт и т. д.
Благодарю за наводку. Списки употоебимости и HSK, безусловно, тоже будут полезны.
Спасибо большое, хороший онлайн словарь. Радует, что присутствуют чтения в гуандунхуа. Чтения я тоже собираю, поскольку в unihan они не всегда корректны и есть не для всех иероглифов. Pleco, если не ошибаюсь, это коммерческий продукт с закрытым исходным кодом. Вряд ли они представляют данные в том виде, в котором это необходимо для моего исследования.
Скажите, пожалуйста, что это за исследование и можно ли о нем где-нибудь прочитать?
Спасибо за ответ. Красиво получается. Не подскажите, какие формулы вы используете?
Если кратко, то мое исследование касается изучения фонетика в составе иероглифа и его чтений на территориях 漢字文化圏. Рассмотрение его с разных аспектов - графического, фонетического, пространственно-временого, выявление закономерностей и отклонений от них, причин этого.
Основные трудозатраты - ручной ввод фонетика для каждого знака. Делаю это в три стадии: практически употребимые знаки (списки употоебимости, экзаменов и т.п.), unihan ( примерно 47000 знаков), unicode_cjk ( примерно 92000 знаков). На данный момент первый этап можно считать завершенным - обработано порядка 8000 знаков. Предполагаю, что основная часть наиболее употребимых фонетиком найдена, поэтому сейчас занимаюсь визуализацией.
Почитать нигде нельзя. Во-первых, занимаюсь этим для себя и сильного желания где-то писать об этом не возникало. Но в будущем все возможно. Во-вторых, до этого момента в основном занимался бэкэндом, то есть данных в красивом виде просто не было. Сейчас вот восполняю этот пробел - занимаюсь документированием и визуализацией.
P.S.: На скриншоте - первые наброски. Как видите, пока вместо дерева одна ветка получается.
2020.04.09hanzai Спасибо за ответ. Красиво получается. Не подскажите, какие формулы вы используете?
Если кратко, то мое исследование касается изучения фонетика в составе иероглифа и его чтений на территориях 漢字文化圏. Рассмотрение его с разных аспектов - графического, фонетического, пространственно-временого, выявление закономерностей и отклонений от них, причин этого.
Основные трудозатраты - ручной ввод фонетика для каждого знака. Делаю это в три стадии: практически употребимые знаки (списки употоебимости, экзаменов и т.п.), unihan ( примерно 47000 знаков), unicode_cjk ( примерно 92000 знаков). На данный момент первый этап можно считать завершенным - обработано порядка 8000 знаков. Предполагаю, что основная часть наиболее употребимых фонетиком найдена, поэтому сейчас занимаюсь визуализацией.
Почитать нигде нельзя. Во-первых, занимаюсь этим для себя и сильного желания где-то писать об этом не возникало. Но в будущем все возможно. Во-вторых, до этого момента в основном занимался бэкэндом, то есть данных в красивом виде просто не было. Сейчас вот восполняю этот пробел - занимаюсь документированием и визуализацией.
P.S.: На скриншоте - первые наброски. Как видите, пока вместо дерева одна ветка получается.