Ищу базу данных структур иероглифов

hanzai

2020.04.09serega144 hanzai, https://hanzicraft.com/character/安

Здорово. Здесь, смотрю, декомпозиция с уровнями вложенности. Заметил, что первым иероглифом является 的 (кнопки "предыдущий" нет). Видимо, порядок принят исходя из частоты встречаемости. Как вариант, думаю данные можно спарсить начиная с этого иероглифа и рекурсивно переходя по ссылке "следующий" до ее исчезновения или что там произойдет. Спасибо огромное!

hanzai

Кстати, попутно вопрос к знатокам.
Возникла задача хранения и визуализации древовидной структуры.
Например, на входе дано:

Код:

豕

豕㒸

豕㒸遂

豕㒸遂燧

豕㒸遂邃

豕㒸遂隧

豕㒸隊

豕㒸隊墜

豕圂

豕圂溷

豕豙

豕豙毅

豕逐

豕逐篴

豕逐鱁

На выходе хотелось бы получить визуальное представление подобного вида:

豕---㒸-----------豙-------逐---------圂
|---遂隊 |---毅 |---篴鱁 |---溷
| |---墜
|---燧邃隧

В этом я не очень силен. Бьюсь безуспешно уже несколько дней. Насчёт формата хранения - подумываю о json, а вот как лучше визуализировать - ума не приложу.
Буду благодарен за любую подсказку.

serega144

2020.04.09hanzai Заметил, что первым иероглифом является 的 (кнопки "предыдущий" нет). Видимо, порядок принят исходя из частоты встречаемости.

Да, 的 первый по частотности

雨琦

возможно не совсем то, что вы ищете, но на en.wiktionary.org неплохо разобраны иероглифы, есть дополнительная инфа о происхождении, для многих есть варианты древних написаний. также есть отличная база данных всех иеспользуемых на данный момент иероглифов hanzidb.org, где иероглифы рассортированы по уровню ХСК, по частоте употребления, по количеству черт и т. д.

Opiate

https://www.mdbg.net/chinese/dictionary

а еще лучше в pleco

米婉

2020.04.09hanzai Кстати, попутно вопрос к знатокам.
Возникла задача хранения и визуализации древовидной структуры.
Например, на входе дано:

Код:

豕豕㒸豕㒸遂豕㒸遂燧豕㒸遂邃豕㒸遂隧豕㒸隊豕㒸隊墜豕圂豕圂溷豕豙豕豙毅豕逐豕逐篴豕逐鱁

На выходе хотелось бы получить визуальное представление подобного вида:

豕---㒸-----------豙-------逐---------圂
|---遂隊 |---毅 |---篴鱁 |---溷
| |---墜
|---燧邃隧

В этом я не очень силен. Бьюсь безуспешно уже несколько дней. Насчёт формата хранения - подумываю о json, а вот как лучше визуализировать - ума не приложу.
Буду благодарен за любую подсказку.

Непрогнозируемых размеров дерево удобно визуализировать в Excel:

Скажите, пожалуйста, что это за исследование и можно ли о нем где-нибудь прочитать?

hanzai

2020.04.09雨琦 возможно не совсем то, что вы ищете, но на en.wiktionary.org неплохо разобраны иероглифы, есть дополнительная инфа о происхождении, для многих есть варианты древних написаний. также есть отличная база данных всех иеспользуемых на данный момент иероглифов hanzidb.org, где иероглифы рассортированы по уровню ХСК, по частоте употребления, по количеству черт и т. д.

Благодарю за наводку. Списки употоебимости и HSK, безусловно, тоже будут полезны.

hanzai

2020.04.09Opiate https://www.mdbg.net/chinese/dictionary

а еще лучше в pleco

Спасибо большое, хороший онлайн словарь. Радует, что присутствуют чтения в гуандунхуа. Чтения я тоже собираю, поскольку в unihan они не всегда корректны и есть не для всех иероглифов. Pleco, если не ошибаюсь, это коммерческий продукт с закрытым исходным кодом. Вряд ли они представляют данные в том виде, в котором это необходимо для моего исследования.

hanzai

2020.04.09米婉 Непрогнозируемых размеров дерево удобно визуализировать в Excel:

https://bkrs.info/taolun/attachment.php?aid=8298

Скажите, пожалуйста, что это за исследование и можно ли о нем где-нибудь прочитать?

Спасибо за ответ. Красиво получается. Не подскажите, какие формулы вы используете?
Если кратко, то мое исследование касается изучения фонетика в составе иероглифа и его чтений на территориях 漢字文化圏. Рассмотрение его с разных аспектов - графического, фонетического, пространственно-временого, выявление закономерностей и отклонений от них, причин этого.
Основные трудозатраты - ручной ввод фонетика для каждого знака. Делаю это в три стадии: практически употребимые знаки (списки употоебимости, экзаменов и т.п.), unihan ( примерно 47000 знаков), unicode_cjk ( примерно 92000 знаков). На данный момент первый этап можно считать завершенным - обработано порядка 8000 знаков. Предполагаю, что основная часть наиболее употребимых фонетиком найдена, поэтому сейчас занимаюсь визуализацией.
Почитать нигде нельзя. Во-первых, занимаюсь этим для себя и сильного желания где-то писать об этом не возникало. Но в будущем все возможно. Во-вторых, до этого момента в основном занимался бэкэндом, то есть данных в красивом виде просто не было. Сейчас вот восполняю этот пробел - занимаюсь документированием и визуализацией.

P.S.: На скриншоте - первые наброски. Как видите, пока вместо дерева одна ветка получается.

米婉

2020.04.09hanzai Спасибо за ответ. Красиво получается. Не подскажите, какие формулы вы используете?
Если кратко, то мое исследование касается изучения фонетика в составе иероглифа и его чтений на территориях 漢字文化圏. Рассмотрение его с разных аспектов - графического, фонетического, пространственно-временого, выявление закономерностей и отклонений от них, причин этого.
Основные трудозатраты - ручной ввод фонетика для каждого знака. Делаю это в три стадии: практически употребимые знаки (списки употоебимости, экзаменов и т.п.), unihan ( примерно 47000 знаков), unicode_cjk ( примерно 92000 знаков). На данный момент первый этап можно считать завершенным - обработано порядка 8000 знаков. Предполагаю, что основная часть наиболее употребимых фонетиком найдена, поэтому сейчас занимаюсь визуализацией.
Почитать нигде нельзя. Во-первых, занимаюсь этим для себя и сильного желания где-то писать об этом не возникало. Но в будущем все возможно. Во-вторых, до этого момента в основном занимался бэкэндом, то есть данных в красивом виде просто не было. Сейчас вот восполняю этот пробел - занимаюсь документированием и визуализацией.

P.S.: На скриншоте - первые наброски. Как видите, пока вместо дерева одна ветка получается.

Я это делаю вручную.

Могу подписаться рисовать этот лес.