11
2020.04.09serega144 hanzai, https://hanzicraft.com/character/安

Здорово. Здесь, смотрю, декомпозиция с уровнями вложенности. Заметил, что первым иероглифом является 的 (кнопки "предыдущий" нет). Видимо, порядок принят исходя из частоты встречаемости. Как вариант, думаю данные можно спарсить начиная с этого иероглифа и рекурсивно переходя по ссылке "следующий" до ее исчезновения или что там произойдет. Спасибо огромное!
2020.04.09
Тема Ответить
12
Кстати, попутно вопрос к знатокам.
Возникла задача хранения и визуализации древовидной структуры.
Например, на входе дано:

Код:

豕㒸
豕㒸遂
豕㒸遂燧
豕㒸遂邃
豕㒸遂隧
豕㒸隊
豕㒸隊墜
豕圂
豕圂溷
豕豙
豕豙毅
豕逐
豕逐篴
豕逐鱁

На выходе хотелось бы получить визуальное представление подобного вида:

豕---㒸-----------豙-------逐---------圂
       |---遂隊       |---毅    |---篴鱁   |---溷
             |  |---墜
             |---燧邃隧

В этом я не очень силен. Бьюсь безуспешно уже несколько дней. Насчёт формата хранения - подумываю о json, а вот как лучше визуализировать - ума не приложу.
Буду благодарен за любую подсказку.
2020.04.09
Тема Ответить
13
2020.04.09hanzai Заметил, что первым иероглифом является 的 (кнопки "предыдущий" нет). Видимо, порядок принят исходя из частоты встречаемости.
Да, 的 первый по частотности



2020.04.09
Тема Ответить
14
возможно не совсем то, что вы ищете, но на en.wiktionary.org неплохо разобраны иероглифы, есть дополнительная инфа о происхождении, для многих есть варианты древних написаний. также есть отличная база данных всех иеспользуемых на данный момент иероглифов hanzidb.org, где иероглифы рассортированы по уровню ХСК, по частоте употребления, по количеству черт и т. д.
2020.04.09
Тема Ответить
15
https://www.mdbg.net/chinese/dictionary

а еще лучше в pleco
Think for yourself, question authority
2020.04.09
Тема Ответить
16
2020.04.09hanzai Кстати, попутно вопрос к знатокам.
Возникла задача хранения и визуализации древовидной структуры.
Например, на входе дано:

Код:

豕㒸
豕㒸遂
豕㒸遂燧
豕㒸遂邃
豕㒸遂隧
豕㒸隊
豕㒸隊墜
豕圂
豕圂溷
豕豙
豕豙毅
豕逐
豕逐篴
豕逐鱁

На выходе хотелось бы получить визуальное представление подобного вида:

豕---㒸-----------豙-------逐---------圂
       |---遂隊       |---毅    |---篴鱁   |---溷
             |  |---墜
             |---燧邃隧

В этом я не очень силен. Бьюсь безуспешно уже несколько дней. Насчёт формата хранения - подумываю о json, а вот как лучше визуализировать - ума не приложу.
Буду благодарен за любую подсказку.


Непрогнозируемых размеров дерево удобно визуализировать в Excel:




Скажите, пожалуйста, что это за исследование и можно ли о нем где-нибудь прочитать?
2020.04.09
Тема Ответить
17
2020.04.09雨琦 возможно не совсем то, что вы ищете, но на en.wiktionary.org неплохо разобраны иероглифы, есть дополнительная инфа о происхождении, для многих есть варианты древних написаний. также есть отличная база данных всех иеспользуемых на данный момент иероглифов hanzidb.org, где иероглифы рассортированы по уровню ХСК, по частоте употребления, по количеству черт и т. д.

Благодарю за наводку. Списки употоебимости и HSK, безусловно, тоже будут полезны.
2020.04.09
Тема Ответить
18
2020.04.09Opiate https://www.mdbg.net/chinese/dictionary

а еще лучше в pleco

Спасибо большое, хороший онлайн словарь. Радует, что присутствуют чтения в гуандунхуа. Чтения я тоже собираю, поскольку в unihan они не всегда корректны и есть не для всех иероглифов. Pleco, если не ошибаюсь, это коммерческий продукт с закрытым исходным кодом. Вряд ли они представляют данные в том виде, в котором это необходимо для моего исследования.
2020.04.09
Тема Ответить
19
2020.04.09米婉 Непрогнозируемых размеров дерево удобно визуализировать в Excel:

https://bkrs.info/taolun/attachment.php?aid=8298

Скажите, пожалуйста, что это за исследование и можно ли о нем где-нибудь прочитать?

Спасибо за ответ. Красиво получается. Не подскажите, какие формулы вы используете?
Если кратко, то мое исследование касается изучения фонетика в составе иероглифа и его чтений на территориях 漢字文化圏. Рассмотрение его с разных аспектов - графического, фонетического, пространственно-временого, выявление закономерностей и отклонений от них, причин этого.
Основные трудозатраты - ручной ввод фонетика для каждого знака. Делаю это в три стадии: практически употребимые знаки (списки употоебимости, экзаменов и т.п.), unihan ( примерно 47000 знаков), unicode_cjk ( примерно 92000 знаков). На данный момент первый этап можно считать завершенным - обработано порядка 8000 знаков. Предполагаю, что основная часть наиболее употребимых фонетиком найдена, поэтому сейчас занимаюсь визуализацией.
Почитать нигде нельзя. Во-первых, занимаюсь этим для себя и сильного желания где-то писать об этом не возникало. Но в будущем все возможно. Во-вторых, до этого момента в основном занимался бэкэндом, то есть данных в красивом виде просто не было. Сейчас вот восполняю этот пробел - занимаюсь документированием и визуализацией.

P.S.: На скриншоте - первые наброски. Как видите, пока вместо дерева одна ветка получается.



2020.04.09
Тема Ответить
20
2020.04.09hanzai Спасибо за ответ. Красиво получается. Не подскажите, какие формулы вы используете?
Если кратко, то мое исследование касается изучения фонетика в составе иероглифа и его чтений на территориях 漢字文化圏. Рассмотрение его с разных аспектов - графического, фонетического, пространственно-временого, выявление закономерностей и отклонений от них, причин этого.
Основные трудозатраты - ручной ввод фонетика для каждого знака. Делаю это в три стадии: практически употребимые знаки (списки употоебимости, экзаменов и т.п.), unihan ( примерно 47000 знаков), unicode_cjk ( примерно 92000 знаков). На данный момент первый этап можно считать завершенным - обработано порядка 8000 знаков. Предполагаю, что основная часть наиболее употребимых фонетиком найдена, поэтому сейчас занимаюсь визуализацией.
Почитать нигде нельзя. Во-первых, занимаюсь этим для себя и сильного желания где-то писать об этом не возникало. Но в будущем все возможно. Во-вторых, до этого момента в основном занимался бэкэндом, то есть данных в красивом виде просто не было. Сейчас вот восполняю этот пробел - занимаюсь документированием и визуализацией.

P.S.: На скриншоте - первые наброски. Как видите, пока вместо дерева одна ветка получается.

Я это делаю вручную.

Могу подписаться рисовать этот лес.

.xlsx дерево.xlsx (Размер: 9.82 Кб)
2020.04.10
Тема Ответить