Ищу базу данных структур иероглифов

China Red Devil

2020.04.09hanzai сам иероглиф, его чтение на территориях, где он употребляется или употреблялся употребляется или употреблялся (путунхуа, гуандунхуа, японский и корейский языки),

Вьетнамский язык зачем обидели?

hanzai

>>>

Добрый день!

Для собственных исследований ищу информацию о структуре иероглифа, то есть что-то вида:

Код:

棝

木固

木囗古

木囗十口

Буду благодарен, если кто-то сможет подсказать, существует ли подобная база в готовом виде (текст, БД и т. д.) либо онлайн-ресурс, который можно было бы спарсить.
Желательный охват - unihan ( чем больше, тем лучше), но, конечно, буду рад любой информации по этой теме.

hanzai

>>>

2020.04.09China Red Devil Вьетнамский язык зачем обидели?

Даже в мыслях не было обижать вьетнамский. Просто за основу взял те языки, с которыми в той или иной степени знаком. Думаю, вьетнамский можно будет добавить относительно безболезненно на последующих этапах.

Elasmotherium

>>>

2020.04.09hanzai Для собственных исследований ищу информацию о структуре иероглифа

Ближе всего к вашей задаче база CDL (https://www.wenlincdl.com/):

<cdl char='𠁏' uni='2004F' points='0,4 128,124'>
<comp char='𠮛' uni='20B9B' points='0,0 128,36' />
<comp char='冖' uni='5196' points='0,50 128,68' />
<comp char='亞' uni='4E9E' points='10,72 118,128' />
</cdl>

serega144

>>>

hanzai, https://hanzicraft.com/character/安

hanzai

>>>

2020.04.09米婉 Непрогнозируемых размеров дерево удобно визуализировать в Excel:

https://bkrs.info/taolun/attachment.php?aid=8298

Скажите, пожалуйста, что это за исследование и можно ли о нем где-нибудь прочитать?

Спасибо за ответ. Красиво получается. Не подскажите, какие формулы вы используете?
Если кратко, то мое исследование касается изучения фонетика в составе иероглифа и его чтений на территориях 漢字文化圏. Рассмотрение его с разных аспектов - графического, фонетического, пространственно-временого, выявление закономерностей и отклонений от них, причин этого.
Основные трудозатраты - ручной ввод фонетика для каждого знака. Делаю это в три стадии: практически употребимые знаки (списки употоебимости, экзаменов и т.п.), unihan ( примерно 47000 знаков), unicode_cjk ( примерно 92000 знаков). На данный момент первый этап можно считать завершенным - обработано порядка 8000 знаков. Предполагаю, что основная часть наиболее употребимых фонетиком найдена, поэтому сейчас занимаюсь визуализацией.
Почитать нигде нельзя. Во-первых, занимаюсь этим для себя и сильного желания где-то писать об этом не возникало. Но в будущем все возможно. Во-вторых, до этого момента в основном занимался бэкэндом, то есть данных в красивом виде просто не было. Сейчас вот восполняю этот пробел - занимаюсь документированием и визуализацией.

P.S.: На скриншоте - первые наброски. Как видите, пока вместо дерева одна ветка получается.

Ученик

>>>

2020.04.09hanzai Добрый день!
Для собственных исследований ищу информацию о структуре иероглифа, то есть что-то вида:

Посмотрите здесь https://www.zdic.net/

Parker

>>>

hanzai, https://baike.baidu.com/item/多音节汉字

Catamenia

>>>

hanzai, если не брать другие иероглифы для единиц измерения и/или чисел, то на ум приходят такие примеры, как 圕 (читается túshūguǎn) или 囍 (shuāngxǐ). Или вот есть пара десятков со значениями типа "коммунизм", "капиталист", конкретно этот на картинке значит "социализм" и читается shèhuì zhǔyì, в юникоде его и ему подобных нет:
[Изображение: polychar1.png]