Ищу базу данных структур иероглифов

hanzai

2020.04.13Catamenia hanzai, если не брать другие иероглифы для единиц измерения и/или чисел, то на ум приходят такие примеры, как 圕 (читается túshūguǎn) или 囍 (shuāngxǐ). Или вот есть пара десятков со значениями типа "коммунизм", "капиталист", конкретно этот на картинке значит "социализм" и читается shèhuì zhǔyì, в юникоде его и ему подобных нет:

Забавно. Интересно, какая логика у слова "социализм"? На ум приходит что-то вроде "сакрального учения".
P.S. Дошло, что это 礻от 社.

hanzai

>>>

2020.04.13Parker hanzai, https://baike.baidu.com/item/多音节汉字

Познавательная статья. Спасибо.

hanzai

>>>

Не совсем по теме, но все же.

Наткнулся на иероглиф 嗧, который читается как комбинация компонентов, т.е. jiālún (加侖) и означает "галлон“.

Получается , что оба компонента можно считать фонетиками.
Интересно, есть ли ещё подобные иероглифы? Считал, что в китайском, в отличие от того же японского, действует правило один иероглиф - один слог ...

hanzai

>>>

2020.04.12Ученик Посмотрите здесь https://www.zdic.net/

Отличный ресурс и количество иерглифов большое. Благодарю!

hanzai

>>>

2020.04.11米婉 При такой постановке задачи ручной ввод, конечно, не подходит. Как это запрограммировать я, к сожалению, не знаю.

Снимаю шляпу перед вашим исследованием.

Данная тематика мне интересна, можно сказать, из чистого искусства.

Поскольку у вас все-таки предусмотрен «пользователь», не могли бы в вы здесь проинформировать, когда проект будет обнародован.

Рад, если заинтересовал.
Когда появится что-то, что можно показать - обновлю тему.

hanzai

>>>

2020.04.10米婉 Я это делаю вручную.

Могу подписаться рисовать этот лес.

Какое щедрое предложение!
Только боюсь создание таблиц вручную не совсем подходит для проекта. Предполагается динамическая генерация деревьев на основе пользовательского запроса. Такие запросы могут самыми разнообразными, например:
-- знаки только одного региона (Япония, Китай ...),
--на основе списков ( экзамены, частота употребления ...)

Отдельный аспект - отображение на основе чтения. Здесь может играть роль степень схожесть чтений фонетика и иерглифа в его составе, например:
-- полностью совпадает,
-- паттерн прослеживается,
-- паттерн не прослеживается,
-- паттерн прослеживается, но чтения иероглифов и собственно фонетика не совпадают...

Кроме этого, в дальнейшем деревья для составных фонетиков могут быть продолжены до ключей, а пользователю предоставлен выбор глубины формирования дерева.

Поэтому с помощью набор статических таблиц вряд ли возможно предусмотреть все варианты.

Позвольте поинтересоваться, у вас какой-то особый интерес к данной тематике?

hanzai

>>>

2020.04.10O https://www.archchinese.com/

И я ещё, бывает, яркси для этого использую..

Яркси - это да. В свое время долго им пользовался. Вы изучаете японский?

hanzai

>>>

2020.04.09米婉 Непрогнозируемых размеров дерево удобно визуализировать в Excel:

https://bkrs.info/taolun/attachment.php?aid=8298

Скажите, пожалуйста, что это за исследование и можно ли о нем где-нибудь прочитать?

Спасибо за ответ. Красиво получается. Не подскажите, какие формулы вы используете?
Если кратко, то мое исследование касается изучения фонетика в составе иероглифа и его чтений на территориях 漢字文化圏. Рассмотрение его с разных аспектов - графического, фонетического, пространственно-временого, выявление закономерностей и отклонений от них, причин этого.
Основные трудозатраты - ручной ввод фонетика для каждого знака. Делаю это в три стадии: практически употребимые знаки (списки употоебимости, экзаменов и т.п.), unihan ( примерно 47000 знаков), unicode_cjk ( примерно 92000 знаков). На данный момент первый этап можно считать завершенным - обработано порядка 8000 знаков. Предполагаю, что основная часть наиболее употребимых фонетиком найдена, поэтому сейчас занимаюсь визуализацией.
Почитать нигде нельзя. Во-первых, занимаюсь этим для себя и сильного желания где-то писать об этом не возникало. Но в будущем все возможно. Во-вторых, до этого момента в основном занимался бэкэндом, то есть данных в красивом виде просто не было. Сейчас вот восполняю этот пробел - занимаюсь документированием и визуализацией.

P.S.: На скриншоте - первые наброски. Как видите, пока вместо дерева одна ветка получается.

hanzai

>>>

2020.04.09Opiate https://www.mdbg.net/chinese/dictionary

а еще лучше в pleco

Спасибо большое, хороший онлайн словарь. Радует, что присутствуют чтения в гуандунхуа. Чтения я тоже собираю, поскольку в unihan они не всегда корректны и есть не для всех иероглифов. Pleco, если не ошибаюсь, это коммерческий продукт с закрытым исходным кодом. Вряд ли они представляют данные в том виде, в котором это необходимо для моего исследования.

hanzai

>>>

2020.04.09雨琦 возможно не совсем то, что вы ищете, но на en.wiktionary.org неплохо разобраны иероглифы, есть дополнительная инфа о происхождении, для многих есть варианты древних написаний. также есть отличная база данных всех иеспользуемых на данный момент иероглифов hanzidb.org, где иероглифы рассортированы по уровню ХСК, по частоте употребления, по количеству черт и т. д.

Благодарю за наводку. Списки употоебимости и HSK, безусловно, тоже будут полезны.