1 2 3 4 >>> + 🔎
1
Добрый день!

Для собственных исследований ищу информацию о структуре иероглифа, то есть что-то вида:

Код:

木固
木囗古
木囗十口

Буду благодарен, если кто-то сможет подсказать, существует ли подобная база в готовом виде (текст, БД и т. д.) либо онлайн-ресурс, который можно было бы спарсить.
Желательный охват - unihan ( чем больше, тем лучше), но, конечно, буду рад любой информации по этой теме.
2020.04.09
ЛС Ответить
2
Просто изучите все базовые монограммы и разбирайте иероглифы в своё удовольствие.
同一个世界同一个梦想!
2020.04.09
ЛС Ответить
3
2020.04.09Kane Просто изучите все базовые монограммы и разбирайте иероглифы в своё удовольствие.

Безусловно. Я люблю разбирать иероглифы и получаю от этого удовольствие. Суть в том, что для моего исследования требуется большая ( в идеале - все) выборка определенных данных о иероглифе, как то - сам иероглиф, его чтение на территориях, где он употребляется или употреблялся (путунхуа, гуандунхуа, японский и корейский языки), а также структура. Какие-то данные можно получить просто (unihan, Unicode ...), какие-то относительно просто (парсинг). Что-то я вношу вручную. А вот со структурой как-то не сложилось. С ходу не получается найти достаточно большой объем данных. Я планирую попробовать использовать для анализа алгоритмы, основанные на статистике, поэтому желательно иметь максимально крупную выборку. И если, например, ввод вручную одного поля данных для иероглифа ещё как-то реально, то вносить вручную структуру для нескольких десятков тысяч знаков - это десяток лет рутинной работы навскидку.
2020.04.09
ЛС Ответить
4
2020.04.09hanzai сам иероглиф, его чтение на территориях, где он употребляется или употреблялся употребляется или употреблялся (путунхуа, гуандунхуа, японский и корейский языки),
Вьетнамский язык зачем обидели?
Дьяволы не сдаются.
2020.04.09
ЛС Ответить
5
2020.04.09hanzai Добрый день!

Для собственных исследований ищу информацию о структуре иероглифа, то есть что-то вида:

Код:

木固
木囗古
木囗十口

Буду благодарен, если кто-то сможет подсказать, существует ли подобная база в готовом виде (текст, БД и т. д.) либо онлайн-ресурс, который можно было бы спарсить.
Желательный охват - unihan ( чем больше, тем лучше), но, конечно, буду рад любой информации по этой теме.

Существует библиотека cjklib (Chinese Japanese Korean library) https://pypi.org/project/cjklib/
там все есть, но придется помучится с установкой и запуском.
Вообще cjklib вроде и на других языках программирования есть
2020.04.09
ЛС Ответить
6
2020.04.09China Red Devil Вьетнамский язык зачем обидели?

Даже в мыслях не было обижать вьетнамский. Просто за основу взял те языки, с которыми в той или иной степени знаком. Думаю, вьетнамский можно будет добавить относительно безболезненно на последующих этапах.
2020.04.09
ЛС Ответить
7
2020.04.09alexamur Существует библиотека cjklib (Chinese Japanese Korean library) https://pypi.org/project/cjklib/
там все есть, но придется помучится с установкой и запуском.
Вообще cjklib вроде и на других языках программирования есть

Спасибо большое! Буду разбираться.
2020.04.09
ЛС Ответить
8
2020.04.09hanzai Для собственных исследований ищу информацию о структуре иероглифа
Ближе всего к вашей задаче база CDL (https://www.wenlincdl.com/):

<cdl char='𠁏' uni='2004F' points='0,4 128,124'>
<comp char='𠮛' uni='20B9B' points='0,0 128,36' />
<comp char='冖' uni='5196' points='0,50 128,68' />
<comp char='亞' uni='4E9E' points='10,72 118,128' />
</cdl>
2020.04.09
ЛС Ответить
9
2020.04.09Elasmotherium Ближе всего к вашей задаче база CDL (https://www.wenlincdl.com/):

О, благодарю! Интересный проект. Покопаюсь в их API.
2020.04.09
ЛС Ответить
10
hanzai, https://hanzicraft.com/character/安
2020.04.09
ЛС Ответить
1 2 3 4 >>> + 🔎