1
Хочу добавить все иероглифы в словарь. Из юникода, т.е. ВСЕ.

Принцип отбора - китайский иероглиф, у которого есть либо чтение либо перевод (у многих только чтение или только перевод), перевод естественно на английском, очень краткий.
Выборку уже сделал.

Две проблемы.
1) Традиционные иероглифы.
Если иероглифы будут все, то и традиционные и вариационные тоже будут. В онлайн их видно не будет, так как конвертируется, а в офлайн они будут доступны.
Хотя тут смотря с какой стороны смотреть плюс это или минус.

2) Техническая проблема.
Иероглифы у которых диапазон выходит из 4 знаков (utf) в MySQL не входят. Пусть и редкие, но они все равно есть. Говорят, в MySQL6 (следующая версия) их можно будет добавлять.
Тут есть два варианта - пока что не добавлять их, а там года через два (пять) выйдет новая MySQL, тогда и попытать засунуть.
Или можно сделать из них кусок dsl кода и просто вставлять в каждую офлайн версию. Получится офлайн версия будет больше онлайна.


Сейчас обдумываю как лучше, в ближайшем будущем буду добавлять.
2010.05.10
Ответить
2
Что значит "из 4 знаков"? Чем они отличаются от нормальных?
2010.05.11
Ответить
3
Каждый иероглиф представлен в 16тиричной форме. Большинство иероглифов влезло в 4х значный диапазон. Часть не влезла и оказалось в пятизначном.
Они очень редкие. В большинстве случаев у них даже нет перевода.
База данных сейчас работает только с символами до 4х знаков.

4х значных - 25 868
5ти значный - 14 571
Это чисто китайские, некитайские я удалил.

Примеры пятизначных:
http://unibabel.appspot.com/char/2a53d/
http://unibabel.appspot.com/char/221F0/
2010.05.12
Ответить