Страницы (3): 1 2 3 Следующая »
1
В общем, понадобился мне код конвертера 简繁转换工具. В исходниках одного сайта накопался такой вот код

function charPYStr(){
return '锕皑...(около 2500 тысяч иероглифов в упрощенном написании)

function ftPYStr(){
return '錒皚藹...( такое же количество иероглифов в упрощенном написании)
И дальше идет замена иероглифа из первого списка на иероглиф из второго списка( ну, или наоборот)
Соответственно, возник вопрос - неужели их всего 2500
Но после трех часов тупления над 简化字总表,简化字过程, 汉字简化方案 и т.д. я понял, что точного количества я так и не добьюсь, так как вся официальная информация - это что-то вроде
以下表格来自《简化字溯源》,常常被断章取义的引用,实际其中只有388个简化字,而《简化字总表》有《简化字总表》收录了2274个简化字及14个简化偏旁
То есть никто понятия не имеет, сколько иероглифов точно было упрощено.
Соответственно, вопрос - если в этом упрощаторе оставить только этих 2.500 иероглифов, сильно ли это повлияет на конечный результат, часто ли будут встречаться отсутствующие в базе иероглифы.
З.Ы. Этот самый 简化字过程 - это тихий ужас - там не то, что без пол-литра не разберешься, там вообще можно голову сломать. Это напоминает законодательство США - поправки к поправкам к поправкам к поправкам...
Блог о куче формальностей и процедур
Хочешь быть передовым - сей квадратно-гнездовым(с)
2014.09.24
Ответить
2
не туда копаете, основная проблема в том, что упрощение не один к одному и таблицы ничем не помогут

если 繁>简, берите список у нас в админке, наиболее полный что можно найти (включая разнописи)
2014.09.24
Ответить
3
Не понял, как мне его взять? У меня к админке сайта доступа точно нет
2014.09.24
Ответить
4
https://bkrs.info/admin/fanti_jianti.php

хотя помню у нас несколько перевели в "1) см. Х 2) ...", т.к. изредка всё-таки встречается

это была взята самая большая таблица и достаточно много в неё добавлено
только для 繁>简, обратно нет
2014.09.24
Ответить
5
Разобрался, но не до конца.
Как я понял, на территории КНР существует только один вид письма, к которому приведены все существовавшие ранее разнописи. Например, три вот этих
隻、祗、衹
все приводятся к одному 只
(Кстати на http://www.zsjy.gov.cn/yywz/yypg/gfwj/17.htm список более полный, там, допустим, на 只 есть три разнописи, а у нас всего две).
Плюс еще у нас в базе, допустим, указано, что 鬥 - это разнопись от 斗, а исходя из этого документа,
鬥字头的字,一般也写作門字头,如鬧、鬮、鬩写作閙 - то есть это вообще не тот иероглиф...
Осталось только подумать над тем, как бы этот список удачно спарсить - уж больно неудачно для парсинга там изложено все это.
А вообще, интересно было бы покопаться в исходниках WPS какого-нибудь. Там уже механизм отточен. Правда в таком случае непонятно, если я нажимаю 简转繁, то что за фантик оно поставит вместо 只 - наобум выбранный создателями программы, наверное...
2014.09.24
Ответить
6
简转繁 похоже на попытку восстановить мясо из фарша или raw из jpg, подозреваю что тут без поиска по словарю именно биграмм/триграмм и вероятностно-статистического анализа не обойтись, тупо по таблицам умеет гугл-транслейт/wenlin
2014.09.24
Ответить
7
Разнописи и упрощения никак не связаны. Противоположность разнописей 异体 - правильное написание 正体
+ там ещё со шрифтами разных языков намешано, т.е. всего 3 проблемы: упрощения, разнописи, шритфы

2014.09.24vaily (Кстати на http://www.zsjy.gov.cn/yywz/yypg/gfwj/17.htm список более полный, там, допустим, на 只 есть три разнописи, а у нас всего две).
Гдеж там более полный, у нас 3900, а там 2300

У там ошибка, у него есть одно из значений "только", но там чтение zhī и основное значение "уважать" (祗候)

Цитата:Плюс еще у нас в базе, допустим, указано, что 鬥 - это разнопись от 斗, а исходя из этого документа,
鬥字头的字,一般也写作門字头,如鬧、鬮、鬩写作閙 - то есть это вообще не тот иероглиф...
Это называется "ключ", сам иероглиф 鬥->斗 дан там же.

Цитата:Осталось только подумать над тем, как бы этот список удачно спарсить - уж больно неудачно для парсинга там изложено все это.
эээ.. ctrl+a ctrl+c
2014.09.24
Ответить
8
2014.09.24бкрс Разнописи и упрощения никак не связаны. Противоположность разнописей 异体 - правильное написание 正体
+ там ещё со шрифтами разных языков намешано, т.е. всего 3 проблемы: упрощения, разнописи, шритфы

Гдеж там более полный, у нас 3900, а там 2300

У там ошибка, у него есть одно из значений "только", но там чтение zhī и основное значение "уважать" (祗候)

Это называется "ключ", сам иероглиф 鬥->斗 дан там же.

эээ.. ctrl+a ctrl+c

1) можно более подробно обьяснить, о чем мы сейчас говорим. Мы говорим о процессе, когда разные иероглифы приводятся к единому написанию - т.е., когда одинаковые иероглифы, пишущиеся по разному приводятся к общему знаменателю, а некоторые иероглифы с одинаковыми ключами упрощаются в написании
2) при всем уважении к вам, вы действительно уверены, что правы вы, а не 国家语言文字工作委员会. Как-то больше верится именно им( не в обиду вам будет сказано)
3) да, понял
4) парсеру надо обьяснить, что из скопипастенного упрощенные, а что - традиционные.
2014.09.25
Ответить
9
это к тому, что там не только 简繁, поэтому их гораздо больше

2014.09.25vaily 2) при всем уважении к вам, вы действительно уверены, что правы вы, а не 国家语言文字工作委员会. Как-то больше верится именно им( не в обиду вам будет сказано)
Это не моё мнение, мнение всех словарей.
只 там мелькает только как толкование одного из значений, наряду с 仅.

Без понятия почему там он оказался в традиционных, возможно ошибка, возможно он какой-то особый. Или его тупо с 衹 путают.

Цитата:парсеру надо обьяснить, что из скопипастенного упрощенные, а что - традиционные.
традиционный-таб-упрощённый

там и парсить ничего не надо, всё уже готово. Могу конечно как угодно сохранить, но это ничем от ctrl a, ctrl c отличаться не будет. Какой формат вы используете? Проще всего ассоциативным массив
'㮝': '㮝',
'燶': '㶶',
и по нему уже что угодно делать
2014.09.25
Ответить
10
vaily, единые 规范字 для 大陆,香港 или 台湾? в большинстве случаев решается простой подменой шрифта, а в 国家语言文字工作委员会 не включены всякие японские/корейские/вьетнамские и т.д. написания, которые есть в unicode и иногда по ошибке попадают в китайский текст
2014.09.25
Ответить
Страницы (3): 1 2 3 Следующая »