Насколько я понимаю, просто так добавлять его перед слогами, начинающимеся с a, e, o не получится - будут ошибки. Нужно анализировать впередистоящий слог и, возмжожно, сами иероглифы, а это уже сложно.
Есть ли алгоритм?
Например:
彼岸 bi’àn - апостроф перед an есть
变化 biànhuà - апострофа перед an нет
Во втором случае два иероглифа - два слога. Ошибок в членении быть не может. Если расчленить как bi an hua то получится три иероглифа.
То есть если у нас по причине отсутствия выходит пиньинь для меньшего числа иерглифов чем есть, то это ошибка. Если для большего - то ошибки нет.
漂亮 если добавляем апостроф, то получается пиньинь для трех иероглифов. Это число больше, поэтому это ошибка
西安 если убираем апостроф, то получается число меньше чем 2 иероглифов - 先
Тогда придётся поиероглифно. Но там не всё так просто, есть ещё пробелы и ошибки как в иероглифах, так и в пиньине.
Тогда будет делаться так - если скрипт 100% уверен, что апостоф нужен, он добавляется. Если есть какая-то неточность или двусмысленность, то ничего не добавляется, пусть лучше не будет где надо, чем будет ошибочный. В любом случае будет лучше чем никак.
Осталость только написать. Следующим делом займусь.
2014.05.12Ветер То есть если у нас по причине отсутствия выходит пиньинь для меньшего числа иерглифов чем есть, то это ошибка. Если для большего - то ошибки нет.
Что касается слов с 儿, здесь двойная проблема.
鞋儿 xiér - иероглифа два, а слог один, но ошибки нет; а робот тем временем метается в панике, просто вставить апостроф, чтобы получить xi'ér, или поставить пиньинь автоматом и получить xié'еr, или вообще оставить все как есть.
бкрс, слова с 儿 наверно вообще лучше обруливать, используя логарифм для расстановки пиньиня. Или все-таки возможно без участия человека угадать, что в каких-то словах последний слог - это "ребенок", не эризация?
По-моему, лучший логарифм - определить, какие слова нуждаются во внимании, и дать знать редакторам, чтобы они проработали их вручную. Реально ли?
2014.05.13大好人 По-моему, лучший логарифм - определить, какие слова нуждаются во внимании, и дать знать редакторам, чтобы они проработали их вручную. Реально ли?
А как это определить? Да и в ручную глупо делать то, что можно автоматизировать.
Но там сложности не только с 儿.
Например, 口岸上 kǒuànshàng - можно определить, что перед 岸àn нужен апостроф, но как определить, что это первое àn, а не то, которое в shàng. Тут или игнорировать, когда слог встречается больше одного раза, или писать сложный скрипт, который расчленяет пиньинь на слоги, начиная с первого, добовляет апостроф, а потом назад соединяет. А если там пробелы то ещё сложнее.
Это плата за простоту, что у нас пиньинь это просто текст, никак не связанный с иероглифами.