2011.08.11eksodus Sapomaro, как вы решали эту проблему с ошибками ? и как много ошибок у вас было при компиляции ?
Лично у меня ошибок не было никаких, т. к. скрипт при добавлении заголовков проверяет, чтобы они не повторялись в базе.
Единственный минус - там есть мусорные слова, поскольку скрипт добавляет все комбинации слов, в которых простые иероглифы имеют несколько полных вариантов.
2011.08.12бкрс Там только один сателит с одиночными традиционными иероглифами. Их по хорошему надо удалить перед конвертацией в традиционный вид.
В принципе одиночные традиционные иероглифы удалить несложно, у меня уже есть кое-какие соображения.
2011.08.12бкрс Sapomaro, если будет возможно сделайте его максимально мобильным, чтобы он не тащил за собой целиком 漢語大詞典 и CEDICT. Может там только заголовки можно сделать.
Скрипт как раз использует только заголовки этих двух словарей, плюс файл с заголовками БКРС для сверки. Для экономии времени и ресурса проца все эти базы подгружаются в оперативу и занимают там порядка 300 метров (всё делается через апач с пхп). Мобильным скрипт не назовёшь, и даже при таком раскладе он лопатит всё очень долго (где-то час на проце пень 4 с 3гГц при загрузке 50%).
Если говорить подробнее, для каждой базы создаётся массив с именными ключами.
1) Сначала проверяется наличие слова из базы БКРС (27 мб) в объединённой базе 漢語大詞典 и CEDICT (5,7 мб).
2) Если соответствие не найдено, то слово разбивается на максимальное количество составных частей размером от 2-х и более иероглифов и опять идёт сверка с базами 漢語大詞典 и CEDICT. В итоге получаются заготовки, где половине иероглифов уже найдено однозначное соответствие. Эта часть нужна, чтобы сократить количество мусорных слов, которые образуются в 3-м пункте.
3) Далее скрипт заполняет иероглифами пустые места в получившихся заготовках, используя более-менее полную базу полных и сокращённых иероглифов, которую я нарыл в инетах (я её подредактировал, убрав некоторые очень редкие иероглифы для часто употребляемых простых, чтобы было меньше мусора). Подбираются всевозможные комбинации (достаточно взглянуть на слова с 干).
4) После этого скрипт проверяет, чтобы заголовки не повторялись, и добавляет их в новую базу.
Наверно можно придумать более удачное решение, у кого есть какие мысли?
Теоретически можно сделать уменьшенную копию скрипта, чтобы при добавлении новых слов онлайн сразу делались двойные заголовки с возможностью их редактирования (т. к. иногда они получаются тройными или даже более того).