Появился БКРС с полными иероглифами!

Sapomaro

Правда лишь частично с полными, т. к. в традиционном написании были добавлены только заголовки, карточки же остались нетронутыми.

Теперь (45+ версия):
3 029 644 заголовков
1 516 653 карточек

Хитрый алгоритм задействовал исходники 漢語大詞典 и CEDICT, а для слов, отсутствующих в них, были подобраны всевозможные комбинации, учитывая то, что один сокращённый иероглиф может иметь несколько полных.

Если нужно перелить в другие места, обращайтесь! (Пароль стандартный, как везде в https://bkrs.info/download.php)
Ссылки в https://bkrs.info/download.php.

Не стесняйтесь высказывать замечания и предложения!

eksodus

мне как-то бкрс делал скрипт на питоне по добавлению традиционных иероглифов на основе вот этого - http://zh.wikipedia.org/zh/Wikipedia:繁简处理/简繁单字
после его использования при компиляции вылазили ошибки , так как часть сателлитов была добавлена в традиционных иероглифах , и поэтому были дубли карточек
Sapomaro, как вы решали эту проблему с ошибками ? и как много ошибок у вас было при компиляции ?

бкрс

Там только один сателит с одиночными традиционными иероглифами. Их по хорошему надо удалить перед конвертацией в традиционный вид.

Sapomaro, если будет возможно сделайте его максимально мобильным, чтобы он не тащил за собой целиком 漢語大詞典 и CEDICT. Может там только заголовки можно сделать.
Тогда его можно более широко использовать.

Sapomaro

2011.08.11eksodus Sapomaro, как вы решали эту проблему с ошибками ? и как много ошибок у вас было при компиляции ?

Лично у меня ошибок не было никаких, т. к. скрипт при добавлении заголовков проверяет, чтобы они не повторялись в базе.

Единственный минус - там есть мусорные слова, поскольку скрипт добавляет все комбинации слов, в которых простые иероглифы имеют несколько полных вариантов.

2011.08.12бкрс Там только один сателит с одиночными традиционными иероглифами. Их по хорошему надо удалить перед конвертацией в традиционный вид.

В принципе одиночные традиционные иероглифы удалить несложно, у меня уже есть кое-какие соображения.

2011.08.12бкрс Sapomaro, если будет возможно сделайте его максимально мобильным, чтобы он не тащил за собой целиком 漢語大詞典 и CEDICT. Может там только заголовки можно сделать.

Скрипт как раз использует только заголовки этих двух словарей, плюс файл с заголовками БКРС для сверки. Для экономии времени и ресурса проца все эти базы подгружаются в оперативу и занимают там порядка 300 метров (всё делается через апач с пхп). Мобильным скрипт не назовёшь, и даже при таком раскладе он лопатит всё очень долго (где-то час на проце пень 4 с 3гГц при загрузке 50%).

Если говорить подробнее, для каждой базы создаётся массив с именными ключами.
1) Сначала проверяется наличие слова из базы БКРС (27 мб) в объединённой базе 漢語大詞典 и CEDICT (5,7 мб).
2) Если соответствие не найдено, то слово разбивается на максимальное количество составных частей размером от 2-х и более иероглифов и опять идёт сверка с базами 漢語大詞典 и CEDICT. В итоге получаются заготовки, где половине иероглифов уже найдено однозначное соответствие. Эта часть нужна, чтобы сократить количество мусорных слов, которые образуются в 3-м пункте.
3) Далее скрипт заполняет иероглифами пустые места в получившихся заготовках, используя более-менее полную базу полных и сокращённых иероглифов, которую я нарыл в инетах (я её подредактировал, убрав некоторые очень редкие иероглифы для часто употребляемых простых, чтобы было меньше мусора). Подбираются всевозможные комбинации (достаточно взглянуть на слова с 干).
4) После этого скрипт проверяет, чтобы заголовки не повторялись, и добавляет их в новую базу.

Наверно можно придумать более удачное решение, у кого есть какие мысли?

Теоретически можно сделать уменьшенную копию скрипта, чтобы при добавлении новых слов онлайн сразу делались двойные заголовки с возможностью их редактирования (т. к. иногда они получаются тройными или даже более того).

бкрс

А чем вариант, который вы же ранее предлагали не подходит - конвертировать по иероглифам, и там где возможны более одного варианта, просто добавлять все варианты. То есть, тут таблицы соответствий хватит.

Sapomaro

2011.08.13бкрс А чем вариант, который вы же ранее предлагали не подходит - конвертировать по иероглифам, и там где возможны более одного варианта, просто добавлять все варианты. То есть, тут таблицы соответствий хватит.

Я сначала пробовал именно так, но в таком случае скрипт создаёт больше мусорных слов — на целый миллион! И как ни странно, он работает гораздо медленнее, т. к. вынужден перебирать намного больше неоднозначных соответствий. Однако это всё справедливо только для конвертации всей базы словаря, а если же добавлять таким образом слова по-отдельности, опять-таки — с возможностью редактирования, то будет вполне приемлемо.

Можем разобрать простой пример:

1) При использовании базы CEDICT:
乌干达 = 烏干達
2) Без использования баз сторонних словарей:
乌干达 = 烏干達, 烏乾達, 烏幹達, 烏榦達

А теперь прибавим к этому производные слова из БКРС:
乌干达人
乌干达共和国
乌干达桃花心木
乌干达沙门氏菌
乌干达沙门菌
乌干达犊梨浆虫病
乌干达锥虫

В первом случае у нас в итоге получится 8 традиционных слов, а во втором как минимум 32.

Хотя на самом деле не всё так радужно)
Глянул новоиспечённый словарь: с 烏干達 есть все производные слова, а также там откуда-то взялись те же 烏乾達人, 烏幹達人, хотя 烏幹達錐蟲 почему-то уже нет.
Исправлю, если к онлайну будет приделываться версия скрипта, использующая базы 漢語大詞典 и CEDICT (там, кстати, в сумме ~350 тыс. слов, причём не все из них только с традиционным написанием).

бкрс

У 干 же только 干 и 乾, остальное это разнопись.

風

2011.08.13Sapomaro Исправлю, если к онлайну будет приделываться версия скрипта, использующая базы 漢語大詞典 и CEDICT (там, кстати, в сумме ~350 тыс. слов, причём не все из них только с традиционным написанием).

было еще много баз в традиционном варианте:
當代漢英詞典.TXT
台灣國語辭典.txt
四角号码27585字.xls
эти базы все в традиционном начертинии, по ним можно ориентироваться и убрать "уродцев", иначе...можно далеко уйти...от правды cwm

Sapomaro

2011.09.12風 было еще много баз в традиционном варианте:
當代漢英詞典.TXT
台灣國語辭典.txt
四角号码27585字.xls

Какая-то из них тоже была использована для единичных иероглифов, правда у неё в заголовке значилось "全字集繁體字簡體字對照表" (金門李慶豐). А остальных у Вас нет случайно? Лень гуглить)

Кстати, если Вы вдруг заметите какие-нибудь ошибки в словаре (я говорю про новую, не эту, а 46-ю версию), то пишите!

風

2011.09.12Sapomaro Какая-то из них тоже была использована для единичных иероглифов, правда у неё в заголовке значилось "全字集繁體字簡體字對照表" (金門李慶豐). А остальных у Вас нет случайно? Лень гуглить)

они-то есть. это не таблицы сравнения, а готовые списки слов и выражений из тайваньских словарей. дадите почту- скину.