Примеры можно выдирать регуляркой типа:
Но там вроде полно исключений, под которые надо её подгонять.
Код:
([^\x{0020}-\x{2BFF}]|[“”])+ ([\x{0020}-\x{2BFF}]+)
Примеры можно выдирать регуляркой типа:
Код: ([^\x{0020}-\x{2BFF}]|[“”])+ ([\x{0020}-\x{2BFF}]+) 2012.03.01
Нет, правда, спасибо! Абсолютно никакой иронии. Спасибо, спасибо, и еще раз раз спасибо!
2012.03.01
<<Sapomaro>>
да , я делал его прошлым летом не думал что тут он может понадобиться , и поэтому как-то не делился им... и да - очень много из того что в примерах - вполне спокойно может пойти в отдельные слова и этот скомпиленый словарь с тегами для полнотекстового поиска , несколько раз меня выручал , ибо в других словарях перевода не было совсем никакого , а в этом - внутри карточек находил то что нужно так что словарь вполне приличный я даже скачал пдф-ку этого словаря , чтобы сверяться и что могу сказать - электронная версия не такая полная , как пдф если нужна пдф - ищите по названию - 汉英大词典(第3版)[2010].pdf а тут его можно купить http://www.amazon.cn/汉英大词典/dp/B0033WTS00 Sapomaro , как вы думаете , можно будет как-то примеры вынести в заголовки , чтобы получились слова ? ибо по описанию он на 240 тыс слов , а сейчас - всего 140~ тыс получается , потеряно около 100 тыс , а это много и полнотекстовым поиском не всегда удобно оно ищется и раз уж кит-англ словари вроде бы востребованы, я делал пару месяцев назад кит-англ словарь , на основе всем известного сайта - nciku.com вот тут его можно скачать http://depositfiles.com/files/w7cgt6l4i правда он без примеров - я не знаю как их туда всунуть (там ссылки в sql-базе были перекрёстные , я не знал как их совместить) и если кому-то это всё добро нужно , то могу выложить ещё и примеры кит-англ и могу ещё выложить обратное направление от nciku , то есть англо-китайское , как примеры (отдельным файлом) , так и словарь 2012.03.01
2012.03.01eksodus Sapomaro , как вы думаете , можно будет как-то примеры вынести в заголовки , чтобы получились слова ? Вполне, я могу в принципе попробовать перелопатить базу. А в китайско-английской версии n词酷 много ценного? 2012.03.02
2012.03.02Sapomaro Вполне, я могу в принципе попробовать перелопатить базу.было бы очень хорошо , если получится думаю, спасибо скажу не один я единственный нюанс - там часть действительно являются примерами, а часть - именно слова , и как их отделить - сложный вопрос, разве что вручную наверное... 2012.03.02Sapomaro А в китайско-английской версии n词酷 много ценного? если сравнивать с другими кит англ словарями - то он в чём-то похож на CEDICT , то есть : - наполнение достаточно полное , и по сравнению с CEDICT - для многих слов/фраз даются синонимичные переводы, т.е. в CEDICT - переведено по одному , а в n词酷 - по другому , но смысл один и тот же - встречаются также уникальные заголовки(карточки), как в n词酷 так и в CEDICT , и в принципе в других словарях тоже , но их, редко-встречающихся , не особо много (на мой взгляд - ~10%). И в такие моменты особо понимаешь , что каждый словарь = уникален (чем особенно ценен CEDICT - там много топономики китая) - в n词酷 в примерах (~50 тыс) есть куча примеров по 3-4-5 иероглифов , которые в других словарях идут именно как слова/словосочетания, их тоже было бы неплохо добавить к словарю (может подскажете , как сделать сортировку карточек по кол-ву символов в заголовках ? тогда можно было бы скопировать всё что имеет, скажем, до 6 иероглифов в заголовке и добавить в основной словарь n词酷) Serge Mileshkin пожалуйста ) 2012.03.02
http://lingvodics.com/dics/view/Chinese - тут список словарных баз, т.е. словарей. есть китайско-русские и русско-китайские. если кто-то умеет - прикручивайте к БКРС) я б с радостью - но не умею...
2012.03.07
2012.03.07jekapes тут список словарных баз, т.е. словарей. есть китайско-русские и русско-китайские. если кто-то умеет - прикручивайте к БКРС)Список словарей прикручивать - это как утолять голод по картинкам Приятного аппетита! 2012.03.08
Обновление:
HanYing DaCidian JianFan (Zho-Eng) Цитата:252 108 + 519 170 = 771 278 заголовков Подправлен формат, примеры теперь выделены характерными тегами (часть из них вынесена отдельными карточками), добавлена нумерация значений, расставлены теги ссылок, заголовки продублированы традиционным написанием. Версия для Лингво (*.dsl): http://dump.ru/file/5645713 или http://www.onlinedisk.ru/file/840691/ (файлы общим весом 81,7 МБ в архиве 15,3 МБ). Версия для Вордоголика и прочих словарей (без спаренных заголовков, 771 278 карточек, *.dsl): http://dump.ru/file/5645720 или http://www.onlinedisk.ru/file/840692/ (файлы общим весом 106 МБ в архиве 17,1 МБ). 2012.03.11
|