1
Всем привет!

Я занимаюсь лингвистическим анализатором, и сейчас тестирую несколько библиотек занимающихся разбиением фразы на слова
было: “阿里巴巴收购了中国万网。你可以给客服打电话咨询一下!”
стало “阿里巴巴, 收购, 了, 中国, 万网, 你, 可以, 给, 客服, 打电话, 咨询, 一下”

Я поигрался вот с этим (это советуют многие китайские программисты). А еще с Lucene Smart Chinese (это очень любят на западе).

Но вот ни один из советов среди программистов не привел к хорошему средству. И на удивление БКРС оказался крут в этом плане.

Уважаемые разработчики, подскажите, пожалуйста, какой библиотекой пользуетесь вы?
2014.06.19
Ответить
2
Что ещё за библиотеки? Просто в словаре ищется каждое слово.

Это вопрос полноты словаря. Если бы какого-то слова в словаре не было, место него была бы кашица. 大БКРС большой, поэтому часто разбивает хорошо.

+ слова, удалённые из пословного перевода

Но всё равно косяков много. Иногда из-за того, что слов нет. А иногда просто двусмысленность, которую невозможо избежать (слова на стыке) без ии. Тут простой перебор слов.
2014.06.19
Ответить
3
中国万网, кстати, не было
добавил
2014.06.19
Ответить