1
ratijas
ratijas
ratijas вот это слово залажало мне проверку. в нём каким-то чудом оказался ESC в конце.
氯化布克利嗪

отредактировать на сайте также не возможно, ибо ESC выпиливается из ссылки. сделайте что-нибуть с этим, пожалуйста.

а не, получилось через процент-еквивалент %1b
https://bkrs.info/form.php?ch=氯化布克利嗪%1b

затёр ещё один, ^K, он же 0xb, он же \013. прошу добавить фильтр на запись в базу. всё-же утомительно выгребать это ручками))

Вижу, но пока не соображу что это такое. Как можно слова с ним выбрать в базе?
2014.06.19
Ответить
2
2014.06.19бкрс Вижу, но пока не соображу что это такое. Как можно слова с ним выбрать в базе?

я это чего в личку написал — проблема довольно узкая и уже решенная. без малейшего понятия, откуда там взялись эти символы, но они уже убраны. проверка руганулась только на эти два. после ручного
Код:
tr -d "\013\033" < bkrs.xml  > bkrs_clean.xml
всё прошло на отличлично! (`jing` test passed)

как бороться? в будущем перед записью в базу проверять на наличие символов диапазона \000-\037, кроме \011\012, которые таб и новый строчк.
2014.06.20
Ответить
3
2014.06.19бкрс Вижу, но пока не соображу что это такое. Как можно слова с ним выбрать в базе?

теоретитечки, должна работать эта регулярка
Код:
grep -e '[\x{1}-\x{8}\x{9}-\x{1f}]' bkrs.dsl

но практически она работает в sublime text 2, а grep на неё ругается. придется перечислять все подряд

Код:
\x01|\x02|\x03|\x04|\x05|\x06|\x07|\x08|\x0b|\x0c|\r|\x0e|\x0f|\x10|\x11|\x12|\x13|\x14|\x15|\x16|\x17|\x18|\x19|\x1a|\x1b|\x1c|\x1d|\x1e|\x1f
2014.06.20
Ответить
4
что-то grep ни в какую не хочет работать с такими диапазонами, так что лучше просто при записи прогнать через
Код:
tr -d "\001\002\003\004\005\006\007\010\013\014\015\016\017\020\021\022\023\024\025\026\027\030\031\032\033\034\035\036\037" < input.txt  > input_clean.txt
не задаваясь вопросами “был-не-был”. нету. и всё.)
2014.06.20
Ответить
5
2014.06.20ratijas теоретитечки, должна работать эта регулярка
Код:
grep -e '[\x{1}-\x{8}\x{9}-\x{1f}]' bkrs.dsl
Вроде разобрался, [\x{1}-\x{1f}] в php работает, по крайне мере, ошибку из первого поста выловило.
Поставил на удаление в словах и переводе.

Не понял какой смысла в \x{8}\x{9}, между ними что-то есть?
2014.06.21
Ответить
6
2014.06.21бкрс Вроде разобрался, [\x{1}-\x{1f}] в php работает, по крайне мере, ошибку из первого поста выловило.
Поставил на удаление в словах и переводе.

Не понял какой смысла в \x{8}\x{9}, между ними что-то есть?

=) задебажился и забыл поменять обратно. конечно, должно быть
Код:
grep -e '[\x{1}-\x{8}\x{b}-\x{1f}]' bkrs.dsl
\x{9} и \x{a} пусть живут))
2014.06.21
Ответить
7
2014.06.21ratijas \x{9} и \x{a} пусть живут))
Ни перевода строк ни табов в словаре нет, так что их можно не исключать.

Словарные статьи в словаре это одна строка, также как и в файлах. При редактировании форматирование подставляется, при сохранение удаляется.
2014.06.21
Ответить
8
странный баг.

https://bkrs.info/slovo.php?ch=набивочный винт

я пытался разобраться с тремя словами, которые вечно стоят первыми в списке слов в dictionary universal, т.к. в начале есть пробелы.
так оказалось, что это не пробелы в начале, а вообще “%C2%A0” в конце!
2014.11.27
Ответить
9
ratijas, а какая там кодировка? Судя по этому в юникоде это обычный пробел.
2014.11.27
Ответить