Работа с распознованием строк - Программирование

#1
-Zen2004-

Отправлено 19.08.2008, 17:19:14

Завсегдатай
136 сообщений

Вообщем хотелось узнать кто как такое делает????
Есть справочник номенклатуры (товара) есть прайсы поставщиков (присылают например их щтук 10 от разных поставщиков в xls)
Но вот не задача все бы ни че только у нас в номенклатуре есть название
"Валенки1Сорт" а у поставщика 1-го "ВаленкиСорт1" у 2-го "1СортВаленки" и т.д.
А задача программы посмотреть у кого есть эти валенки и самые дешевые
Пришлось создать справочник соответствий менеджер сам говорит что данное наименование соответствует нашему из номенклатуры и в следующий раз оно уже будет распознано.
Вообщем хотелось бы узнать кто с таким сталкивался есть ли другие способы распознавания
Видел как то на фирме dll которая как то разные наименования приводила к одному типу путем убирание пробелов и прочих знаков. :-)

Наверх

#2
Zulkar

Отправлено 19.08.2008, 17:34:23

Читатель

В доску свой
3 243 сообщений

Например как вариант - дробить "ВаленкиСорт1" - на "Валенки" "Сорт" "1" - либо по заглавным буквам, либо по словарю (предпочтительнее, но сложнее). Затем приводить к одному варианту - опять таки, с помощью языкового анализа (существительное, прилигательное и прочее - модули синтаксического анализа найти можно).
Просто, как мне кажется легко забыть что-то, и получить глюк в проге (ну не сработает она на какое-нибудь экзотическое название, или сокращенное, или написанное с ошибкой) и соответсвенно звиздюлей от начальства, когда выяснится что брали "Сапоги1сорт" за 1000 т вместо точно таких же "Сопоги-Первый-Сорт-Есть-Же" за 500 :-)

Наверх

#3
Borg

Отправлено 19.08.2008, 18:47:34

Частый гость
93 сообщений

Да часто встречающийся гемор, из которого есть только 1 самый оптимальный выход - попытаться всех тех кто присылает вам xls заставить присылать вам всё в одинаковом виде, иначе 100% получите звездюлей по сценарию Зулкара :-)

.

Как выход напишите програмное обеспечение для забивания этих листов не в экселе, сделайте общие справочники и раздайте всем поставщикам. :-)

Но тогда другой гемор синхронизация справочников, но это уже из другой оперы

Наверх

#4
RAWMIND

Отправлено 21.08.2008, 23:27:44

Частый гость
53 сообщений

Попробуйте использовать нечеткое сравнение строк. Существует достаточно большое количество готовых алгоритмов. Ваш случай с БД не уникален. Мне тоже приходилось сталкиваться с сортировкой таблиц, заполненных разными пользователями с неодинаковыми взглядами на мир.

В общих чертах: слова разбиваются на куски, и сравниваются. В зависимости от того, насколько похожи эти слова, функция возвращает результат в виде коэффицента (процента) схожести двух строк. Также существуют алгоритмы, которые позволяют учитывать разные точки вхождения одинаковых кусков. Здесь есть одна проблема - чем "интеллектуальнее" алгоритм, тем больше процессорного времени он жрет.

to Zulkar:
"Сопоги-Первый-Сорт-Есть-Же"
В таких случаях идущие подряд цифры заменяются строковыми вариантами (1-первый, 41-сорокодин). А по поводу Есть-Же - можно внедрить и мат фильтр, в словарик которого можно поместить конкретные слова, типа, же-есть-же, биратишка; и составить матрицу соответствий, вроде "ахуительный"-"лучший".

Вобщем, по нечеткому сравнению строк написано достаточное количество научных работ, реализаций математических алгоритмов на ЯП. Остается выбрать нужный и заточить его под себя.

Наверх

#5
Havoc

Отправлено 28.08.2008, 13:58:29

Завсегдатай
296 сообщений

Мораль сей басни такова: нормализуйте базу.

Наверх

#6
dwh

Отправлено 28.08.2008, 16:31:53

Гость
5 сообщений

еще вариант сделать колонку "Корень" или группа в которой будет уникальная строка например "Вален" и тогда при каждом косяке, можно чистить БД

Наверх

#7
B.E.M.

Отправлено 18.09.2008, 11:32:32

Гость
12 сообщений

Мораль сей басни такова: нормализуйте базу.

+ 1024

Наверх

#8
Visual1

Отправлено 21.09.2008, 11:15:25

В доску свой
1 198 сообщений

Мораль сей басни такова: нормализуйте базу.

Прочитайте внимательно условие задачи. Объясните, как предлагаемая Вами нормализация базы позволяет распознавать вводимые пользователем "Валенки1Сорт", "ВаленкиСорт1" и "1СортВаленки"?

+ 1024

Сообщение отредактировал Visual1: 21.09.2008, 11:30:01

Наверх

#9
Кими

Отправлено 22.09.2008, 13:29:05

В доску свой
2 252 сообщений

кстати простое нечеткое сравнение тоже тут не поможет, ибо между "ВаленкиСорт1" и "ВаленкиСорт2" будет больше кофициэнт схожести чем между "ВаленкиСорт1" и "Валенки1Сорт" ... а должно быть наоборот

Наверх

#10
logo14

Отправлено 24.09.2008, 21:08:53

Постоялец
303 сообщений

... простое нечеткое сравнение ... больше кофициэнт схожести ...

Ёпелемадрический БаБай!

Не удивлюсь, если за этим аккаунтом, сидит директор нашего АИС.

Наверх

Работа с распознованием строкв БД

#1
-Zen2004-

Отправлено 19.08.2008, 17:19:14