Отключен JavaScript

У вас отключен JavaScript. Некоторые возможности системы не будут работать. Пожалуйста, включите JavaScript для получения доступа ко всем функциям.

тестовый анализатор

Автор Galaperedol, 29.06.2007, 11:33

Авторизуйтесь для ответа в теме

Сообщений в теме: 66

#1
Galaperedol

Отправлено 29.06.2007, 11:33:35

Завсегдатай
224 сообщений

Народ, кто может помочь, кто нибудь занимался созданием текстовых анализаторов? очень нужна помощь.

Наверх

#2
kornel

Отправлено 29.06.2007, 11:43:25

В доску свой
9 069 сообщений

Какие параметры анализа? Всетаки Text.toString.lenght() тоже анализатор.

Наверх

#3
Zulkar

Отправлено 29.06.2007, 11:44:24

Читатель

В доску свой
3 243 сообщений

Что ты имеешь в виду под текстовым анализатором? Частоту слов? Проверка грамматики и орфографии или что-то еще?

Наверх

#4
georgex

Отправлено 29.06.2007, 14:27:50

Частый гость
82 сообщений

Поиск текста по смыслу?

Наверх

#5
programmer::Ruslan

Отправлено 30.06.2007, 01:03:49

Завсегдатай
105 сообщений

ну смотря что надо, если чтобы легче сделать поиск по тексту, то я такое писал как-то

Наверх

#6
zladey

Отправлено 16.12.2008, 05:07:22

Гость
6 сообщений

может кто нибудь помочь написать анализатор текста на совпадение слов с сохранением слов и статистики встречи слов в текстах =)

как проще это написать так же меня интересует... можно в php сделать анализатор... я пробую пока в визуал студии С++... опыта мало, по этому не сильно понимаю с чего начать =)

рад любой помощи =)

Наверх

#7
dzid

Отправлено 16.12.2008, 16:47:29

Свой человек
939 сообщений

Заменить C++ на Perl, и задача ЗНАЧИТЕЛЬНО упрощается.

А можно скрестить CString из MFC/ATL и std::map. Добавить кастомный компаратор, если не нужно учитывать регистр символов.

Ну, это если я правильно понял, что хочется

Наверх

#8
zladey

Отправлено 17.12.2008, 20:09:42

Гость
6 сообщений

я могу сказать что хочется:
считывает текста с файла, разделение текста на отдельные слова, с последующей анализацией каждого слова на совпадение с базой данных, тобишь если это первый текст то слов в базе данных нет, тогда это слово туда заносится как новое. Также нужно вести учет, как часто слово встречается в тексте =)

примерно так я представляю что мне нужно =)
c Перл не знаком еще... по этому не это будет для меня тяжелее наверно =)

Наверх

#9
Кими

Отправлено 17.12.2008, 21:34:52

В доску свой
2 252 сообщений

что делать со словами
1. "мама", "мамочка", "мамуля"
2. "мама", "момочка", "ммаулочка"
3. "сад" - как место где садят ягодки и "сад" - место где отбывают наказание дети дошкольного возраста

Наверх

#10
Visual1

Отправлено 18.12.2008, 20:33:49

В доску свой
1 198 сообщений

Заменить C++ на Perl, и задача ЗНАЧИТЕЛЬНО упрощается.

Да совсем не обязательно на Perl. Задача значительно упрощается и в случае C#. У него тоже отличные средства для работы с регулярными выражениями. Для данной задачи уж точно хватит. Подойдут и другие современные языки, если есть подходящие библиотеки. В общем, кто что лучше знает.

что делать со словами
1. "мама", "мамочка", "мамуля"
2. "мама", "момочка", "ммаулочка"
3. "сад" - как место где садят ягодки и "сад" - место где отбывают наказание дети дошкольного возраста

Вы зачем усложняете исходную задачу этими вопросами? Подобных требований у автора-постановщика вообще не было. Подробно по пунктам:
1. Такие слова должны считаться разными. Поиск всех возможных словоформ с приставками и суффиксами по условию не требуется.
2. "Момочка" и "ммаулочка" должны считаться такими же равноправными словами, как и любые другие. Ведь проверка правописания по условию также не требуется.
3. Этот вопрос тоже неуместный. Решение проблем контекста, семантики слов также по условию не требуется.

Не умножайте сущности сверх необходимости! © У. Оккам

Наверх

#11
Visual1

Отправлено 18.12.2008, 21:52:42

В доску свой
1 198 сообщений

я могу сказать что хочется:
считывает текста с файла, разделение текста на отдельные слова, с последующей анализацией каждого слова на совпадение с базой данных, тобишь если это первый текст то слов в базе данных нет, тогда это слово туда заносится как новое. Также нужно вести учет, как часто слово встречается в тексте =)

Автор, у вас интересная и практически полезная задача! Я вполне серьезно. Давно уже пора бы нашим форумным "гуру программирования" поразмять мозги. Пусть покажут, кто на что способен. :smoke:

У меня к вам предложение: давайте не будем требовать, чтобы программа обращалась к базе данных. Иначе, я уверен, ни одной строчки работающего кода вы здесь не увидите. Вместо этого (как это обычно здесь происходит) вам придется отвечать, какая будет применяться СУБД, почему она должна применяться в этой задаче и т.д. В итоге ваша задача скатится во флейм и религиозные войны (какая СУБД круче).

Итак, предлагаю сделать такую постановку вашей задачи. Программа может быть написана на любом языке программирования, но обязательно должна работать. :lol:

Это значит, она должна:

Cчитывать текст из внешнего файла (имя файла программа должна получать от пользователя).
Файл с текстом должен быть простого формата, без специальных и скрытых символов форматирования. Например, пусть это будут простые файлы .txt, с которыми работает стандартная программа "Блокнот" (она же Notepad), поставляемая вместе с Windows.
Текст в файле может быть русским, английским, или и то, и другое вперемешку, все в одном файле. Допускаются все знаки препинания (:;,"!?), а также все неалфавитные и нецифровые символы, если они есть на клавиатуре (+, -, /, *, знаки $, %, и т.д.).
Разделять текст на отдельные слова. Словом считается любая последовательность алфавитно-цифровых символов длиной от 1 символа (например, в предложении "Я легенда" "Я" должно считаться отдельным словом). Знаки препинания в слова не входят. Если в исходном тексте какие-то слова по ошибке не были разделены пробелом (например, "Я,Легенда"), то программа должна уметь справляться с этим, и правильно разделять слова (то есть, "Я" и "Легенда").
Подсчитывать количество слов: всего и в том числе количество повторений каждого слова в заданном тексте.
Слова, начинающиеся с заглавных и строчных букв, считаются разными (или одинаковыми - уточните).
Выводить на экран итоговую таблицу из двух столбцов: 1) слово и 2) количество его повторений в тексте.

Как видите, за исключением использования внешней СУБД, ваши требования в такой постановке задачи были учтены. Ну как, согласны на предлагаемый вариант?

Сообщение отредактировал Visual1: 18.12.2008, 22:20:17

Наверх

#12
zladey

Отправлено 19.12.2008, 02:57:40

Гость
6 сообщений

2 Visual1

Мне это программа нужна для работы с немецкими текстами, задача программы выявить наиболее употребляймые слова в текстах, которые предоставляют учителя перед лекциями в онлайн виде. Это должно облегчить изучение немецкого, а точнее увеличение словарного запаса, потому что будут явно выделены основные слова текстов. Тексты идут по специализации социльные науки =)

Основная функция программы составить список слов которые вообще встречаются в этих текстах и их "популярность". То есть я хотел сделать так, чтоб сперва текст разделяется на слова и потом сверяется со словами которые уже были раньше в других текстах =) я думаю что тут не нужно создавать БД, вполне можно как нибудь реализовать это по средством связи с каким либо документом... только надо подумать как это сделать и как вести статистику слов в этом случаи, я в голове представляю вполне план реализации такого, но надо еще подумать... =)=)=) слова с большой и маленькой буквы считаю равнозначными =)

а вообще план которые написан вами выше вполне достаточен для начала, потом доработать и добавить что либо в программу будет не так уже сложно =)

А вообще меня порадовало что кого то заинтересовала моя идея по поводу этой программы =)

Наверх

#13
Кими

Отправлено 19.12.2008, 08:58:15

В доску свой
2 252 сообщений

что делать со словами типа "17-ый", "18ое", "кое-как", "2008г."

Сообщение отредактировал Кими: 19.12.2008, 08:58:36

Наверх

#14
Zulkar

Отправлено 19.12.2008, 11:04:13

Читатель

В доску свой
3 243 сообщений

Вроде работает.

#!/usr/bin/perl
print "Enter Fiilename:";
$filename=<>;
open (FILE, $filename) or die "error!! $!";
while(<FILE>){
	chomp;
	foreach (split/\s+|\.\s*|,\s+/){
		$counter{$_} += 1;
	}
}
my $all_words = 0;
foreach(keys(%counter)){
	print "$_  - $counter{$_} occurrences\n";
	$all_words += $counter{$_};
}
print "\n$all_words words in file $filename\n";

1.Cчитывать текст из внешнего файла (имя файла программа должна получать от пользователя). есть
2.Файл с текстом должен быть простого формата, без специальных и скрытых символов форматирования. Например, пусть это будут простые файлы .txt, с которыми работает стандартная программа "Блокнот" (она же Notepad), поставляемая вместе с Windows. есть(насчет блокнота не знаю, как перл относится к виндовым \r\n ? - На ActivePerl ни разу не работал. По идее пофигу)

3.Текст в файле может быть русским, английским, или и то, и другое вперемешку, все в одном файле. Допускаются все знаки препинания (:;,"!?), а также все неалфавитные и нецифровые символы, если они есть на клавиатуре (+, -, /, *, знаки $, %, и т.д.). Вроде есть - пробельные символы, точки и зяпятые служат разделителями. Здесь непонятно, что делать со словами типа qwe@$rty - то что говорил Кими
4.Разделять текст на отдельные слова. Словом считается любая последовательность алфавитно-цифровых символов длиной от 1 символа (например, в предложении "Я легенда" "Я" должно считаться отдельным словом). Знаки препинания в слова не входят. Если в исходном тексте какие-то слова по ошибке не были разделены пробелом (например, "Я,Легенда"), то программа должна уметь справляться с этим, и правильно разделять слова (то есть, "Я" и "Легенда"). см выше.
5.Подсчитывать количество слов: всего и в том числе количество повторений каждого слова в заданном тексте. есть
6.Слова, начинающиеся с заглавных и строчных букв, считаются разными (или одинаковыми - уточните). Разными. Переделать несложно.
7.Выводить на экран итоговую таблицу из двух столбцов: 1) слово и 2) количество его повторений в тексте. + само собой

Наверх

#15
Visual1

Отправлено 19.12.2008, 12:06:05

В доску свой
1 198 сообщений

У меня на C# для .NET 2.0, тоже пока работает по тем правилам, которые были указаны вчера. То есть, "кое-что", "кое-как", "как-нибудь" - это 4 разных слова: "кое", "что", "как" и "нибудь". "Кое" и "кое" тоже пока разные слова. Поправить все это несложно.

Исходник выложу вечером, а пока предоставляю скриншот:

Наверх

#16
artem_g

Отправлено 19.12.2008, 16:11:54

Завсегдатай
206 сообщений

Алгоритм

1. Считываем текст
2. Разбиваем текст на слова
3. Упаковываем слова в двумерный массив записей, где rec.1 - слово, rec.2 - количество повторений (по умолчанию забиваем единицами)
4. Выявляем одинаковые слова массива, при их обнаружении rec.2 увеличивается на 1, повторяющееся слово удаляется
4. Исходя из условий задачи, определяем число повторений, которое необходимо, чтобы слово можно было считать частоупотребляемым.
5. В цикле проверяем - если rec.1>= то находим текущее слово в тексте и выделяем его жирным шрифтом

Наверх

#17
Zulkar

Отправлено 19.12.2008, 16:24:10

Читатель

В доску свой
3 243 сообщений

artem_g - это понятно, вы код напишите, на чем угодно. Алгоритм неполный просто сильно, имхо.

3. Упаковываем слова в двумерный массив записей, где rec.1 - слово, rec.2 - количество повторений (по умолчанию забиваем единицами)

Не понял, почему двумерный, и почему единицами.

4. Выявляем одинаковые слова массива, при их обнаружении rec.2 увеличивается на 1, повторяющееся слово удаляется

А, вот так значит... Понял почему единицами, но зачем двумерный так и осталось загадкой.
Вот как выявлять будем, проясните поподробнее. Очень интересно. ~~Перебором что ли, раз массив?~~ А как удаляется? Просто интересно. :smoke:

Напишите код, и сравните скорость его работы его с моим , интересно будет.

Сообщение отредактировал Zulkar: 19.12.2008, 16:25:14

Наверх

#18
artem_g

Отправлено 19.12.2008, 17:12:58

Завсегдатай
206 сообщений

сорри... сначала хотел написать двумерный массив, но потом переделал на массив записей, а слово "двумерный" убрать забыл

перебором)

как удаляться будет? в цикле ar[i]:=ar[i+1]

я могу написать прогу на Делфи, но заранее согласен, что скорость ее работы меньше, чем вашей

да и вообще, топик создан год назад, стало быть... смысл?))

Наверх

#19
Zulkar

Отправлено 19.12.2008, 17:22:28

Читатель

В доску свой
3 243 сообщений

как удаляться будет? в цикле ar[i]:=ar[i+1]
я могу написать прогу на Делфи, но заранее согласен, что скорость ее работы меньше, чем вашей

Напишите пожалуйста кусок кода, просто я не могу понять.

да и вообще, топик создан год назад, стало быть... смысл?))

zladey не смог создать новую тему и поднял старую. :smoke:

Наверх

#20
Visual1

Отправлено 19.12.2008, 17:42:48

В доску свой
1 198 сообщений

я могу написать прогу на Делфи, но заранее согласен, что скорость ее работы меньше, чем вашей

Ну и что же. А может, у вашей программы будет выше надежность работы. Или еще какие-то другие преимущества.

да и вообще, топик создан год назад, стало быть... смысл?))

Просьба пользователя zladey новая, она поступила 3 дня назад.

Наверх

Обратно в Программирование

Количество пользователей, читающих эту тему: 1

пользователей: 0, неизвестных прохожих: 1, скрытых пользователей: 0

тестовый анализатор

#1 Galaperedol Отправлено 29.06.2007, 11:33:35

#2 kornel Отправлено 29.06.2007, 11:43:25

#3 Zulkar Отправлено 29.06.2007, 11:44:24

#4 georgex Отправлено 29.06.2007, 14:27:50

#5 programmer::Ruslan Отправлено 30.06.2007, 01:03:49

#6 zladey Отправлено 16.12.2008, 05:07:22

#7 dzid Отправлено 16.12.2008, 16:47:29

#8 zladey Отправлено 17.12.2008, 20:09:42

#9 Кими Отправлено 17.12.2008, 21:34:52

#10 Visual1 Отправлено 18.12.2008, 20:33:49

#11 Visual1 Отправлено 18.12.2008, 21:52:42

#12 zladey Отправлено 19.12.2008, 02:57:40

#13 Кими Отправлено 19.12.2008, 08:58:15

#14 Zulkar Отправлено 19.12.2008, 11:04:13

#15 Visual1 Отправлено 19.12.2008, 12:06:05

#16 artem_g Отправлено 19.12.2008, 16:11:54

#17 Zulkar Отправлено 19.12.2008, 16:24:10

#18 artem_g Отправлено 19.12.2008, 17:12:58

#19 Zulkar Отправлено 19.12.2008, 17:22:28

#20 Visual1 Отправлено 19.12.2008, 17:42:48

Количество пользователей, читающих эту тему: 1

Войти

#1
Galaperedol

Отправлено 29.06.2007, 11:33:35

#2
kornel

Отправлено 29.06.2007, 11:43:25

#3
Zulkar

Отправлено 29.06.2007, 11:44:24

#4
georgex

Отправлено 29.06.2007, 14:27:50

#5
programmer::Ruslan

Отправлено 30.06.2007, 01:03:49

#6
zladey

Отправлено 16.12.2008, 05:07:22

#7
dzid

Отправлено 16.12.2008, 16:47:29

#8
zladey

Отправлено 17.12.2008, 20:09:42

#9
Кими

Отправлено 17.12.2008, 21:34:52

#10
Visual1

Отправлено 18.12.2008, 20:33:49

#11
Visual1

Отправлено 18.12.2008, 21:52:42

#12
zladey

Отправлено 19.12.2008, 02:57:40

#13
Кими

Отправлено 19.12.2008, 08:58:15

#14
Zulkar

Отправлено 19.12.2008, 11:04:13

#15
Visual1

Отправлено 19.12.2008, 12:06:05

#16
artem_g

Отправлено 19.12.2008, 16:11:54

#17
Zulkar

Отправлено 19.12.2008, 16:24:10

#18
artem_g

Отправлено 19.12.2008, 17:12:58

#19
Zulkar

Отправлено 19.12.2008, 17:22:28

#20
Visual1

Отправлено 19.12.2008, 17:42:48