Просмотр содержимого документа
«Кластерный анализ»
Костанайский государственный педагогический институтЕстественно-математический факультетКафедра физико-математических и общетехнических дисциплин
Дипломная работа
« Математическая модель кластерного анализа»
Выполнила: Едрисова А.С.
Научный руководитель: к.ф.м.н., доцент Калжанов М.У.
Актуальность
Использование математических методов кластерного анализа в общеобразовательной школе, с их практическим подтверждением.
Цель исследования
Изучить основные математические модели кластерного анализа;
Предложить алгоритм и основные этапы решения предлагаемых методов;
Обосновать использование математических методов кластерного анализа в общеобразовательной школе;
Изучить и обосновать использование математического пакета Statistica.
Использовать методы кластерного анализа для решения практических задач, а именно задач встречающихся в общеобразовательной школе.
Предмет исследования
Математические методы и модели кластерного анализа.
Объект исследования
Использование и применение методов кластерного анализа в общеобразовательных школах.
Гипотеза исследования
Проследить динамику уровня успеваемости и микроклимата в коллективе.
Количество успевающих и отстающих по группам,
Определить психологическую совместимость учащихся в группах.
ЗАДАЧИ
применен теоретический материал по математическим методам кластеризации;
проведен анализ и алгоритм решения предлагаемых моделей в дипломной работе;
теоретически обоснован и экспериментально подтверждена эффективность предложенных методов с использованием пакета
Практическая значимость результатов заключается в том, что полученные теоретические знания применяются для исследования школьных коллективов, с целью составления кластеров по успеваемости и психологической совместимости учащихся, с возможностью прогнозирования.
Структура работы:
Кластерный анализ – это комплекс точных математических методов, специализированных на формировании "отдаленных" друг от друга групп «близких» между собой объектов по информации о расстояниях или связях (мерах близости) между ними.
Основные понятия
Объект - от латинского objectum – предмет-конкретный предмет исследования
Признак (англ. - variable - переменная.) - представляет собой конкретное свойство объекта
Расстояние между объектами - такая величина
Аксиомы метрики
d ij 0 (неотрицательность расстояния)
d ij = d ji (симметрия)
d ij + d jk d ik (неравенство треугольника)
Если d ij не равно 0, то i не равно j (различимость нетождественных объектов)
Если d ij = 0, то i = j (неразличимость тождественных объектов)
В менеджменте - разбиение персонала на различные группы, классификация потребителей и поставщиков
В информатике - группировка результатов при поиске файлов,
Применение
В археологии - систематизация каменных сооружений, памятников
В медицине - классификация симптомов
Методы кластерного анализа
Неиерархический
Иерархический
Метод ближнего соседа.
Метод наиболее удаленных соседей.
Метод k-means
Метод ближнего соседа или одиночная связь.
Расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах.
Метод полной связи(метод дальнего соседа)
Метод дальнего соседа увеличивает число компактных кластеров. Этот метод применим для решения задач с большим количеством испытуемых.
Алгоритм k-means
Алгоритм k-means разделяет определенный набор данных на заданное пользователем число кластеров, k.
Это исторически один из самых важных алгоритмов интеллектуального анализа данных.
Пакет Statistica.
Пример № 1.
Эксперимент был направлен на практическое подтверждение теории кластерного анализа.
Эксперимент проводился на базе ГУ «Школа-гимназия № 3 отдела образования города Костаная.
Экспериментом в общей сложности было охвачено 8 учеников 9 «В» класса.
Решение задач методом ближнего соседа.
Рассматривается малая группа учеников из 8 человек. У которых - это характеристика оценок по предмету алгебра, - это характеристика оценок учащихся по предмету геометрия. Данные приведены в таблице.
Аетова А.
3
Айсина М.
3
5
Аманбаев А.
4
4
Ахметова А.
4
4
Белова В.
5
Васильева И.
4
3
Галуза В.
4
3
4
Зиннатуллина А.
4
4
4
Средние значения учащихся по кластерам
Кластер 1
Алгебра
Кластер 2
4,3
Геометрия
4
3
3
Вывод: Применив метод ближнего соседа, получено два кластера. В первый кластер вошли 6 человека ( Зиннатуллина А., Галуза В., Ахметова А., Аманбаев А., Белова В., Айсина М.). Во второй 2 человека (Васильева И., Аетова А.). В первый кластер вошли ученики, у которых средний бал по предмету больше 4. Во второй кластер вошли учащиеся, у которых средний бал по предмету равен 3.
Решение задач методом дальнего соседа
Необходимо рассмотреть малую группу учащихся из 6 человек, которые прошли 6 различных теста.
Номер теста
Обозначение
1
2
Предмет теста
3
Память на числа
Математические задачи
4
5
Находчивость
6
Сотрудничество
Логические задачи
Командный дух
Имя
Жанибек
Нурадил
5
4
6
Айнагуль
7
7
8
Юля
6
8
Диана
5
9
5
8
Ольга
10
9
7
8
9
6
10
2
10
10
5
8
5
9
8
8
7
4
9
6
6
7
3
7
Вывод: Применив метод дальнего соседа получено два кластера. В первый кластер входят 2 студента (Диана и Юля), во второй 4 человека (Оля, Нурадил, Айнагуль, Жанибек).
Средние значения наблюдений по тестам в двух кластерах
Предмет теста
Кластер 1
Память на числа
Кластер 2
9,5
Математические задачи
9,5
5,25
Находчивость
Сотрудничество
9,5
5,25
8
6
Логические задачи
7
8
Командный дух
6,5
5,25
8,5
Решение задач методомK-средних
Необходимо рассмотреть малую группу из 9 учеников. Значения , , - оценки учащихся за I четверть по предметам: алгебра, геометрия, информатика.
Ученик/
предмет
Аетова А.
3
Айсина М.
3
Аманбаев А.
5
4
5
4
Ахметова А.
5
4
4
Белова В.
4
5
Васильева И.
4
4
Галуза В.
5
3
5
4
Карпыков С.
3
5
4
3
Киколенко Ю.
5
5
3
4
5
5
Вывод : Методом K-means получено три кластера. В первый кластер вошли ученики: Аманбаев А., Ахметова А., Галуза В. У данных учеников оценки по предметам « Алгебра » и « Геометрия » 4, по предмету информатика видно, что оценки лучше у всех членов трех кластеров.
Во второй кластер вошли Айсина М., Белова В., Киколенко Ю. У данных учеников оценки по алгебре и информатике одинаковые, и выше чем по геометрии.
В третий кластер вошли Аетова А., Васильева И., Карпыков С. У них оценки по алгебре и геометрии низкие и равны оценке « 3 » , но по информатике « 4 и 5 » .