РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ АВТОМАТИЗИРОВАННОЙ ПРОВЕРКИ НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ И СТАТИСТИЧЕСКОГО АНАЛИЗА БИОМЕТРИЧЕСКИХ ДАННЫХ

Мельников И.Д. 1, Жижина К.П. 1, Ананченко И.В. 1

1 Санкт-Петербургский государственный технологический институт (технический университет)

772 KB

1. Биометрия: учебник для вузов / П. С. Катмаков, В. П. Гавриленко, А. В. Бушов; под общей редакцией П. С. Катмакова. 3-е изд., перераб. и доп. М.: Юрайт, 2025. 186 с. (Высшее образование). ISBN 978-5-534-15732-1.

2. Федоров Д. Ю. Программирование на языке высокого уровня Python: учебное пособие. 2-е изд., пер. и доп. М.: Юрайт, 2019. 161 с. (Бакалавр. Прикладной курс). ISBN 978-5-534-10971-9. EDN WGENGH.

Введение

Проверка соответствия эмпирических данных нормальному распределению является обязательным этапом перед применением параметрических статистических методов в биологических исследованиях. Одним из классических способов такой проверки является критерий согласия χ² Пирсона. Его ручной расчет, включающий построение вариационных рядов, вычисление теоретических частот и сопоставление распределений, отличается высокой трудоемкостью и склонностью к ошибкам, особенно при работе с большими выборками данных.

Целью работы является разработка на языке Python с использованием библиотеки Tkinter специализированного программного обеспечения для автоматизации полного цикла статистического анализа биометрических данных с акцентом на проверку гипотезы о нормальности распределения по критерию Пирсона.

Актуальность разработки обусловлена повсеместной распространённостью нормального распределения в природе, следующей из центральной предельной теоремы. Поскольку многие параметрические критерии в биометрии требуют соответствия данных нормальному закону, автоматизация данного анализа становится практической необходимостью. Она позволяет ускорить обработку данных, минимизировать ошибки и сделать сложные статистические процедуры более доступными для исследователей в биологии и сельском хозяйстве.

Математическое описание и методы исследования

По правилу Стерджеса число интервалов вариационного ряда K (ед.) рассчитывается по формуле [1]:

где n – объем выборки, ед.

Расчет: определяет оптимальное количество групп для группировки исходных данных.

Выборочное среднее значение признака (г) определяется через соотношение [1]:

где xi – середина i-го классового интервала, г; fi – частота встречаемости вариант в i-м интервале, ед.

Расчет: характеризует центральную тенденцию распределения массы орехов в выборке.

Выборочная дисперсия s2(г2) и среднее квадратическое отклонение s (г) определяется по формуле [1]:

Расчет: характеризуют вариацию (разброс) индивидуальных значений массы вокруг среднего.

Статистика критерия согласия χ² Пирсона рассчитывается по формуле [1]:

χ²набл

где χ²набл – наблюдаемое значение критерия Пирсона, безразмерная величина; fi – эмпирическая (наблюдаемая) частота в i-м интервале, ед.; Fi′ – теоретическая частота для i-го интервала, рассчитанная в предположении нормального распределения, ед.

Расчет: служит для количественной оценки расхождений между эмпирическим и теоретическим (нормальным) распределениями.

Доверительный интервал для генеральной средней μ(г) определяется по формуле [1]:

где t∝ – критическое значение t-статистики (или z-статистики для больших n) для заданного уровня значимости α, безразмерная величина; s – выборочное среднее квадратическое отклонение, г.

Расчет: определяет диапазон, в котором с заданной доверительной вероятностью P=1−α находится истинное среднее значение массы орехов во всей генеральной совокупности.

Результаты исследования и их обсуждение

Разработан программный комплекс на Python с графическим интерфейсом Tkinter, автоматизирующий полный цикл статистического анализа.

Главное окно программы

Система выполняет проверку нормальности распределения по критерию χ² Пирсона и расчёт доверительных интервалов для параметров генеральной совокупности.

Интерфейс приложения представлен на рисунке. Он включает модуль импорта данных (CSV, Excel), настройку уровня значимости (α) и структурированный вывод результатов. Вычислительное ядро реализует построение вариационного ряда по правилу Стерджеса, расчёт выборочных характеристик, теоретических частот и статистики χ², а также определяет доверительные интервалы для средней и стандартного отклонения.

Результаты представлены детально, включая промежуточные вычисления. Модуль визуализации на Matplotlib создаёт аналитические графики: совмещённую гистограмму, график плотности нормального распределения и диаграмму доверительных интервалов.

Система стандартизирует процедуры проверки нормальности и оценки параметров, повышая воспроизводимость результатов и минимизируя вычислительные ошибки при обработке данных в исследовательских и прикладных задачах.

Исходный код проекта размещен в публичном репозитории на GitHub [https://github.com/0Kopeika0/DEVELOPMENT-OF-A-SOFTWARE-PACKAGE-FOR-AUTOMATED-VERIFICATION-OF-THE-NORMALITY].

Перспективным направлением является развитие системы в универсальную платформу статистического анализа. Это включает внедрение альтернативных критериев нормальности (Шапиро-Уилка, Колмогорова-Смирнова) и методов для многомерных распределений. Практическую значимость усилит интеграция с системами сбора данных и внедрение устойчивых методов оценки. Переход к веб-архитектуре и облачным сервисам обеспечит широкую доступность и возможности для совместной работы. Создание специализированных модулей позволит применять систему в различных областях – от молекулярной биологии до промышленной стандартизации.

Выводы

Разработано программное обеспечение, автоматизирующее проверку нормальности распределения по критерию χ² Пирсона и оценку доверительных интервалов. Система с графическим интерфейсом Tkinter включает модули импорта данных, вычислительное ядро и визуализацию на Matplotlib. Её внедрение стандартизирует процедуры, сокращает время обработки, минимизирует ошибки и повышает доступность методов для специалистов. Перспективы развития связаны с добавлением новых критериев нормальности, интеграцией с системами сбора данных и переходом к веб-архитектуре для создания универсальной аналитической платформы.

Библиографическая ссылка

Мельников И.Д., Жижина К.П., Ананченко И.В. РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ АВТОМАТИЗИРОВАННОЙ ПРОВЕРКИ НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ И СТАТИСТИЧЕСКОГО АНАЛИЗА БИОМЕТРИЧЕСКИХ ДАННЫХ // Материалы МСНК "Студенческий научный форум 2026". 2026. № 19. С. 13-15;
URL: https://publish2020.scienceforum.ru/ru/article/view?id=958 (дата обращения: 01.07.2026).

Материалы Международной студенческой научной конференции
Студенческий научный форум 2026

Библиографическая ссылка

Студенческий научный форум 2026
Материалы Международной студенческой научной конференции