» » »

§ 11.2.1 Выборочный метод. Задачи математической статистики. Основные понятия математической статистики.

Элементы математической статистики. Выборочный метод


Генеральная и выборочная совокупности. Статистические распределения выборок. Кумулята и ее свойства. Гистограмма и полигон статистических распределений. Числовые характеристики: выборочная средняя; дисперсия выборки; среднеквадратическое отклонение; мода и медиана для дискретных и интервальных статистических распределений выборки; эмпирические начальные и центральные моменты, асимметрия и эксцесс.

Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении статистических данных — результатах наблюдений. Первая задача математической статистики — указать способы сбора и группировки (если данных очень много) статистических сведений. Вторая задача математической статистики — разработать методы анализа статистических данных в зависимости от цели исследования. Изучение тех или иных явлений методами математической статистики служит средством решения многих вопросов, выдвигаемых наукой и практикой (правильная организация технологического процесса, наиболее целесообразное планирование и др.).


Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.




Генеральная и выборочная совокупности


Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, для партии деталей качественным признаком может служить стандартность детали, а количественным — контролируемый размер детали. Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяется сравнительно редко. Например, если совокупность содержит большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то случайным образом отбирают из всей совокупности ограниченное число объектов и подвергают их изучению.


Выборочной совокупностью, или просто выборкой, называют совокупность случайно отобранных объектов.


Генеральной совокупностью называют совокупность объектов, из которых проводится выборка.


Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности.


Часто генеральная совокупность содержит конечное число объектов. Однако если это число достаточно велико, то иногда для упрощения вычислений или для облегчения теоретических выводов, допускают, что генеральная совокупность состоит из бесчисленного множества объектов. Такое допущение оправдывается тем, что увеличение объема генеральной совокупности (достаточно большого объема) практически не сказывается на результатах обработки данных выборки.




Статистические распределения выборок


В результате статистической обработки материалов можно подсчитать число единиц, обладающих конкретным значением того или иного признака. Каждое отдельное значение признака будем обозначать x_1,x_2,\ldots,x_n и называть вариантой, а абсолютное число, показывающее, сколько раз встречается та или иная варианта, — частотой и обозначать m_1,m_2,\ldots,m_n.


Если отдельные значения признака (варианты) расположим в возрастающем или убывающем порядке и относительно каждой варианты укажем, как часто она встречается в данной совокупности, то получим статистическое распределение признака, или вариационный ряд. Он характеризует изменение (варьирование) какого-нибудь количественного признака. Следовательно, вариационный ряд представляет собой две строки (или колонки). В одной из них приводятся варианты, в другой — частоты.


Вариация признака может быть дискретной и непрерывной. Дискретной называется вариация, при которой отдельные значения признака (варианты) отличаются друг от друга на некоторую конечную величину (обычно целое число); Например: количество детей в семье; оценки, полученные студентами на экзамене; размеры обуви, проданной за день фирмой.


Непрерывной называется вариация, при которой значения признака могут отличаться одно от другого на сколь угодно малую величину. Например: стоимость реализованной продукции; уровень рентабельности предприятия; процент занятости трудоспособного населения; депозитная ставка коммерческих банков.


При непрерывной вариации распределение признака называется интервальным. Частоты относятся не к отдельному значению признака, а ко всему интервалу. Часто значением интервала принимают его середину, т. е. центральное значение.




Пример 1. Уровень рентабельности предприятий легкой промышленности характеризуется следующими данными.


Изображение

Нередко вместо абсолютных значений частот используют относительные. Для этого можно использовать долю частоты того или иного варианта (а также интервала) в сумме всех частот. Такая величина называется относительной частотой и обозначается w. Для получения относительных частот необходимо соответствующую частоту разделить на сумму всех частот:


w_1=\dfrac{m_1}{\sum\limits_{i=1}^{n}m_i};~~~w_2=\dfrac{m_2}{\sum\limits_{i=1}^{n}m_i};~~~\ldots,

где w_1,~w_2 — относительная частота варианты или интервала соответственно первой, второй и т. д.

Сумма всех относительных частот равна единице:


\sum\limits_{i=1}^{n}w_1=1.

Относительные частоты можно выражать и в процентах (тогда их сумма равна 100%).


В интервальном вариационном ряду в каждом интервале различают нижнюю и верхнюю границы интервала: нижняя граница интервала x_{\min}; верхняя граница интервала x_{\max} величина интервала k=x_{\max}-x_{\min}. Как правило, при построении интерваль-ных вариационных рядов в каждый интервал включаются варианты, числовые значения которых больше нижней границы и меньше или равны верхней границе. Интервальные вариационные ряды бывают с одинаковыми и неодинаковыми интервалами. В последнем случае чаще всего встречаютсяпоследовательно увеличивающиеся интервалы. Для выбора оптимальной величины интервала, т. е. такой, при которой вариационный ряд не будет громоздким и будут сохранены особенности явления, можно рекомендовать формулу


k\approx\frac{x_{\max}-x_{\min}}{1+3,\!2\lg{n}}, где n — число единиц в совокупности.

Так, если в совокупности 200 единиц, наибольший вариант равен 49,961, а наименьший — 49,918, то


k\approx\frac{49,\!961-49,\!918}{1+3,\!2\lg200}\approx\frac{0,\!043}{8,\!36}\approx0,\!005.

Следовательно, в данном случае оптимальной величиной интервала может служить 0,005.




Гистограмма и полигон статистических распределений. Кумулята


Для наглядного представления вариационного ряда большое значение имеют его графические изображения. Графически вариационный ряд может быть изображен в виде полигона, гистограммы и кумуляты.


Полигон распределения (дословно — многоугольник распределения) строится в прямоугольной системе координат. Величина признака откладывается на оси абсцисс, частоты или относительные частоты — по оси ординат. Чаще всего полигоны применяются для изображения дискретных вариационных рядов, но их можно применять также для интервальных рядов. В этом случае на оси абсцисс откладываются точки, соответствующие серединам данных интервалов.


Гистограмма распределения строится аналогично полигону в прямоугольной системе координат. В отличие от полигона при построении гистограммы на оси абсцисс выбирают не точки, а отрезки, изображающие интервал, а вместо ординат, соответствующих частотам или относительным частотам отдельных вариант, строят прямоугольники с высотой, пропорциональной частотам или относительным частотам интервала. В случае интервалов различной длины гистограмма распределения строится, не по частотам или относительным частотам, а по плотности интервалов (абсолютной или относительной). При этом общая площадь гистограммы равна численности совокупности, если построение проводится по абсолютной плотности, или единице, если гистограмма построена по относительной плотности.


Если соединить прямыми линиями середины верхних сторон прямоугольников, то получим полигоны распределения.


Разбивая интервалы на несколько частей и исходя из того, что вся — площадь гистограммы должна остаться при этом неизменной, можно получить мелкоступенчатую гистограмму, которая при уменьшении величины интервала будет приближаться к плавной кривой, называемой кривой распределения.




Пример 2. По данным примера и построить полигон распределения и гистограмму.


Решение см. на рисунке 28.


Изображение

Кумулятивная кривая (кривая сумм — кумулята) получается при изображении вариационного ряда с накопленными частотами или относительными частотами в прямоугольной системе координат, Накопленная частота определенной варианты получается суммированием всех частот вариант, предшествующих данной, с частотой этой варианты. При построении кумуляты дискретного признака по оси абсцисс откладывают значения признака (варианты), Ординатами служат вертикальные отрезки, длина которых пропорциональна накопленной частоте или относительной частоте той или иной варианты. Соединением вершин ординат прямыми линиями получаем ломаную (кривую) кумуляту.


При построении кумуляты интервального вариационного ряда нижней границе первого интервала соответствует частота, равная нулю, а верхней — вся частота интервала. Верхней границе второго интервала соответствует накопленная частота первых двух интервалов (т. е. сумма частот этих интервалов) и т. д. Верхней границе последнего (максимального) интервала соответствует накопленная частота, равная сумме всех частот.




Пример 3. По данным примера 1 построить кумуляту распределения.


Решение cм. на рисунке 29.


Изображение




Друзья! Приглашаем вас к обсуждению. Если у вас есть своё мнение, напишите нам в комментарии.