3 Introducere în analiza statistică

3.1 Concepte de bază privind analiza statistică

3.1.1 Colectivitate statistică

Colectivitatea sau populația statistică reprezintă totalitatea elementelor sau a manifestărilor de aceeași natură, asupra cărora se efectuează cercetarea.
Putem reține și o altă definiție a populației statistice, ca fiind întregul set de unități de interes pentru analiza datelor.
Populația poate fi formată din persoane, obiecte, evenimente sau orice altă entitate relevantă pentru un studiu.
Exemple: totalitatea angajaților unei companii sau toți locuitorii unui oraș.

Colectivitatea supusă cercetării poate fi totală și se numește cercetare exhaustivă, atunci când se fac înregistrări referitoare la toate elementele care formează obiectul studiului, sau parțială, când se utilizează un eșantion, prin care se fac înregistrări referitoare numai la o parte din această colectivitate.

Eșantionul: este un subset reprezentativ extras din populație pentru a efectua analize. Este folosit pentru a face inferențe despre populație, reducând costurile și timpul necesare colectării datelor.
Exemplu: Un sondaj efectuat pe 500 de angajați dintr-o companie mare, cu 25000 de angajați.
Alegerea unui eșantion reprezentativ este crucială pentru a obține rezultate valide. Tehnicile de eșantionare, cum ar fi eșantionarea aleatorie simplă, stratificată sau cluster, sunt esențiale pentru a reduce erorile de eșantionare.

3.1.2 Unitate statistică

Elementele care compun populația statistică se numesc unități statistice sau unități de observare.
Unitatea statistică sau unitatea de observare este cea mai mică entitate despre care se colectează informații.
Unitățile statistice reprezintă mulțimea numărabilă de elemente care compun colectivitatea statistică.
De exemplu, unitatea statistică a unei cercetări referitoare la veniturile populației poate fi gospodăria sau persoana. Unitatea statistică a unei cercetări privind calitatea producției este produsul finit, semifabricatul sau piesa căreia i se testează caracteristicile.

Unitățile statistice pot fi simple sau complexe. Cele complexe sunt formate din mai multe unități simple. O astfel de unitate este gospodăria¹. Unitățile pe care se realizează cercetarea salariilor sunt, de asemenea unități complexe: unitățile economice la care se face înregistrarea datelor.

3.1.3 Caracteristici ale unității statistice

Fiecare element al colectivității este purtătorul cel puțin a unei caracteristici supuse observării statistice.
Caracteristica statistică reprezintă acea proprietate/însușire care este comună tuturor unităților unei colectivități statistice cercetate.
Caracteristicele statistice poartă numele și de variabile.
O variabilă este o caracteristică măsurabilă care poate lua mai multe valori. Spre exemplu, venitul unei persoane, vârsta, nivelul de satisfacție al clienților.

Rolul variabilelor: Variabilele sunt elementele centrale ale analizei datelor, definind relațiile, tendințele și corelațiile care pot fi observate în cadrul unui studiu.

3.1.4 Date statistice

Formele sau nivelurile concrete ale caracteristicilor statistice sunt denumite variante, valori sau date și diferă de la o unitate la alta (sau în timp, în cazul aceleiași unități) sub influența unui complex de factori.

Datele statistice exprimă valori ale unor caracteristici cantitative ale unităților statistice.

Numărul unităților la care se înregistrează aceeași variantă sau valoare poartă denumirea de frecvență a variantei/valorii respective.

3.1.5 Indicatori statistici

text

3.2 Mărimile relative

text

3.3 Sistematizarea datelor

text

3.4 Indicatorii de nivel

3.4.1 Aplicații

3.4.1.1 1. Media unei serii simple

Se cunosc date privind veniturile salariale lunare (în lei/lună) ale celor 80 de angajați din firma M. Caracteristicile serie sunt prezentate în tabelul următor și ne propunem realizarea acestei analize descriptive prin cele 4 platforme software.

	grupe de venit (lei)	\(n_i\)	\(h_i\)	\(x_i\)	\(x_i n_i\)	\(N_i\)^
	0 – 1000	6	300	850	5100	6
interval quartila inferioară	1001 – 1300	24	300	1150	27600	30
interval median	1301 – 1600	30	300	1450	43500	60
interval quartila superioară	1601 – 1900	12	300	1750	21000	72
	1901 – 2200	5	300	2050	10250	77
	2201 – \(\inf\)	3	300	2350	7050	80
	total	80	-	-	114500

Să se determine venitul salarial mediu lunar al angajaților firmei.

3.4.1.1.1 Rezolvare prin R

# incarcarea datelor "venit.csv"
venit <- read.csv("date/venit.csv", head = T)
# o vizualizare succinta a datelor
head(venit)

# explorarea prelimiară a datelor
summary(venit)

     venit     
 Min.   : 750  
 1st Qu.:1260  
 Median :1395  
 Mean   :1451  
 3rd Qu.:1605  
 Max.   :2360

# intervalul datelor
range(venit$venit)

[1]  750 2360

# calculul mediei seriei simple
mean(venit$venit)

[1] 1450.875

Venitul salarial mediu lunar al celor 80 angajați ai firmei este de 1450.875 lei/lună.

3.4.1.1.2 Rezolvare prin Python

# importarea librariilor necesare
import pandas as pd

# incarcarea datelor "venit.csv"
venit = pd.read_csv("date/venit.csv")

# o vizualizare succinta a datelor
print(venit.head())

# explorarea preliminara a datelor
print(venit.describe())

             venit
count    80.000000
mean   1450.875000
std     338.683952
min     750.000000
25%    1260.000000
50%    1395.000000
75%    1605.000000
max    2360.000000

# intervalul datelor
print(venit['venit'].min(), venit['venit'].max())

750 2360

# calculul mediei seriei simple
print(venit['venit'].mean())

1450.875

3.4.1.1.3 Rezolvare prin Excel

venit.xlsx

3.4.1.1.4 Rezolvare prin Power BI

3.4.1.2 2. Gruparea datelor - construirea seriilor de distribuție

Exemplu: A fost efectuată o cercetare privind mărimea (măsurată pe baza numărului de salariați) a 80 de firme industriale din orașul M. Datele referitoare la numărul de salariați înregistrat în cursul observării sunt următoarele:

166	162	121	126	128	85	136	158	135	127
141	142	92	148	177	80	156	188	205	144
155	230	100	129	160	159	105	150	110	98
182	102	128	198	115	122	124	163	130	133
132	150	75	206	149	170	112	142	119	151
134	224	135	236	126	175	215	130	121	128
190	156	108	143	218	172	180	120	169	129
123	156	142	127	133	146	139	140	138	138

3.4.1.2.1 Rezolvare prin R

# incarcarea datele
grupare <- read.csv("date/grupare.csv", head = F)
head(grupare)

# numarul de observatii
nobs <- length(grupare$V1)
nobs

[1] 80

# numărul de grupe
g <- ceiling((2*nobs)^(1/3))
g

[1] 6

# valoarea maximă
xmax <- max(grupare$V1)
xmax

[1] 236

# valoarea minimă
xmin <- min(grupare$V1)
xmin

[1] 75

# determinarea înălțimii intervalelor
h <- (xmax - xmin) / g
h

[1] 26.83333

# rotunjirea la o valoare superioară a intervalului
h <- ceiling(h/10) * 10
h

[1] 30

# limitele intervalelor de grupare
x1_inf <- xmin - (g*h-(xmax-xmin))/2
x1_inf

[1] 65.5

# rotunjirea la o valoare superioară a limitei inferioare
x1_inf <- ceiling(x1_inf/10) * 10
x1_inf

[1] 70

# dacă limita inferioară nu cuprinde valoarea minimă se reajustează limita inferioară
if (x1_inf > xmin) {x1_inf <- (floor(x1_inf/10) - 1) * 10}

# determinarea intervalelor de frecvente
limite_intervale <- seq(from = x1_inf, to = 250, by = h)
grupare$interval <- cut(grupare$V1, breaks = limite_intervale)

library(dplyr)


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union

grupare %>% 
  group_by(interval) %>%
  summarise(frecvente = n())

# A tibble: 6 × 2
  interval  frecvente
  <fct>         <int>
1 (70,100]          6
2 (100,130]        24
3 (130,160]        30
4 (160,190]        12
5 (190,220]         5
6 (220,250]         3

3.4.1.2.2 Rezolvare prin Python

import pandas as pd
import numpy as np
import math

# încărcarea datelor
grupare = pd.read_csv("date/grupare.csv", header=None, names=["V1"])
print(grupare.head())

# numărul de observații
nobs = len(grupare["V1"])
print(nobs)

# numărul de grupe
g = math.ceil((2 * nobs) ** (1/3))
print(g)

# valoarea maximă
xmax = grupare["V1"].max()
print(xmax)

# valoarea minimă
xmin = grupare["V1"].min()
print(xmin)

# determinarea înălțimii intervalelor
h = (xmax - xmin) / g
h = math.ceil(h / 10) * 10  # rotunjire la cel mai apropiat multiplu de 10
print(h)

# limitele intervalelor de grupare
x1_inf = xmin - (g * h - (xmax - xmin)) / 2
x1_inf = math.ceil(x1_inf / 10) * 10  # rotunjire la cel mai apropiat multiplu de 10

# ajustarea limitei inferioare dacă este necesar
if x1_inf > xmin:
    x1_inf = (math.floor(x1_inf / 10) - 1) * 10
print(x1_inf)

# determinarea intervalelor de frecvențe
limite_intervale = np.arange(x1_inf, 250 + h, h)
grupare['interval'] = pd.cut(grupare['V1'], bins=limite_intervale)

# calculul frecvențelor pe intervale
frecvente = grupare.groupby('interval').size().reset_index(name='frecvente')
print(frecvente)

     interval  frecvente
0   (70, 100]          6
1  (100, 130]         24
2  (130, 160]         30
3  (160, 190]         12
4  (190, 220]          5
5  (220, 250]          3

3.4.1.2.3 Rezolvare prin Excel

grupare.xlsx

3.4.1.2.4 Rezolvare prin Power BI

3.5 Indicatorii variației

• abateri, dispersie, abatere standard, repartiție, asimetrie, concentrare

3.6 Vizualizarea datelor

text

Prin gospodărie se înțelege grupul de două sau mai multe persoane care locuiesc împreună în mod obișnuit, având, în general, legături de rudenie și care se gospodăresc (fac menajul) în comun, participând în totalitate sau parțial la formarea veniturilor și la cheltuirea lor. Persoana care nu aparține de o gospodărie și care declară că locuiește și se gospodărește singură se consideră gospodărie formată dintr-o singură persoană. Se consideră membri ai gospodăriei și persoanele plecate din localitate pentru o perioadă mai mare de 6 luni, care se află în țară sau străinătate, dacă acestea păstrează legături familiale cu gospodăria↩︎