Přeskočit na obsah

Diskuse s wikipedistou:Nom~cswiki

Obsah stránky není podporován v jiných jazycích.
Přidat téma
Z Wikipedie, otevřené encyklopedie

Statistika[editovat zdroj]

Popisná statistika https://powerpoint.office.live.com/p/PowerPointView.aspx?FBsrc=https%3A%2F%2Fwww.facebook.com%2Fdownload%2Ffile_preview.php%3Fid%3D330759290412993%26time%3D1402252233%26metadata&access_token=1152076504%3AAVJ6KZo53HZbF8CwxBHjyr_wPKJVvE3Zl6FvUdkYJXBitg&title=statistika1.pps


Moje postupy[editovat zdroj]

Základní charakteristiky
Nastaveni pracovního adresáře
setwd("F:/STGST_ZKOUSKA") Nahrát data přes Import Dataset
data2 <- read.table("Adresa dat", header=T, quote="\"")

Vypočítat průměr
mean(data[,3]) // třetí sloupec

Minimum a maximum
min(data[,3]) a max(data[,3])

Rozsah = rozdíl mezi nejvyšší hodnotou a nejnižší
max(data[,3]) - min(data[,3])

Variaci=rozptyl
var(data[,2],)

Směrodatná odchylka
sd(data[,3])

Medián, prostřední hodnota v datech, ve sloupci z
median(data1[,3])

library(e1071) //sikmost spicatost
Šikmost
skewness(data[,3])

Špičatost
kurtosis(data[,3])

Celkové zhodnocení
summary(data[,3])
Kde je Min= minimum, první kvartil=3342, Střední hodnota=4647, 3 kvartil=6685
IQR (data1[,3])
IQR – 3342.254 //IQR Iqrje důležitá součást numerických charakteristik –mír variabilit

GRAFY
Barplot- znazornuje nám velikosti jednotlivých entit(bodů- o velikosti Z, která je promítnutá na Y ose)
barplot(data[,3])
Histogram- znázorňuje výskyt dat v intervalech. Můžeme vidět, že největší výskyt je okolo hodnoty 2500 a poté klesá.
hist(z)
Boxplot-krabicový graf- znázorňuje nejnižší hodnotu spodní úsečkou ( Outliery) a nejvyšší hodnotu a graficky vizualizuje numerické data pomocí kvartilů, mezikvartilové rozpětí je 3700.
Prostřední černá úsečka nám vykresluje střední hodnotu (median)
boxplot(z)
Qqplot zapnutí knihovny car – bez toho nelze vytvořit qq plot

qqPlot(data1[,3])






Nahrajeme data2.txt
Zjistíme složení (attach(data2))
View(data2)
attach(data2)
cor(data2[,1], data2[,2])
kvm <- lm(Var1 ~ Var2 + I(Var2^2), data = data2)
kvm
summary(kvm)
plot(kvm)
plot(Var1 ~ Var2, pch = '*')
abline(kvm, col = 'red')

Var1 ~ Var2 + I(Var2^2) – regresní rovnice
Coefficients:
(Intercept) Var2 I(Var2^2)

-2.177e+00   -5.845e-01   -2.616e-05  

Pi-value nám udavává že model je pravdivý <0.05. Z grafu lze vyčíst, že je zde málo extrémů, regresivní přímka nám ukazuje na vztah mezi proměnnými



KVADRATICKÁ REGRESE
View(data2)


Zjištění korelace – vzájemného vztahu
Dle korelace mají hodnoty velký záporný vztah

cor(data2[,1],data2[,2])

kvm<- lm(X ~ Y + I(Y^2), data = data2)

plot(X ~ Y, pch = '*')
abline(kvm, col = 'red')

Regresní rovnice
X ~ Y + I(Y^2)

Vytvoříme nový sloupec a vložíme do něj číslo ve kterém se nachází

data[,5] <- 0
attach(data)
Přiřadíme podle kvadrantu
a <- quantile(x, probs = c(0.5))
b <- quantile(y, probs = c(0.6))
data[,5] <- ifelse(x < a[1], 1, ifelse(y < b[1], 2, 3))
data[,5] <- as.factor(data[,5])
table(data[,5])
anova <- aov(z~data[,5], data = data)
anova
plot(TukeyHSD(anova))
Anova nám dokázala, že je rozdíl mezi hodnotami sloupce Z v závisloti na skupinách. Pomocí grafu Tukey HSD vykreslíme rozdíly mezi průměry v hodnotách 1-3 ve skupinách


POKUSY
Vytvorim si novy sloupec
data1[,4] <- 0

rozdelim data podle sedmého decilu osy x a podle medianu osy y

a <- quantile(X, probs = c(0.7))

b <- median(Y)

urcim si podminku a pote data nahraju jako faktor

data1[,4] <- ifelse(x < a[1]&y>b[1], 1, ifelse(x < a[1]&y<b[1], 2, 3))

data1[,4] <- ifelse(x < a[1]&y>b[1], 1, ifelse(x < a[1]&y>b[1], 2, 3))

data1[,4] <- as.factor(data1[,4])

anova <- aov(z~data1[,4], data = data1)

plot(TukeyHSD(anova))

Nejprve zjistím, zda mají hodnoty normální rozdělení (>0.05) (qqPlotem nebo Shapiro)

shapiro.test(data[,3])
W = 0.8415, p-value < 2.2e-16


data: log(data[, 3])
W = 0.9967, p-value = 0.4148


Data musim zlogaritmovat (protože nemaji normalni rozdeleni, p-value je mensi nez 0.05) , tak vytvorim novy sloupec s log hodnotami:
data[,4] <- log(data[,3])

Uděláme z dat Geodata musim pomoci cords.col stanovit, ze sloupec 1 a 2 jsou souradnice a x a y data.col = 4 –sloupec 4 je Z souradnice
geodata <- as.geodata(data, coords.col=1:2, data.col=4)
cpomocí coords.col stanovíme , že sloupec 1 a 2 jsou souřadnice X a Y a data.col=4 –sloupec 4 je Z souřadnice
geodata <- as.geodata(data, coords.col=1:2, data.col=4)
> plot(geodata, lowess = T)

Veškerá statistika geodat- density (dole vpravo), Grafy (nahoře vpravo a dole vlevo) ukazují, že data nejsou nijak soustředěná na žádnou světovou stranu

Vytvoříme variogram
var<-variog(geodata)
Zde můžeme vidíme několik charakteristik, které nám pomohou zpřesnit Kriging. Nugget efect=0,2 prahová hodnota je v distance=4000
var <- variog(geodata, max.dist=4000)

vario.fit <- variofit(var, cov.model = "spherical", nugget = 0.2, max.dist = 4000, fix.nugget = TRUE)

Provedeme základní charakteristiku k vytvoření rastru
summary(geodata$coords)
Min. :3727 Min. :73731

1st Qu.:4979   1st Qu.:75084  
Median :6008   Median :76105  
Mean   :6034   Mean   :76085  
3rd Qu.:7067   3rd Qu.:77054  
Max.   :8614   Max.   :78834 

Podle charakteristik vytvříme rastr
Min a max X a Y, velikost pixelu 100x100
loci <- expand.grid(seq(3800,7100,b=100),seq(73800,78900,b=100))
par(mfrow = c(1,2))
kc <- krige.conv(geodata,loc=loci,krige=krige.control(obj.model=vario.fit))
krige.conv: model with constant mean
krige.conv: Kriging performed using global neighbourhood
Data musíme odlogaritmovat a zobrazit je zprávně
par(mfrow = c(1,2))
> image(kc, value = exp(kc$predict), col = terrain.colors(12))
> contour(kc,value = exp(kc$predict), nlev = 20, add=T)- vložíme vrstevnice

Shapiro test[editovat zdroj]

Zjistování zda data mají normální rozdělení shapiro.test(data1[,3]) Shapiro-Wilk normality test

data: data1[, 3] W = 0.9947, p-value = 0.7757


Dála mají normální rozdělení, p-value je vetší jak 0,05.

Váš účet bude přejmenován[editovat zdroj]

17. 3. 2015, 23:43 (CET)

Přejmenováno[editovat zdroj]

19. 4. 2015, 05:12 (CEST)