Diskuse s wikipedistou:Nom~cswiki

Statistika[editovat zdroj]

Popisná statistika https://powerpoint.office.live.com/p/PowerPointView.aspx?FBsrc=https%3A%2F%2Fwww.facebook.com%2Fdownload%2Ffile_preview.php%3Fid%3D330759290412993%26time%3D1402252233%26metadata&access_token=1152076504%3AAVJ6KZo53HZbF8CwxBHjyr_wPKJVvE3Zl6FvUdkYJXBitg&title=statistika1.pps

Moje postupy[editovat zdroj]

Základní charakteristiky
Nastaveni pracovního adresáře
setwd("F:/STGST_ZKOUSKA") Nahrát data přes Import Dataset
data2 <- read.table("Adresa dat", header=T, quote="\"")

Vypočítat průměr
mean(data[,3]) // třetí sloupec

Minimum a maximum
min(data[,3]) a max(data[,3])

Rozsah = rozdíl mezi nejvyšší hodnotou a nejnižší
max(data[,3]) - min(data[,3])

Variaci=rozptyl
var(data[,2],)

Směrodatná odchylka
sd(data[,3])

Medián, prostřední hodnota v datech, ve sloupci z
median(data1[,3])

library(e1071) //sikmost spicatost
Šikmost
skewness(data[,3])

Špičatost
kurtosis(data[,3])

Celkové zhodnocení
summary(data[,3])
Kde je Min= minimum, první kvartil=3342, Střední hodnota=4647, 3 kvartil=6685
IQR (data1[,3])
IQR – 3342.254 //IQR Iqrje důležitá součást numerických charakteristik –mír variabilit

GRAFY
Barplot- znazornuje nám velikosti jednotlivých entit(bodů- o velikosti Z, která je promítnutá na Y ose)
barplot(data[,3])
Histogram- znázorňuje výskyt dat v intervalech. Můžeme vidět, že největší výskyt je okolo hodnoty 2500 a poté klesá.
hist(z)
Boxplot-krabicový graf- znázorňuje nejnižší hodnotu spodní úsečkou ( Outliery) a nejvyšší hodnotu a graficky vizualizuje numerické data pomocí kvartilů, mezikvartilové rozpětí je 3700.
Prostřední černá úsečka nám vykresluje střední hodnotu (median)
boxplot(z)
Qqplot zapnutí knihovny car – bez toho nelze vytvořit qq plot

qqPlot(data1[,3])

REGRESE[editovat zdroj]

Nahrajeme data2.txt
Zjistíme složení (attach(data2))
View(data2)
attach(data2)
cor(data2[,1], data2[,2])
kvm <- lm(Var1 ~ Var2 + I(Var2^2), data = data2)
kvm
summary(kvm)
plot(kvm)
plot(Var1 ~ Var2, pch = '*')
abline(kvm, col = 'red')

Var1 ~ Var2 + I(Var2^2) – regresní rovnice
Coefficients:
(Intercept) Var2 I(Var2^2)

-2.177e+00   -5.845e-01   -2.616e-05

Pi-value nám udavává že model je pravdivý <0.05. Z grafu lze vyčíst, že je zde málo extrémů, regresivní přímka nám ukazuje na vztah mezi proměnnými

KVADRATICKÁ REGRESE
View(data2)

Zjištění korelace – vzájemného vztahu
Dle korelace mají hodnoty velký záporný vztah

cor(data2[,1],data2[,2])

kvm<- lm(X ~ Y + I(Y^2), data = data2)

plot(X ~ Y, pch = '*')
abline(kvm, col = 'red')

Regresní rovnice
X ~ Y + I(Y^2)

Anova[editovat zdroj]

Vytvoříme nový sloupec a vložíme do něj číslo ve kterém se nachází

data[,5] <- 0
attach(data)
Přiřadíme podle kvadrantu
a <- quantile(x, probs = c(0.5))
b <- quantile(y, probs = c(0.6))
data[,5] <- ifelse(x < a[1], 1, ifelse(y < b[1], 2, 3))
data[,5] <- as.factor(data[,5])
table(data[,5])
anova <- aov(z~data[,5], data = data)
anova
plot(TukeyHSD(anova))
Anova nám dokázala, že je rozdíl mezi hodnotami sloupce Z v závisloti na skupinách. Pomocí grafu Tukey HSD vykreslíme rozdíly mezi průměry v hodnotách 1-3 ve skupinách

POKUSY
Vytvorim si novy sloupec
data1[,4] <- 0

rozdelim data podle sedmého decilu osy x a podle medianu osy y

a <- quantile(X, probs = c(0.7))

b <- median(Y)

urcim si podminku a pote data nahraju jako faktor

data1[,4] <- ifelse(x < a[1]&y>b[1], 1, ifelse(x < a[1]&y<b[1], 2, 3))

data1[,4] <- ifelse(x < a[1]&y>b[1], 1, ifelse(x < a[1]&y>b[1], 2, 3))

data1[,4] <- as.factor(data1[,4])

anova <- aov(z~data1[,4], data = data1)

plot(TukeyHSD(anova))

Kriging[editovat zdroj]

Nejprve zjistím, zda mají hodnoty normální rozdělení (>0.05) (qqPlotem nebo Shapiro)

shapiro.test(data[,3])
W = 0.8415, p-value < 2.2e-16

data: log(data[, 3])
W = 0.9967, p-value = 0.4148

Data musim zlogaritmovat (protože nemaji normalni rozdeleni, p-value je mensi nez 0.05) , tak vytvorim novy sloupec s log hodnotami:
data[,4] <- log(data[,3])

Uděláme z dat Geodata musim pomoci cords.col stanovit, ze sloupec 1 a 2 jsou souradnice a x a y data.col = 4 –sloupec 4 je Z souradnice
geodata <- as.geodata(data, coords.col=1:2, data.col=4)
cpomocí coords.col stanovíme , že sloupec 1 a 2 jsou souřadnice X a Y a data.col=4 –sloupec 4 je Z souřadnice
geodata <- as.geodata(data, coords.col=1:2, data.col=4)
> plot(geodata, lowess = T)

Veškerá statistika geodat- density (dole vpravo), Grafy (nahoře vpravo a dole vlevo) ukazují, že data nejsou nijak soustředěná na žádnou světovou stranu

Vytvoříme variogram
var<-variog(geodata)
Zde můžeme vidíme několik charakteristik, které nám pomohou zpřesnit Kriging. Nugget efect=0,2 prahová hodnota je v distance=4000
var <- variog(geodata, max.dist=4000)

vario.fit <- variofit(var, cov.model = "spherical", nugget = 0.2, max.dist = 4000, fix.nugget = TRUE)

Provedeme základní charakteristiku k vytvoření rastru
summary(geodata$coords)
Min. :3727 Min. :73731

1st Qu.:4979   1st Qu.:75084  
Median :6008   Median :76105  
Mean   :6034   Mean   :76085  
3rd Qu.:7067   3rd Qu.:77054  
Max.   :8614   Max.   :78834

Podle charakteristik vytvříme rastr
Min a max X a Y, velikost pixelu 100x100
loci <- expand.grid(seq(3800,7100,b=100),seq(73800,78900,b=100))
par(mfrow = c(1,2))
kc <- krige.conv(geodata,loc=loci,krige=krige.control(obj.model=vario.fit))
krige.conv: model with constant mean
krige.conv: Kriging performed using global neighbourhood
Data musíme odlogaritmovat a zobrazit je zprávně
par(mfrow = c(1,2))
> image(kc, value = exp(kc$predict), col = terrain.colors(12))
> contour(kc,value = exp(kc$predict), nlev = 20, add=T)- vložíme vrstevnice

Shapiro test[editovat zdroj]

Zjistování zda data mají normální rozdělení shapiro.test(data1[,3]) Shapiro-Wilk normality test

data: data1[, 3] W = 0.9947, p-value = 0.7757

Dála mají normální rozdělení, p-value je vetší jak 0,05.

Váš účet bude přejmenován[editovat zdroj]

Dobrý den!

Vývojářský tým nadace Wikimedia provádí v rámci dlouhodobého úsilí o poskytování nových a lepších nástrojů pro naše uživatele (jako např. oznámení napříč projekty) jisté úpravy fungování uživatelských účtů. Tyto úpravy budou znamenat, že budete mít všude stejné uživatelské jméno. Umožní nám to přidat nové funkce, které vám pomůžou lépe editovat a diskutovat, a umožnit flexibilnější uživatelská oprávnění pro nástroje. Jedním z vedlejších následků, které to způsobí, je, že uživatelské účty budou muset být napříč všemi 900 projekty nadace Wikimedia unikátní. Více informací naleznete v oznámení.

Bohužel však někdo jiný na jiné wiki používá stejné uživatelské jméno jako vy, „Nom“. Abychom zajistili, že budete oba moci v budoucnu používat všechny projekty nadace Wikimedia, vyhradili jsme uživatelské jméno „Nom~cswiki“, které bude jen vaše. Pokud se vám líbí, nemusíte nic dělat. Pokud se vám nelíbí, můžete si zvolit jiné.

Váš účet bude fungovat jako předtím a zůstanou vám připsány vaše dosavadní editace, ale při přihlašování budete muset používat nové uživatelské jméno.

Omlouváme se za nepříjemnosti.

S pozdravem,
Keegan Peterzell
Community Liaison, Wikimedia Foundation

17. 3. 2015, 23:43 (CET)

Přejmenováno[editovat zdroj]

Tento účet byl přejmenován v rámci dokončení sjednoceného přihlašování. Pokud jste vlastníkem tohoto účtu, můžete získat více informací tím, že se přihlásíte svým předchozím uživatelským jménem a heslem. Pokud se vám nové jméno tohoto účtu nelíbí, můžete si po přihlášení vybrat vlastní na stránce Speciální:Žádost o globální přejmenování. -- Keegan (WMF) (diskuse)

19. 4. 2015, 05:12 (CEST)