Resolução da Lista 1 de Geoestatística

Aluno: Lucas Alfano

DRE: 117052881

1) O número de eventos sísmicos ao longo de 20 dias é 664, 658, 610, 670,640, 643, 675, 650, 676, 575, 660, 661, 520, 667, 668, 635, 671, 673, 645 e 650. Qual o padrão que o histograma destes valores segue? Justifique, utilizando o programa R para obter o histograma.

a) simétrico

b) assimétrico à esquerda (cauda esquerda mais longa)

c) assimétrico à direita (cauda direita mais longa)

d) uniforme

e) forma de sino

Resposta:

Foram utilizados os seguintes códigos no R para montar o histograma:

x<-scan()
#colocar os valores dados no enunciado para o programa ler.
hist(x,breaks=10,main="Exercício 1",xlab="",ylab="Frequência")

O seguinte histograma será gerado:

Portanto, é possível observar que o padrão deste histograma é assimétrico à esquerda (cauda esquerda mais longa). Alternativa B.

2) Conhecida uma amostra com as notas de 50 alunos, utilize o programa R para resolver os itens abaixo:

84 68 33 52 47 73 68 61 73 77

74 71 81 91 65 55 57 35 85 88

59 80 41 50 53 65 76 85 73 60

67 41 78 56 94 35 45 55 64 74

65 94 66 48 39 69 89 98 42 54

a) Construa o histograma de frequências relativas (use a notação porcen-
tual). Destaque o intervalo modal.

b) Faça o Box-plot relativo ao conjunto de dados.

c) Determine o desvio padrão e o coeficiente de variação da amostra.

d) Determine o coeficiente de assimetria e a curtose.

Resposta:

a) Foi utilizado o seguinte código para construir o histograma:

x<-scan()
#Colocar os valores dados no enunciado para o programa ler

z<-rnorm(x)

z.hist<-hist(x)

z.hist$counts<-z.hist$counts*100/length(x)

plot(z.hist,main="Exercício 2(a)",xlab="",ylab="Frequência (%)")

Gerando o seguinte histograma:

b) Ainda utilizando a função x<-scan() da letra a , utilizou-se o seguinte código:

Boxplot(x,main="Exercício 2(b)",xlab="",ylab="")

Gerando o seguinte Boxplot:

c) Utilizou-se a seguinte função para calcular o desvio-padrão:

sd(x)

O resultado dado foi : Desvio-padrão = 17.10282

Para calcular o coeficiente de variação da amostra, utilizou-se o seguinte código:

sd(x)*100/mean(x)

O resultado dado foi: Coeficiente de variação da amostra = 26.28777

Obs: Deve-se ressaltar que este coeficiente é dado, em porcentagem, pela relação desvio-padrãox100/média.

d) Utilizando o pacote moments; Para calcular a curtose, utiliza-se a seguinte função:

kurtosis(x,na.rm=FALSE)

O valor retornado é: Curtose = 2.164658 .

Para calcular o Coeficiente de assimetria, ainda utilizando o pacote moments e o código x<-scan() da letra a, utiliza-se a seguinte função:

skewness(x,na.rm=FALSE)

O valor retornado é: Coeficiente de assimetria = -0.04350355

3) Utilizando o data set jura (usar o arquivo prediction.dat) analise a distribuição de chumbo (Pb) por uso da terra (1=floresta, 2=pasto e 3=relva) obtendo por área respectiva: histogramas, estatísticas básicas, semivariogramas omnidirecionais. Preliminarmente, pode-se afirmar que a distribuição de chumbo difere?

Resposta:

Utiliza-se o pacote gstat para esta questão.

Histogramas

Floresta

Para construir o histograma da floresta, foi utilizado o seguinte código:

data(jura)
z <- subset(prediction.dat,Landuse==1)
x.norm<-z$Pb
h<-hist(x.norm,breaks=15)
xhist<-c(min(h$breaks),h$breaks)
yhist<-c(0,h$density,0)
xfit<-seq(20,85, by=1.0)
yfit<-dnorm(xfit,mean=mean(x.norm),sd=sd(x.norm))
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)),main="Pb na floresta",xlab="Pb",ylab="Densidade")
lines(xfit,yfit,col="red")

Pasto

Para fazer o histograma do pasto, foi utilizado o seguinte código:

data(jura)
z <- subset(prediction.dat,Landuse==2)
x.norm<-z$Pb
h<-hist(x.norm,breaks=15)
xhist<-c(min(h$breaks),h$breaks)
yhist<-c(0,h$density,0)
xfit<-seq(10,250, by=1.0)
yfit<-dnorm(xfit,mean=mean(x.norm),sd=sd(x.norm))
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)),main="Pb no pasto",xlab="Pb",ylab="Densidade")
lines(xfit,yfit,col="red")

Relva

Para fazer o histograma da relva, foi utilizado o seguinte código:

data(jura)
z <- subset(prediction.dat,Landuse==3)
x.norm<-z$Pb
h<-hist(x.norm,breaks=15)
xhist<-c(min(h$breaks),h$breaks)
yhist<-c(0,h$density,0)
xfit<-seq(10,250, by=1.0)
yfit<-dnorm(xfit,mean=mean(x.norm),sd=sd(x.norm))
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)),main="Pb na relva",xlab="Pb",ylab="Densidade")
lines(xfit,yfit,col="red")

Estatísticas básicas

Para calcular as estatísticas básicas da floresta, utilizou-se o seguinte código:

data(jura)
z<-subset(prediction.dat,Landuse==1)
x.norm<-z$Pb
summary(x.norm)

Retornando os seguintes valores:

Min. 1st Qu. Median Mean 3rd Qu. Max.
21.60 37.16 51.20 50.60 56.68 84.40

Para calcular as estatísticas básicas do pasto, utilizou-se o seguinte código:

data(jura)
z<-subset(prediction.dat,Landuse==2)
x.norm<-z$Pb
summary(x.norm)

Retornando os seguintes valores:

Min. 1st Qu. Median Mean 3rd Qu. Max.
26.76 37.31 45.44 61.77 62.56 229.60

Para calcular as estatísticas básicas da relva, utilizou-se o seguinte código:

data(jura)
z<-subset(prediction.dat,Landuse==3)
x.norm<-z$Pb
summary(x.norm)

Retornando os seguinte valores:

Min. 1st Qu. Median Mean 3rd Qu. Max.
18.96 35.80 46.00 51.95 60.00 172.10

Semivariograma

Para fazer o semivariograma, utilizou-se o seguinte código:

data(jura)
z <- gstat(id="Pb", formula=Pb~1, locations=~Xloc+Yloc, data=prediction.dat)
graf<-variogram(z)
plot(graf,main="Semivariograma de Pb",xlab="Distância",ylab="Semivariância")

Conclusão do exercício

A partir dos três parâmetros (histograma, estatísticas básicas e semivariograma), é possível afirmar que há uma diferenciação da distribuição de chumbo (Pb) por locais de usos de terra. Em média (através das estatísticas básicas) no pasto há uma maior concentração de Pb, seguido da relva e por último na floresta. Portanto, há uma diferença na distribuição de chumbo.

5) Um investidor no setor mineral deve escolher entre três empreendimentos. No primeiro, tem 10% de chance de ganhar R$ 250.000.000,00 e 90% de perder 10.000.000,00; no segundo tem 50% de chance de ganhar R$ 40.000.000,00 e 50% de chance de perder 2.000.000,00; no terceiro tem 5% de chance de ganhar R$ 800.000.000,00 e 95% de chance de perder R$ 20.000.000,00. Qual dos três investimentos ele deve escolher? Justifique e elabore.

Resposta:

Deve-se escolher o segundo investimento.

No primeiro investimento, tem-se 10% de chances de lucrar 1500%, no segundo tem 50% de chances de lucrar 1000% e no terceiro tem 5% de chances de lucrar 3000%. O risco de perda no investimento 1 é 1,8 vezes maior (num valor de perda 5 vezes maior), enquanto a taxa de lucro é somente 1,5 vezes maior quando comparado com o investimento 2, portanto a taxa de prejuízo é maior do que a taxa de lucro (não vale o risco); No investimento 3, a taxa de perda, em relação ao investimento 2, é 1,9 vezes maior (num valor de perda 10 vezes maior) enquanto a taxa de lucro seria somente 3 vezes maior, portanto este investimento também não vale o risco quando comparado com o investimento 2. Equilibrando-se na "balança" a chance de perda e a chance de lucro, o investimento 2 é a melhor opção.

6) A distância entre dois poços A e B é de 30 km. Se um operário vai de bicicleta de A para B a 10 km por hora e depois volta de B para A a 30 km por hora, qual é a velocidade média em todo o percurso?

Resposta:

7) Calcule a permeabilidade média para o bloco representado na figura, considerando-se um fluxo Q horizontal. No gráfico, Qi representa o fluxo horizontal em cada seção, ki representa a permeabilidade, W a largura da seção, hi a altura da seção, L a profundidade e Pi a pressão na entrada e na saída do bloco respectivamente, k1=10 md, k2=12 md, k3=15 md, h1=10 cm, h2=20 cm, h3=30 cm e w=40 cm L=60 cm.

Resposta:

8) Idem para um fluxo Q vertical, mantendo-se os mesmos valores do exercício anterior com Li=hi.

Resposta:

9) Obtenha os quartis a partir do histograma (cada bloco corresponde a 10% das observações).

Resposta:

Quartis são valores que dividem uma amostra de dados em quatro partes iguais. Sendo cada bloco equivalendo 10% das observações, temos:

No intervalo 21-22, 20% se passaram.
No intervalo 22-23, 50% (20%+30%) se passaram.
No intervalo 23-24, 60% (50%+10%) se passaram.
No intervalo 24-25, 70% (60%+10%) se passaram.
No intervalo 25-26, 80% (70%+10%) se passaram.
No intervalo 26-27, 90% (80%+10%) se passaram.
No intervalo 27-28, 100% (90%+10%) se passaram.

No quartis X(25%), considera-se 1/6 (5%) do intervalo 22-23 (30%). Então, 23-22 = 1 e 1x1/6 = 0,17

Logo, X(25%) = 22+0,17=22,17.

No quartis X(50%) o valor é 23, pois 23 coincide em 50%.

Então, X(50%) = 23.

No quartis X(75%), tem-se o número 25 coincidindo a 70%, observa-se que o intervalo 25-26 equivale a 10%. Então na metade deste intervalo (70%+5%) é igual a 25,5.

Logo, X(75%) = 25,5.

12) Em um estudo sobre segurança em uma plataforma de petróleo, duas amostras foram obtidas: a) uma amostra aleatória simples com 500 indivíduos que admitem procedimentos não conformes pelo menos umavez por dia, cujas eventuais notificações de acidentes foram anotadas; b) uma amostra aleatória simples independente da anterior, com 500indivíduos que declaram nunca violar as normas de segurança, cujas eventuais notificações de acidentes também foram anotados.

Um segundo estudo foi feito também com duas amostras com 500 indivíduos cada. Porém neste caso, durante seis meses, o primeiro grupo foi submetido a um treinamento especial de segurança, enquanto o segundo grupo não recebeu nenhuma instrução especial, tendo os casos eventuais de acidentes de ambos os grupos sido anotados em um mes-

mo período dado. Indique a opção correta, justificando.

(a) O primeiro estudo é um experimento controlado, enquanto o segun-
do é um estudo observacional.
(b) O primeiro estudo é observacional, enquanto o segundo é um expe-
rimento controlado.
(c) Ambos os estudos são experimentos controlados.
(d) Ambos os estudos são observacionais.
(e) Cada estudo é em parte experimental, em parte observacional.

Resposta:

Alternativa B.

O primeiro estudo é observacional, pois o estudo visa observar indivíduos que admitem procedimentos não conformes com a segurança, e, observar indivíduos que negam tal fato. Notificações de acidentes foram anotadas em ambos os grupos, ou seja, mesmo que seguindo os procedimentos adequados, observou-se que há notificações de acidentes. Este estudo, visa a separação de indivíduos (os que admitem e os que negam).

O segundo estudo é experimental, pois o grupo que admitiu a prática de procedimentos não conformes passaram por treinamento de segurança e mesmo assim houve anotações de eventuais acidentes em ambos os grupos. Ou seja, o experimento deste estudo consiste, que, mesmo com treinamento (do grupo que admite não fazer procedimentos adequados), ainda há casos de acidentes. Neste caso estuda-se um conjunto de sujeitos já separados.

13) 13. Uma população discreta e finita é constituída por 200 objetos, distribuídos em três estratos diferentes S1, S2 e S3, da seguinte forma: 50 em S1 e S3 ; 100 em S2. De quantas maneiras diferentes pode-se extrair uma amostra estratificada, com reposição, de tamanho igual a 40 objetos? (Não é necessário fazer o cálculo até o final, apenas indique o resultado usando a notação de números combinatórios).

Resposta:

14) a) Uma amostra com temperaturas tem média igual a 25,32 graus Celsius e desvio-padrão igual a 4,7. Se as medidas forem convertidas em graus Kelvin, quais são a nova média e o novo desvio-padrão? (1 grau Kelvin = 1 grau Celsius + 273,16)

b) Uma amostra com áreas tem média amostral igual a 59,2 hectares, com desvio-padrão igual a 11,2 hectares. Se as medidas forem convertidas em acres, quais são a nova média e o novo desvio-padrão? (1 hectare = 2.471 acres)

Resposta:

a) Para calcular a nova média, deve-se somar 273,16 à média antiga.

Então a nova média será igual a: 25,32 + 273,16 = 298,48 K.

Como a dispersão de valores será a mesma, então o desvio-padrão será o mesmo. Logo, Desvio-padrão = 4,7.

b) Para calcular a média e o desvio-padrão neste caso, deve-se multiplicar por 2,471 (pois 1 hectare = 2,471 acres).
Então, Média(acres) = Média(hectare) x 2,471 = 59,2 x 2,471 = 146,283 acres.

E, Desvio-padrão(acres) = Desvio-padrão(hectare) x 2,471 = 11,2 x 2,471 = 27,675.

Pesquisar este blog

Introdução à Geoestatística