A ideia é resumir o material, não traduzir. Durante o resumo, sempre devemos priorizar
algum ponto mais importante, às custas de tirar outros pontos, que na nossa opinião são
menos relevantes. Além disto, o resumo deve ser seu texto, o que não me parece nada
provável quando um dos tópicos é “Escolhendo o nível de referência sabiamente”... na
realidade neste caso em particular a manutenção de todas (ou pelo menos aparentemente
todas as mesmas seções do capítulo costuma ser um indicador muito claro de tradução e
um pouco de corte do texto, não um resumo propriamente dito. 8,0
Mais de uma coisa boa: Regressão Múltipla
Este capítulo se estende de regressão linear simples de mais de um preditor r para o que é
chamado de modelo de regressão linear múltipla comum ou regressão múltipla.
Compreender os conceitos básicos de Regressão Linear Múltipla
Para entendermos os conceitos básicos de regressão linear múltipla, o autor cita o que foi
visto no capítulo 18, onde se refere à determinação dos parâmetros (inclinação e intercepção) de
uma linha reta e que esta se aproxime o máximo possível dos pontos. Isso significa que a soma
dos quadrados das distâncias vertical de cada ponto da linha de ajuste é menor para a linha de
mínimos quadrados do que para qualquer outra linha, com isso, podemos entender que para
modelos de regressão múltipla contendo mais de um preditor e mais de dois parâmetros, usamos
a mesma ideia. Para duas variáveis de previsão, ajusta-se um plano para um conjunto de pontos
em três dimensões, para mais de dois preditores é ajustado um hiperplano para pontos de quatro
dimensões ou mais.
Definindo alguns termos importantes
A regressão múltipla é formalmente conhecida como a modelo de regressão linear múltipla comum
ou ordinária. Os termos significam:
Ordinária: A variável é uma variável numérica contínua cujas flutuações aleatórias são normalmente
distribuídas.
Múltipla: O modelo tem mais de duas variáveis de previsão.
Linear: Cada variável de previsão é multiplicado por um parâmetro, e estes produtos são
adicionados em conjunto para obter o valor predito da variável de saída. Você também pode ter um
parâmetro que não é multiplicado por qualquer coisa, chamado de termo constante ou a
interceptação.
Funções lineares:
Y = a + bX (o modelo linear simples; X é o preditor variável, Y é o resultado, e a e b são os
parâmetros).
Y = a + bX + CX2 + dX2 (As variáveis podem ser elevadas ao quadrado ou ao cubo, mas enquanto
eles estão multiplicados por um coeficiente e somados, a função ainda é considerada linear nos
parâmetros).
Y = a + bX + cZ + dXZ (O termo XZ, muitas vezes escrito como X * Z, é chamado de interação).
Estar ciente de como trabalhar os cálculos
Para ajustar um modelo de regressão múltipla é necessária à criação de um conjunto de equações,
uma para cada parâmetro do modelo. Assim como faz para a linha reta, podem-se resolver essas
equações e obter os valores dos parâmetros, porém, têm-se mais equações para resolver. Através
de um aplicativo da lei de propagação de erro, podem-se obter informações para estimar o erro dos
parâmetros.
Preparando variáveis categóricas
Os preditores em um modelo de regressão múltipla pode ser numérico ou categórica. As diferentes
categorias que uma variável pode ter são chamadas de níveis. Se uma variável como o gênero,
pode ter apenas dois níveis, como masculino ou feminino, então ele é chamado de dicotômica ou
uma variável categórica binária, se ele pode ter mais de dois níveis, chamamos de variável
multinível.
Tendo em casos suficientes em cada nível o cada variável categórica
Para usar uma variável categórica em um modelo de regressão múltipla, devem ser tabulados
quantos casos estão em cada nível, deve-se ter pelo menos dois casos cada nível. Normalmente,
quanto mais uniformemente distribuídos os casos, mais preciso e confiáveis serão os resultados.
Escolhendo o nível de referência sabiamente
Para cada variável categórica em um modelo de regressão múltipla, o programa considera uma
das categorias para ser o nível de referência, e avalia como cada um dos outros níveis afeta o
resultado, em relação ao nível referência. Alguns softwares permitem que você especifique o nível
de referência para uma variável categórica.
Escolha o seu nível de referência sabiamente, ou os resultados não serão muito
significativos ou úteis
Para uma variável que representa a presença ou a ausência de uma condição o nível referência
deve representar a ausência da condição.
Para uma variável que representa os grupos de tratamentos, o nível de referência deve ser o
tratamento padrão, ou o tratamento que se deseja comparar com outros tratamentos.
Para uma variável que representa uma característica, como gênero ou raça, o nível de referência
é arbitrário. Às vezes, a escolha adequada pode ser implícita nos objetivos do estudo.
Gravando variáveis categóricas como numéricas
Se o software permite que seja inserida as categóricas como personagem de dados (homem ou
mulher), é necessário certificar-se que para cada variável categórica, tem-se casos suficientes em
cada nível. Mas se o programa de regressão aceita apenas as variáveis numéricas como preditores,
então é preciso recodificar as variáveis categóricas de texto descritivo para códigos numéricos.
Para as variáveis categóricas com mais de dois níveis, é mais complicado.
Não se pode simplesmente codificar as diferentes categorias como números diferentes, porque, o
computador vai pensar que é uma variável numérica, e dar respostas erradas. É necessário dividir
a variável multinível um em um conjunto de variáveis binárias, um para cada nível da variável
original.
Criando gráficos de dispersão, antes de saltar em sua regressão múltipla
Muitos pesquisadores cometem o erro de imediatamente correr uma regressão antes de olhar em
seus dados. Quando se planeja analisar dados por meio de regressão múltipla, é necessário fazer
algumas outras coisas antes, como traçar a relação entre cada variável de previsão e a variável
resultado, e também as relações entre as variáveis de previsão própria.
Quando houver planejamento de executar um modelo de regressão como o SystolicBP deve-se
primeiro preparar vários gráficos de dispersão. Os modelos de regressão que envolve muitos
fatores preditivos podem ser um monte de gráficos de dispersão, mas, muitos softwares podem
preparar um conjunto de pequenos gráficos de dispersão automaticamente para possíveis
emparelhamentos entre um conjunto de variáveis, organizados em uma matriz.
Tomando alguns passos com o seu software
As etapas que você toma para executar uma regressão múltipla dependem do software usado.
1. Reúna seus dados em um arquivo com uma linha por assunto e uma coluna para cada variável
que você deseja no modelo.
2. Diga ao software qual variável é o resultado e quais são os preditores.
3. O software permite que você especifique determinados gráficos de resultados, resumos de
resíduos e outros resultados úteis.
4. Pressione o botão ir. Você deve ver suas respostas quase que instantaneamente.
Os componentes de saída são
• A descrição do modelo a ser instalado. Esta descrição é SystolicBP = Idade + Peso.
• Um resumo dos resíduos. Para este exemplo, o Max e Min Residuais indicam que um valor PA
sistólica observado foi de 17,8 mm Hg maior do que o previsto pelo modelo, e 15,4 1N m Hg menor
do que o previsto.
• A tabela de regressão, ou coeficientes de mesa, com uma linha para cada parâmetro no modelo,
e colunas para o seguinte:
 O valor estimado do medidor para, que lhe diz o quanto o resultado variável muda quando a
variável correspondente aumenta em exatamente 1,0 unidades, segurando ali as outras
variáveis constantes, por exemplo, o modelo prevê que a cada ano adicional da idade
aumenta a pressão arterial sistólica por 0,84 M1N Hg, mantendo constante peso (como num
grupo de pessoas que ali pesar o mesmo).
 O erro padrão da estimativa. Assim, a estimativa do coeficiente de Idade 0,84 mm de Hg por
ano é incerto sobre + 0,52 M1N Hg por ano.
• O valor t (valor do parâmetro dividido pelo seu SE). Por idade, o valor t é 0,8446 / 0,5163, ou
1.636.
• O valor de p, designada "Pr (> ti 1)" nesta saída, que indica se o parâmetro é significativamente
diferente de zero. Se p <0,05, neste exemplo, nem o coeficiente de idade nem o coeficiente de peso
é significativamente diferente de zero.
Verificando a saída opcional disponível a partir de alguns programas
Dependendo do software, você também pode ser capaz de obter vários outros resultados úteis a
partir da regressão:
Os valores previstos para a variável dependente, ou como uma lista ou como uma nova variável
colocada em seu arquivo de dados.
Residuais, ou como uma lista ou como uma nova variável colocada em seu arquivo de dados.
A matriz de parâmetros de correlações de erro, que é importante se dois parâmetros de uma mesma
regressão será utilizada para calcular alguma outra quantidade.
Decidir se os seus dados é adequado para análise de regressão
Dois pressupostos da regressão linear ordinária incluem o seguinte:
Quantidade de variabilidade; os resíduos são relativamente constantes e não dependem do valor
da variável dependente.
Os resíduos são aproximadamente distribuídos normalmente.
O importante é se os pontos parecem dispersar uniformemente acima e abaixo da linha, e se a
quantidade de dispersão parece ser a mesma na esquerda, central e direita do gráfico.
No texto o autor mostra uma figura (Figura 19-3b) que fornece uma indicação visual da normalidade
dos resíduos. O importante é saber se os valores parecem estar ao longo da linha pontilhada ou
estão visivelmente "curvados". Neste exemplo a maioria dos pontos é razoavelmente consistente
com uma linha reta, exceto, a parte inferior esquerda do gráfico. Nesta outra figura ao lado, a
maioria dos pontos são consistentes com uma linha reta, porém, a parte inferior esquerda do gráfico
parece apresentar dispersões.
Determinar o quanto o modelo se ajusta bem aos dados
O erro padrão residual é a média de dispersão de pontos observados do modelo ajustado, quanto
menor o número, melhor.
Quanto maior for o valor múltiplo R2, melhor o ajuste.
Uma estatística significativa F indica que o modelo prevê o resultado significativamente melhor do
que o modelo nulo.
Assistindo a para situações especiais que surgem em Regressão Linear Múltipla
Neste tema são discutidos interações sinérgicos, anti-sinérgicos e co-linearidade. Os quais referese como o comportamento simultâneo de dois preditores pode influenciar um resultado.
Sinergia e anti-sinergia
Neste caso, pode acontecer de duas variáveis de previsão exercer um efeito sinérgico em um
resultado. Isto ocorre se os preditores aumentar uma unidade. O resultado mudaria por mais do
que simplesmente a soma dos dois aumentos você esperaria de mudança para cada valor
individual por uma unidade.
Se o coeficiente de interação tem um valor p significativo (p <0,05), em seguida, as duas variáveis
têm sinergia significativa entre elas. O sinal do coeficiente indica se a sinergia é (anti-sinergia)
positivo ou negativo.
Colinearidade e o mistério do significado desaparecendo
Em análise de regressão linear múltipla pode ocorrer o desaparecimento de significância. Quando
se executa um monte de regressões lineares simples em cada preditor separadamente contra o
resultado, pode-se achar que vários preditores são significativamente associados com o resultado.
Em seguida, ao executar uma regressão múltipla, utilizando os preditores, descobre-se que um ou
mais das variáveis anteriormente significativas perderam seu significado.
A co-linearidade não faz o modelo de pior na predição de resultados, porém, é difícil dizer qual
variável foi realmente que influenciou o resultado. Esse problema não é trivial, pode ser difícil, não
impossível, para discernir as verdadeiras relações de causa e efeito entre um conjunto de variáveis
associadas.
Figurando Como Muitos assuntos que você precisa
Todo bom experimento deve ter uma amostra grande o suficiente para garantir que você obtenha
um resultado significante no teste de hipótese de pesquisa primária quando o efeito que você está
testando em que a hipótese é grande o suficiente para ser de grande importância. Então, se as
principais hipóteses do seu estudo vai ser testado por um regressão múltipla, você deve fazer algum
tipo de cálculo de potência, projetado especificamente para a regressão múltipla, para determinar
o tamanho da amostra que você precisa.
Algumas regras para a regressão múltipla:
É precisa de 4 indivíduos para cada variável de previsão em seu modelo.
É preciso 10 indivíduos para cada variável de previsão em seu modelo.
É preciso 100 indivíduos, além de mais 1 para cada variável de previsão.
100 é adequada; 200 é bom; 400 ou mais é grande.
Regressão Logística
O texto deve ser seu, não um google translator do artigo, e isto me parece muito difícil de ser verdade com
expressões como “Conseguir um aperto nos basics de regressão logística”, que não fazem sentido algum em
português, pelo menos que eu consiga entender. Independente disto, precisa tomar mais cuidado ao escrever,
porque “e o resultado são ...” no primeiro ponto de meio de regressão logística (e por sinal o que raios é isto
mesmo?) é duro...
Assim como já comentei em outros resumos, fazer um resumo não é traduzir o texto, mas destacar os pontos
importantes, e deveria ser uma prática diária para estudantes de mestrado e doutorado. Afinal, muito do que
encontramos em um capítulo ou artigo científico são pontos que podem ser desconsiderados para o que
precisamos...
8,0
O capitulo fala sobre a regressão logística e suas utilizações em pesquisas.





Descobrir quando usar regressão logística
Conseguir um aperto nos basics de regressão logística
A execução de uma de regressão logística e dar sentido a saída
Atentando para as coisas que podem dar errado
A estimativa do tamanho da amostra que você precisa
Você pode usar a regressão logística para analisar a relação entre uma ou mais variáveis de previsão (as
variáveis X) e um resultado categórico variável (a variável Y). Categóricos resultados típicos incluem o
seguinte:




Vivo ou morto
Fez ou não fez chover hoje
Fez ou deixou de ter um acidente vascular cerebral
Responderam ou não responderam a um tratamento
Meio de regressão logística
Você pode usar a regressão logística para fazer qualquer (ou todos) dos seguintes procedimentos:
 Testar se o preditor (É A VARIÁVEL QUE PERMITE PREDIZER UMA RESPOSTA) e o resultado
são significativamente associado; por exemplo, se a idade ou o sexo influenciou a preferência do eleitor
em um determinado candidato.
 Superar as limitações do método 2-x-2-guia transversal (descrito no Capítulo 14), que podem analisar
apenas um preditor de cada vez que tem de ser uma categoria de dois valores abordados, como a
presença ou ausência de um factor de risco. Com a regressão logística, você pode analisar qualquer
número de variáveis de previsão, cada uma das quais pode ser uma variável numérica ou uma variável
categórica ter duas ou mais categorias.
 Quantificar a extensão de uma associação entre o preditor e o resultado (o valor pelo qual um preditor
influencia a chance de conseguir o resultado); por exemplo, como muita chance de um fumante de
desenvolver alterações de enfisema com cada cigarro fumado adicional por dia.
Desenvolver uma fórmula para prever a probabilidade de obter os resultados a partir dos valores das variáveis
preditoras. Por exemplo, você pode querer prever a probabilidade de que um paciente beneficiará com um
certo tipo de terapia, com base na idade, o sexo do paciente, a gravidade da doença, e talvez mesmo a
composição genética.
Coleta e representação gráfica os dados
Este exemplo examina a exposição à radiação de raios gama, que é mortal em doses grande o suficiente,
sendo letais a curto prazo e doses pequenas tem efeitos na saúde a longo prazo, como câncer ou danos
genéticos.
Como você pode analisar esses dados? Em primeiro lugar, representar graficamente os dados: Plot a dose
recebida no eixo X (porque é a preditor). Traçar o resultado (0 que a pessoa vive; 1 se ele morreu) no eixo Y.
Esta trama dá-lhe o gráfico em Figura 20-l a. Como a variável desfecho é binário (tendo apenas os valores O
ou 1), o os pontos estão restritos a duas linhas horizontais, dificultando o gráfico de interpretar.
Montagem de uma função com uma forma de S para seus dados
Não tente encaixar uma linha reta para dados binários em resultados. A curva letal dose de verdade quase
certamente não é uma linha reta. Por um lado, a fração de indivíduos que morrem nunca pode ser menor do
que 0, nem maior do que 1, mas uma linha reta (ou uma bola para ou qualquer polinômio) muito feliz viola
esses limites para doses muito baixas e muito altas. Das muitas expressões matemáticas que produzem gráficos
em forma de S, a função logística é ideal para este tipo de dados. em sua forma mais simples, a função logística
está escrito assim: Y = 1 / (1 + eX).
Se b é positiva, a função logística é uma curva ascendente inclinada em forma de S,
Se b é 0, a função logística é uma linha recta horizontal cujo valor Y é igual a 1
Se b é negativo, a curva é virada de cabeça para baixo, como se mostra na Figura 20-4. Curvas logísticas não
tem que SIOPE para cima.
Se b é um número muito grande (positiva ou negativa), a curva logística é tão íngreme que parece como o
matemático s chamada uma função degrau.
Como a curva logística se aproxima dos limites 0.0 e 1.0 para extrema valores do indicador (s), você não deve
usar regressão logistica em situações em que a fração de indivíduos com o resultado não se aproxima esses
dois limites. A regressão logística é bom para o exemplo de radiação, porque ninguém morre de uma exposição
à radiação de zero REMs, e todo mundo morre de uma dose muito grande (como 10.000 REMs). Mas regressão
logística não seria adequado para analisar a resposta de pacientes a uma droga se muito altas doses da droga
não produzem uma cura de até 100% (ou se alguns indivíduos obter espontaneamente melhores ainda se for
dada nenhuma droga em todos).
Manipulação vários preditores em você modelo logístico
você pode ter vários preditores de um sim ou não o resultado. Por exemplo, possibilidade de uma pessoa de
morrer devido a exposição à radiação pode depender não apenas da dose de radiação recebida, mas também
da idade, sexo, peso, saúde geral, o comprimento de onda da radiação, e a quantidade de tempo durante o qual
a radiação é recebido.Suponha que a variável de resultado Y depende de três fatores preditivos, chamado X,V,
e W. Em seguida, o modelo de logística multivariada parece com isso:
Y = 1 / (1 + e- (a + bX + cV + dW)).
A regressão logística encontra os melhores valores dos parâmetros a, b, c, e D, de modo que para qualquer
conjunto particular de valores para X, V, e W, você pode prever Y -o probabilidade de obter um resultado
sim.
Executando uma regressão logística com Software
1. Verifique se o conjunto de dados tem uma coluna para a variável de resultado e que esta coluna tem
apenas dois valores diferentes.
2. Verifique se o seu conjunto de dados tem uma coluna para cada variável de previsão e que essas
colunas estão em um formato que seu software aceita.
3. . Informe o seu programa de quais variáveis são os preditores e qual variável é o resultado.
4. Um resumo das informações sobre as variáveis
• medidas de bondade do ajuste
• A tabela de coeficientes de regressão, incluindo Razão de chances e intervalos de confiança
• probabilidades previstas de conseguir o resultado (que, idealmente, o programa coloca em uma nova
coluna que ele cria no banco de dados)
• lf há apenas um preditor, um gráfico das probabilidades predita em relação ao valor do indicador
(este será um gráfico da curva logística equipada)
• A tabela de classificação de resultados observados contra resultados previstos
• Medidas de precisão da previsão (exatidão global, sensibilidade e especificidade)
• Uma curva ROC
Interpretar a saída (regressão logística)
O programa pode fornecer algumas informações descritivas de resumo sobre as variáveis: médias e
desvios padrão de preditores que são numérica variáveis e uma contagem de quantos 1 quaisquer
assuntos fez ou deixou de ter o evento resultado.
Avaliar a adequação do modelo
O programa indica o quão bem a função ajustada representa os dados (goodness-of-fit), e pode fornecer
de varias medidas, a maioria das quais têm um valor p associado. (A valor de p é a probabilidade de que
aleatórias flutuações sozinho, na ausência de qualquer efeito real na população, poderia 've produziu um
efeito observado, pelo menos, tão grande quanto o que você observou na sua amostra; veja Capítulo 3,
para uma reciclagem.) lt de fácil interpretar estes porque eles medem sutilmente diferentes tipos de
bondade de ajuste.
Verificando a tabela de coeficientes de regressão
A saída mais importante de um programa de regressão logística é a tabela de coeficientes de regressão, que se
parece muito com a tabela de coeficientes de linear ordinária ou multivariada de regressão por mínimos
quadrados (ver capítulos 18 e 19).
 Cada variável de previsão aparece em uma linha separada.
Não há uma linha para a constante (ou interceptar) prazo.
A primeira coluna é quase sempre o valor equipada do coeficiente de regressão.
A segunda coluna é usu aliado o erro padrão (SE) do coeficiente.
A coluna de valor p (talvez chamado Sig ou signif ou Pr (> LZ IJ) indica se o coeficiente é
significativamente diferente de O.
Prevendo probabilidades com a fórmula logística equipada
O programa pode mostrar-lhe a fórmula logística equipada. Na Figura 20-6, a fórmula é mostrado como: Prob
(morte) = 1 / (1 + exp (- (- 4,828 + 0,01146 * Dose)))
Se a software não fornece a fórmula, basta substituir os coeficientes de regressão a partir da tabela de regressão
logística para a fórmula.
Calculando doses eficazes em uma curva logística
Quando regressão logística é aplicado a dados de dose-resposta, a dose (X) que produz uma resposta
de 50 por cento (Y = 0,5) é chamada a dose eficaz mediana (ED50. Da mesma forma, o valor de X que
faz Y = 0.8 é chamado a dose efetiva de 80 por cento (ED80, e assim por diante. É muito fácil para
calcular estas leveis dose de especial a partir dos parâmetros A e B do modelo logístico montado no
anterior seção.
Calculando doses letais de uma curva logística
Quando a morte é o evento resultado, os termos correspondentes são mediana dose letal (DL50), 80
por cento da dose letal (LD80), e assim por diante.
Fazendo sim ou não as previsões
Um modelo logístico, devidamente equipado com um conjunto de dados, permite calcular a
probabilidade prevista de ter o resultado.
Precisão de medição, sensibilidade e especificidade, com mesas de classificação
 precisão geral: Prever corretamente. As células superior esquerdo e inferior direito correspondem a corrigir
previsões. Dos 30 indivíduos no conjunto de dados da Tabela 20-1, o modelo logístico previu corretamente
(13 + 13) / 30, ou cerca de 87 por cento do tempo; o modelo iria fazer uma previsão errada apenas cerca de
13 por cento do tempo.
 Sensibilidade: Prevendo um resultado sim quando o resultado real é Sim. A modelo logístico previu
13 dos 15 observados óbitos (a caixa t superior lef da Figura 20-8), assim que a sensibilidade é 13/15,
ou cerca de 87 por cento ; o modelo iria fazer uma previsão
Cuidado com f ou co-linearidade e desaparecendo significância
Todos os modelos de regressão com mais de uma variável de previsão pode ser atormentado com
problemas de colinearidade (quando duas ou mais variáveis de previsão são fortemente correlacionada
ted uns com os outros), e ion regressão logística não é excepção
Verifique se há inadvertida reverso-codificação da variável de desfecho
A variável de desfecho deve ser sempre 1 para um resultado sim e O para um não vir para fora
Não interpretem mal razão de chances para preditores numéricos
O valor de um coeficiente de regressão depende das unidades nas quais a variável de previsão
correspondente é expressa. Então, o coeficiente de uma altura variável expressa em metros é 100 vezes
maior do que o coeficiente de altura expresso em centímetros.
Não interpretem mal razão de chances para preditores categóricas
Preditores categóricas devem ser codificadas numericamente .Se você expressar categorias como texto,
o computador pode não traduzi-los do jeito que você quer, e as razões de chances resultante pode ser
o inverso do que você quer ou pode ser diferente de outras formas.
Desta vez o resumo está com muito mais cara de resumo (ou seja, destilou as informações,
concentrando. Está sofrendo um bocado de português truncado, e em vários pontos está ainda com
cara de tradução, mas já está bem mais “redondo” para um resumo. Não entendo, no entanto, como
a seção numerada pode ser considerada tão essencial assim, mas fica a tentativa.
9,5
Resumo cap. 20
Proposição um sim ou não: Regressão Logística
O capítulo mostra dentre outros assuntos, quando regressão logística deve ser utilizada
primeiramente fala como Descobrir quando usar regressão logística.
Ela pode ser usada para testar se o preditor (e o resultado são significativamente associados;
Superar as limitações do método 2-x-2-guia transversal, que podem analisar apenas um preditor
de cada vez que tem de ser uma categoria de dois valores abordados, como a presença ou
ausência de um factor de risco. Com a regressão logística, você pode analisar qualquer número de
variáveis de previsão, cada uma das quais pode ser uma variável numérica ou uma variável
categórica ter duas ou mais categorias.
Quantificar a extensão de uma associação entre o preditor e o resultado.
Desenvolver uma fórmula para prever a probabilidade de obter os resultados a partir dos valores
das variáveis preditoras.
Fazer ou não as previsões sobre o resultado que levem em conta as consequências das previsões
falso-positivos e falso-negativos.
Veja como um preditor influencia o resultado após o ajuste para a influência de outras variáveis
Determine o valor de um indicador que produz uma certa probabilidade de obter o resultado
Para Compreender os princípios básicos de regressão logística são explicados alguns conceitos
fundamentais.confiança na na´lise de dados deve-se representar graficamente os dados, o que
facilitrá na interpretação.
A regressão logística não é linear, não forma uma reta, visto que é gerada uma curva em forma de
S inclinado.
É representada pela função: Y = 1 / (1 + e- <ª • OX)).
O meio da S (onde Y = 0,5) sempre ocorre quando x = b / a. A inclinação da curva na região média
é determinada por b, como se segue:
Se b é positiva, a função logística é uma curva ascendente inclinada em forma de S
Se b é 0, a função logística é uma linha recta horizontal cujo valor Y é igual a 1 / (1 + e "),
Se b é negativo, a curva é virada de cabeça para baixo
Se b é um número muito grande (positiva ou negativa), a curva logística é tão íngreme que parece
como o matemático s chamada uma função degrau
Manipulação vários preditores em você modelo logístico
A regressão logística é utilizada para analisar a relação entre uma ou mais
variáveis preditoras (variáveis X) e uma variável categórica dependente (y). Y categóricos
geralmente incluem: vivo ou morto, chove ou não chove, houve ou não houve, respondeu ou não
ao tratamento,
votou ou não votou em determinado candidato, etc.
Pode usar a RL para testar se x e y estão significativamente associados; analisar qualquer número
de x, cada um com variáveis numéricas ou
categóricas tendo dois ou mais níveis; quantificar a extensão de uma associação entre x e y;
desenvolver uma fórmula para estimar a probabilidade de y a partir dos valores de x; fazer previsões
de falso-positivo e falso-negativo; verificar como um preditor influencia y após ser ajustado pela
influência de uma ou outra variável e determinar o valor de um preditor que produz certa
probabilidade de obtenção de y. O autor utiliza como exemplos dados envolvendo a mortalidade
devido à exposição à radiação gama, observando apenas a letalidade em curto prazo por doses
agudas e não efeitos a longo prazo como cânceres ou alterações genéticas. Observa-se então que
em baixas doses quase todos os indivíduos sobrevivem e em altas doses, quase todos morrem.
Assim como na regressão múltipla, a análise desses dados parte da plotagem num gráfico de
dispersão considerando a dose recebida como x (preditor) e a resposta (vivo ou morto) como y. A
partir daí monta-se uma função que tenha forma de S, ou seja, nunca produz um valor de y fora de
0 e 1, não importa quão grande ou pequeno seja X. Esta função pode ser generalizada adicionando
dois parâmetros ajustáveis (a e b): y=1/(1+e-(a+bX)), lembrando que a+bx representa a função da
regressão linear, o resto da função é que define sua forma tipo S. O meio do S (y=0,5) sempre
ocorre quando X=-b/a, ou seja, a declividade da curva é determinada pelo sinal de b.
Como os limites da curva de RL são 0 e
1, você não deve usar RL em situações onde a fração das observações não se aproximem desses
limites. Assim, a RL não sera adequada para analisar a resposta de pacientes a determinada droga
se doses muito altas dessa droga não causar 100% de
cura ou se algum paciente se curou mesmo sem ingerir tal medicamento. A RL ajusta um modelo
aos seus dados ajustando os valores de a e b que tornem a curva o mais próximo possível dos
seus dados plotados e com esse modelo você pode estimar a probabilidade da resposta ocorrer.
A teoria da RL é difícil e os cálculos são complicados: 1- Seus dados devem ter uma coluna para y
e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com suas especificações);
2- Seus dados devem ter uma coluna para cada X formatadas de acordo com seu software;
3-Especifique o que são preditores e o que é a variável dependente;
4- Informe ao programa as respostas que deseja (sumário das variáveis, tabela de coeficientes de
regressão probabilidades estimadas, etc);
5- Peça para rodar e aguarde as respostas.
As respostas são analisadas através do sumário de informações das variáveis (média e desvio
padrão), da adequação do modelo (o quanto a função se ajustou aos seus dados) e pela tabela de
coeficientes de regressão. Finalmente você pode estimar probabilidades com a fórmula logística
ajustada e calcular as doses efetiva e letais numa curva logística.
As medidas de previsão em regressão logística estão relacionadas à questão de sensibilidade
(capacidade de prever um resultado sim, quando o
resultado real é sim) e especificidade (capacidade de prever um resultado não, quando o resultado
real é não). A curva ROC é um gráfico que mostra um trade off sensibilidade/especificidade,
mostrando a gama completa de sensibilidade e especificidade que pode ser alcançada para
qualquer modelo logístico com base nos valores de corte selecionados entre 0 e 1.Mesmo com a
utilização de um só preditor é importante estimar o tamanho da amostra. O tamanho da amostra
vai depender das frequências relativas de sim e não resultados e
Como a variável de previsão é distribuída. Alguns programas e páginas da web calcular o tamanho
da amostra
CAPÍTULO 21
A ênfase excessiva no texto, sem se preocupar com o contexto, ou a importância de um tópico
voltou a atacar neste resumo, como por exemplo em detalhar o que o capítulo fala no caso da droga
e sua diluição em fluidos extra-sanguíneos. Mais de um ponto com tradução problemática e/ou
problemas de português.
8,0
O uso de outros tipos de regressão
O autor começa explicando o uso de tipos de regressão para casos especiais, como nos casos onde os dados
não são tão bem distribuídos com continuidade, e normalidade e quando a variabilidade nem é constante
nem proporcional. Para respostas que apresentam esse tipo de características, como por exemplo, o
numero de acidentes em um determinado ano. Devemos então usar um tipo especial de regressão
denominada resposta de Poisson.
A resposta de Poisson pode ser interpretada pelo (modelo linear generalizado) que é um tipo de regressão
bastante versátil e ferramentas para suas analises podem fazer parte do pacote de alguns softwares
estatísticos mais conhecidos como a ferramenta GLM do SAS. No entanto, deve atinar para o fato que
embora tenha nomes bastantes semelhantes o modelo linear generalizado (GLM) é diferente do modelo
linear geral (LM), embora o primeiro possa ser considerado uma extensão do segundo.
Porem o modelo linear generalizado estende as capacidades do modelo linear geral pelo fato de poder
utilizar funções e combinações lineares chamadas de funções link que dão características curvas aos
gráficos. No GLM as respostas também podem se apresentar em forma de números contínuos ou inteiros
seguindo os mais diversos tipos de distribuição. Normal, exponencial, binomial ou Poisson. Por essas
características versáteis o autor chama o GLM de “canivete suíço” das regressões.
O capitulo da um exemplo de como “rodar” uma regressão GLM, dando o exemplo de dados de acidentes
fatais em uma cidade em 12 anos:
Colocando os dados e dando o start dos referidos dados a saída deverá ser semelhante a imagem seguinte:
Nesse exemplo o numero 1.3298 representa o incremento anula de acidentes que pode ser arrendado para
1,33 acidentes por ano de incremento. O erro padrão de 0, 3169 significa que a variação de incremento de
acidentes anuais variou entre 0,71 e 1,95 e o AIC representa uma medida de ajuste do modelo aos dados,
sendo que quanto menor o coeficiente AIC mais ajustado o modelo se encontra, podendo representar
melhor os dados.
Ao analisar os dados de forma gráfica, seria fácil identificar que esses não são perfeitamente representados
por uma linha reta, já que a própria variação que há no evento lhe propicia característica se curva, devendo
essa ser ajustada para melhor interpretação de seus dados como na figura acima.
Vale tudo com regressão não linear
As variáveis preditoras e o coeficiente de regressão sempre aparecerão nos modelos como uma combinação
linear (c0 + c1x1 + c2x2 + c3x3...). no entanto para regressões não lineares os coeficiente já não ter aparecido
emparelhado com preditor como (c2x2). Pois essa tem uma exietencia mais independente e tem aparecido
sozinha. Pois, a formula para a regressão não linear pode ser algébrica, envolvendo somas e diferenças,
produtos e relações, juntas com alguma combinação logarítimica, exponencial, trigonométrica e outros tipos
de expressões matemáticas como exemplificado na tabela a seguir:
É bastante comum utilizar regressão não linear na pesquisa de desenvolvimento de drogas. Onde se deseja
testar um composto já existente ou compostos promissores e determinar algumas características de sua
farmacocinética básica (PK) para analisar forma de como um medicamento é absorvido, distribuído,
modificado, e eliminado.
No capitulo é abordado um exemplo de um experimento típico na área de teste de fármacos e como a
utilização da regressão não linear ajuda na interpretação dos resultados. Segue na tabela abaixo:
A tabela acima mostra dados de tempo após tomar a dose de um determinado medicamento e
concentração desse medicamento no sangue. E logo abaixo o gráfico de dispersão e regressão:
Para rodar esse tipo de regressão pode ser utilizado o autor cita programas como SPSS, SAS, graphPad, e R. e
apresenta um interpretação da saída.
O volume de distribuição: Vd = Dose / C0 = 10.000 μ. g / 59,5 μ g / d L = 168 dL, ou 16,8 litros. (Este volume
maior do que o volume de sangue normla do humano médio, indica que este fármaco esta permanecendo
em outras corpo sendo librado posteriormente par ao sangue). Eliminação intervalo: t:,. = 0,693 / ke = 0,693
/ 0,163 hr, ou 4,25 horas. (Depois 4,25 horas, apenas 50 por cento da dose inicial é IEFT no corpo; depois S
8,5 horas, apenas 25 por cento da dose original permanece; e assim por diante.)
Esse tipo de ajuste mostra a capacidade da regressão não linear em se ajustar a esse tipo de resposta,
possibilitando um entendimento melhor dos efeitos, e mais que isso, uma previsão das respostas em níveis
seguintes, o que é bastante desejável nesse tipo de pesquisa.
Pelo fato desse melhor ajuste a respostas biológicas a regressão não linear é grande valia para dados dessa
natureza.
Outro tipo de ferramenta que pode ser utilizada é a suavização dos dados não paramétricos, ou também
conhecida Lowess. A utilização desse tipo de ferramenta é bastante viável para encontrar uma curva que
melhor se adeque a dados com algum tipo de variação especial, ou que seja difícil encaixar em outros tipos
de curva de regressão. No entanto, o ajuste de lowess muitas vezes descreve bem o comportamento das
respostas, mas não fornece possiblidade de interpretação e previsão de efeitos, o que não a torna
interessante a pesquisas agrarias em sua maioria. Pois não ajudar a responder perguntar servindo mais
como uma forma de visualização. Embora a curva possa ser sua vidada para encontra um determinado
ponto de inflexão ela muitas vezes não se ajustam bem a características das respostas o que ainda a torna
de pouca utilidade em ciências que querem testar hipóteses cientificas
Continua com problemas de tradução, como de resto quase todos os resumos que vi até agora.
Neste caso, fica bem claro pela frase “se você contar estrada individuais mortes em vez de rodovias
fatais acidentes”, que fica quase ilegível em português. Deu um tratamento geralmente adequado
a Poisson, mas a meu ver excessivamente sucinto para os modelos não lineares, considerando
sua importância em um vasto leque de aplicações.
9
Os estatísticos muitas vezes têm de analisar resultados que consiste no número de ocorrências de um
evento sobre algum intervalo de tempo, como o número de acidentes rodoviários fatais em uma cidade em um
ano. Se as ocorrências parecem estar ficando mais numerosos como o tempo passa, você pode querer realizar
uma análise de regressão para ver se a tendência de aumento é estatisticamente significativa e para estimar a
taxa anual de aumento (com o seu erro padrão e intervalo de confiança).
Como os eventos aleatórios independentes (como acidentes rodoviários) deve seguir uma distribuição de
Poisson. Eles devem ser analisados por uma espécie de regressão de Poisson projetado para resultados.
GLM (fórmula = Acidentes ~ Ano, família = poisson (link = "identidade"))
Isto diz-R tudo o que precisa de saber: O resultado é a variável chamada Acidentes, a previsão é a variável
chamada Ano, e a variável resultado segue a distribuição de Poisson. O link = "identidade" diz a R que você
deseja ajustar um modelo em que os verdadeiros aumentos nas taxas de evento de uma forma linear; isto é,
incrementa-se de uma quantidade constante de cada ano.
Não confunda o generalizado modelo linear com o chamado de forma muito semelhante geral modelo
linear. É lamentável que estes dois nomes são quase idênticos, porque descrevem duas coisas muito diferentes
GLM é semelhante ao LM apenas na medida em que as variáveis de previsão geralmente aparecem no
modelo como a combinação linear familiarizados:
c 0 + c 1 x 1 + c 2 x 2 + c 3 x 3 +. . .
onde os x 's são as variáveis de previsão, e as c 's são os coeficientes de regressão (com c 0 sendo chamados
um termo constante, ou intercepção ).
A distribuição de Poisson se aplica quando os eventos observados são todas as ocorrências
independentes. Mas esta suposição não é cumprida se os eventos ocorrem em aglomerados. Assim, por
exemplo, se você contar estrada individuais mortes em vez de rodovias fatais acidentes, a distribuição de
Poisson não se aplica, porque um acidente fatal pode matar várias pessoas.
As variáveis de previsão e de regressão coeficientes sempre aparecem no modelo como uma combinação
linear: c 0 + C 1x 1 + C 2 x 2 + C 3 x 3 + ... + c n x n . Mas em regressão não linear, os coeficientes já não têm de
aparecer emparelhado com previsão variáveis (como c 2 x 2 ); agora eles têm uma existência mais independente
e pode aparecer por conta própria, em qualquer lugar na fórmula. Na verdade, o nome do coeficiente, que
implica um número que é multiplicado por uma variável, é demasiado limitado para descrever a forma como
eles podem ser usados em regressão não-linear; em vez disso, eles são referidos como parâmetros .
A fórmula para um modelo de regressão não-linear pode ser qualquer expressão algébrica, envolvendo
somas e diferenças, produtos e proporções, e potências e raízes, em conjunto com qualquer combinação de
logarítmica, exponencial, trigonométricas e outras funções matemáticas avançadas. A fórmula pode conter
qualquer número de variáveis de previsão e qualquer número de parâmetros. Além desses problemas especiais,
todas as outras complicações da regressão multivariada (como co-linearidade) pode aparecer em problemas
não lineares.
Um problema de regressão não linear comum surge na pesquisa de desenvolvimento de drogas. Assim que
os cientistas começar a testar um composto novo e promissor, eles querem determinar alguma da sua
farmacocinética básica (PK) propriedades; isto é, para aprender a droga é absorvida, distribuído, modificado,
e eliminado pelo organismo.
Dados PK bruto é frequentemente constituída por a concentração da droga no sangue em vários tempos após
a administração de uma dose do fármaco. Considere-se uma experiência simples, em que 10.000 microgramas
( μ g) de uma nova droga é dada como um único bolus (uma injecção rápida numa veia). Amostras de sangue
são tiradas em tempos pré-determinados após a administração e são analisadas para a droga.
Às vezes você quer ajustar uma curva suave para um conjunto de pontos que não parecem se conformar
com qualquer curva (linha reta, parábola, exponencial. Você não pode usar os métodos de regressão linear ou
não-linear de costume, se você não pode escrever uma equação para a curva que você quer para se adequar. O
que você precisa é uma espécie deregressão não paramétrica - aquele que não assume qualquer modelo
específico (fórmula) para o relacionamento, mas apenas tenta desenhar uma linha suave através dos pontos de
dados.
Download

Resumos Semana 3