A ideia é resumir o material, não traduzir. Durante o resumo, sempre devemos priorizar algum ponto mais importante, às custas de tirar outros pontos, que na nossa opinião são menos relevantes. Além disto, o resumo deve ser seu texto, o que não me parece nada provável quando um dos tópicos é “Escolhendo o nível de referência sabiamente”... na realidade neste caso em particular a manutenção de todas (ou pelo menos aparentemente todas as mesmas seções do capítulo costuma ser um indicador muito claro de tradução e um pouco de corte do texto, não um resumo propriamente dito. 8,0 Mais de uma coisa boa: Regressão Múltipla Este capítulo se estende de regressão linear simples de mais de um preditor r para o que é chamado de modelo de regressão linear múltipla comum ou regressão múltipla. Compreender os conceitos básicos de Regressão Linear Múltipla Para entendermos os conceitos básicos de regressão linear múltipla, o autor cita o que foi visto no capítulo 18, onde se refere à determinação dos parâmetros (inclinação e intercepção) de uma linha reta e que esta se aproxime o máximo possível dos pontos. Isso significa que a soma dos quadrados das distâncias vertical de cada ponto da linha de ajuste é menor para a linha de mínimos quadrados do que para qualquer outra linha, com isso, podemos entender que para modelos de regressão múltipla contendo mais de um preditor e mais de dois parâmetros, usamos a mesma ideia. Para duas variáveis de previsão, ajusta-se um plano para um conjunto de pontos em três dimensões, para mais de dois preditores é ajustado um hiperplano para pontos de quatro dimensões ou mais. Definindo alguns termos importantes A regressão múltipla é formalmente conhecida como a modelo de regressão linear múltipla comum ou ordinária. Os termos significam: Ordinária: A variável é uma variável numérica contínua cujas flutuações aleatórias são normalmente distribuídas. Múltipla: O modelo tem mais de duas variáveis de previsão. Linear: Cada variável de previsão é multiplicado por um parâmetro, e estes produtos são adicionados em conjunto para obter o valor predito da variável de saída. Você também pode ter um parâmetro que não é multiplicado por qualquer coisa, chamado de termo constante ou a interceptação. Funções lineares: Y = a + bX (o modelo linear simples; X é o preditor variável, Y é o resultado, e a e b são os parâmetros). Y = a + bX + CX2 + dX2 (As variáveis podem ser elevadas ao quadrado ou ao cubo, mas enquanto eles estão multiplicados por um coeficiente e somados, a função ainda é considerada linear nos parâmetros). Y = a + bX + cZ + dXZ (O termo XZ, muitas vezes escrito como X * Z, é chamado de interação). Estar ciente de como trabalhar os cálculos Para ajustar um modelo de regressão múltipla é necessária à criação de um conjunto de equações, uma para cada parâmetro do modelo. Assim como faz para a linha reta, podem-se resolver essas equações e obter os valores dos parâmetros, porém, têm-se mais equações para resolver. Através de um aplicativo da lei de propagação de erro, podem-se obter informações para estimar o erro dos parâmetros. Preparando variáveis categóricas Os preditores em um modelo de regressão múltipla pode ser numérico ou categórica. As diferentes categorias que uma variável pode ter são chamadas de níveis. Se uma variável como o gênero, pode ter apenas dois níveis, como masculino ou feminino, então ele é chamado de dicotômica ou uma variável categórica binária, se ele pode ter mais de dois níveis, chamamos de variável multinível. Tendo em casos suficientes em cada nível o cada variável categórica Para usar uma variável categórica em um modelo de regressão múltipla, devem ser tabulados quantos casos estão em cada nível, deve-se ter pelo menos dois casos cada nível. Normalmente, quanto mais uniformemente distribuídos os casos, mais preciso e confiáveis serão os resultados. Escolhendo o nível de referência sabiamente Para cada variável categórica em um modelo de regressão múltipla, o programa considera uma das categorias para ser o nível de referência, e avalia como cada um dos outros níveis afeta o resultado, em relação ao nível referência. Alguns softwares permitem que você especifique o nível de referência para uma variável categórica. Escolha o seu nível de referência sabiamente, ou os resultados não serão muito significativos ou úteis Para uma variável que representa a presença ou a ausência de uma condição o nível referência deve representar a ausência da condição. Para uma variável que representa os grupos de tratamentos, o nível de referência deve ser o tratamento padrão, ou o tratamento que se deseja comparar com outros tratamentos. Para uma variável que representa uma característica, como gênero ou raça, o nível de referência é arbitrário. Às vezes, a escolha adequada pode ser implícita nos objetivos do estudo. Gravando variáveis categóricas como numéricas Se o software permite que seja inserida as categóricas como personagem de dados (homem ou mulher), é necessário certificar-se que para cada variável categórica, tem-se casos suficientes em cada nível. Mas se o programa de regressão aceita apenas as variáveis numéricas como preditores, então é preciso recodificar as variáveis categóricas de texto descritivo para códigos numéricos. Para as variáveis categóricas com mais de dois níveis, é mais complicado. Não se pode simplesmente codificar as diferentes categorias como números diferentes, porque, o computador vai pensar que é uma variável numérica, e dar respostas erradas. É necessário dividir a variável multinível um em um conjunto de variáveis binárias, um para cada nível da variável original. Criando gráficos de dispersão, antes de saltar em sua regressão múltipla Muitos pesquisadores cometem o erro de imediatamente correr uma regressão antes de olhar em seus dados. Quando se planeja analisar dados por meio de regressão múltipla, é necessário fazer algumas outras coisas antes, como traçar a relação entre cada variável de previsão e a variável resultado, e também as relações entre as variáveis de previsão própria. Quando houver planejamento de executar um modelo de regressão como o SystolicBP deve-se primeiro preparar vários gráficos de dispersão. Os modelos de regressão que envolve muitos fatores preditivos podem ser um monte de gráficos de dispersão, mas, muitos softwares podem preparar um conjunto de pequenos gráficos de dispersão automaticamente para possíveis emparelhamentos entre um conjunto de variáveis, organizados em uma matriz. Tomando alguns passos com o seu software As etapas que você toma para executar uma regressão múltipla dependem do software usado. 1. Reúna seus dados em um arquivo com uma linha por assunto e uma coluna para cada variável que você deseja no modelo. 2. Diga ao software qual variável é o resultado e quais são os preditores. 3. O software permite que você especifique determinados gráficos de resultados, resumos de resíduos e outros resultados úteis. 4. Pressione o botão ir. Você deve ver suas respostas quase que instantaneamente. Os componentes de saída são • A descrição do modelo a ser instalado. Esta descrição é SystolicBP = Idade + Peso. • Um resumo dos resíduos. Para este exemplo, o Max e Min Residuais indicam que um valor PA sistólica observado foi de 17,8 mm Hg maior do que o previsto pelo modelo, e 15,4 1N m Hg menor do que o previsto. • A tabela de regressão, ou coeficientes de mesa, com uma linha para cada parâmetro no modelo, e colunas para o seguinte: O valor estimado do medidor para, que lhe diz o quanto o resultado variável muda quando a variável correspondente aumenta em exatamente 1,0 unidades, segurando ali as outras variáveis constantes, por exemplo, o modelo prevê que a cada ano adicional da idade aumenta a pressão arterial sistólica por 0,84 M1N Hg, mantendo constante peso (como num grupo de pessoas que ali pesar o mesmo). O erro padrão da estimativa. Assim, a estimativa do coeficiente de Idade 0,84 mm de Hg por ano é incerto sobre + 0,52 M1N Hg por ano. • O valor t (valor do parâmetro dividido pelo seu SE). Por idade, o valor t é 0,8446 / 0,5163, ou 1.636. • O valor de p, designada "Pr (> ti 1)" nesta saída, que indica se o parâmetro é significativamente diferente de zero. Se p <0,05, neste exemplo, nem o coeficiente de idade nem o coeficiente de peso é significativamente diferente de zero. Verificando a saída opcional disponível a partir de alguns programas Dependendo do software, você também pode ser capaz de obter vários outros resultados úteis a partir da regressão: Os valores previstos para a variável dependente, ou como uma lista ou como uma nova variável colocada em seu arquivo de dados. Residuais, ou como uma lista ou como uma nova variável colocada em seu arquivo de dados. A matriz de parâmetros de correlações de erro, que é importante se dois parâmetros de uma mesma regressão será utilizada para calcular alguma outra quantidade. Decidir se os seus dados é adequado para análise de regressão Dois pressupostos da regressão linear ordinária incluem o seguinte: Quantidade de variabilidade; os resíduos são relativamente constantes e não dependem do valor da variável dependente. Os resíduos são aproximadamente distribuídos normalmente. O importante é se os pontos parecem dispersar uniformemente acima e abaixo da linha, e se a quantidade de dispersão parece ser a mesma na esquerda, central e direita do gráfico. No texto o autor mostra uma figura (Figura 19-3b) que fornece uma indicação visual da normalidade dos resíduos. O importante é saber se os valores parecem estar ao longo da linha pontilhada ou estão visivelmente "curvados". Neste exemplo a maioria dos pontos é razoavelmente consistente com uma linha reta, exceto, a parte inferior esquerda do gráfico. Nesta outra figura ao lado, a maioria dos pontos são consistentes com uma linha reta, porém, a parte inferior esquerda do gráfico parece apresentar dispersões. Determinar o quanto o modelo se ajusta bem aos dados O erro padrão residual é a média de dispersão de pontos observados do modelo ajustado, quanto menor o número, melhor. Quanto maior for o valor múltiplo R2, melhor o ajuste. Uma estatística significativa F indica que o modelo prevê o resultado significativamente melhor do que o modelo nulo. Assistindo a para situações especiais que surgem em Regressão Linear Múltipla Neste tema são discutidos interações sinérgicos, anti-sinérgicos e co-linearidade. Os quais referese como o comportamento simultâneo de dois preditores pode influenciar um resultado. Sinergia e anti-sinergia Neste caso, pode acontecer de duas variáveis de previsão exercer um efeito sinérgico em um resultado. Isto ocorre se os preditores aumentar uma unidade. O resultado mudaria por mais do que simplesmente a soma dos dois aumentos você esperaria de mudança para cada valor individual por uma unidade. Se o coeficiente de interação tem um valor p significativo (p <0,05), em seguida, as duas variáveis têm sinergia significativa entre elas. O sinal do coeficiente indica se a sinergia é (anti-sinergia) positivo ou negativo. Colinearidade e o mistério do significado desaparecendo Em análise de regressão linear múltipla pode ocorrer o desaparecimento de significância. Quando se executa um monte de regressões lineares simples em cada preditor separadamente contra o resultado, pode-se achar que vários preditores são significativamente associados com o resultado. Em seguida, ao executar uma regressão múltipla, utilizando os preditores, descobre-se que um ou mais das variáveis anteriormente significativas perderam seu significado. A co-linearidade não faz o modelo de pior na predição de resultados, porém, é difícil dizer qual variável foi realmente que influenciou o resultado. Esse problema não é trivial, pode ser difícil, não impossível, para discernir as verdadeiras relações de causa e efeito entre um conjunto de variáveis associadas. Figurando Como Muitos assuntos que você precisa Todo bom experimento deve ter uma amostra grande o suficiente para garantir que você obtenha um resultado significante no teste de hipótese de pesquisa primária quando o efeito que você está testando em que a hipótese é grande o suficiente para ser de grande importância. Então, se as principais hipóteses do seu estudo vai ser testado por um regressão múltipla, você deve fazer algum tipo de cálculo de potência, projetado especificamente para a regressão múltipla, para determinar o tamanho da amostra que você precisa. Algumas regras para a regressão múltipla: É precisa de 4 indivíduos para cada variável de previsão em seu modelo. É preciso 10 indivíduos para cada variável de previsão em seu modelo. É preciso 100 indivíduos, além de mais 1 para cada variável de previsão. 100 é adequada; 200 é bom; 400 ou mais é grande. Regressão Logística O texto deve ser seu, não um google translator do artigo, e isto me parece muito difícil de ser verdade com expressões como “Conseguir um aperto nos basics de regressão logística”, que não fazem sentido algum em português, pelo menos que eu consiga entender. Independente disto, precisa tomar mais cuidado ao escrever, porque “e o resultado são ...” no primeiro ponto de meio de regressão logística (e por sinal o que raios é isto mesmo?) é duro... Assim como já comentei em outros resumos, fazer um resumo não é traduzir o texto, mas destacar os pontos importantes, e deveria ser uma prática diária para estudantes de mestrado e doutorado. Afinal, muito do que encontramos em um capítulo ou artigo científico são pontos que podem ser desconsiderados para o que precisamos... 8,0 O capitulo fala sobre a regressão logística e suas utilizações em pesquisas. Descobrir quando usar regressão logística Conseguir um aperto nos basics de regressão logística A execução de uma de regressão logística e dar sentido a saída Atentando para as coisas que podem dar errado A estimativa do tamanho da amostra que você precisa Você pode usar a regressão logística para analisar a relação entre uma ou mais variáveis de previsão (as variáveis X) e um resultado categórico variável (a variável Y). Categóricos resultados típicos incluem o seguinte: Vivo ou morto Fez ou não fez chover hoje Fez ou deixou de ter um acidente vascular cerebral Responderam ou não responderam a um tratamento Meio de regressão logística Você pode usar a regressão logística para fazer qualquer (ou todos) dos seguintes procedimentos: Testar se o preditor (É A VARIÁVEL QUE PERMITE PREDIZER UMA RESPOSTA) e o resultado são significativamente associado; por exemplo, se a idade ou o sexo influenciou a preferência do eleitor em um determinado candidato. Superar as limitações do método 2-x-2-guia transversal (descrito no Capítulo 14), que podem analisar apenas um preditor de cada vez que tem de ser uma categoria de dois valores abordados, como a presença ou ausência de um factor de risco. Com a regressão logística, você pode analisar qualquer número de variáveis de previsão, cada uma das quais pode ser uma variável numérica ou uma variável categórica ter duas ou mais categorias. Quantificar a extensão de uma associação entre o preditor e o resultado (o valor pelo qual um preditor influencia a chance de conseguir o resultado); por exemplo, como muita chance de um fumante de desenvolver alterações de enfisema com cada cigarro fumado adicional por dia. Desenvolver uma fórmula para prever a probabilidade de obter os resultados a partir dos valores das variáveis preditoras. Por exemplo, você pode querer prever a probabilidade de que um paciente beneficiará com um certo tipo de terapia, com base na idade, o sexo do paciente, a gravidade da doença, e talvez mesmo a composição genética. Coleta e representação gráfica os dados Este exemplo examina a exposição à radiação de raios gama, que é mortal em doses grande o suficiente, sendo letais a curto prazo e doses pequenas tem efeitos na saúde a longo prazo, como câncer ou danos genéticos. Como você pode analisar esses dados? Em primeiro lugar, representar graficamente os dados: Plot a dose recebida no eixo X (porque é a preditor). Traçar o resultado (0 que a pessoa vive; 1 se ele morreu) no eixo Y. Esta trama dá-lhe o gráfico em Figura 20-l a. Como a variável desfecho é binário (tendo apenas os valores O ou 1), o os pontos estão restritos a duas linhas horizontais, dificultando o gráfico de interpretar. Montagem de uma função com uma forma de S para seus dados Não tente encaixar uma linha reta para dados binários em resultados. A curva letal dose de verdade quase certamente não é uma linha reta. Por um lado, a fração de indivíduos que morrem nunca pode ser menor do que 0, nem maior do que 1, mas uma linha reta (ou uma bola para ou qualquer polinômio) muito feliz viola esses limites para doses muito baixas e muito altas. Das muitas expressões matemáticas que produzem gráficos em forma de S, a função logística é ideal para este tipo de dados. em sua forma mais simples, a função logística está escrito assim: Y = 1 / (1 + eX). Se b é positiva, a função logística é uma curva ascendente inclinada em forma de S, Se b é 0, a função logística é uma linha recta horizontal cujo valor Y é igual a 1 Se b é negativo, a curva é virada de cabeça para baixo, como se mostra na Figura 20-4. Curvas logísticas não tem que SIOPE para cima. Se b é um número muito grande (positiva ou negativa), a curva logística é tão íngreme que parece como o matemático s chamada uma função degrau. Como a curva logística se aproxima dos limites 0.0 e 1.0 para extrema valores do indicador (s), você não deve usar regressão logistica em situações em que a fração de indivíduos com o resultado não se aproxima esses dois limites. A regressão logística é bom para o exemplo de radiação, porque ninguém morre de uma exposição à radiação de zero REMs, e todo mundo morre de uma dose muito grande (como 10.000 REMs). Mas regressão logística não seria adequado para analisar a resposta de pacientes a uma droga se muito altas doses da droga não produzem uma cura de até 100% (ou se alguns indivíduos obter espontaneamente melhores ainda se for dada nenhuma droga em todos). Manipulação vários preditores em você modelo logístico você pode ter vários preditores de um sim ou não o resultado. Por exemplo, possibilidade de uma pessoa de morrer devido a exposição à radiação pode depender não apenas da dose de radiação recebida, mas também da idade, sexo, peso, saúde geral, o comprimento de onda da radiação, e a quantidade de tempo durante o qual a radiação é recebido.Suponha que a variável de resultado Y depende de três fatores preditivos, chamado X,V, e W. Em seguida, o modelo de logística multivariada parece com isso: Y = 1 / (1 + e- (a + bX + cV + dW)). A regressão logística encontra os melhores valores dos parâmetros a, b, c, e D, de modo que para qualquer conjunto particular de valores para X, V, e W, você pode prever Y -o probabilidade de obter um resultado sim. Executando uma regressão logística com Software 1. Verifique se o conjunto de dados tem uma coluna para a variável de resultado e que esta coluna tem apenas dois valores diferentes. 2. Verifique se o seu conjunto de dados tem uma coluna para cada variável de previsão e que essas colunas estão em um formato que seu software aceita. 3. . Informe o seu programa de quais variáveis são os preditores e qual variável é o resultado. 4. Um resumo das informações sobre as variáveis • medidas de bondade do ajuste • A tabela de coeficientes de regressão, incluindo Razão de chances e intervalos de confiança • probabilidades previstas de conseguir o resultado (que, idealmente, o programa coloca em uma nova coluna que ele cria no banco de dados) • lf há apenas um preditor, um gráfico das probabilidades predita em relação ao valor do indicador (este será um gráfico da curva logística equipada) • A tabela de classificação de resultados observados contra resultados previstos • Medidas de precisão da previsão (exatidão global, sensibilidade e especificidade) • Uma curva ROC Interpretar a saída (regressão logística) O programa pode fornecer algumas informações descritivas de resumo sobre as variáveis: médias e desvios padrão de preditores que são numérica variáveis e uma contagem de quantos 1 quaisquer assuntos fez ou deixou de ter o evento resultado. Avaliar a adequação do modelo O programa indica o quão bem a função ajustada representa os dados (goodness-of-fit), e pode fornecer de varias medidas, a maioria das quais têm um valor p associado. (A valor de p é a probabilidade de que aleatórias flutuações sozinho, na ausência de qualquer efeito real na população, poderia 've produziu um efeito observado, pelo menos, tão grande quanto o que você observou na sua amostra; veja Capítulo 3, para uma reciclagem.) lt de fácil interpretar estes porque eles medem sutilmente diferentes tipos de bondade de ajuste. Verificando a tabela de coeficientes de regressão A saída mais importante de um programa de regressão logística é a tabela de coeficientes de regressão, que se parece muito com a tabela de coeficientes de linear ordinária ou multivariada de regressão por mínimos quadrados (ver capítulos 18 e 19). Cada variável de previsão aparece em uma linha separada. Não há uma linha para a constante (ou interceptar) prazo. A primeira coluna é quase sempre o valor equipada do coeficiente de regressão. A segunda coluna é usu aliado o erro padrão (SE) do coeficiente. A coluna de valor p (talvez chamado Sig ou signif ou Pr (> LZ IJ) indica se o coeficiente é significativamente diferente de O. Prevendo probabilidades com a fórmula logística equipada O programa pode mostrar-lhe a fórmula logística equipada. Na Figura 20-6, a fórmula é mostrado como: Prob (morte) = 1 / (1 + exp (- (- 4,828 + 0,01146 * Dose))) Se a software não fornece a fórmula, basta substituir os coeficientes de regressão a partir da tabela de regressão logística para a fórmula. Calculando doses eficazes em uma curva logística Quando regressão logística é aplicado a dados de dose-resposta, a dose (X) que produz uma resposta de 50 por cento (Y = 0,5) é chamada a dose eficaz mediana (ED50. Da mesma forma, o valor de X que faz Y = 0.8 é chamado a dose efetiva de 80 por cento (ED80, e assim por diante. É muito fácil para calcular estas leveis dose de especial a partir dos parâmetros A e B do modelo logístico montado no anterior seção. Calculando doses letais de uma curva logística Quando a morte é o evento resultado, os termos correspondentes são mediana dose letal (DL50), 80 por cento da dose letal (LD80), e assim por diante. Fazendo sim ou não as previsões Um modelo logístico, devidamente equipado com um conjunto de dados, permite calcular a probabilidade prevista de ter o resultado. Precisão de medição, sensibilidade e especificidade, com mesas de classificação precisão geral: Prever corretamente. As células superior esquerdo e inferior direito correspondem a corrigir previsões. Dos 30 indivíduos no conjunto de dados da Tabela 20-1, o modelo logístico previu corretamente (13 + 13) / 30, ou cerca de 87 por cento do tempo; o modelo iria fazer uma previsão errada apenas cerca de 13 por cento do tempo. Sensibilidade: Prevendo um resultado sim quando o resultado real é Sim. A modelo logístico previu 13 dos 15 observados óbitos (a caixa t superior lef da Figura 20-8), assim que a sensibilidade é 13/15, ou cerca de 87 por cento ; o modelo iria fazer uma previsão Cuidado com f ou co-linearidade e desaparecendo significância Todos os modelos de regressão com mais de uma variável de previsão pode ser atormentado com problemas de colinearidade (quando duas ou mais variáveis de previsão são fortemente correlacionada ted uns com os outros), e ion regressão logística não é excepção Verifique se há inadvertida reverso-codificação da variável de desfecho A variável de desfecho deve ser sempre 1 para um resultado sim e O para um não vir para fora Não interpretem mal razão de chances para preditores numéricos O valor de um coeficiente de regressão depende das unidades nas quais a variável de previsão correspondente é expressa. Então, o coeficiente de uma altura variável expressa em metros é 100 vezes maior do que o coeficiente de altura expresso em centímetros. Não interpretem mal razão de chances para preditores categóricas Preditores categóricas devem ser codificadas numericamente .Se você expressar categorias como texto, o computador pode não traduzi-los do jeito que você quer, e as razões de chances resultante pode ser o inverso do que você quer ou pode ser diferente de outras formas. Desta vez o resumo está com muito mais cara de resumo (ou seja, destilou as informações, concentrando. Está sofrendo um bocado de português truncado, e em vários pontos está ainda com cara de tradução, mas já está bem mais “redondo” para um resumo. Não entendo, no entanto, como a seção numerada pode ser considerada tão essencial assim, mas fica a tentativa. 9,5 Resumo cap. 20 Proposição um sim ou não: Regressão Logística O capítulo mostra dentre outros assuntos, quando regressão logística deve ser utilizada primeiramente fala como Descobrir quando usar regressão logística. Ela pode ser usada para testar se o preditor (e o resultado são significativamente associados; Superar as limitações do método 2-x-2-guia transversal, que podem analisar apenas um preditor de cada vez que tem de ser uma categoria de dois valores abordados, como a presença ou ausência de um factor de risco. Com a regressão logística, você pode analisar qualquer número de variáveis de previsão, cada uma das quais pode ser uma variável numérica ou uma variável categórica ter duas ou mais categorias. Quantificar a extensão de uma associação entre o preditor e o resultado. Desenvolver uma fórmula para prever a probabilidade de obter os resultados a partir dos valores das variáveis preditoras. Fazer ou não as previsões sobre o resultado que levem em conta as consequências das previsões falso-positivos e falso-negativos. Veja como um preditor influencia o resultado após o ajuste para a influência de outras variáveis Determine o valor de um indicador que produz uma certa probabilidade de obter o resultado Para Compreender os princípios básicos de regressão logística são explicados alguns conceitos fundamentais.confiança na na´lise de dados deve-se representar graficamente os dados, o que facilitrá na interpretação. A regressão logística não é linear, não forma uma reta, visto que é gerada uma curva em forma de S inclinado. É representada pela função: Y = 1 / (1 + e- <ª • OX)). O meio da S (onde Y = 0,5) sempre ocorre quando x = b / a. A inclinação da curva na região média é determinada por b, como se segue: Se b é positiva, a função logística é uma curva ascendente inclinada em forma de S Se b é 0, a função logística é uma linha recta horizontal cujo valor Y é igual a 1 / (1 + e "), Se b é negativo, a curva é virada de cabeça para baixo Se b é um número muito grande (positiva ou negativa), a curva logística é tão íngreme que parece como o matemático s chamada uma função degrau Manipulação vários preditores em você modelo logístico A regressão logística é utilizada para analisar a relação entre uma ou mais variáveis preditoras (variáveis X) e uma variável categórica dependente (y). Y categóricos geralmente incluem: vivo ou morto, chove ou não chove, houve ou não houve, respondeu ou não ao tratamento, votou ou não votou em determinado candidato, etc. Pode usar a RL para testar se x e y estão significativamente associados; analisar qualquer número de x, cada um com variáveis numéricas ou categóricas tendo dois ou mais níveis; quantificar a extensão de uma associação entre x e y; desenvolver uma fórmula para estimar a probabilidade de y a partir dos valores de x; fazer previsões de falso-positivo e falso-negativo; verificar como um preditor influencia y após ser ajustado pela influência de uma ou outra variável e determinar o valor de um preditor que produz certa probabilidade de obtenção de y. O autor utiliza como exemplos dados envolvendo a mortalidade devido à exposição à radiação gama, observando apenas a letalidade em curto prazo por doses agudas e não efeitos a longo prazo como cânceres ou alterações genéticas. Observa-se então que em baixas doses quase todos os indivíduos sobrevivem e em altas doses, quase todos morrem. Assim como na regressão múltipla, a análise desses dados parte da plotagem num gráfico de dispersão considerando a dose recebida como x (preditor) e a resposta (vivo ou morto) como y. A partir daí monta-se uma função que tenha forma de S, ou seja, nunca produz um valor de y fora de 0 e 1, não importa quão grande ou pequeno seja X. Esta função pode ser generalizada adicionando dois parâmetros ajustáveis (a e b): y=1/(1+e-(a+bX)), lembrando que a+bx representa a função da regressão linear, o resto da função é que define sua forma tipo S. O meio do S (y=0,5) sempre ocorre quando X=-b/a, ou seja, a declividade da curva é determinada pelo sinal de b. Como os limites da curva de RL são 0 e 1, você não deve usar RL em situações onde a fração das observações não se aproximem desses limites. Assim, a RL não sera adequada para analisar a resposta de pacientes a determinada droga se doses muito altas dessa droga não causar 100% de cura ou se algum paciente se curou mesmo sem ingerir tal medicamento. A RL ajusta um modelo aos seus dados ajustando os valores de a e b que tornem a curva o mais próximo possível dos seus dados plotados e com esse modelo você pode estimar a probabilidade da resposta ocorrer. A teoria da RL é difícil e os cálculos são complicados: 1- Seus dados devem ter uma coluna para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com suas especificações); 2- Seus dados devem ter uma coluna para cada X formatadas de acordo com seu software; 3-Especifique o que são preditores e o que é a variável dependente; 4- Informe ao programa as respostas que deseja (sumário das variáveis, tabela de coeficientes de regressão probabilidades estimadas, etc); 5- Peça para rodar e aguarde as respostas. As respostas são analisadas através do sumário de informações das variáveis (média e desvio padrão), da adequação do modelo (o quanto a função se ajustou aos seus dados) e pela tabela de coeficientes de regressão. Finalmente você pode estimar probabilidades com a fórmula logística ajustada e calcular as doses efetiva e letais numa curva logística. As medidas de previsão em regressão logística estão relacionadas à questão de sensibilidade (capacidade de prever um resultado sim, quando o resultado real é sim) e especificidade (capacidade de prever um resultado não, quando o resultado real é não). A curva ROC é um gráfico que mostra um trade off sensibilidade/especificidade, mostrando a gama completa de sensibilidade e especificidade que pode ser alcançada para qualquer modelo logístico com base nos valores de corte selecionados entre 0 e 1.Mesmo com a utilização de um só preditor é importante estimar o tamanho da amostra. O tamanho da amostra vai depender das frequências relativas de sim e não resultados e Como a variável de previsão é distribuída. Alguns programas e páginas da web calcular o tamanho da amostra CAPÍTULO 21 A ênfase excessiva no texto, sem se preocupar com o contexto, ou a importância de um tópico voltou a atacar neste resumo, como por exemplo em detalhar o que o capítulo fala no caso da droga e sua diluição em fluidos extra-sanguíneos. Mais de um ponto com tradução problemática e/ou problemas de português. 8,0 O uso de outros tipos de regressão O autor começa explicando o uso de tipos de regressão para casos especiais, como nos casos onde os dados não são tão bem distribuídos com continuidade, e normalidade e quando a variabilidade nem é constante nem proporcional. Para respostas que apresentam esse tipo de características, como por exemplo, o numero de acidentes em um determinado ano. Devemos então usar um tipo especial de regressão denominada resposta de Poisson. A resposta de Poisson pode ser interpretada pelo (modelo linear generalizado) que é um tipo de regressão bastante versátil e ferramentas para suas analises podem fazer parte do pacote de alguns softwares estatísticos mais conhecidos como a ferramenta GLM do SAS. No entanto, deve atinar para o fato que embora tenha nomes bastantes semelhantes o modelo linear generalizado (GLM) é diferente do modelo linear geral (LM), embora o primeiro possa ser considerado uma extensão do segundo. Porem o modelo linear generalizado estende as capacidades do modelo linear geral pelo fato de poder utilizar funções e combinações lineares chamadas de funções link que dão características curvas aos gráficos. No GLM as respostas também podem se apresentar em forma de números contínuos ou inteiros seguindo os mais diversos tipos de distribuição. Normal, exponencial, binomial ou Poisson. Por essas características versáteis o autor chama o GLM de “canivete suíço” das regressões. O capitulo da um exemplo de como “rodar” uma regressão GLM, dando o exemplo de dados de acidentes fatais em uma cidade em 12 anos: Colocando os dados e dando o start dos referidos dados a saída deverá ser semelhante a imagem seguinte: Nesse exemplo o numero 1.3298 representa o incremento anula de acidentes que pode ser arrendado para 1,33 acidentes por ano de incremento. O erro padrão de 0, 3169 significa que a variação de incremento de acidentes anuais variou entre 0,71 e 1,95 e o AIC representa uma medida de ajuste do modelo aos dados, sendo que quanto menor o coeficiente AIC mais ajustado o modelo se encontra, podendo representar melhor os dados. Ao analisar os dados de forma gráfica, seria fácil identificar que esses não são perfeitamente representados por uma linha reta, já que a própria variação que há no evento lhe propicia característica se curva, devendo essa ser ajustada para melhor interpretação de seus dados como na figura acima. Vale tudo com regressão não linear As variáveis preditoras e o coeficiente de regressão sempre aparecerão nos modelos como uma combinação linear (c0 + c1x1 + c2x2 + c3x3...). no entanto para regressões não lineares os coeficiente já não ter aparecido emparelhado com preditor como (c2x2). Pois essa tem uma exietencia mais independente e tem aparecido sozinha. Pois, a formula para a regressão não linear pode ser algébrica, envolvendo somas e diferenças, produtos e relações, juntas com alguma combinação logarítimica, exponencial, trigonométrica e outros tipos de expressões matemáticas como exemplificado na tabela a seguir: É bastante comum utilizar regressão não linear na pesquisa de desenvolvimento de drogas. Onde se deseja testar um composto já existente ou compostos promissores e determinar algumas características de sua farmacocinética básica (PK) para analisar forma de como um medicamento é absorvido, distribuído, modificado, e eliminado. No capitulo é abordado um exemplo de um experimento típico na área de teste de fármacos e como a utilização da regressão não linear ajuda na interpretação dos resultados. Segue na tabela abaixo: A tabela acima mostra dados de tempo após tomar a dose de um determinado medicamento e concentração desse medicamento no sangue. E logo abaixo o gráfico de dispersão e regressão: Para rodar esse tipo de regressão pode ser utilizado o autor cita programas como SPSS, SAS, graphPad, e R. e apresenta um interpretação da saída. O volume de distribuição: Vd = Dose / C0 = 10.000 μ. g / 59,5 μ g / d L = 168 dL, ou 16,8 litros. (Este volume maior do que o volume de sangue normla do humano médio, indica que este fármaco esta permanecendo em outras corpo sendo librado posteriormente par ao sangue). Eliminação intervalo: t:,. = 0,693 / ke = 0,693 / 0,163 hr, ou 4,25 horas. (Depois 4,25 horas, apenas 50 por cento da dose inicial é IEFT no corpo; depois S 8,5 horas, apenas 25 por cento da dose original permanece; e assim por diante.) Esse tipo de ajuste mostra a capacidade da regressão não linear em se ajustar a esse tipo de resposta, possibilitando um entendimento melhor dos efeitos, e mais que isso, uma previsão das respostas em níveis seguintes, o que é bastante desejável nesse tipo de pesquisa. Pelo fato desse melhor ajuste a respostas biológicas a regressão não linear é grande valia para dados dessa natureza. Outro tipo de ferramenta que pode ser utilizada é a suavização dos dados não paramétricos, ou também conhecida Lowess. A utilização desse tipo de ferramenta é bastante viável para encontrar uma curva que melhor se adeque a dados com algum tipo de variação especial, ou que seja difícil encaixar em outros tipos de curva de regressão. No entanto, o ajuste de lowess muitas vezes descreve bem o comportamento das respostas, mas não fornece possiblidade de interpretação e previsão de efeitos, o que não a torna interessante a pesquisas agrarias em sua maioria. Pois não ajudar a responder perguntar servindo mais como uma forma de visualização. Embora a curva possa ser sua vidada para encontra um determinado ponto de inflexão ela muitas vezes não se ajustam bem a características das respostas o que ainda a torna de pouca utilidade em ciências que querem testar hipóteses cientificas Continua com problemas de tradução, como de resto quase todos os resumos que vi até agora. Neste caso, fica bem claro pela frase “se você contar estrada individuais mortes em vez de rodovias fatais acidentes”, que fica quase ilegível em português. Deu um tratamento geralmente adequado a Poisson, mas a meu ver excessivamente sucinto para os modelos não lineares, considerando sua importância em um vasto leque de aplicações. 9 Os estatísticos muitas vezes têm de analisar resultados que consiste no número de ocorrências de um evento sobre algum intervalo de tempo, como o número de acidentes rodoviários fatais em uma cidade em um ano. Se as ocorrências parecem estar ficando mais numerosos como o tempo passa, você pode querer realizar uma análise de regressão para ver se a tendência de aumento é estatisticamente significativa e para estimar a taxa anual de aumento (com o seu erro padrão e intervalo de confiança). Como os eventos aleatórios independentes (como acidentes rodoviários) deve seguir uma distribuição de Poisson. Eles devem ser analisados por uma espécie de regressão de Poisson projetado para resultados. GLM (fórmula = Acidentes ~ Ano, família = poisson (link = "identidade")) Isto diz-R tudo o que precisa de saber: O resultado é a variável chamada Acidentes, a previsão é a variável chamada Ano, e a variável resultado segue a distribuição de Poisson. O link = "identidade" diz a R que você deseja ajustar um modelo em que os verdadeiros aumentos nas taxas de evento de uma forma linear; isto é, incrementa-se de uma quantidade constante de cada ano. Não confunda o generalizado modelo linear com o chamado de forma muito semelhante geral modelo linear. É lamentável que estes dois nomes são quase idênticos, porque descrevem duas coisas muito diferentes GLM é semelhante ao LM apenas na medida em que as variáveis de previsão geralmente aparecem no modelo como a combinação linear familiarizados: c 0 + c 1 x 1 + c 2 x 2 + c 3 x 3 +. . . onde os x 's são as variáveis de previsão, e as c 's são os coeficientes de regressão (com c 0 sendo chamados um termo constante, ou intercepção ). A distribuição de Poisson se aplica quando os eventos observados são todas as ocorrências independentes. Mas esta suposição não é cumprida se os eventos ocorrem em aglomerados. Assim, por exemplo, se você contar estrada individuais mortes em vez de rodovias fatais acidentes, a distribuição de Poisson não se aplica, porque um acidente fatal pode matar várias pessoas. As variáveis de previsão e de regressão coeficientes sempre aparecem no modelo como uma combinação linear: c 0 + C 1x 1 + C 2 x 2 + C 3 x 3 + ... + c n x n . Mas em regressão não linear, os coeficientes já não têm de aparecer emparelhado com previsão variáveis (como c 2 x 2 ); agora eles têm uma existência mais independente e pode aparecer por conta própria, em qualquer lugar na fórmula. Na verdade, o nome do coeficiente, que implica um número que é multiplicado por uma variável, é demasiado limitado para descrever a forma como eles podem ser usados em regressão não-linear; em vez disso, eles são referidos como parâmetros . A fórmula para um modelo de regressão não-linear pode ser qualquer expressão algébrica, envolvendo somas e diferenças, produtos e proporções, e potências e raízes, em conjunto com qualquer combinação de logarítmica, exponencial, trigonométricas e outras funções matemáticas avançadas. A fórmula pode conter qualquer número de variáveis de previsão e qualquer número de parâmetros. Além desses problemas especiais, todas as outras complicações da regressão multivariada (como co-linearidade) pode aparecer em problemas não lineares. Um problema de regressão não linear comum surge na pesquisa de desenvolvimento de drogas. Assim que os cientistas começar a testar um composto novo e promissor, eles querem determinar alguma da sua farmacocinética básica (PK) propriedades; isto é, para aprender a droga é absorvida, distribuído, modificado, e eliminado pelo organismo. Dados PK bruto é frequentemente constituída por a concentração da droga no sangue em vários tempos após a administração de uma dose do fármaco. Considere-se uma experiência simples, em que 10.000 microgramas ( μ g) de uma nova droga é dada como um único bolus (uma injecção rápida numa veia). Amostras de sangue são tiradas em tempos pré-determinados após a administração e são analisadas para a droga. Às vezes você quer ajustar uma curva suave para um conjunto de pontos que não parecem se conformar com qualquer curva (linha reta, parábola, exponencial. Você não pode usar os métodos de regressão linear ou não-linear de costume, se você não pode escrever uma equação para a curva que você quer para se adequar. O que você precisa é uma espécie deregressão não paramétrica - aquele que não assume qualquer modelo específico (fórmula) para o relacionamento, mas apenas tenta desenhar uma linha suave através dos pontos de dados.