UNIVERSIDADE ESTADUAL DE SANTA CRUZ PROGRAMA DE PÓS-GRADUAÇÃO EM FÍSICA PROFÍSICA Flávio Santos Sampaio ESTUDO DA DISTRIBUIÇÃO DE VELOCIDADES EM AGLOMERADOS DE GALÁXIAS TESTES DE NORMALIDADE E METANÁLISE DE FISHER DISSERTAÇÃO Ilhéus, BA, Brasil 2013 ESTUDO DA DISTRIBUIÇÃO DE VELOCIDADES EM AGLOMERADOS DE GALÁXIAS TESTES DE NORMALIDADE E METANÁLISE DE FISHER por Flávio S. Sampaio Dissertação apresentada, para obtenção do grau de Mestre em Física, à Universidade Estadual de Santa Cruz. Área de Concentração: Física Orientador: André Luís Batista Ribeiro Ilhéus, BA, Brasil 2013 UNIVERSIDADE ESTADUAL DE SANTA CRUZ PROFÍSICA PROGRAMA DE PÓS-GRADUAÇÃO EM FÍSICA A Comissão Examinadora, abaixo assinada, aprova a Dissertação ESTUDO DA DISTRIBUIÇÃO DE VELOCIDADES EM AGLOMERADOS DE GALÁXIAS TESTES DE NORMALIDADE E METANÁLISE DE FISHER elaborada por Flávio Santos Sampaio como requisito parcial para obtenção do grau de Mestre em Física COMISSÃO EXAMINADORA: Dr. ANDRÉ L. B. RIBEIRO (UESC) (Orientador) Dr. HENRI PLANA, (UESC) Dr. REINALDO DE CARVALHO (INPE) Ilhéus, 05 de Julho de 2013. dedicatória Aos meus pais, família e a minha Índia. AGRADECIMENTOS Agradeço a todos que, de formas diversas, colaboraram para a realização deste trabalho. Em particular: Ao meu pai Nailton Sampaio (Tito) pelo seu exemplo, força e sucesso representa para mim uma meta a ser atingida. A minha mãe Elisia que com muito carinho e abnegação fez de minha felicidade uma extensão da sua vida. A Edna (Jana) que esteve sempre ao meu lado me incentivando a não desistir diante dos obstáculos. Aos familiares, amigos e professores que sempre acreditaram em mim. E durante toda essa jornada acadêmica, que tem sido a vida, me proporcionaram valiosas contribuições na minha formação pessoal. A minha namorada Marluzia de Souza (Índia) que com carinho, amor e paciência faz meus dias mais felizes. Aos professores Zolacir T. O. Jr., Alejandro J. D. e Arturo R. S. pela paciência, solicitude e disponibilidade com que sempre me atenderam. O que fez deles, professores com os quais sempre pude contar. Ao meu orientador André Ribeiro por ter rolado essa bola para mim, na cara do gol e nos acréscimos do segundo tempo da prorrogação. Se me fosse dado tempo para pensar eu possivelmente faria uma poesia. mas, só me resta tempo para rimar com muito esforço e pouca imaginação, deixo apenas uma Dissertação. Sampaio, F. RESUMO DISTRIBUIÇÃO DE MATÉRIA EM TORNO DE GRUPOS E AGLOMERADOS DE GALÁXIAS Autor: Flávio Santos Sampaio Orientador: André L. B. Ribeiro Data e Local da Defesa: Ilhéus, 05 de Julho de 2013. Estudamos 416 sistemas de galáxias contendo pelo menos 8 membros, selecionados do catálogo do Two Micron All Sky Survey (2MASS). Aplicamos cinco testes de normalidade às distribuições de velocidades desses sistemas para distingui-los em gaussianos e não-gaussianos. Usando amostras controladas, estimamos os erros de tipo I e II para cada teste e vericamos que os testes individualmente minimizam as chances de classicar um sistemas gaussiano como não-gaussiano. Introduzimos também a metanálise de Fisher para combinar os valores-p dos testes estatísticos, visando a minimizar as chances de classicar um sistema não-gaussiano como gaussiano. Levando em conta os aspectos positivos de cada método, assim como o fato de que a principal causa de não-gaussianidade é devida à multimodalidade no espaço de velocidades, denimos um critério objetivo e estatisticamente robusto para separar aglomerados de acordo com suas distribuições de velocidades. Nossa análise indica que 50-56% dos sistemas são gaussianos, uma fração signicativamente mais baixa do que aquela que encontramos usando os testes de normalidade individualmente, 71-87%. Encontramos também que algumas das propriedades dos aglomerados são distintas entre sistemas gaussianos e não-gaussianos. valores de m12 . Por exemplo, grupos gaussianos são mais densos e apresentam maiores Finalmente, discutimos a importância da escolha do método quando se deseja classicar aglomerados de acordo com suas distribuições de velocidades. Ressaltamos ainda o fato de que diferentes critérios para denição dos próprios aglomerados podem também levar a diferentes resultados do ponto de vista estatístico. Palavras-chave: Aglomerados de galáxias; metanálise de Fisher. ABSTRACT We study 416 galaxy systems with more than 7 members selected from the 2MASS catalog. We apply ve well known normality tests to the velocity distributions of these systems to distinguish Gaussian and non-Gaussian clusters. estimate type I and II errors for each test. Using controlled samples, we We verify that individual tests minimize the chances of classifying a Gaussian system as non-Gaussian, while the Fisher's meta-analysis method, a procedure to combine p-values from statistical tests, minimizes the chances of classifying a non-Gaussian system as Gaussian. Taking the positive aspects of each method and also including a modality analysis of the velocity distribution, we dene objective criteria to split up the sample into Gaussian and non-Gaussian clusters. Our analysis indicates that 50-56% of groups have Gaussian distribution, a lower fraction than that we found using individual normality tests, 71% - 87%. We also nd that some properties of galaxy clusters are signicantly dierent between Gaussian and non-Gaussian systems. For instance, Gaussian clusters are denser and have larger m12 gaps. Finally, we discuss the importance of choosing the adequate methodology to classify galaxy systems from their velocity distributions and also the dependence of the results on the criteria used to identify clusters in galaxy surveys. LISTA DE FIGURAS 5.1 Amostra BCD dividida em G (salmão) e NG (azul) via Procedimento I. Os diagramas superiores mostram o diagnóstico do teste DP. Os diagramas do meio mostram o diagnóstico da técnica MA, mantendo o número de sistemas NG classicados pelo teste DP. Os diagramas inferiores mostram o diagnóstico combinado usando DP + MA + dip. O número de grupos é indicado ao lado de cada diagrama e nas interseções. . . . . . . . . . . . . . . . . . . . . . . . . 5.2 31 Amostra BCD dividida em G (salmão) e NG (azul) via Procedimento I. Os diagramas superiores mostram o diagnóstico do teste DP. Os diagramas do meio mostram o diagnóstico da técnica MA, mantendo o número de sistemas NG classicados pelo teste DP. Os diagramas inferiores mostram o diagnóstico combinado usando DP + MA + dip. O número de grupos é indicado ao lado de cada diagrama e nas interseções. . . . . . . . . . . . . . . . . . . . . . . . . 5.3 32 Amostra BCD amostra dividida em unimodais (salmão) e multimodais (azul) via Procedimento II. Os diagramas superiores mostram o diagnóstico do teste dip. Os diagramas intermediários mostram o diagnóstico da técnica MA, mantendo o número de sistemas NG encontrados pelo teste DP. A parte de baixo do diagrama mostra o uso da combinação da análise conjunta DP + MA + dip. O número de galáxias é apresentado ao lado de cada diagrama e nas interseções. 5.4 33 Amostra BCD amostra dividida em unimodais (salmão) e multimodais (azul) via Procedimento II. Os diagramas superiores mostram o diagnóstico do teste dip. Os diagramas intermediários mostram o diagnóstico da técnica MA, mantendo o número de sistemas NG encontrados pelo teste DP. A parte de baixo do diagrama mostra o uso da combinação da análise conjunta DP + MA + dip. O número de galáxias é apresentado ao lado de cada diagrama e nas interseções. 34 5.5 Distribuição de massa para sistemas BCD (branco) e ACD (cinza). vermelha marca a massa média dos grupos mock do SDSS. A linha . . . . . . . . . . . 35 LISTA DE TABELAS 4.1 Propriedades de grupos BCD e ACD da amostra de Crook et al. (2007). . . . 4.2 Comparação entre testes de normalidade e técnica MA. A parte superior se refere a erros de tipo I, enquanto a parte inferior se refere a erros de tipo II. 5.1 25 . 28 comparação de sistemas G e NG . . . . . . . . . . . . . . . . . . . . . . . . . . 36 SUMÁRIO 1 INTRODUÇÃO 13 2 MOTIVAÇÃO PARA O TRABALHO 16 3 FERRAMENTAS ESTATÍSTICAS UTILIZADAS 18 3.1 Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2 Testes de Normalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3 Testes Utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.4 Teste de Multimodalidade . . . . . . . . . . . . . . . . . . 20 . . . . . . . . . . . . . . . . . . 20 . . . . . . . . . . . . . . . . . . 21 . . . . . . . . . . . . . . . . . . 21 . . . . . . . . . . . . . . . . . . 22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.4.2 Teste dip . . . . . . . . Metanálise de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.4.3 Teste de comparação múltipla Tukey-Kramer . . . . . . . . . . . . . . . 24 3.4.1 3.5 Teste de Anderson-Darling (AD) . D'Agostino-Pearson (DP) . . . . . Robust Jarque-Bera . . . . . . . . . Kolmogorov-Smirnov . . . . . . . . Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Aplicação dos testes: o ambiente R . . . . . . . . . . . . . . . . . . . . . . . . 4 DADOS E METODOLOGIA 24 25 4.1 Catálogo Utilizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 Comparação dos Testes Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3 Método de separação de Grupos Gaussianos e Não-Gaussianos . . . . . . . . . 28 4.3.1 Procedimento I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.3.2 Procedimento II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5 ANÁLISE 30 5.1 Usando processo I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.2 Usando processo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.3 Resumindo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.4 Comparando sistemas G e NG . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 6 CONCLUSÕES E PERSPECTIVAS 6.1 Perspectivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 39 7 REFERÊNCIAS BIBLIOGRÁFICAS 40 A DINÂMICA DOS AGLOMERADOS DE GALÁXIAS 46 O estudo da distribuição de velocidades em aglomerados pode fornecer informações importantes sobre o seu estágio evolutivo, assim como sobre os processos que controlam a formação e evolução de suas galáxias constituintes. (A. Biviano & P. Katgert) 1 INTRODUÇÃO As primeiras evidências de aglomerados de galáxias surgiram por volta do século XVIII, quando William Hershel e Charles Messier notaram a existência de nebulosas difusas nas constelações de Coma e Virgem, respectivamente (vide Souza, 2004). Entre 1920 e 1930, muitas das nebulosas difusas, principalmente as de aspecto elíptico e espiral, foram reconhecidas como galáxias após os trabalhos de Edwin Hubble que ao observar estrelas variáveis em algumas destas nebulosas brilhantes percebeu que estas encontravam-se a distâncias muito maiores do que os limites de nossa Galáxia. Contudo, os primeiros estudos sistemáticos de aglomerados de galáxias têm início sobretudo após o catálogo organizado por George O. Abell por meio dos mais avançados critérios de classicação da época (Abell, 1958) Podemos entender um aglomerado de galáxias como um complexo sistema denido basicamente por três componentes: galáxias, meio intra-aglomerado aquecido e matéria escura. Eles formam os maiores sistemas gravitacionalmente ligados do universo com massa total ao redor de ∼ 1014 −1015 M , onde M = 1.989×1030 kg equivale a uma massa solar e um raio de 16 1.5 Mpc, onde 1 pc=3.261 anos-luz =3.086 × 10 m. A maior parte da massa do aglomerado, cerca de 80% a 90% do total, é composta de matéria escura (não bariônica), que não emite luz e interage apenas gravitacionalmente. O restante da matéria, na forma bariônica, está quase que totalmente presente no meio intra-aglomerado, sob a forma de gás aquecido, e nas galáxias. As estrelas das galáxias contribuem com apenas cerca de 20% da matéria bariônica, ≈ 5% da massa total. O gás quente emite raios-X por efeito bremmstrahlung térmico, de onde vem a quase totalidade da luminosidade do aglomerado, ≈ 95%, porém a obtenção de dados em raio-X, dependente do lançamento de satélites espaciais, iniciou-se somente a partir dos anos 1970, por questões que envolviam aprimoramentos tecnológicos. Apesar de emitirem apenas 5% da emissão luminosa de um aglomerado, as galáxias emitem em uma ampla faixa da do espectro, incluindo a luz visível. Por esta razão as pesquisas, os catálogos e as metodologias envolvendo aglomerados de galáxias foram inicialmente feitas a partir de luz visível proveniente das galáxias (Kaastra et al., 2008). Com base na proporção de massas, ca claro que a dinâmica dos aglomerados é basicamente governada pela matéria escura. Porém como todos os componentes do aglomerado respondem a um mesmo potencial gravitacional, cada uma a sua maneira, podemos fazer algumas inferências sobre a dinâmica do aglomerado com base em qualquer uma de suas componentes. O fato de possuirmos uma maior quantidade de informações disponíveis em forma 14 luz visível faz das galáxias candidatas naturais ao estudo da dinâmica de aglomerados. Em particular, as leis de distribuição de velocidades formam a base de nosso entendimento teórico sobre a dinâmica de estruturas virializadas (Lynden-Bell, 1967). A determinação da forma como estão distribuídas as velocidades radiais das galáxias em aglomerados pode ser uma importante maneira de traçar a sua dinâmica e prover informações sobre o estado evolutivo desses sistemas. Estudos baseados na mecânica estatística predizem que a evolução dinâmica de um aglomerado de galáxias leva a um estado relaxado onde as galáxias apresentam uma distribuição maxweliana de velocidades no espaço, e uma distribuição gaussiana para uma componente, a componente de velocidades radiais (LyndenBell 1967; Ueda, Ioto & Suto, 1993). Portanto, a normalidade da distribuição de velocidades radiais das galáxias estaria relacionada com o equilíbrio dinâmico do aglomerado, podendo assim ser tomada como um indicador de evolução. Tornar-se "evoluído", neste contexto, signica o sistema ter alcançado um estado estacionário em que seja válido o teorema do virial (TV). Uma consequência importante de se determinar se um sistema encontra-se em equilíbrio é que nesse estado é possível determinar a sua massa através do TV. Por exemplo, assumindo que o aglomerado de Coma constituía um sistema em equilíbrio, Zwicky foi o primeiro a realizar estimativas de massa de um aglomerado (Zwicky, 1933). Com o intuito de vericar se a distribuição de velocidades radiais das galáxias era consistente com uma distribuição normal, Yahil & Vidal (1977) realizaram extensa análise estatística, fazendo uso de vários testes de normalidade. A partir desses testes estatísticos, eles concluíram que a distribuição de velocidades radiais observadas em aglomerados de galáxias contendo entre 10 e 122 membros são sempre consistentes com gaussianas, exceto, segundo eles, por contaminação de galáxias de campo, que poderiam ser removidas através do critério da exclusão sucessiva de objetos com velocidades discrepantes por mais de 3σ que a média em módulo, que foram considerados outliers. Logo, segundo Yahil & Vidal (1977) a grande maioria dos aglomerados eram evoluídos dinamicamente. Contudo, à medida que mais redshifts se tornaram disponíveis por aglomerado, e novas amostras foram analisadas, evidências de desvios da gaussianidade tornaram-se mais frequentes (ex. Merrit 1987; Sarazin 1987, Fichett 1988; Bird & Beers 1993). Ao mesmo tempo, Beers et al. (1990) apontam para a diculdade em determinar se uma dada distribuição de velocidades difere signicativamente de uma gaussiana. Essas diculdades cam mais severas à medida que diminuímos o tamanho das amostras (Beers et al. 1990). Surge então um problema metodológico: qual teste (e em que condições) é apropriado para realização da inferência estatística? O problema vem do fato de diferentes testes de 15 normalidade, quando aplicados a uma mesma amostra, levarem a resultados diferentes, no sentido de que podem rejeitar ou não a hipótese de normalidade da amostra, dentro de um determinado nível de signicância (α) estabelecido. Assim, um sistema pode ser classicado tanto como gaussiano quanto não-gaussiano dependendo do teste de normalidade utilizado e da multiplicidade do aglomerado em questão. Nesse contexto, torna-se fundamental a determinação de critérios objetivos para a escolha do método apropriado para testar a normalidade da distribuição de velocidades de galáxias em aglomerados. O ponto central do presente trabalho é a ideia de combinar os valores-p de diferentes testes de normalidade para gerar um resultado mais conável na categorização de aglomerados de galáxias como gaussianos ou não-gaussianos. Com este propósito, implementamos uma combinação de testes de normalidade conhecida como metanálise de Fisher (Fisher 1925). Esta técnica depende apenas dos valores-p dos testes individuais de normalidade e encontra resultados mais seguros que os das análises dos testes (tomados individualmente) do ponto de vista da ocorrência de erros estatísticos de tipo II (ex. Hedges & Olkin, 1985). O trabalho está organizado da seguinte forma: no Capítulo 2 apresentamos a motivação para este trabalho e nosso objetivo central; no Capítulo 3 descrevemos os conceitos e ferramentas estatísticas utilizados; no Capítulo 4 apresentamos os dados e metodologia empregada; no Capítulo 5 são apresentados os resultados de nossa análise; o Capítulo 6 contém nossas conclusões e perspectivas. No apêndice discorremos brevemente sobre a dinâmica interna de aglomerados e a expectativa teórica sobre a distribuição de velocidades das galáxias neles contidas. 16 2 MOTIVAÇÃO PARA O TRABALHO Grupos de galáxias contêm a maior parte das galáxias no Universo e são o elo entre galáxias individuais e estruturas em grandes escalas (Huchra & Geller 1982; Geller & Huchra 1983; Nolthenius & White 1987; Ramella et al. 1989). Condições iniciais de natureza cosmológia denem a evolução de um sistema de galáxias, que primeio expande seguindo o uxo de Hubble, então se desacopla dele, atinge uma escala de máxima expansão, realiza o turnaround e começa a colapsar para enm se virializar (vide Gunn & Gott 1972). Este cenário global possui ainda importantes lacunas, não havendo uma metodologia única e plenamente conável para se determinar o estágio dinâmico de um grupo de galáxias, apesar dos esforços nos últimos 30 anos (Yahil & Vidal 1977; Menci & Fusco-Femiano 1996; Robotham et al. 2008). A evolução não-dissipativa de sistemas de galáxias é dominada pela gravidade. Interações sobre o tempo de relaxação tendem a distribuir as velocidades das galáxias membro em uma distribuição gaussiana (ex. Bird & Beers 1993). Embora a distribuição de velocidades na linha de visada esperada para sistemas de galáxias não seja exatamente gaussiana (ex. Merritt 1987; Kazantzidis et al. 2004), evidência fenomenológica ao longo dos anos tem sugerido que a normalidade da distribuição de velocidades pode ser assumida para sistemas em equilíbrio dinâmico (ex. Yahil & Vidal 1977). De fato, várias propriedades importantes de grupos podem ser estudadas desta perspectiva. Por exemplo, Hou et al. (2009) encontraram pers ascendentes de dispersão de velocidades para grupos com distribuição de velocidades não-gaussiana traço este em geral associado a sistemas em interação; Hou et al. (2012) também mostraram que a maioria dos grupos não-gaussianos apresentam subestruturas; resultado este que está em acordo com estudos de Einasto et al. (2012a, 2012b) e Ribeiro et al. (2013) que encontram uma fração signicativa de sistemas multimodais em aglomerados selecionados a partir do SDSS em particular, Ribeiro et al. (2011, 2013a) mostram que a multimodalidade pode ser a causa principal de não-gaussianidade nas distribuições de velocidades em grupos de galáxias; ainda, Ribeiro et al. (2010) encontraram efeitos de segregação em luminosidade, tal que sistemas com distribuição de velocidades gaussiana contêm uma maior fração de objetos brilhantes nas regiões centrais dos grupos; este último resultado é reforçado pelo estudo de Martinez & Zandivarez (2011) que, comparando a função de luminosidade de sistemas gaussianos e não-gaussianos, encontraram uma magnitude característica mais brilhante para sistemas gaussianos; Ribeiro et al. (2013b) também encontraram uma deciência de galáxias de baixo uxo em sistemas não-gaussianos em comparação com sis- 17 temas gaussianos; nalmente, Krause et al. (2013) estudam grupos de galáxias na região do superaglomerado de Ursa Maior e encontram que grupos gaussianos encontram-se preferencialmente nas regiões mais densas do superaglomerado e possuem menores separações grupo-grupo que grupos não-gaussianos. Estes resultados recentes indicam a importância de se classicar sistemas de galáxias de acordo com a sua distribuição de velocidades como um meio para acessar o seu estado dinâmico. Contudo, a já mencionada diculdade em se determinar se um desvio signicativo da gaussianidade foi de fato encontrado, indica a importância de se realizar estudos sobre as metodologias empregadas para este m. Por exemplo, Ribeiro et al. (2013a) mostram que o uso de uma medida conhecida como "distância de Hellinger"pode ser de grande utilidade na categorização de grupos e aglomerados de galáxias. Neste estudo, este autores mostram como é possível melhorar tanto a taxa de erros estatísticos de tipo I e tipo II (vide Capítulo 3) em relação a estudos baseados apenas em testes estatísticos de normalidade. Entretanto, apesar do progresso signicativo (em termos metodológicos) deste trabalho, Ribeiro et al. (2013a), mesmo após a introdução da distância de Hellinger, ainda convivem com uma considerável taxa de erros de tipo II, que pode chegar a mais de 40% para sistemas com 30 ou menos galáxias. A redução da taxa de erros de tipo II na categorização de sistemas de galáxias com base em sua distribuição de velocidades é o objetivo central desta dissertação. Para isto, introduziremos o conceito de metanálise de Fisher. Uma vez que o próprio conceito de metanálise representa um tópico especíco da estatística inferencial, apresentamos no Capítulo 3 uma breve revisão sobre as ferramentas estatísticas utilizadas neste trabalho. Esta revisão, naturalmente, não tem a pretensão de descrever os detalhes de cada ferramenta, senão fazer uma apresentação geral da terminologia que será usada no decorrer do trabalho. 18 3 FERRAMENTAS ESTATÍSTICAS UTILIZADAS Este capítulo fornece uma introdução à estatística inferencial, apresentando os conceitos mais importantes utilizados ao longo do texto. 3.1 Teste de Hipótese O principal objetivo da análise estatística é fazer inferência sobre uma população a partir da análise de uma amostra desta população. Inicialmente, uma hipótese é enunciada a respeito de algum atributo (ou propriedade) da amostra que se pretende estudar a chamada hipótese nula (H0 ), uma nova hipótese pode pode ou não haver uma hipótese alternativa hipótese nula. Caso o exame dos dados rejeite a ser formulada. Este procedimento, em que (H1 ), é denominado teste de Hipótese. É necessário estabelecer um critério objetivo para rejeitar ou não a H0 para um teste estatístico. O que nos leva a perguntar o quão pequena deve ser a probabilidade de que H0 seja verdadeira para que possamos rejeitá-la. Esta resposta ca a cargo do pesquisador. Uma probabilidade de 5% é comumente usada como critério de rejeição. A probabilidade usada como critério de rejeição é chamada de que existe a possibilidade de que uma com uma frequência Erro do tipo I. α. A rejeição da Por outro lado, H0 nível de signicância, denotada por α É evidente H0 verdadeira seja rejeitada. Este erro será cometido H0 quando ela é de fato verdadeira é conhecida como pode ser de fato falsa e este fato não ser detectado por um teste estatístico. Este erro de não rejeição da representado pela letra disso deni-se o β, H0 é denominado a probabilidade de não rejeição de poder de um teste estatístico 1-β H0 erro do tipo II é quando ela é falsa. A partir como a probabilidade de rejeitar a H0 quando ela é de fato falsa. Enquanto a probabilidade de cometer um erro do tipo I é pesquisador, a probabilidade de cometer um erro do tipo II, e nem especicamos. valor de α β, α, especicada a priori pelo é um valor que não sabemos O que nós sabemos é que para uma dada amostra de tamanho N, o é inversamente relacionado com o valor de β. Quanto mais baixa a probabilidade de cometer um erro do tipo I mais alta a probabilidade de cometer um erro do tipo II (Seier 2011). Os testes de hipótese correspondem a regras ou procedimentos para decidir se uma hipótese nula deve ser rejeitada ou não. Há duas abordagens, o intervalo de conança e o teste de signicância. Ambas pressupõem que a variável (estatística ou estimador) que esta 19 sendo considerada tenha alguma distribuição de probabilidade e que o teste de hipótese faça declarações ou armações sobre os parâmetros dessa distribuição. A abordagem do teste de signicância foi desenvolvida independentemente por R.A Fisher e conjuntamente por E. Pearson e J. Neyman. Ela consiste em um procedimento pelo qual os resultados de uma amostra são usados para vericar a validade ou não de uma H0 . A ideia chave por trás do teste é de uma estatística de teste (estimador) e a distribuição de amostragem dessa estatística conforme a H0 . A decisão de aceitar ou rejeitar H0 é tomada com base no valor da estatística do teste obtida com os dados disponíveis. 3.2 Testes de Normalidade Em estatística, os testes de normalidade são usados para determinar se um conjunto de dados de uma dada variável aleatória é bem modelado por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída. Em geral, qualquer teste relacionado a uma hipótese cientíca é conservador no sentido de preservar a hipótese nula. Portanto os testes de normalidade são estruturados para serem mais complacentes com erros do tipo II. Ou seja é preferível não rejeitar a hipótese nula quando ela é falsa do que rejeitar a hipótese nula quando ela é verdadeira. Isto é, os testes são desenvolvidos para que se cometam poucos erros de tipo I, enquanto aceita-se um maior índice de erros de tipo II. O resultado que nos interessa após a aplicação de um determinado teste é o seu valor-p, que corresponde à probabilidade de ocorrerem valores da estatística especíca daquele teste mais extremos que o observado, supondo a hipótese nula verdadeira. Se o valor-p for menor que o nível de signicância, então a hipótese nula é rejeitada. Em outras palavras, o valor-p corresponde ao menor nível de signicância que pode ser assumido para rejeitar a hipótese nula. Dizemos então que há signicância estatística quando o valor-p é menor que o nível de signicância adotado . 3.3 Testes Utilizados Para avaliar a suposição de normalidade a respeito da distribuição de velocidades em aglomerados de galáxias, utilizamos cinco testes muito conhecidos na literatura estatística: o teste de Anderson-Darling (Anderson & Darling, 1952); o teste de D'Agostino-Pearson (D'Agostino, 1970); o teste de Jarque-Bera robusto (RJB) (Jarque & Bera, 1987); o teste de Kolmogorov-Smirnov na versão de Lilliefors (vide Lilliefors, 1967); e o teste de Shapiro-Wilk 20 (Shapiro & Wilk, 1965). testes. 3.3.1 A seguir, apresentamos uma breve descrição de cada um desses 1 Teste de Anderson-Darling (AD) Proposto por Anderson e Darling (1952), o teste é especialmente ecaz quando temos amostras de tamanho pequeno, como bem é descrito por Hou et al. (2009). O teste AD é baseado na comparação entre a Função de Distribuição Empírica (FDE) e a Função de Distribuição Cumulativa (FDC) hipotética. A estatística do teste, como descrita por Stephens (1987), é denida como: n 1X A = −n − [2i − 1][ln(p(i) ) + ln(1 − p(n−i+1) )], n i=1 2 onde p(i) = Φ([x( i) − x̄]/σ) e distribuição normal pardrão, e xi ≤ x < xi+1 . x̄ e empírica, respectivamente. O valor Aqui, Φ (3.1) é a FDC hipotética, no caso a σ representam a média e o desvio padrão da distribuição p é obtido da estatística modicada de Z = A2 (1.0 + 0.75/n + 2.25/n2 )A, (3.2) caso os parâmetros da distribuição não sejam conhecidos a priori (Stephens, 1987). 3.3.2 D'Agostino-Pearson (DP) Também conhecido como teste D foi proposto por D'Agostino (1970). Neste teste, verica-se a hipótese de normalidade como medida de assimetria dos dados. A hipótese nula é que a distribuição observada tem assimetria nula. A estatística DP é dada por: DP = onde, 1É T , n2 σ n X n+1 T = i− x(i) 2 i=1 (3.3) (3.4) importante ressaltar que cada teste possui um estimador (ou estatística) que pode ser mais sensível a diferentes regiões da variável amostrada. Existem testes mais sensíveis à região central (valores próximos da média) assim como testes mais sensíves às caudas da distribuição. 21 Se a amostra é da distribuição normal, temos (n − 1)Γ n2 − 12 1 √ E{D} = ≈ √ ≈ 0.28209479. n 2 π 2 2nπΓ( 2 ) (3.5) O valor-p é obtido através de D∗ = 3.3.3 D − E(D) . σ(D) (3.6) Robust Jarque-Bera O RJB é uma versão robusta do teste estatístico de normalidade Jarque-Bera (JB). O RJB utiliza os coecientes de assimetria e curtose dos dados empíricos. Incorporando a Average Absolute Deviation from the Median (MAAD) às medidas de assimetria e curtose, faz-se com que o teste seja menos sensível a outliers. Em linhas gerais, o teste funciona da seguinte forma. Seja X1 , X2 , . . . , Xn tribuídas. Sejam e σ n variáveis independentes identicamente dis- a média, mediana e desvio padrão da população. Denem-se como os estimadores de ν ,v e σ. X̄ , M k , o k -ésimo momento P n k central νk é denido por µk = E(X −µ) e sua estimativa por µ̂k = i−1 (Xi − X̄). Utilizando e Sn ν, v uma sequência de Para qualquer inteiro positivo o estimador robusto MAAD denido por n CX Jn = |Xi − M |, n i−1 obtemos estimadores robustos de assimetria RJB dado por n RJB = C1 onde e C1 e C2 C2 = 64 3.3.4 ν̂3 Jn3 C= = ν̂3 /Jn3 2 n + C2 p π/2, e curtose = ν̂4 /Jn4 p que levam ao teste 2 ν̂4 −3 , Jn4 são constantes positivas. Para um nível de signicância (Gel & Gastwirth, 2006). O valor (3.7) (3.8) α = 5% indica-se C1 = 6 é obtido pela solução da (eq.3.8). Kolmogorov-Smirnov É uma versão modicada do teste estatístico Kolmogorov-Smirnov, baseada na difer- ença máxima entre a FDE e a FDC. A estatística do teste é dada por D = max{D+ , D− }, (3.9) 22 onde D+ = maxi=1,...,n {i/n FDC normal padrão com − p(i) }, D− = x̄ e σ maxi=1,...,n {p(i) − i−1 }e n p(i) = Φ(|x(i) − x̄|σ . Φ é a sendo média e desvio padrão respectivamente. As distribuições de probabilidade destas duas estatísticas, dado que a hipótese nula de igualdade das distribuições é verdadeira, não depende daquilo que a distribuição em hipótese é, desde que ela seja contínua. O teste Kolmogorov-Smirnov é mais sensível em pontos próximos da mediana da distribuição do que nas caudas. O teste Anderson-Darling é um teste que providencia igual sensibilidade nas caudas (vide Thode 2002). 3.3.5 Shapiro-Wilk O teste de Shapiro-Wilk é um reconhecido e eciente teste de desvio de normalidade, desenvolvido em 1965 por Samuel Shapiro e Martin Wilk. A estatística deste teste, conhecida como a estatística-w é dada por: w= b2 n X (3.10) (xi − x̄)2 i=1 onde xi são os valores da amostra ordenados. Menores valores de w indicam que os dados são normais. A constante b é determinada da seguinte forma: b= n/2 X an−i+1 × [xn−i+1 − xi ], (3.11) i se n é par. Ou (n+1)/2 b= X an−i+1 × xn−i+1 − xi , (3.12) i se n é ímpar. As constantes a são geradas pelas médias, variâncias e covariâncias das estatís- ticas de ordem de uma amostra de tamanho n de uma distribuição normal. Seus valores são tabelados (vide Thode 2002). A tomada de decisão do teste SW segue a seguinte comparação: rejeita-se a hipótese nula a um nível de signicância α se w < wα (estes últimos tabelados). 3.4 Teste de Multimodalidade Dado que a multimodalidade pode ser uma causa frequente de não gaussianidade (Ribeiro et al. 2011; Einasto et al. 2012), utilizamos também neste trabalho o teste dip 23 (Hartigan & Hartigan, 1985) 3.4.1 Teste dip O teste dip estima a multimodalidade em uma amostra pela diferença máxima (sobre todos os pontos da amostra) entre a função de distribuição empírica e a função de distribuição unimodal que minimiza o cálculo da diferença. Esta diferença é a chamada estatística dip. Hartigan & Hartigan (1985) mostram que a estatística dip é assintoticamente maior para a distribuição uniforme do que para uma ampla classe de distribuições unimodais, sobretudo aquelas com caudas exponenciais. O valor-p é calculado da seguinte forma: 1. Primeiro se calcula a estatística dip para a distribuição observada, gerando dipobs 2. Então são realizadas N realizações de uma distribuição uniforme de mesmo tamanho que a distribuição observada, gerando N dipboot 3. O valor-p é dado pela razão do número de casos em que dipobs < dipboot dividido pelo número N de realizações. 3.4.2 Metanálise de Fisher Em muitas situações a quantidade de dados insuciente, bem como as características próprias de cada teste estatístico, pode impedir uma resposta segura para as questões de interesse sobre um determinado estudo. Isto pode levar à rejeição (ou não) prematura de uma hipótese sobre a natureza do sistema em estudo. Uma abordagem alternativa que atenua em parte estes problemas é conhecida como metanálise, que é denida como uma coleção de técnicas pelas quais o resultado de dois ou mais estudos estatísticos independentes são combinados para obtenção de um resultado global para questão de interesse. A combinação de valores-p provindo de múltiplos testes estatísticos tem uma longa história em ciência (vide Hedges & Olkin 1985). Há duas vantagens principais neste tipo de abordagem: simplicidade e extensibilidade. O método de Fisher pode se usado para combinar resultados de diversos testes independentes relacionados à mesma hipótese nula. O método combina valores extremos de cada teste comumente conhecidos como valor-p, gerando um único teste estatístico S, dado pela formula: S = −2 k X i=1 ln pi , (3.13) 24 Onde pi é o valor-p do iesimo teste a quantidade S é comparada a distribuição-χ graus de liberdade. Este método é baseado na aditividade dos que quando a hipótese nula é verdadeira −2 ln pi χ2 2 com 2K independentes, e no fato de 2 é distribuída com uma distribuição-χ (e.g. Hedges & Olkin 1985). A metanálise de Fisher, apesar de sua simplicidade de implementação, não é uma metodologia usualmente empregada em Astrofísica. Neste trabalho, aplicamos esta técnica à tarefa de categorizar grupos de galáxias em gaussianos e não-gaussianos a partir de sua distribuição de velocidades. 3.4.3 Teste de comparação múltipla Tukey-Kramer Finalmente, a comparação entre propriedades médias de grupos classicados como gaussianos e não-gaussianos teve como ferramenta o teste de Tukey-Kramer. Resumidamente, este teste de comparação múltipla é usado para determinar se duas ou mais médias diferem signicativamente entre si. Um dos aspectos vantajosos do uso deste teste é que ele não assume igualdade no tamanho das amostras, nem igualdade de variâncias (vide Hayter 1984). 3.5 Aplicação dos testes: o ambiente R Os testes foram aplicados utilizando o ambiente estatístico R, ao mesmo tempo uma ferramenta estatística e uma linguagem de programação, voltado para análise de dados. O R é mantido e atualizado por estatísticos e colaboradores de diversas áreas do conhecimento. É um sistema gratuito disponível para os sistemas operacionais Linux, Windows e Macintosh. Ao conjunto de pacotes operacionais originais do R incluímos os seguintes pacotes: • diptest utilizado para realizar o teste dip de análise de multimodalidade • nortest utilizado para realizar os testes AD e KS. • lawstat utilizado para realizar o teste de normalidade de RJB • fBasics utilizado para realizar os testes DP e SW. Todos estes pacotes estão disponíveis gratuitamente na rede e podem ser baixados do próprio R R Development Core Team (2011) 4 DADOS E METODOLOGIA 4.1 Catálogo Utilizado A amostra utilizada neste trabalho foi retirada do catálogo Two Micron All Sky Survey Source Catalog (2MASS). O 2MASS corresponde a uma varredura aproximadamente uniforme do céu em três bandas no infravermelho próximo, J (1.25 microns), H (1.65 microns), e K (2.17 microns). Dentro do catálogo do 2MASS, estudamos 416 grupos de galáxias selecionados do trabalho de Crook et al. (2007), usando dados do 2MASS Redshift Survey, que é aproximadamente completo para K < 11.25 mag e |b| > 5◦ , incluindo objetos até z ≤ 0.07. O catálogo do Crook et al. (2007) utiliza como algoritmo de seleção dos aglomerados o Friends-of-friends cuja identicação dos grupos se baseia tanto na posição como no redshift dos objetos (e.g., Huchra & Geller 1982). O Friends-of-friends é um algoritmo de percolação largamente aceito na comunidade astrofísica que utiliza parâmetros de vínculo linking-lenght como critérios de seleção. Os grupos do 2MASS são denidos por dois contrastes de densidades δρ/ρ ≥ 12 gerando 274 grupos com 8 ou mais membros indicado como a amostra de Baixo Contraste de Densidade, BCD e δρ/ρ ≥ 80 gerando 142 grupos com 8 ou mais membros indicado como a amostra de Alto Contraste de Densidade, ACD. A diferença nos catálogos está na escolha dos parâmetros de vínculo (vide Crook et al. 2007). O catálogo BCD é produzido usando os parâmetros 350Km/s). (D0 , V0 )=(1.04 Mpc, 399Km/s), enquanto que o ACD usa (D0 , V0 )=(0.89 Mpc, 1 Indicamos algumas propriedades dos grupos BCD e ACD na Tabelas 4.1. Para maiores detalhes, consulte Crook et al. (2007). Propriedade Catálogo BCD catálogo ACD δρ/ρ 12 80 D0 (Mpc) V0 (Km/s) σ (Km/s) RP V (Mpc) 1.04 0.89 399 350 197 183 1.71 0.97 Tabela 4.1: Propriedades de grupos BCD e ACD da amostra de Crook et al. (2007). Um aspecto importante a se considerar é que os grupos BCD e ACD possuem algumas 1 Os grupos identicados por Crook et al. (2007) possuem 5 ou mais galáxias, mas neste trabalho utilizamos apenas aqueles com 8 ou mais membros. Esta seleção visa diminuir os efeitos estatísticos do tamanho da amostra, aumentando a eciência dos estimadores e técnicas utilizados. 26 propriedades que apresentam diferenças signicativas vide Crook et al. (2007). Isto nos permite discutir a dependência da classicação de grupos gaussianos e não-gaussianos não apenas em termos dos métodos empregados, como também do critério particular usado para identicar os grupos isto é, os parâmetros de vínculo do algoritmo FoF. 4.2 Comparação dos Testes Estatísticos O poder de um teste estatístico é a probabilidade de que o teste rejeite a hipótese nula quando ele é falsa. Isto é, o poder do teste reete a probabilidade de o teste não cometer um erro do tipo II. Testes de normalidade são baseados em diferentes características da distribuição normal e a eciência de cada teste varia dependendo da natureza da não-normalidade apresentada pela amostra, assim como pelo tamanho da amostra (Seier, 2011). Neste trabalho, comparamos a eciência de cinco testes de normalidade comumente utilizados na literatura Anderson-Darling (AD), D'Agostino-Pearson (DP), Jarque-Bera (JB), Kolmogorov-Smirnov (KS) e Shapiro-Wilks (SW) com a método de metanalise de Fisher (vide Capítulo 3). Devemos então escolher um procedimento capaz de, baseado em critérios objetivos, quanticar a robustez de um teste estatístico. Isto equivale a denir a "eciência"do teste, ou seja, desejamos investigar a percentagem de vezes que um teste aceita a hipótese nula quando esta é verdadeira. Isso pode ser feito criando uma amostra de controle, em que a fração de elementos amostrais que desviam da normalidade é conhecida, e então aplicar os testes de normalidade para avaliar a eciência do teste. Para este m, zemos realizações de diferentes distribuições não-normais tomadas de uma distribuição Levy em 1920. α-estável 2 α-estável, que é classe de distribuições de probabilidade caracterizadas por Exceto em casos especícos, a função de densidade de uma variável aleatória não pode ser dada de forma fechada. Contudo, sua função característica sempre pode ser dada por φ(x) = A função exp {ixδ − γ α |x|α [1 − iβ sgn(x) tan( πα )]}, 2 if exp {ixδ − γ|x|[1 + iβ sgn(x) 2 ln |x|}, π if α-estável α 6= 1 (4.1) α=1 permite uma ampla gama de variações de assimetria e curtose, dependendo dos valores dados para seus quatro parâmetros (Nolan 1998). O parâmetro de estabilidade descreve o "peso"da cauda da distribuição: α 0 < α ≤ 2 quanto menor o valor de mais "pesada"é a cauda da distribuição. O parâmetro de simetria 2 Ribeiro β controla a assimetria et al. (2013a) também utilizam variações da distribuição α-estável para avaliar a eciência de diversos testes de normalidade em comparação com a distância de Hellinger. 27 da distribuição, enviesada. −1 ≤ β ≤ 1. Se β = 0 a distribuição é simétrica; caso contrário, ela é γ > 0. O parâmetro de curtose é similar à variância da distribuição normal: Finalmente, existe um parâmetro de localização: distribuição normal. caso, o parâmetro β A distribuição α-estável é redundante, com γ média da distribuição (vide Nolan 1998). criamos distribuições α-estáveis com δ e −∞ < δ < ∞, equivalente à média da corresponde à normal quando α = 2. Neste correspondendo respectivamente à variância e Para comparar a eciência dos diferentes testes, α ∈ (0, 2), β ∈ (−1, 1) (exceto zero), γ ∈ (0, 2] e δ=0 Para encontrar erros do tipo I (aqueles que ocorrem quando a hipótese nula é rejeitada quando ela é verdadeira) os dados foram gerados da seguinte forma: 1. geramos um conjunto de dados de tamanho N de uma distribuição normal (α uma distribuição =2 em α-estável); 2. repetimos o procedimento (1) 1000 vezes para cada amostra de tamanho N, com 8 ≤ N ≤ 100; 3. a cada replicação aplicamos todos os testes descritos no Capítulo 3; 4. contamos a fração de vezes em que os testes e a metanálise falham na não rejeição de gaussianidade para cada N (ou seja, se p < 0.05); Para encontrar erros de tipo II, repetimos os passos acima para distribuições não-normais (α 6= 2 em uma distribuição α-estável); e vericamos a fração de vezes em que os testes e a metanálise falham na rejeição da gaussianidade para cada amostra de tamanho N (ou seja, se p ≥ 0.05). Os resultados desta comparação de métodos são apresentados na Tabela 4.2. O nível de signicância de um teste estatístico é a probabilidade de cometer um erro do tipo I. Na prática, primeiro escolhemos α (neste trabalho α = 0.05) e buscamos o teste com menor probabilidade de cometer erros de tipo I. Então, selecionamos aquele que apresente menor probabilidade de cometer erros de tipo II (ou seja, o teste com maior poder). Seguindo a primeira parte deste procedimento, concluímos que o teste DP é o melhor teste de normalidade (veja a parte superior da Tabela 1). Usando este teste minimizamos as chances de classicar um sistema gaussiano como não-gaussiano. Contudo, o teste DP (assim como os demais testes) apresenta probabilidades de cometer erros de tipo II indesejavelmente altas (veja a parte inferior da Tabela 1). Portanto, a chance de classicar um sistema não-gaussiano como gaussiano é consideravelmente alta em todos os casos. Isto indica que testes de normalidade superestimam o número de sistemas gaussianos, um viés a ser corrigido. A metanálise de Fisher foi introduzida para atenuar este problema. Contudo, embora a técnica MA nos leve 28 a cometer menos erros de tipo II, ela aumenta as chances de cometermos erros de tipo I (veja a Tabela 4.2). Isto nos leva a um beco-sem-saída estatístico. Erros do tipo I N AD DP JB KS SW MA 8 3% 3% 5% 5% 4% 27% 15 3% 4% 8% 3% 5% 24% 20 8% 3% 7% 7% 6% 26% 30 8% 5% 6% 6% 8% 23% 40 8% 3% 7% 4% 8% 20% 50 2% 3% 9% 5% 3% 22% 80 6% 2% 7% 6% 7% 25% 100 6% 1% 4% 6% 4% 23% Erros do tipo II N AD DP JB KS SW MA 8 35% 66% 41% 45% 37% 27% 15 24% 25% 30% 28% 40% 16% 20 17% 19% 17% 22% 26% 8% 30 17% 19% 13% 20% 16% 4% 40 12% 14% 6% 15% 8% 2% 50 10% 10% 5% 15% 6% 2% 80 4% 4% 3% 10% 3% 1% 100 1% 2% 2% 5% 2% 0% Tabela 4.2: Comparação entre testes de normalidade e técnica MA. A parte superior se refere a erros de tipo I, enquanto a parte inferior se refere a erros de tipo II. 4.3 Método de separação de Grupos Gaussianos e Não-Gaussianos Esta embaraçosa situação pode ser resolvida se soubermos explorar as vantagens de cada método. Por um lado, vimos que o teste DP é a melhor escolha se não desejamos cometer um erro de tipo I. Assim, quando o teste DP rejeita a normalidade, podemos presumir que um "real"desvio de gaussianidade está presente na distribuição. Por outro lado, a técnica MA é desenvolvida para minimizar erros de tipo II. Então, quando a MA não rejeita a normalidade, podemos presumir que a distribuição deve ser gaussiana. Estes argumentos podem sugerir que devemos denir sistemas não-gaussianos a partir do teste DP, e sistemas gaussianos a partir da técnica MA. Contudo, devemos notar que este critério não impede a ocorrência de interseções entre diagnósticos entre DP e MA. Para lidar com estas interseções, usamos o fato de que multimodalidade é uma causa frequente de não-gaussianidade. modalidade, usamos o teste Dip (vide Capítulo 3). Para sondar a 29 4.3.1 Procedimento I Desta forma introduzimos o seguinte procedimento: 1. Um sistema de galáxias tem distribuição NG de velocidades se o teste DP rejeita a normalidade para α = 0.05 2. Um sistema de galáxias tem distribuição de velocidades G se a técnica MA não rejeita a normalidade para α = 0.05. 3. Grupos na intersecção entre o teste DP e a técnica MA podem ser diagnosticados através de análise multimodal. 4. O número nal de sistemas G é denido como soma daquele identicados em (2) e dos unimodais identicados em (3). 5. O número nal de sistemas NG é denido como a soma daqueles identicados em (1) e dos objetos multimodais identicados em (3). 4.3.2 Procedimento II Alternativamente, podemos aplicar uma análise modalidade como primeiro passo, e então aplicar os testes de normalidade para identicar sistemas com G e NG. Por denição, todos os grupos identicados com multimodais são NG . Para os sistemas unimodais restantes aplicamos a técnica MA e o teste DP. Neste caso: 1. Todos os grupos passam por uma análise de modalidade. Sistemas multimodais são classicados como NG. 2. Sistemas de galáxias unimodais tem distribuição de velocidades G se a técnica MA não rejeita a normalidade para α = 0.05. 3. Sistemas de galáxias unimodais tem distribuição de velocidades NG se o teste DP rejeita a normalidade para α = 0.05. 4. Se existir intersecção entre os resultados de (2) e (3) a amostra é considerada como G (uma decisão conservadora). Os procedimentos I e II são aplicados às amostras BCD e ACD dos grupos de galáxias do 2MASS Redshift Survey. Os resultados desta análise são apresentados no próximo capítulo. 30 5 ANÁLISE Aplicamos os procedimentos de denição de grupos G e NG para as amostras BCD e ACD. Neste trabalho, adotamos a cosmologia A análise virial é feita seguindo (Carlberg et 3R200 σ 2 /G. de Ωm = 0.3, Ωλ = 0.7 e H0 = 100 h kms−1 Mpc−1 . √ al. 1997), onde R200 = 3σ/[10H(z)] e M200 = O estudo da distribuição de velocidades toma em conta somente galáxias dentro R200 . 5.1 Usando processo I Na amostra BCD, nós encontramos 85 grupos de galáxias classicadas como NG pelo teste DP, e 111 grupos classicados com G pela técnica MA. Dos 78 grupos na zona de intersecção 27 foram classicados com unimodais e 51 como multimodais pelo teste Dip. Figura 5.1 apresenta o total de G e NG, 138 e 136 respectivamente. A Assim, aproximada- mente 50% dos grupos tem distribuição de velocidades gaussianas na amostra BCD, usando o procedimento I. Na amostra ACD, encontramos 50 grupos de galáxias classicadas como NG pelo teste DP, e 78 grupos classicados como G pela técnica MA. Dos 14 grupos na zona de intersecção 4 foram classicados com unimodais e 10 como multimodais pelo teste dip. A Figura 5.2 apresenta o total de G e NG, 82 e 60 respectivamente. Assim, aproximadamente 56% dos grupos tem distribuição de velocidades gaussianas na amostra ACD. Note que a fração de grupos G é um pouco mais baixa na amostra BCD, o que é um resultado esperado, uma vez que esta amostra é composto por grupos com maior multiplicidade, em muitos casos envolvendo grupos ACD como subestruturas (vide Crook et al. 2007). Este resultado indica que além da escolha dos métodos e critérios usados para classicar os grupos como G e NG, é importante levar em conta os parâmetros de vínculo utilizados na identicação dos grupos de um determinado catálogo. 5.2 Usando processo II Para os grupos BCD, encontramos 131 sistemas multimodais, diretamente classicados como NG. Para os 143 sistemas unimodais restantes, aplicamos a técnica MA e encontramos 111 sistemas G. Aplicando o teste DP, encontramos 32 sistemas NG. Na zona de intersecção encontramos 27 objetos que foram classicados diretamente como G, com 5 grupos NG restantes. Os números nais são: 138 G e 136 NG veja Figura 5.3. Consequentemente 31 low density contrast NG G 85 189 NG G 85 78 NG 111 G 136 138 Figura 5.1: Amostra BCD dividida em G (salmão) e NG (azul) via Procedimento I. Os diagramas superiores mostram o diagnóstico do teste DP. Os diagramas do meio mostram o diagnóstico da técnica MA, mantendo o número de sistemas NG classicados pelo teste DP. Os diagramas inferiores mostram o diagnóstico combinado usando DP + MA + dip. O número de grupos é indicado ao lado de cada diagrama e nas interseções. 50% das amostras tem distribuição gaussiana de velocidades na amostra BCD. Aplicando o processo II para a amostra ACD, encontramos 61 sistemas multimodais, diretamente classicadas como NG. Para os 81 sistemas unimodais restantes, 78 grupos foram classicados como G pela técnica MA. Aplicando o teste DP, classicamos 3 grupos unimodais como NG, dois deles estavam na zona de intersecção. Os números nais são: 80 sistemas G e 62 NG veja a Figura 5.4. Consequentemente, aproximadamente 56% dos grupos tem distribuição de velocidades gaussianas de acordo com o processo II. 5.3 Resumindo Vimos que a aplicação dos procedimentos I e II produz os mesmos resultados, com 56% dos grupos sendo classicados como gaussianos, no caso de grupos ACD, enquanto 50% do grupos são gaussianos nos grupos BCD. 1 Este proporção de sistemas G é inferior àquelas encontradas em estudos anteriores (Hou et al. 2009, 2012; Ribeiro et al. 2010,2011,2013ab; Einasto et al. 2012ab) que indicam valores no intervalo 1 Os ∼60-80%. mesmos grupos G são identicados usando os procedimentos I ou II. 32 high density contrast NG G 50 92 NG G 14 50 NG 60 78 G 82 Figura 5.2: Amostra BCD dividida em G (salmão) e NG (azul) via Procedimento I. Os diagramas superiores mostram o diagnóstico do teste DP. Os diagramas do meio mostram o diagnóstico da técnica MA, mantendo o número de sistemas NG classicados pelo teste DP. Os diagramas inferiores mostram o diagnóstico combinado usando DP + MA + dip. O número de grupos é indicado ao lado de cada diagrama e nas interseções. Nossa motivação foi a de reduzir a taxa de erros de tipo II em estudos que buscam classicar grupos de galáxias de acordo com a sua distribuição de velocidades. A redução nesta taxa implica em reduzir a fração de grupos gaussianos, uma vez que os testes de normalidade introduzem um viés no sentido de superestimar a população de gaussianos (isto é, eles rejeitam menos a gaussianidade do que deveriam). A técnica MA foi introduzida para este m, portanto uma redução do número de sistemas G era esperada. Complementando esta etapa do trabalho, realizamos uma comparação entre algumas propriedades de sistemas G e NG para as amostras BCD e ACD. Esta análise, que não tem a pretensão de ser extensiva, é apresentada a seguir. 5.4 Comparando sistemas G e NG Depois de dividir os grupos em G e NG, podemos comparar suas propriedades. A ideia aqui é apenas comparar as médias e distribuições das seguintes propriedades: o raio projetado virial RP V luminosidade (Mpc); a massa projetada virial MP V /L(M /L ); MP V (M ); a relação massa projetada- a diferença de magnitude entre as duas galáxias mais bril- 33 low density contrast UM MM 131 143 NG 5 27 NG 136 G 111 G 138 Figura 5.3: Amostra BCD amostra dividida em unimodais (salmão) e multimodais (azul) via Procedimento II. Os diagramas superiores mostram o diagnóstico do teste dip. Os diagramas intermediários mostram o diagnóstico da técnica MA, mantendo o número de sistemas NG encontrados pelo teste DP. A parte de baixo do diagrama mostra o uso da combinação da análise conjunta DP + MA + dip. O número de galáxias é apresentado ao lado de cada diagrama e nas interseções. hantes m12 na banda K; e a densidade numérica de galáxias ν(Ngals M pc−3 ) nos catálogos ACD e BCD. Para comparar médias, usamos uma versão modicada do teste de comparação múltipla de Tukey-Kramer (Dunnett 1980) . Este teste conduz a um teste de compara- ção múltipla emparelhada para as diferentes médias com amostras de tamanhos diferentes e sem assumir igualdade na variância das populações. Para comparar a distribuição das propriedades escolhidas, usamos o teste de Kolmogorov-Smirnov, um teste não paramétrico para determinar se duas amostras independentes são provenientes de uma mesma distribuição (e.g. Conover 1971). O valor-p derivado desta análise comparativa é resumido na Tabela 5.1. A análise inclui a comparação dos tipos G×NG, G×G e NG×NG (comparando-se ACD e BCD, interna e mutuamente). Note que a primeira diferença signicativa entre sistemas G e NG para objetos da amostra ACD acontece na massa projetada, a qual apresenta médias diferentes [hMP V iG ' (1.54±0.52)hMP V iNG ] e são improváveis de serem tiradas de uma mesma população. gaussianos também apresentam média e distribuição diferentes para e ν G ' (1.29 ± 0.23)ν NG . Sistemas NG mG 12 ' (1.32 ± 0.24)m12 Encontramos também diferenças signicativas, para amostras ACD 34 high density contrast UM MM 61 81 NG 1 G 2 NG 78 G 62 80 Figura 5.4: Amostra BCD amostra dividida em unimodais (salmão) e multimodais (azul) via Procedimento II. Os diagramas superiores mostram o diagnóstico do teste dip. Os diagramas intermediários mostram o diagnóstico da técnica MA, mantendo o número de sistemas NG encontrados pelo teste DP. A parte de baixo do diagrama mostra o uso da combinação da análise conjunta DP + MA + dip. O número de galáxias é apresentado ao lado de cada diagrama e nas interseções. e BCD, na massa e raio projetados viriais [hMP V iG ' (1.54 ± 0.52)hMP V iNG e hRP V iG ' (1.35 ± 0.36)hRP V iNG ], sendo ambos improváveis de serem obtidos de uma mesma população, com NG mG 12 ' (1.32 ± 0.24)m12 e ν G ' (1.29 ± 0.23)ν NG . que NG e tem valores maiores de Assim, sistemas G são mais densos m12 . Quando comparamos mutuamente as amostras ACD e BCD, encontramos que a massa projetada, raio projetado e razão massa-luminosidade tem valores sistematicamente mais elevados nos grupos BCD, como esperado, independentemente da classicação G ou NG. Contudo, notemos que a comparação de m12 e ν G cativas nas médias e distribuições [m12 para sistemas gaussianos indicam diferenças signi- ' (1.32 ± 0.24)mNG 12 e ν G ' (1.29 ± 0.23)ν NG ]. Assim, grupos gaussianos indenticados na amostra ACD são mais densos e tem valores maiores de m12 do que grupos gaussianos identicados em BCD. Curiosamente, não encontramos difer- enças signicativas entre essas propriedades para sistemas NG quando mutuamente testadas para amostras ACD e BCD. Para interpretar estes resultados precisamos entender o porquê de sistemas G serem mais massivos que grupos NG tanto nas amostras ACD como BCD, o que não é consistente 5 10 N 15 20 25 35 0 SDSS 12 13 14 15 16 log MP (M ) Figura 5.5: Distribuição de massa para sistemas BCD (branco) e ACD (cinza). A linha vermelha marca a massa média dos grupos mock do SDSS. com resultados prévios (p.ex. Ribeiro et al. 2011, 2013ab), cujos trabalhos indicam que sistemas NG são maiores e mais massivos que sistemas G. Situação exatamente oposta à encontrada neste trabalho. Uma possível explicação estaria associada ao cálculo de massa usando o teorema do virial em objetos não-virializados. Outra proposta para explicar a discrepância nos resultados é a distribuição de massa dos grupos, pois pode existir uma correlação entre massa e gaussianidade levando a um viés nos resultados. Para explorar este efeito, aplicamos nosso algoritmo para separação de grupos G e NG sobre o catálogo mock de Berlind et al. (2006) gerado para ter as propriedades de grupos do SDSS.Primeiro, aplicamos nosso algoritmo sobre a amostra selecionando apenas grupos com mais de 7 galáxias N > 7, selecionando apenas galáxias dentro de R200 .2 En- contramos que 47% sistemas são G. Então, dividimos a amostra em grupos mais e menos massivos do que a massa média para o catálogo mock hlog M i ≈ 13.55 M . Para subamostra mais massiva, encontramos 69% dos sistemas como G, enquanto para amostra menos massiva, encontramos 25% dos sistemas como G. Estes resultados aproximadamente se repetem para todos os catálogos mock disponíveis, gerados usando-se diferentes parametrizações para popular os halos com galáxias (Berlind et al. 2006). Consequentemente, parece haver cor- 2 Aplicando a mesma anlálise virial que utilizamos na amostra do 2MASS. 36 Tabela 5.1: comparação de sistemas G e NG TK test (A,A) (B,B) (A,B) (A,B) RP V MP V MP V /L m12 ν KS test RP V MP V MP V /L m12 ν G × NG G × NG G×G NG × NG 0.2979 0.0238 0.0761 0.0449 0.0115 (H,H) 0.0620 0.0319 0.4265 0.0763 0.0463 (L,L) 0.0000 0.0045 0.0048 0.0240 0.0071 (H,L) 0.0000 0.0039 0.0000 0.1569 0.2671 (H,L) G × NG G × NG G×G NG × NG 0.0960 0.0079 0.0659 0.0385 0.0241 0.0159 0.0179 0.1758 0.0383 0.0236 0.0000 0.0019 0.0009 0.0239 0.0219 0.0000 0.0059 0.0000 0.0609 0.0729 relação entre a distribuição de massa de um catálogo de grupos de galáxia e a fração de sistemas gaussianos nela encontrados. Na Figura 5.5, plotamos o histograma de massas para as amostras ACD e BCD. Note que ambos contêm objetos mais massivos (em média) do que a amostra mock do SDSS. Para a amostra ACD, tomando grupos mais massivos do que a média, hlog M i ≈ 13.88 M , encontramos 65% de sistemas G, enquanto tomando grupos menos massivos que a média nós encontramos 46% classicados como G. Para amostras BCD, com massa média hlog M i ≈ 14.05 M , encontramos 60% e 44% dos sistemas classicados como G para grupos mais e menos massivos que a média, respectivamente. Tomando raio e massa médios para grupos menos massivos da amostra ACD, encontramos que hRP V iNG ' (1.21 ± 0.43)hRP V iG , mesmo acontece para amostra BCD, (1.32 ± 0.44)hlog MP V iG . menos massivos. e hlog MP V iNG ' (1.18 ± 0.34)hlog MP V iG . hRP V iNG ' (1.27 ± 0.33)hRP V iG , e hlog MP V iNG ' Isto é, NG são maiores e mais massivos que G, para grupos Fazendo o mesmo para grupos mais massivos, encontramos (1.17 ± 0.35)hRP V iNG , e O hlog MP V iG ' (1.36 ± 0.24)hlog MP V iNG , hRP V iG ' (1.28 ± 0.37)hRP V iNG e hRP V iG ' para amostra ACD; e hlog MP V iG ' (1.46 ± 0.41)hlog MP V iNG , para amostra BCD. Consequentemente, para grupos menos massivos, temos sistemas NG maiores e mais massivos do que G. Enquanto para grupos mais massivos, temos sistemas G maiores e mais massivos que sistemas NG. 37 6 CONCLUSÕES E PERSPECTIVAS Distribuições de velocidades gaussianas, usualmente truncadas (ex. Yahill & Vidal 1977), descrevem as velocidades em modelos de esfera isotérmica de sistemas de galáxias (King 1966) vide Apêndice. Simulações de N-corpos têm mostrado que a relaxação de sistemas acolisionais isolados levam a uma distribuição gaussiana de velocidades dentro do crossing time dos sistemas, embora em sistemas experimentando fusões a relaxação pode levar tempos consideravelmente maiores (Merrall & Henriksen 2003, Hansen et al. 2005, 2006). Este fato leva à expectativa teórica de que a distribuição de velocidades seja normal para um sistema em equilíbrio dinâmico. Neste trabalho, usamos a técnica de metanálise Fisher combinando cinco testes de normalidade, um teste multimodalidade e o mais eciente dentre os cinco testes que combinados em um procedimento para separar sistemas G e NG de acordo com suas distribuições de velocidades. Mostramos que o teste DP é a melhor escolha para evitar erros do tipo I, enquanto a técnica MA é a melhor escolha para evitar erros do tipo II. Introduzimos dois procedimentos para categorizar sistemas G e NG. No procedimento I, utilizamos os diagnósticos DP e MA antes do estudo de modalidade, enquanto no procedimento II, utilizamos o estudo de modalidade antes dos diagnósticos DP e MA. Estes procedimentos mostraram-se consistentes entre si. Aplicando estes procedimentos, encontramos que ∼ 50% e ∼ 56% sicados como G, para as amostras BCD e ACD, respectivamente. dos grupos são clas- Comparando algumas propriedades desses sistemas, encontramos que sistemas G são mais densos que NG e têm maiores valores de m12 . Além disso, grupos G identicados na amostra ACD são mais densos e têm valores maiores de m12 que grupos G identicados na amostra BCD. Explorando o resultado de que sistemas G são mais massivos que sistemas NG em ambas amostras, encontramos que em média grupos de menor massa têm sistemas NG maiores e mais massivos que sistemas G, enquanto que grupos de maior massa têm objetos G maiores e mais massivos que NG. Isto concilia os resultados encontrados neste trabalho com estudos prévios de distribuição de velocidades em sistemas de galáxias (ex Ribeiro et al. 2011, 2013ab; Krause et al 2013). Finalmente, enfatizamos a importância da escolha do método para dividir sistemas em G e NG. Usando o procedimento desenvolvido neste trabalho nós encontramos 50-56% de sistemas G no catálogo 2MASSS. Se utilizássemos testes individuais teríamos encontrado uma fração muito maior de sistemas G (72-78%) teste AD, (74-83%) teste DP, (75-80%) 39 teste JB, (71-84%) teste KS, and (73-82%) testes SW. Além disso, a taxa de erros de tipo II, usando-se a MA é consideravelmente mais baixa (4-27% para N ≤ 30) do que em todos os testes individuais avaliados, assim como no estudo de Ribeiro et al. 2013a, que introduz a distância de Hellinger como nova metodologia para categorizar sistemas G e NG. Embora a distância de Hellinger melhore a performance com relação tanto a erros de tipo I como de tipo II, a incidência destes últimos ainda pode ser alta (> 40%) para para N ≤ 30. Finalmente, vericamos diferenças signicativas quando comparamos as propriedades das amostras ACD e BCD, indicando que a maneira especíca da identicação dos grupos em levantamentos de galáxias pode levar a conclusões diferentes quando tentamos explorar as propriedades dinâmicas dos aglomerados utilizando suas distribuições de velocidades. 6.1 Perspectivas O estudo com a metanálise de Fisher se restringe a apenas a cinco testes de normalidade. Não vericamos se combinações de diferentes testes podem produzir uma metanálise mais eciente. No desenvolvimento subsequente deste trabalho, pretendemos estender nosso estudo da seguinte maneira: • Dentro de amostras controladas, incluir novos testes de normalidade para serem combinados na MA. • Aplicar a nossa metodologia para revisar os resultados de outros trabalhos. • Estudar amostras em redshift mais altos. • Aplicar nossos procedimentos de separação G/NG para amostras mais numerosas melhorando a estatística dos testes. • Finalmente, após chegarmos a um diagnóstico mais completo, determinar com maior precisão as propriedades físicas dos grupos gaussianos e não-gaussianos. 7 REFERÊNCIAS BIBLIOGRÁFICAS Referências Bibliográcas [1] ABELL, G. The Distribuition of Rich Clusters of Galaxies. Astrophys. J, Suppl. Ser. 3, p. 211-288, 1958. [2] ANDERSON & DARLING Asymptotic Theory of Certain "Goodness of Fit"Criteria Based on Stochastic Processes Annals of Mathematical Statistics, v. 23, p. 193-212, 1952. [3] BEERS et al. Measures Of Location And Scale For Velocities In Clusters Of Galaxies: A Robust Approach AJ, N◦ 1, v. 100, p. 32-46, 1990. [4] BERGER, J. O. Could Fisher, Jereys and Neyman Have Agreed on Testing? Statistical Science vol 18, N◦ 1, p. 1-32, 2003. [5] BERLINGER et al. Percolation Galaxy Groups And Cluster in the SDSS Redshift Sur- vey: Identication, Catalogs, And The Multiplicity Function The Astrophysical Journal Supplement Series v. 167, p. 1-25, 2006. [6] BINNEY, J.; & TREMAINE, S. Galactic Dynamics. New Jersey: Princeton University Press, 1987. 773 p., Princeton Series Astrophysics [7] BIRD et al. Astronomical applications of distribution shape estimators Astronomical Journal (ISSN 0004-6256), AJ, N◦ 4, v. 105 p. 1596-1606, 1993. [8] CARLBERG et al. The Average Mass and Light Proles of Galaxy Clusters Astrophysical Journal, ApJ, N◦ 1, v. 478 p. 462-475, 1997. [9] CONOVER, W. J.; Practical Nonparametric Statistics New York: John Wiley & Sons. N◦ 3rs, p. 462 1971. [10] CROOK et al. Groups of Galaxies in the Two Micron All Sky Redshift Survey The Astrophysical Journal ApJ. N◦ 1 , v. 655, p. 790-813, 2007. [11] D'AGOSTINO, R. B., Transformation to Normality of the Null Distribution of g1 Biometrika v. 57, p. 679-681, 1970. 41 [12] DE LUCIA et al. The formation history of elliptical galaxies Monthly Notices of the Royal Astronomical Society, MNRAS, N◦ 2 , v. 366, p. 499-509, 2006. [13] DUNNETT, C.W. Pairwise Multiple Comparisons in the Unequal Variance Case Journal of the American Statistical Association, N◦ 1 , v. 75 p. 796-800, 1980. [14] EINASTO et al, C.W. Multimodality in galaxy clusters from SDSS DR8: substructure and velocity distribution A & A, 540, A123 2012. [15] EINASTO et al, C.W. Multimodality of rich clusters from the SDSS DR8 within the supercluster-void net work A & A, v. 542 p. 36-49 2012. [16] FARAGGI, D.; & REISER, B. Estimation of the area under the ROC curve Statistics in Medicine, N◦ 21, p. 3093-3106 2002. [17] FISHER, R.A.; Statistical methods for research workers, Edinburgh: Oliver and Boyd 1925. [18] FITCHETT, M. J.; & MERRITT, D. Dynamics OF The Hydra I Galaxy Cluster ApJ N◦ 18 p. 355-343, 1988. [19] GEL, Y. R. & GASTWIRTH, J. L. A robust modication of the JarqueBera test of normality Economics Letters, N◦ 99, p. 3032, 2006. [20] GELLER, J. E & GOTT, J. R. A robust modication of the JarqueBera test of normality Economics Letters, N◦ 99, p. 3032, 2006. [21] GUNN,J E. et al. The Fifth Data Release of the Sloan Digital Sky Survey, AJ. v. 131, p. 2332-2348, 2006. [22] HANSEN, S. H., et al. Dark matter distribution function from non-extensive statistical mechanics New Astronomy, v. 10, p. 379-384, 2005. [23] HANSEN, S. H., A universal velocity distribution of relaxed collisionless structures JCAP 1, p. 1475-7516, 2006. [24] HARTIGAN, J. A. & HARTIGAN, P. M. The Annals of Statistics v. 13, p. 70, 1985. [25] HAZELTON, M. L. a graphical tool for assessing normality Americam Statistician, v. 57, N◦ 4 p. 285-288, 2003. 42 [26] HEDGES, L. V. & OLKIN, I. Statistical Methods for Meta-Analysis New York: Academic Press, 1985. [27] HOGG, D. W. et al.A Photometricity and Extinction Monitor at the Apache Point Ob- servatory. AJ, v. 122, N◦ 4, 2129-2138, 2001. [28] HOU, A. et al. Statistical Tools For Classifying Galaxy Dynamics APJ, v. 702, P 11991210, 2009. [29] HOU, A. et al. Do group dynamics play a role in the evolution of member galaxies? MNRAS, v. 421, p. 3594-3607, 2012. [30] HUCHRA, J.P & GELLER, M. J. Groups of galaxies. I - Nearby groups Astrophysical Journal, APJ, v. 257, p. 423-437, 1982. [31] JARQUE, C.M & BERA, A. K. International Statistical Review Bulletin of the Inter- national Statistical Institute, v. 55, p 163-172, 1987. [32] DIAFERIO, A.; SCHINDLER, S.; DOLAG, K Clusters of Galaxies: Setting the Stage. em: KAASTRA, J. (Ed) Clusters of Galaxies Beyond the Thermal View Utrecht: Springer, 2008. p. 7-24. [33] KAZANTZIDIS, S. et al Generating Equilibrium Dark Matter Halos: Inadequacies of the Local Maxwellian Approximation The Astrophysical Journal, APJ, v. 601, p 37-46, 2004. [34] KING, I. R The structure of star clusters. III. Some simple dynamical models, A. J, v. 71, p 64-75. 1966. [35] KISH, L.;Survey Sampling. John Wiley & Sons, Inc., New York, London 1965. [36] KRAUSE, M. O., RIBERIRO, A. L. B. & LOPES, P. A. A., Distribution and evolution of galaxy groups in the Ursa Major supercluster A&A, v. 551, p. 143-152, 2013. [37] LYNDEN-BELL, D. Statistical mechanics of violent relaxation in stellar systems A.J, N◦ 76 p 4611, 1967. [38] LUPTON, R. H. et al. Astronomical Data Analysis Software and Systems ASP conf. Ser. 238: 2001. [39] MAHDAVI, A. et al. THE DYNAMICS OF POOR SYSTEMS OF GALAXIES, APJ, v. 518, p. 69-93, 1999. 43 [40] MARTINEZ, H. J & ZANDIVAREZ, A., The dynamical state of galaxy groups and their luminosity content astro-ph.CO/1110.1344. [41] MENCI, N. & FUSCO-FEMIANO, R., Galaxy Velocity Dispersion Proles from Merging in Clusters, ApJ., v. 472, p.46, 1996. [42] MERRALL, T. E. C. & HENRIKSEN, R. N., Relaxation of a Collisionless System and the Transition to a New Equilibrium Velocity Distribution ApJ, v. 595 p. 43-58, 2003. [43] MERRITT, D., The distribution of dark matter in the coma cluster ApJ, v.313, p.121135, 1987. [44] MURATOV, A. L. & GNEDIN, O. Y., Modeling the Metallicity Distribution of Globular Clusters, ApJ, v. 718, p. 1266-1288, 2010 [45] NOLAN, J. P., Parameterizations and modes of stable distributions. Statistics & Probability Letters, v. 38 p. 187195, 1998. [46] NOLTHENIUS, R. & WHITE, S. D. M., MNRAS, 225, 505, 1987. [47] PADMANABHAN, T. Tehoretical Astrophysics. Pune: Cambridge University Press, v. 3, 2002. [Pearson] EARSON, E. S., D'AGOSTINO, R. B. & BOWMAN, K. O., Tests for Departure from Normality: Comparison of Powers, Biometrika, v. 64, p. 231-246, 1977. [48] PIER, J. R. et al. Astrometric Calibration of the Sloan Digital Sky Survey AJ, v. N◦ 125, 1559-1579, 2003. [49] PINKEY, J. et al Galaxies: Clusters: General, Galaxies: Distances and Redshifts, Galax- ies: Interactions, Methods: Numerical ApJ, v.104, p. 1-36, 1996. o [50] POPESSO, P. et al. RASS-SDSS galaxy cluster survey, Belin v. 461, n 2, p. 397-410, 2007. [51] RAMELLA, M., GELLER, M. & HUCHRA, J. P., Groups of galaxies in the Center for Astrophysics redshift survey v. 344, p. 57-74,1989. [52] RANA, S. et al. A Robust Rescaled Moment Test for Normality in Regression journal of Mathematics and Statistics, N◦ 51, p 54-62, 2009. [53] RIBEIRO, A. L. B., LOPES, P. A. A. & TREVISAN, M., MNRAS, 413, L81, 2011. 44 [54] RIBEIRO, A. L. B. et al. MNRAS, aceito para publicação, 2013a [55] RIBEIRO, A. L. B., LOPES, P. A. A & REMBOLD, S., A & A, aceito para publicação, 2013b. [56] RINES, K. & DIAFERIO, A., CIRS: Cluster Infall Regions in the Sloan Digital Sky Survey I. Infall Patterns and Mass Proles, v. 132, p. 1275-1297, 2006. [57] ROBOTHAM, A., PHILLIPPS, S. & DE PROPIS, R., Thse Shapes of Galaxy Groups: Footballs or Frisbees?, v. 672, n o 2, p. 834-848, 2008. [58] SEIER, E., Normality Tests- Power Comparison International Encyclopedia of Statis- tical Science, Part 14, p. 1000-1003, Miodrag Lovric (ed), Springer, 2011. [59] ROYSTON, P. A remark on Algorithm AS 181: The W test for normality. Applied o Statistics, N 44, 547-551, 1995. [60] SCHOLZ, F. W., STEPHENS, M. A. K-Sample Anderson-Darling Tests American Statistician Association, vol. 82, N ◦. 399, p. 918-924, 1987. [61] SEIER, E, Normality Test - Power Comparison - International Encyclopedia of Statistical Science, Miodrag Lovric: Springer, p. 1000-1003, 2011. [62] SHAPIRO, S. & WILK, M. B., An Analysis of Variance Test for Normality (Complete Samples) Biometrika 52, p. 591-611 1965 [63] SOUZA, R. Introdução à Cosmologia São Paulo: edusp, 2004. 320 p. [64] THADEWALD, T. & BÜNING, H., jarque-Bera and its competitors for Testing Normal- ity test, Journal of Applied Statistics, v. 34, p. 87, 2007. [65] THODE Jr., Testing for Normality. Marcel Dekker, New York, 2002. [66] UEDA, H., ITOH, M., & SUTO, Y. Clusters and Groups of Galaxies as Cosmological Probes, ApJ, v. 408, p. 3 . 1993. [67] ZWICKY, F Die Rotverschiebung von extragalaktischen Nebeln Helvetica Physica, N◦ 6. p. 110-127, 1933. [68] YAHIL, A & VIDAL, N. V The Velocity Distribution Of Galaxies In Clusters Ap. J. 214, 347-350, 1997. N◦ APÊNDICE 46 A DINÂMICA DOS AGLOMERADOS DE GALÁXIAS Existe uma diferença fundamental entre galáxias e sistemas com os quais normalmente lida a mecânica estatística, como moléculas connadas. forças que atuam sobre as partículas constituintes. A diferença está na natureza das As forças entre duas moléculas no gás são muito pequenas a menos que as distâncias entre elas sejam muito curtas. Neste caso as partículas são violentamente repelidas. Por outro lado, as forças gravitacionais que atuam sobre as galáxias têm natureza inteiramente diferente: atuam a longa distância e são sempre atrativas. Imagine um grande número de galáxias movendo-se sob inuência de um potencial Φ(x, t). Num tempo t qualquer, uma descrição completa do estado de qualquer sistema acolisional é dada pelo número especíco de componentes um pequeno volume v. A quantidade d3 x centrado em f (x, v, t) x f (x, v, t)d3 xd3 v tendo posição em e velocidade em uma pequena taxa d3 v centrada em é chamada de função de distribuição ou densidade do espaço de fase do sistema. As coordenadas no espaço de fase são (x, v) ≡ W ≡ (w1 , . . . , w6 ) (A.1) A velocidade desse uxo pode ser escrita como: Ẇ = (ẋ, v̇) = (v, −∇Φ). A densidade f (w, t) (A.2) de galáxias deve satisfazer a equação de continuidade análoga a que é satisfeita pela densidade ρ(x, t) de um uxo de uido arbitrário. 6 ∂f X ∂(f ẇα ) + =0 ∂t α=1 ∂wα (A.3) Ao mesmo tempo, 6 X ∂ ẇα α=1 Aqui ∂vi ∂xi =0 porque xi e 3 3 X X ∂vi ∂ v̇i ∂ ∂Φ = ( + )= − ( ) = 0. ∂wα ∂xi ∂vi ∂vi ∂xi i=1 i=1 vi são variáveis independentes, e Combinando as duas últimas equações temos: ∇Φ (A.4) não depende das velocidades. 47 6 ∂f X ∂f + ẇα =0 ∂t α=1 ∂wα (A.5) i.e., 3 ∂Φ ∂f ∂f X ∂f + (vi − ) = 0. ∂t ∂xi ∂xi ∂vi i=1 (A.6) ∂f ∂f + v · ∇Φf − ∇Φ · = 0, ∂t ∂v (A.7) ou em notação vetorial: que é a equação de Boltzmann acolisional. Uma completa solução da equação de Boltzmann usualmente é muito difícil. Con- tudo, podemos tomar os momentos da equação acolisional de Boltzmann. Por exemplo, se integrarmos a equação de Boltzmann sobre todas as velocidades, obtemos Z ∂f 3 d v= ∂t Z ∂f 3 ∂Φ vi d v− ∂xi ∂xi Z ∂f 3 d v = 0, ∂t (A.8) Como as velocidades sobre as quais estamos integrando não dependem do tempo, então a derivada parcial ∂/∂t pode ser tomada fora da integral no primeiro termo da equação. De forma similar, uma vez que vi não depende de xi , a derivada parcial ∂/∂xi pode ser tirada da integral no segundo termo da equação e o último termo da equação zera com a aplicação do teorema da divergência e usando o fato de que f (x, v, t) = 0 para v ≡ |v| sucientemente grande, i.e., não existem galáxias que se movem innitamente rápidas. Portanto, se denirmos a densidade espacial de galáxias ρ(x) Z ρ≡ e a média de velocidades 3 fd v ; 1 hvi i ≡ ρ Z hv(x)i por f vi d3 v (A.9) e lembrando a equação de continuidade, ∂ρ ∂(ρhvi i) + =0 ∂t ∂xi podemos multiplicar a equação por ∂ ∂t Z 3 f vj d v + (A.10) vi e integrar sobre todas as velocidades e obter Z ∂f 3 ∂Φ vi vj d v− ∂xi ∂xi Usando o teorema da divergência e o fato de que f Z vi zera para ∂f 3 d v=0 ∂vi v grande temos (A.11) 48 Z ∂f 3 vj d v=− ∂vi Z ∂vj 3 fd v = − ∂vi Z δij d3 v = −δij ρ, (A.12) Então a (eq.A.11) pode ser escrita como ∂Φ ∂(ρhvi) ∂(ρhvi vj i) + +ρ = 0, ∂t ∂xi ∂xi (A.13) onde 1 hvi vj i ≡ ρ Z vi vj f d3 v. a (eq.A.13) pode ser posta numa forma mais familiar subtraindo-lhe ρ (A.14) hvij para obter ∂hvi ∂(ρhvi i) ∂(ρhvi vj i) ∂Φ − hvj i + = −ρ = 0, ∂t ∂xi ∂xi ∂xj então notando que o valor médio de vi vj pode ser divido em partes hvi ihvj i (A.15) que se deve ao movimento e a parte σij2 ≡ (hvi − hvi i)(vj − hvj i) = hvi vj i − hvi ihvj i que surge porque as galáxias próximas ao ponto x (A.16) podem ter diferentes velocidades. Então, usando a (eq.A.16) na (eq.A.15) obtemos a equação de uxo: ρ ∂(ρσij2 ) ∂hvi ∂hvj i ∂Φ − ρhvi i = −ρ − ,. ∂t ∂xi ∂xj ∂xi (A.17) A Eq.A.18 é chamada de equação de Jeans. Esta equação descreve o uxo de um conjunto de partículas através do espaço de fase em resposta à aceleração induzida por algum potencial gravitacional Φ(r). Reescrecendo Eq.A.18 como ρ ∂Φ ∂hvi ∂hvj i ∂(ρσij2 ) = −ρ + ρhvi i − ,. ∂xj ∂t ∂xi ∂xi (A.18) vemos que seu lado direito depende apenas dos momentos de mais baixa ordem da função de distribuição f (~r, ~v ), que em geral são mais acessíveis à observação do que a função de distribuição em si. Contudo, a Eq.A.18 é incompleta no sentido em que ela não é unicamente especicada por seus momentos de mais baixa ordem. Ou seja, é possível encontrar diferentes soluções a esta equação para diferentes distribuições de massa e anisotropias do sistema (vide Merritt 1987). Na verdade, a distribuição de velocidades projetada pode variar considerav- 49 elmente dependendo de o sistema ser dominado por movimentos radiais ou tangenciais (vide Dejonghe 1987). Se aglomerados se formam através de fusões de grupos menores, simulações numéricas indicam que interações de maré rapidamente conduzem o potencial gravitacional a uma condição isotérmica (Ueda, Itoh & Suto 1993). Aglomerados com um halo de matéria escura isotérmico devem corresponder a um único pico em densidade numérica, com simetria esférica ou elíptica, e mostrando nenhuma correlação entre posição e velocidade das galáxias membro. Esta condição deve ser obtida também no contexto da mecânica estatística. De fato, LyndenBell (1967) deduziu a função de distribuição para sistemas autogravitantes basendo-se na relaxação completa (e violenta) e ergodicidade dos sistemas. Isto conduz naturalmente a um perl de massa isotérmico, com massa, energia e extensão espacial innitas. Por esta razão, Lynden-Bell (1967), Shu (1978) e Madsen (1987) consideraram que algum tipo de relaxação incompleta poderia ocorrer. A relaxação incompleta representaria um truncamento no espaço de fase, como se a relaxação violenta estivesse connada àquela região particular. Por exemplo, para o caso de uma esfera isotérmica truncada, a distribuição de velocidades seria aproximadamente gaussiana (King 1966). Seja a densidade de galáxias num ponto x qualquer Z ρ(x, t) = m respondendo ao potencial gravitacional φ(x, t), f (x, v, t)d3 v (A.19) onde ∇2 φ = 4πGρ. (A.20) Podemos assumir que cada galáxia se move nesse potencial gravitacional suave em alguma órbita especíca. Para esferas isotérmicas, este modelo correspondente à função de distribuição f () = parametrizada por duas constantes da velocidade central é hv 2 i é 3σ 2 ρ e σ. ρ0 exp (2πσ 2 )3/2 σ2 Podemos facilmente vericar que a média quadrática e que a distribuição de densidade é ρc = ρo exp[ψ(0)/σ 2 ]. (A.21) ρ(r) = ρo exp(ψ/σ 2 ). A densidade É convencional denir o raio do núcleo e um conjunto de variáveis adimensionais por r0 = 9σ 2 4πGρc 1/2 , l= r , r0 ξ= ρ . ρc (A.22) 50 Esta seria uma descrição simples da estrutura de um aglomerado. Porém, muitos aglomerados apresentam distribuição de velocidades não-gaussiana (ex. Zabludo, Franx & Geller 1993). Estes desvios podem indicar uma quantidade de órbitas anisotrópicas e/ou uma mistura de duas ou mais sub-populações de galáxias (Merritt 1988; Bird 1994).