Bancos de Dados Maciçamente Paralelos
Os MPP RDBMS (massively parallel relational database systems ) alcançam um desempenho notávelmente superior aos bancos de dados relacionais convencionais tirando vantagem da computação distribuída baseada na tecnologia de Map Reduce. As tabelas do seu banco de dados são distribuídas em diferentes nós de um cluster de máquinas. Os nós master atribuem consultas SQL aos nós escravos (map) e depois combinam os resultados retornados (reduce) num único resultado. Os critério de distribuição é declarado no esquema. Adicionalmente à distribuição de tabelas pelos nós do cluster, os MPP RDBMS podem particionar as tabelas dentro de cada nó. Este partionamento visa tirar proveito de características localizadas de determinadas consultas que podem ser direcionadas para porções físicamente distintas de uma tabela (consultas regionais de uma aplicação nacional de desempenho de vendas, por exemplo). Uma outra importante característica dos MPP RDBMS é o suporte a tabelas transpostas, onde o armazenamento dos dados é orientado a colunas. As consultas típicas de BI utilizam poucas colunas por consulta e, neste caso, o armazenamento orientado a colunas reduz notavelmente as transferências disco-memória (I-O) além de proporcionar maior eficiência dos algoritmo de compressão de dados. Os MPP RDBMS mais avançados suportam tanto o armazenamento orientado a colunas como o orientado a linhas. Além dos índices convencionais, algumas implementações suportam índices de mapa de bits (bitmap index) que operam consultas em memória utilizando operadores booleanos. Em um projeto típico de data warehouse, recomenda-se utilizar o bitmap index para as tabelas de fatos com armazenamento colunar e não utilizar índices para as tabelas de dimensões com armazenamento por linha. Consulte o seu fornecedor para saber como maximizar o desempenho da sua solução. Finalmente, vale ressaltar que alguns fornecedores oferecem seus MPP RDBMS como data warehouse appliances, ou seja, uma peça de hardware com arquitetura especial e com o software pré-instalado. Entre estes posso citar a solução EMC Greenplum e IBM Netezza. Alguns fornecedores alavancam projetos open source como o PostGreSQL (HP Vertica, EMC Greenplum) e o MySQL (Tokutek) o que pode implicar em soluções mais palatéveis econômicamente. Este é um mercado em emergente que traz uma tecnologia alavancaladora de uma nova era em data warehousing.
