Vastos dados confundem intencionalmente a linha entre armazenamento e banco de dados
Dependendo de como você olha para ele, um banco de dados é uma espécie de sistema de armazenamento sofisticado ou o armazenamento é uma espécie de redução de banco de dados. No mundo real, onde os bancos de dados e o armazenamento são separados, existe um continuum de cooperação entre os dois, com certeza. Não há dúvida de que os bancos de dados relacionais impulsionaram a criação de sistemas de armazenamento tanto – e os levaram em direções muito diferentes – quanto o serviço de arquivos e as cargas de trabalho de serviço de objetos.
E se você não tivesse que fazer essas escolhas? E se o seu armazenamento fosse um banco de dados real, genuíno e honesto? E se a Vast Data, a criadora iniciante de clusters de armazenamento totalmente flash que falam melhor o Network File System e com muito mais escala do que NoSQL mais complexo (e menos útil) ou armazenamentos de objetos, estivesse pensando nisso desde o momento em que foi fundada, que criar um novo tipo de armazenamento para conduzir um novo tipo de banco de dados incorporado sempre foi o plano? E se a IA sempre fosse o plano e a simulação e modelagem de HPC pudessem acompanhar?
Bem, a Vast Data Platform, como agora é chamado esse híbrido de armazenamento e banco de dados, sempre foi o plano. E esse plano sempre foi mais do que o Armazenamento Universal concebido no início de 2016 pelos cofundadores, Renen Hallak, diretor executivo da empresa, Shachar Fienblit, vice-presidente de pesquisa e desenvolvimento, e Jeff Denworth, vice-presidente de produtos e diretor de marketing e lançado em fevereiro de 2019. Esta é a próxima plataforma por si só, o que significa que também terá que fazer coisas inteligentes com a computação. Então, talvez, no final, ela seja chamada apenas de Vasta Plataforma? Mas não vamos nos precipitar.
Então, novamente, por que não? Os cofundadores da Vast Data fizeram isso há muito tempo.
“Em 2015, em minha apresentação, havia um slide sobre armazenamento em toda a apresentação, que tinha talvez quinze slides”, disse Hallak à The Next Platform. “Um deles tinha armazenamento, o resto tinha outras peças que precisavam ser construídas para que essa revolução da IA realmente acontecesse da maneira que deveria. Oito anos atrás, a IA consistia em gatos em vídeos do YouTube sendo identificados como gatos. Não estava perto do que é hoje. Mas estava muito claro que se alguma coisa grande acontecesse no setor de TI nos próximos vinte anos, seria a IA e queríamos fazer parte disso. Queríamos liderá-lo. Queríamos permitir que outros participassem nesta revolução que parecia estar confinada a algumas organizações muito grandes. E não gostamos disso. Queremos democratizar esta tecnologia.”
E isso significa mais do que apenas criar um sistema de arquivos NFS altamente escalável e de próxima geração e um sistema de armazenamento de objetos baseado em flash. Significa pensar em níveis cada vez mais elevados na pilha e reunir os conceitos de armazenamento de dados e de uma base de dados com os grandes conjuntos de dados do mundo natural que sustentam cada vez mais as aplicações de IA.
Os dados não estão mais restritos a quantidades limitadas de texto e números em linhas ou colunas de um banco de dados, mas sim a dados de alta resolução – vídeo, som, genômica, o que quer que seja – que quebrariam um banco de dados relacional normal. As cargas de trabalho de IA precisam de enormes quantidades de dados para construir modelos e muito desempenho para impulsionar o treinamento de modelos e, às vezes, uma enorme quantidade de computação para executar inferências em novos dados à medida que entram no modelo. Tudo isso coloca uma pressão tremenda no sistema de armazenamento para fornecer informações – algo que o Armazenamento Universal da Vast Data, uma implementação desagregada e compartilhada de NFS que tem um armazenamento de quase objetos muito refinado por baixo, pode lidar.
“Os dados têm muito mais gravidade do que a computação”, acrescenta Hallack. “É maior e mais difícil de se movimentar. E assim, para podermos atuar nesse espaço de IA, não podemos nos limitar apenas aos dados. Temos que saber algo e ter uma opinião sobre como os dados estão organizados. Trata-se de quebrar compensações e não é apenas uma questão de armazenamento. Se você retirar esse armazenamento de palavras e colocar o banco de dados de palavras, o mesmo tipo de desafios se aplicará. Custo, desempenho, escala, resiliência, facilidade de uso – estes não são termos de armazenamento. São termos muito genéricos da ciência da computação.”