Data Lake da Justiça Federal da Primeira Região
- Título da iniciativa
Data Lake do Poder Judiciário Federal: Governança, Processamento Avançado e Inteligência Artificial com Tecnologias Open Source
- Complexidade do desafio a ser solucionado
O TRF1 produz diariamente grandes volumes de dados em formatos diversos, dispersos e difíceis de integrar. Essa realidade limita análises avançadas, projetos de inteligência artificial e a produção de informações estratégicas, prejudicando a eficiência institucional. Há necessidade de uma infraestrutura interna, segura e escalável, capaz de processar e integrar dados brutos, estruturados e não estruturados, com governança e rastreabilidade.
- Descrição da iniciativa
O Data Lake do Poder Judiciário propõe um repositório centralizado para armazenar dados em formatos nativos, com foco em análises avançadas, inteligência artificial e integração eficiente de informações.
O projeto prevê processamento interno, garantindo segurança e soberania dos dados, seja em ambiente próprio ou em nuvens sob controle institucional. O armazenamento UTILIZA soluções como Amazon S3.
Principais tecnologias open source utilizadas - A iniciativa destaca-se pelo uso de software livre, reduzindo custos e assegurando independência tecnológica:
- Apache Iceberg: formato de tabela transacional (ACID), com versionamento e eficiência em consultas.
- Dremio: motor SQL open source para consultas e transformações no Data Lake.
- Project Nessie: controle de versão de dados, permitindo rastreabilidade e governança.
- Apache Spark: processamento distribuído de grandes volumes de dados.
- Tabular (REST Catalog): catálogo RESTful para metadados Iceberg e ingestão automatizada.
- Principal aspecto inovativo
- Processamento interno, assegurando sigilo institucional.
- Controle de versão dos dados, conceito pouco usado no setor público.
- Uso exclusivo de tecnologias open source, garantindo autonomia.
- Ambiente preparado para inteligência artificial e LLMs.
- Processo de inovação utilizado
- Levantamento de fontes de dados.
- Prototipagem e testes de ingestão e consultas.
- Integração das ferramentas open source.
- Definição de governança e segurança.
- Identificação de casos de uso em IA e análises avançadas.
- Parcerias e participação de usuários
Envolve áreas de TI, inteligência institucional e usuários finais (magistrados, servidores e gestores), além de articulação com órgãos parceiros para futura expansão nacional.
- Potencial de replicabilidade nacional
O projeto foi concebido para ser totalmente replicável, pois:
- Utiliza somente software livre;
- Independe de infraestrutura específica;
- Adapta-se a diferentes portes de Tribunais;
- Promove padronização tecnológica nacional.
- Documentação relacionada à ideia, inserida diretamente no arquivo, em texto ou imagens
- Diagrama da arquitetura Tabular/Iceberg (Vide Anexo I);
- Links técnicos, como: https://docs.tabular.io/en/introducing-tabular.html
- E-mail do laboratório: NULAB@trf1.jus.br