Plataforma da Rede de Inovação do Judiciário

Iniciativa

Data Lake da Justiça Federal da Primeira Região

Título da iniciativa

Data Lake do Poder Judiciário Federal: Governança, Processamento Avançado e Inteligência Artificial com Tecnologias Open Source

Complexidade do desafio a ser solucionado

O TRF1 produz diariamente grandes volumes de dados em formatos diversos, dispersos e difíceis de integrar. Essa realidade limita análises avançadas, projetos de inteligência artificial e a produção de informações estratégicas, prejudicando a eficiência institucional. Há necessidade de uma infraestrutura interna, segura e escalável, capaz de processar e integrar dados brutos, estruturados e não estruturados, com governança e rastreabilidade.

Descrição da iniciativa

O Data Lake do Poder Judiciário propõe um repositório centralizado para armazenar dados em formatos nativos, com foco em análises avançadas, inteligência artificial e integração eficiente de informações.

O projeto prevê processamento interno, garantindo segurança e soberania dos dados, seja em ambiente próprio ou em nuvens sob controle institucional. O armazenamento UTILIZA soluções como Amazon S3.

Principais tecnologias open source utilizadas - A iniciativa destaca-se pelo uso de software livre, reduzindo custos e assegurando independência tecnológica:

Apache Iceberg: formato de tabela transacional (ACID), com versionamento e eficiência em consultas.
Dremio: motor SQL open source para consultas e transformações no Data Lake.
Project Nessie: controle de versão de dados, permitindo rastreabilidade e governança.
Apache Spark: processamento distribuído de grandes volumes de dados.
Tabular (REST Catalog): catálogo RESTful para metadados Iceberg e ingestão automatizada.

Principal aspecto inovativo

Processamento interno, assegurando sigilo institucional.
Controle de versão dos dados, conceito pouco usado no setor público.
Uso exclusivo de tecnologias open source, garantindo autonomia.
Ambiente preparado para inteligência artificial e LLMs.

Processo de inovação utilizado

Levantamento de fontes de dados.
Prototipagem e testes de ingestão e consultas.
Integração das ferramentas open source.
Definição de governança e segurança.
Identificação de casos de uso em IA e análises avançadas.

Parcerias e participação de usuários

Envolve áreas de TI, inteligência institucional e usuários finais (magistrados, servidores e gestores), além de articulação com órgãos parceiros para futura expansão nacional.

Potencial de replicabilidade nacional

O projeto foi concebido para ser totalmente replicável, pois:

Utiliza somente software livre;
Independe de infraestrutura específica;
Adapta-se a diferentes portes de Tribunais;
Promove padronização tecnológica nacional.

Documentação relacionada à ideia, inserida diretamente no arquivo, em texto ou imagens

Diagrama da arquitetura Tabular/Iceberg (Vide Anexo I);
Links técnicos, como: https://docs.tabular.io/en/introducing-tabular.html

Tags:

E-mail do laboratório: NULAB@trf1.jus.br