Plataforma da Rede de Inovação do Judiciário
Plataforma da Rede de Inovação do Judiciário
Iniciativas Eventos Laboratórios Repositório
  • Plataforma da Rede de Inovação do Judiciário
  • Início

Conteúdo Público

Iniciativa

Data Lake da Justiça Federal da Primeira Região

  • 0

  1. Título da iniciativa

Data Lake do Poder Judiciário Federal: Governança, Processamento Avançado e Inteligência Artificial com Tecnologias Open Source

  1. Complexidade do desafio a ser solucionado

O TRF1 produz diariamente grandes volumes de dados em formatos diversos, dispersos e difíceis de integrar. Essa realidade limita análises avançadas, projetos de inteligência artificial e a produção de informações estratégicas, prejudicando a eficiência institucional. Há necessidade de uma infraestrutura interna, segura e escalável, capaz de processar e integrar dados brutos, estruturados e não estruturados, com governança e rastreabilidade.

  1. Descrição da iniciativa

O Data Lake do Poder Judiciário propõe um repositório centralizado para armazenar dados em formatos nativos, com foco em análises avançadas, inteligência artificial e integração eficiente de informações.

O projeto prevê processamento interno, garantindo segurança e soberania dos dados, seja em ambiente próprio ou em nuvens sob controle institucional. O armazenamento UTILIZA soluções como Amazon S3.

Principais tecnologias open source utilizadas - A iniciativa destaca-se pelo uso de software livre, reduzindo custos e assegurando independência tecnológica:

  • Apache Iceberg: formato de tabela transacional (ACID), com versionamento e eficiência em consultas.
  • Dremio: motor SQL open source para consultas e transformações no Data Lake.
  • Project Nessie: controle de versão de dados, permitindo rastreabilidade e governança.
  • Apache Spark: processamento distribuído de grandes volumes de dados.
  • Tabular (REST Catalog): catálogo RESTful para metadados Iceberg e ingestão automatizada.
  1. Principal aspecto inovativo
  • Processamento interno, assegurando sigilo institucional.
  • Controle de versão dos dados, conceito pouco usado no setor público.
  • Uso exclusivo de tecnologias open source, garantindo autonomia.
  • Ambiente preparado para inteligência artificial e LLMs.
  1. Processo de inovação utilizado
  • Levantamento de fontes de dados.
  • Prototipagem e testes de ingestão e consultas.
  • Integração das ferramentas open source.
  • Definição de governança e segurança.
  • Identificação de casos de uso em IA e análises avançadas.
  1. Parcerias e participação de usuários

Envolve áreas de TI, inteligência institucional e usuários finais (magistrados, servidores e gestores), além de articulação com órgãos parceiros para futura expansão nacional.

  1. Potencial de replicabilidade nacional

O projeto foi concebido para ser totalmente replicável, pois:

  • Utiliza somente software livre;
  • Independe de infraestrutura específica;
  • Adapta-se a diferentes portes de Tribunais;
  • Promove padronização tecnológica nacional.
  1. Documentação relacionada à ideia, inserida diretamente no arquivo, em texto ou imagens
  • Diagrama da arquitetura Tabular/Iceberg (Vide Anexo I);
  • Links técnicos, como: https://docs.tabular.io/en/introducing-tabular.html

Tags:
  • E-mail do laboratório: NULAB@trf1.jus.br