CLASSIFICAR
APRESENTAÇÃO
1. ESCOPO
A demanda do projeto em questão é a criação de algoritmos utilizando técnicas de IA para classificação de documentos processuais.
O escopo do projeto incluiu uma fase de estudo, onde haverá capacitação e estudo das técnicas mais indicadas para solução do problema em questão, uma fase de implementação da solução, uma fase de validação do usuário e, por último, uma de capacitação.
2. METODOLOGIA
2.1. COMO SERÁ FEITO
Durante a oficina de design thinking, realizada pelo Laboratório de Inovação - Inova 22 (observando os princípios do art. 3º da Res. CNJ n.395/21), utilizou-se a metodologia do Double Diamond (Duplo Diamante), que é um método para aplicação do design thinking. Abaixo o mapa visual simplificado do processo:
Aplicando o método do Duplo Diamante à realidade do TRT22, o projeto foi estruturado em quatro etapas:
- Desafio(Descobrir): necessidade de reduzir o esforço de trabalho manual no Tribunal com uso de ferramentas automatizadas;
- Entendimento do problema(Definir): trabalho de campo conversando com magistrados, servidores e jurisdicionados, buscando compreender o problema e a necessidade;
- Desenvolvimento(Idear): O grupo conduziu discussões a respeito dos dados levantados e identificou que grande parte do esforço manual em unidades judiciais está relacionado à conferência de documentos. Em várias atividades essa tarefa é necessária e consome muito tempo dos servidores. Assim, o foco da entrega foi buscar automatizar essa rotina de trabalho.
- Entrega (Entregar): Será entregue uma aplicação onde, através de algoritmos de inteligência artificial, será possível classificar um documento com base em seu conteúdo.
Em suma, ao adotar a metodologia do Duplo Diamante, o projeto Classificar demonstra um compromisso em abordar desafios complexos por meio de um processo estruturado, priorizando a compreensão das necessidades, o desenvolvimento de soluções inovadoras e a entrega de resultados eficazes que atendam às demandas do Tribunal e da sociedade como um todo.
2.1.1. Abordagem utilizada (ferramentas, técnicas e métodos)
Como observado, a convergência inicial da dinâmica realizada na oficina endereça para uma solução tecnológica que utilize IA sobre os dados processuais, de modo a extrair características dos documentos que compõem os processos eletrônicos que subsidiem, como o agente humano especialista do domínio o faz, a classificação desses documentos.
Nesse contexto, considerando: o alinhamento com o escopo deste projeto (seção 2.1); a definição do problema e idealização da solução (realizada na oficina, seção 2.2, caput); e, as atividades decompostas da EAP (seção 6), será utilizado um processo iterativo para construção do modelo de classificação, de modo a viabilizar o aprofundamento nos estudos relacionados; identificar lacunas e oportunidades de contribuição; partir das soluções já propostas ou hipóteses já negadas, que possam ser úteis no objetivo deste projeto; bem como incorporar, se for o caso, iniciativas de seleção de atributos e tratamento de dados já testadas no contexto de aplicação de abordagens de IA nos dados do Poder Judiciário.
Destaca-se que a escrutinação de estudos relacionados será feita por meio de revisão sistemática de trabalhos afins do próprio ecossistema de soluções de IA do Poder Judiciário (SINAPSE, Resolução N.º 332 de 21/08/2020).
Assim, será utilizado como processo uma instanciação do KDD (Knowledge Discovery in Databases), para que, iterativamente, conhecimentos passados e adquiridos, métodos e técnicas sejam testados e avaliados em relação às suas aderências ao contexto de dados processuais.
O KDD original prevê 5 fases: seleção, pré-processamento, transformação, modelagem (adaptado pelo autor) e interpretação. Destaca-se que, subjacente à fase inicial (seleção), existe uma expectativa que o propósito do projeto esteja bem definido de antemão, sem o qual não se deve avançar no processo, e que todo o conhecimento passado dos especialistas do domínio seja utilizado como entrada nas fases seguintes. Isso se alinha bem com a concepção do produto objeto deste trabalho, uma vez que no design thinking o propósito (problema) de investigação já foi delineado e foram consideradas atividades de imersão no problema e estudo de mecanismos de soluções por meio de IA.
Diante disso, a fim de se alcançar os objetivos pretendidos de reduzir o esforço manual relacionado à conferência de documentos em unidades judiciais e efetivamente agregar valor aos destinatários finais do serviços jurisdicionais (sociedade), ferramentas, técnicas e métodos inovadores serão aplicados, onde couber, em cada etapas do processo de descoberta de conhecimento e consequente modelagem do classificador de documentos, como segue:
a) Seleção:
Nesta fase, considerando a natureza dos dados processuais, que possuem, além dos metadados dos processos e documentos, dados estruturados e não estruturados, como imagens de documentos digitalizados, as iniciativas em torno da plataforma CODEX (Resolução Nº 446 de 14/03/2022) vem a calhar, uma vez que sua adoção propicia uma seleção de dados a partir de um Data Lake “adaptado” (por possuir dados já tratados genericamente, sem propósito definido) contendo dados estruturados e textuais dos processos judiciais, permitindo busca semântica e aplicação de métodos e técnicas orientados ao objetivo do projeto. Além disso, por integrar diversas fontes de dados de sistemas de processos eletrônicos judiciais, favorece o uso de modernos classificadores que funcionam bem com grande massa de dados, como as redes neurais profundas (Deep Learning).
Assim, assumindo como premissa a adoção da plataforma CODEX, nesta fase será realizada análise exploratório dos dados, com estatística descritiva, para descrever as variáveis independentes em torno de duas medidas estatísticas (variância, amplitude, média, mediana, moda, dentre outras) e suas correlações entres as outras, a fim de favorecer a seleção de atributos que serão imputados no algoritmo, para construção do modelo de classificação.
Considerando a grande massa de dados, dentre as técnicas e métodos que potencialmente serão aplicados nesta fase iterativamente em consonância com a etapa de modelagem, está a Wrapper, que busca identificar o melhor conjunto de atributos no conjunto total dos dados. É uma técnica caixa preta, inerente ao próprio algoritmo utilizado. Assim, pela necessidade de tomada de decisão sobre o que fazer após a classificação de um documento, métodos caixa branca também serão considerados, a exemplo da determinação de relevância (embedded), ganho de informação (entropia ou índice Gini), ID3, dentre outros.
b) Pré-processamento:
Nesta etapa, com os insumos da fase anterior, sobretudo a análise descritiva dos dados, serão realizadas, também em conversação com a etapa de modelagem e de forma iterativa, a identificação de valores ausentes, tipos categóricos, classes desbalanceadas, valores discrepantes dentre outros aspectos.
Assim, dependendo do algoritmo que será avaliado na construção do modelo, algumas técnicas e métodos de pré-processamento serão utilizados. No que tange a valores categóricos, possivelmente, será adotado One Hot Enconding para converter os valores categóricos em binários e, assim, favorecer o funcionamento dos algoritmos, embora Label Enconding também possa ser testado, considerando a iteratividade no processo de construção do modelo.
Além disso, outras técnicas e métodos serão utilizados, como imputação de valores ausentes por alguma medida estatística ou, mais provavelmente, utilização de um classificador para realizar a imputação (empregando IA como uma etapa subjacente ao processo); uso de gráficos box-plot para identificação de outliers e decisão de descartar ou investigar esses dados; normalização e padronização dos dados; e redução de dimensionalidade, se for o caso, utilizando algum algoritmo de aprendizado não supervisionado (novamente, empregando IA como uma etapa subjacente ao processo).
c) Transformação:
Também assumindo como premissa a adoção da plataforma CODEX e esta sendo, de certa forma, schema on read, é justamente nesta etapa (mas não perfeitamente sequencial como parece ser) que os dados serão transformados (“ETL” – Extract, Transform and Load) para a “estrutura” esperada pelo modelo de IA adotado. Percebe-se, novamente, a iteratividade no processo, pois, a princípio, as transformações serão experimentadas e testadas na calibragem dos parâmetros do modelo, para posterior consolidação e automatização do processo de ETL, e, por conseguinte, realização de predições futuras com dados desconhecidos.
Neste fase, também, será utilizado bastante o conhecimento especializado e insights para, se for o caso, criar novos atributos a partir dos existentes de modo a agregar relevância no contexto.
d) Modelagem:
Neste estágio, os algoritmos de IA serão experimentados por meio do treino, teste e avaliação dos modelos resultantes. Isso, claro, realizado de forma iterativa, ajustando os parâmetros e hiperparâmetros do modelo e avaliando os resultados obtidos a cada iteração, de modo a maximizar as medidas de desempenho consideradas.
Nessa atmosfera, serão experimentados algoritmos de classificação caixa branca, como Random Forest, e caixa preta, como Redes Neurais (“tradicionais” e profundas – deep learning), dentre outros. Mas, independentemente disso, técnicas e métodos que favoreçam o aprendizado contextual dos algoritmos devem ser considerado, como:
- Named-entity recognition (Reconhecimento de Entidades Nomeadas): reconhecimento de termos específicos em textos, como: legislação, autor, réu, testemunha;
- Word embedding (do Processamento de Linguagem Natural – PLN): incorporação de termos ou palavras usualmente usadas no contexto jurídico. Para esse método, uma técnica a ser avaliada é a BERT (Bidirectional Encoder Representations for Transformers).
Por fim, baseado na matriz de confusão, os modelos poderão ser avaliados por meio de K-Fold Cross Validation, Accuracy, Precision, Recall e F1-Score, para, após aceitação de desempenho mínimo, ser submetido aos critérios necessários para adoção em produção, conforme §1ª do Art. 7º da Resolução Nº 332 de 21/08/2020.
e) Interpretação:
No caso dos modelos caixa preta, os quais não permitem uma observação clara sobre quais variáveis independentemente foram mais relevantes para a classificação, dever-se-á pesquisar o estado da arte sobre os métodos e técnicas de interpretabilidade de modelo, a exemplo das técnicas SHAP (SHapleyAdditive exPlanation) que se baseia na teoria de jogos para explicitar como os atributos preditores influenciam nos atributos preditos; e Counterfactual, que realiza modificações nas observações dos atributos preditores com o intuito de identificar o ponto limite entre a classificação em uma classe alvo (target) ou em outra e, assim, facilitar o entendimento ou o impacto daquele atributo no resultado.
Por fim, destaca-se que todas essas técnicas e métodos serão instrumentalizados, como contemplado na gestão de custos (seção 9), por meio de ferramentas open source, como a linguagem R e suas bibliotecas e Python, em especial, sklearn, matplotlib, pandas (para processamento em batch) e Apache Spark, se for o caso de escalar processamento de stream de dados.
Para informações mais exatas e detalhadas, acesse o Plano Geral do Projeto no link:
https://inova.trt22.jus.br/portf%C3%B3lio-de-inova%C3%A7%C3%A3o
- E-mail do laboratório: dagei@trt22.jus.br