OCR Distribuído
Introdução
O intuito desse guia é apresentar a desvinculação de todo o OCR do conversor de arquivo, tornando-o independente. Toda essa estrutura foi pensada e desenvolvida com o intuito de escalonar o OCR, abrindo a possibilidade de distribuí-lo, ou seja, deixa-lo de fora do Fusion.
Atualmente, são disponibilizadas duas opções de OCR: Dentro do Fusion e dentro do conversor distribuído.
Após essa reestruturação serão três: o OCR dentro do Fusion, o OCR dentro do conversor distribuído e o OCR Distribuído.
Orientações Recomendadas
É recomendada a criação de uma estrutura de pastas para manter a organização e facilitar a manutenção do seu OCR no futuro.
Pasta 1: C:\neomind
Pasta 2: C:\neomind\OCRServer
Pasta 3: C:\neomind\OCRServer\tess4j
Pasta 4: C:\neomind\OCRServer\tess4j\win32-x86-64
Primeiro, crie uma pasta chamada neomind e em seguida crie, dentro dela, uma nova pasta chamada OCRServer. Essa pasta servirá como diretório do OCR.
Em seguida, na pasta OCRServer, crie uma subpasta chamada tess4j. Dentro dessa nova subpasta, crie uma nova pasta chamada win32-x86-64. Essas pastas são necessárias para que o OCR tenha acesso as DLLs, tanto do leptonica quanto do Ghostscript.
Download
O primeiro passo para instalar o OCR Server é baixar o pacote de instalação, disponível no: Instalador do OCR Server.
Extraia os arquivos baixados na pasta OCRServer.
Acesse a pasta C:\neomind\OCRServer\win32-x86-64 e copie os arquivos liblept1820.dll e libtesseract500.dll. Em seguida, cole esses arquivos na pasta C:\neomind\OCRServer\tess4j\win32-x86-64, criada no passo anterior.
Configurando o conf.properties
Abra o arquivo conf.properties com um editor de código de sua preferência. Nele, devem estar presentes as seguintes configurações:
threadPoolSize=2
initialQueueSize=1
port=8888
Essas propriedades irão definir o tamanho do pool de threads que serão utilizadas pelo OCR.
Na linha 1, o tamanho máximo será definido pela threadPoolSize.
Na linha 2, o tamanho inicial será configurado através da initialQueueSize.
Após finalizar as configurações, salve e feche o arquivo.
Para iniciar o OCR, basta dar um duplo clique sobre o arquivo .jar.
Configurando o OCR Server no Fusion
Para poder utilizar o conversor de arquivos de maneira independente, será preciso configurar alguns campos dentro do Fusion. Na plataforma, acesse Administração>Sistema Encontre a seção de Conversor de Arquivos e selecione a opção Sim na linha Distribuído.

Em seguida, ficará disponível uma estrutura de Servidores de Conversão. Clique Sim na opção OCR Distribuído para abrir o campo de Servidores de OCR.

Depois, ficará disponível uma estrutura de Servidores de OCR. Clique em Novo para cadastrar os servidores de OCR.

Preencha as informações corretamente para criar um novo servidor de OCR.

As informações que devem estar contidas nos campos evidenciados na imagem acima são:
Nome: para identificar o servidor OCR.
Endereço: servidor do OCR.
Porta: é a mesma porta que foi configurada no arquivo conf.properties.
Habilitado: marque Sim para que o servidor fique ativo e contribua na conversão de documentos. Ao selecionar Não as configurações serão salvas, porém o servidor não fará conversões.
Disponível: Se as configurações estiverem corretas, um símbolo verde de “certo” informando que o sistema está funcionando irá aparecer. Se estiver com um “X” vermelho, algum erro durante o processo foi cometido ou a opção de Habilitado está marcada como “Não”.
Threads para OCR: será exibido conforme o que foi configurado no conf.properties.