Копировать ссылку на страницу Перейти в предыдущий раздел Перейти в следующий раздел

Сервис Directum TextExtractor Service настраивается в секции appSettings конфигурационного файла web.config. Не рекомендуется изменять остальные секции файла, это может повлиять на работоспособность сервиса.

Структура секции:

 

<appSettings>
  <add key="ExtractionQuality" value="{Качество извлечения текстового слоя}" />
  <!--<add key="TempDocumentsLocation" value="{Путь к папке с временными документами}"/>-->
  <add key="ClearTempDocumentsOlderThanHours" value="{Интервал очищения папки с временными документами}" />
  <add key="AlwaysExtractTextFromPdf" value="{Всегда извлекать текстовый слой из PDF-документов}" />
  <add key="NoTextPdfExtractionDpi" value="{Разрешение для извлечения текста из PDF-документов}" />
  <add key="UseConvertedPdfFactPositions" value="{Учитывать поворот документов при получении

координат фактов}" />
  <add key="PageClassifierWordsCount" value="{Количество слов для определения начала документа}" />
  <add key="UseFixedForms" value="{Использовать жесткие формы документов}" />
  <add key="DebugMode" value="{Включить режим отладки}" />

  <add key="QueueConnection" value="{Строка подключения к RabbitMQ}"/>

   <add key="ConsumerCount" value="{Количество одновременно обрабатываемых сообщений}"/>

   <add key="ElasticApm:ServerUrls" value="{Адрес сервиса Elastic APM Service}"/>

   <add key="ElasticApm:ServiceName" value="{Имя сервиса в Elastic APM Service}"/>

   <add key="ElasticApm:LogLevel" value="{Уровень логирования библиотеки, которая отправляет информацию о сервисе в Elastic APM Service}"/>

   <add key="ElasticApm:SpanFramesMinDuration" value="{Время обработки документа при возникновении ошибки, при котором в лог-файл записывается подробная информация о ней}"/>

   <add key="ElasticApm:MetricsInterval" value="{Интервал сбора метрик}"/>

   <add key="MessageTTL" value="{Время хранения сообщений в RabbitMQ}"/>
</appSettings>

appSettings – настройки сервиса:

ExtractionQuality. Качество извлечения текстового слоя. Возможные значения:
fast. Высокая скорость извлечения, при этом снижается качество.
quality. Высокое качество извлечения, при этом снижается скорость.

Значение по умолчанию fast.

TempDocumentsLocation. Путь к папке с временными документами, которые создаются в процессе работы сервиса. Параметр используется, если установлено несколько сервисов извлечения текстового слоя, так как необходимо, чтобы все они использовали одну и ту же папку. По умолчанию параметр закомментирован.
ClearTempDocumentsOlderThanHours. Интервал очищения папки с временными документами в часах. При перезапуске сервиса из временной папки удаляются документы, созданные ранее этого интервала. Укажите целое число больше нуля. Значение по умолчанию 72.
AlwaysExtractTextFromPdf. Всегда извлекать текстовый слой из PDF-документов, даже если текстовый слой уже существует. Возможные значения: True, False. Значение по умолчанию True.
NoTextPdfExtractionDpi. Разрешение, используемое для извлечения текста из PDF-документов без текстового слоя или из документов, у которых игнорируется существующий текстовый слой. Укажите целое число больше нуля. Значение по умолчанию 300.
UseConvertedPdfFactPositions. Учитывать поворот документов при получении координат фактов. Возможные значения: True, False. Укажите значение False, если импортируются PDF-документы без предварительной обработки. Если импортируются обработанные PDF-документы, оставьте значение по умолчанию True.
PageClassifierWordsCount. Количество слов на странице, которые используются для определения начала нового документа. Укажите целое число больше нуля. Значение по умолчанию 50.
UseFixedForms. При обработке изображений применять жесткие формы документов, например, формы паспортов РФ. Возможные значения: True, False. Если нет необходимости в распознавании документов с жесткими формами, для ускорения обработки документов рекомендуется оставить значение по умолчанию False.
DebugMode. Включить режим отладки для сохранения промежуточных результатов обработки изображений. Возможные значения: True, False. Если указано значение True, то во временной папке, указанной в параметре TempDocumentsLocation, создается папка debug, в которую сохраняются промежуточные результаты обработки изображений на каждом из этапов. Значение по умолчанию False.
QueueConnection. Строка подключения к брокеру сообщений RabbitMQ в формате amqp://{Имя пользователя}:{Пароль}@{Адрес}:{Порт}/{Виртуальный хост}.
ConsumerCount. Количество одновременно обрабатываемых запросов на сервисе. При значении 0 равно количеству ядер процессора. Значение по умолчанию 4.
ElasticApm:ServerUrls. Адрес сервиса Elastic APM Service.
ElasticApm:ServiceName. Имя, под которым сервис TextExtractor Service отображается в лог-файлах Elastic APM Service. Значение по умолчанию Text Extractor Service.
ElasticApm:LogLevel. Уровень логирования библиотеки, которая отправляет в сервис Elastic APM Service информацию о запросах и метриках сервиса TextExtractor Service. Значение по умолчанию Error.
ElasticApm:SpanFramesMinDuration. Если при обработке документа возникла ошибка и время обработки превышает значение параметра, в лог-файл записывается не только факт ошибки, но и подробная информация о ней. Значение по умолчанию 0ms, при котором запись в лог-файл отключена.
ElasticApm:MetricsInterval. Интервал сбора метрик о состоянии памяти и CPU. Значение по умолчанию 0s, при котором метрики не собираются.
MessageTTL. Время хранения сообщений об обработке документов в RabbitMQ в секундах. Значение по умолчанию 86400.

Формирование лог-файлов сервиса настраивается в конфигурационном файле NLog.config в секции<targets>:

   <target name="file" xsi:type="File" encoding="utf-8" fileName="logs/${shortdate}.log" >

где target name – путь до папки с лог-файлами.

Не рекомендуется изменять остальные параметры файла, это может повлиять на работоспособность сервиса.

© Компания Directum, 2020 Сообщество пользователей Directum
.navbar > a:hover { background: #FFD73B; }