Estándares de producción EDRM, versión 2

Autor principal: Julie Brown (Vorys, Sater, Seymour y Pease LLP); Actualizado el 25 de abril de 2014

Haga clic para ver la versión 1.

El propósito de este documento es describir los estándares para la producción de información almacenada electrónicamente en el descubrimiento. La intención es que estos estándares sean comunicados fácilmente por los abogados en una reunión y conferencia refiriéndose a la categoría de producción. Se proporcionan las siguientes definiciones con respecto a las formas de producción (Ver el Guía de producción de EDRM para mayor aclaración sobre las formas de producción):

  • Formato nativo - Los archivos se producen en el formato en el que se crearon originalmente (Ejemplo: .docx producido en .docx; .pdf producido en .pdf, etc.)
  • Formato casi nativo - Los archivos se extraen o convierten a otro formato de búsqueda (ejemplo: correos electrónicos producidos en .htm, .mht o .rtf; bases de datos producidas en formato .txt o .csv)
  • Formato de imagen (casi papel) - Los archivos electrónicos se convierten a formato de imagen o el papel se escanea a formato de imagen
  • Papel - Los archivos electrónicos se imprimen en papel o los archivos en papel permanecen en formato de papel

Las categorías de producción identificadas a continuación incluyen A, B, C, D y E. Las descripciones de los estándares son seguidas por una Guía rápida de componentes de Productions AD, un cuadro que contiene las Características de Productions AD y un cuadro que contiene los metadatos requeridos y otros campos de información. Además de aceptar uno de estos estándares, la parte solicitante debe informar a la parte productora qué herramienta de revisión utilizará. Esta información es necesaria para identificar correctamente los componentes y formatos necesarios para cargar correctamente la información en una herramienta de revisión.

A. Producción nativa / casi nativa

El correo electrónico, las bases de datos y los archivos propietarios se producen en un formato casi nativo. Los archivos adjuntos y sueltos se producen en formato nativo. Solo los archivos que requieren redacción se clasifican. Incluye texto con capacidad de búsqueda para archivos redactados.

  1. Cada nombre de archivo nativo / casi nativo coincide con el DocID. (Es decir, DocID = ABC0000123; Nombre de archivo = ABC0000123.doc para documentos de MS Word).
  2. Cada archivo nativo / casi nativo que se puede buscar tiene un archivo de texto extraído en formato .txt nombrado con el DocID del archivo correspondiente. Cada archivo que no se puede buscar y que contiene texto tiene un archivo de texto OCR de varias páginas llamado con el DocID del archivo correspondiente. (Es decir, DocID = ABC0000123; Nombre de archivo = ABC0000123.txt.)
  3. Cada archivo que requiere redacción tiene tif de página única del grupo IV. Cada archivo que requiere redacción tiene un número Bates único aplicado a las imágenes que coinciden con el número DocID o Bates. Se puede aplicar el mismo número a cada página dentro de un documento o los números se pueden incrementar por página.
  4. OCR para archivos redactados en formato .txt de varias páginas. Cada archivo tiene el mismo nombre que el número DocID / Bates del documento correspondiente. (Es decir, nombre de archivo de imagen = ABC0000123.tif; nombre de archivo OCR = ABC0000123.txt.)
  5. Cargue archivo (s) para imágenes nativas / casi nativas, texto extraído y archivos OCR en EDRM xml o formato común como el requerido por Concordance o Summation.
  6. Archivo de datos que incluye, como mínimo, los metadatos extraídos de EDRM estándar y otros campos de información en la medida en que existan (consulte el cuadro a continuación). Estos datos pueden incluirse en el archivo de carga o producirse como un archivo separado delimitado por texto.

B. Producción de imágenes (casi papel) / nativa / casi nativa

La mayoría de los archivos se convierten a formato de imagen (tif, pdf, etc.) con la excepción de archivos como MS Excel que no se pueden utilizar en formato de imagen y / o papel escaneado a formato de imagen y OCR. Incluye texto con capacidad de búsqueda para archivos redactados.

  1. La mayoría de los archivos nativos / casi nativos se convierten a tif de una sola página del grupo IV. Cada archivo tiene un número Bates único aplicado a las imágenes que coinciden con el número DocID o Bates.
  2. Cada archivo nativo / casi nativo que se puede buscar tiene un archivo de texto extraído en formato .txt nombrado con el DocID del archivo correspondiente. Cada archivo que no se puede buscar y que contiene texto tiene un archivo de texto OCR de varias páginas llamado con el DocID del archivo correspondiente. (Es decir, DocID = ABC0000123; Nombre de archivo = ABC0000123.txt.)
  3. Las hojas de cálculo y los archivos que no se pueden utilizar en formato .tif se producen en formato nativo o casi nativo y se denominan igual que el ID del documento. (Es decir, DocID = ABC0000123; Nombre de archivo = ABC0000123.xls para el documento de MS Excel).
  4. OCR para archivos redactados en formato .txt de varias páginas. Cada archivo tiene el mismo nombre que el número DocID / Bates del documento correspondiente. (Es decir, nombre de archivo de imagen = ABC0000123.tif; nombre de archivo OCR = ABC0000123.txt.)
  5. Cargue archivo (s) para imágenes nativas / casi nativas, texto extraído y archivos OCR en EDRM xml o formato común como el requerido por Concordance o Summation.
  6. Archivo de datos que incluye, como mínimo, los metadatos extraídos de EDRM estándar y otros campos de información en la medida en que existan (consulte el cuadro a continuación). Estos datos pueden incluirse en el archivo de carga o producirse como un archivo separado delimitado por texto.

C. Producción de imágenes

Todos los archivos se convierten a formato de imagen (tif, pdf, etc.) y / o el papel se escanea a formato de imagen y se OCR. Incluye texto con capacidad de búsqueda para archivos redactados.

  1. Todos los archivos nativos / casi nativos se convierten a tif de una sola página del grupo IV. Cada archivo tiene un número Bates único aplicado a las imágenes que coinciden con el número DocID o Bates.
  2. Todas las imágenes son en blanco y negro excepto aquellas que requieren color para su interpretación. Las imágenes en color se producen en formato .jpg a menos que se acuerde lo contrario.
  3. Los archivos contenedores como .zip o .rar se pueden convertir a formato .tif con una tabla de contenido o se puede hacer referencia en el campo "carpeta" que contiene la ruta al archivo nativo original tal como existía en el momento de la recopilación.
  4. Cada archivo nativo / casi nativo que se puede buscar tiene un archivo de texto extraído en formato .txt nombrado con el DocID del archivo correspondiente. Cada archivo que no se puede buscar y que contiene texto tiene un archivo de texto OCR de varias páginas llamado con el DocID del archivo correspondiente. (Es decir, DocID = ABC0000123; Nombre de archivo = ABC0000123.txt.)
  5. OCR para archivos redactados en formato .txt de varias páginas. Cada archivo tiene el mismo nombre que el número DocID / Bates del documento correspondiente. (Es decir, nombre de archivo de imagen = ABC0000123.tif; nombre de archivo OCR = ABC0000123.txt.)
  6. Cargue archivo (s) para archivos de imagen, texto extraído y OCR en EDRM xml o formato común como el requerido por Concordance o Summation.
  7. Archivo de datos que incluye, como mínimo, los metadatos extraídos de EDRM estándar y otros campos de información en la medida en que existan (consulte el cuadro a continuación). Estos datos pueden incluirse en el archivo de carga o producirse como un archivo separado delimitado por texto.

D. Personalizado

  1. Imágenes, archivo de carga, archivo de datos y sin texto de búsqueda
  2. Solo imagenes
  3. Papel
  4. Otro

E. Producción en línea

Archivos presentados para producción a través de la herramienta de revisión en línea. Formatos, campos, cargas y exportaciones a negociar caso por caso.

Guía rápida de componentes de Productions AD

Producción Nativo Casi nativo Imagenes Texto extraído Texto OCR Texto de búsqueda de archivos redactados Cargar archivo Archivo de datos
UN X X X X X X X X
si X X X X X X X X
C X X X X X X
re X X X

Características de las producciones AD

Caracteristicas UN si C re
Aumente los costos de conversión de imágenes X X X
Aumente el tiempo de respuesta para la conversión de imágenes de la mayoría del conjunto de datos X X X
Aumente el costo y el tiempo de respuesta para el OCR de archivos redactados X X X
Los archivos no se pueden buscar X
Los archivos como hojas de cálculo y bases de datos pequeñas no están en un formato propicio para su revisión X X
No se pueden numerar ni respaldar páginas individualmente para el control de documentos X X
No se pueden marcar páginas con endosos de confidencialidad X X
El riesgo de alteración accidental es mayor que con el formato de imagen X X
Los metadatos pueden estar ocultos y no revisados por completo antes de la producción. X X
Puede requerir una aplicación nativa o la provisión de software propietario del cliente para abrir archivos X X
Costo de conversión e impresión  X
Sin vínculo de regreso al archivo nativo  X
Sin base de datos o texto para buscar  X

Campos de metadatos y otra información

Campos Descripción
ADJUNTOS Docids de adjunto (s) a correo electrónico / edoc. Esto también se puede proporcionar en un campo de rango de adjuntos.
AUTORES Nombre de la persona que crea el documento.
GAMA BATES Número de bates inicial y final de un documento si difiere de DocID; esto se puede proporcionar en un campo de rango bates o en 2 campos separados para el número inicial y final.
BCC Nombres de personas copiados a ciegas en un correo electrónico.
CC Nombres de personas copiadas en un correo electrónico.
CUSTODIO Nombre de la persona de quien se obtuvo el archivo.
FECHA DE CREACION Fecha de creación del documento.
RECIBIDO Fecha en que se recibió el correo electrónico.
FECHAS GUARDADAS Fecha en la que se guardó el documento por última vez.
FECHA DE ENVÍO Fecha de envío del correo electrónico.
DOCEXT Ampliación de documento nativo.
DOCID Número único asignado a cada archivo o primera página.
DOCLINK Ruta relativa completa a la ubicación actual del documento nativo o casi nativo utilizado para vincular metadatos al archivo nativo o casi nativo.
NOMBRE DEL ARCHIVO Nombre del archivo nativo original tal como existía en el momento de la recopilación.
CARPETA Ruta de archivo / estructura de carpetas para el archivo nativo original tal como existía en el momento de la recopilación.
DESDE Nombre de la persona que envía un correo electrónico.
PICADILLO Identificación del valor de un registro electrónico: utilizado para la deduplicación y autenticación; el valor hash es típicamente MD5 o SHA1.
IDENTIFICACIÓN DE LOS PADRES DocId del documento principal.
RCRDTYPE Indica el tipo de documento, es decir, correo electrónico; adjunto archivo; edoc; escaneado etc.
TEMA Línea de asunto de un correo electrónico.
ID DE HILO También conocido como ID de conversación. Un número único asignado a grupos de correos electrónicos del mismo hilo.
TIEMPO RECIBIDO Hora en que se recibió el correo electrónico en el buzón del usuario.
TIMESENT Hora en que se envió el correo electrónico.
A Nombre (s) de la (s) persona (s) que reciben el correo electrónico.
es_ESSpanish
en_USEnglish es_ESSpanish
X