Guía de procesamiento

Objetivos: Realice acciones en ESI para permitir la conservación de metadatos, el desglose, la normalización del formato y la reducción de datos mediante la selección para revisión.

Objetivo: Identifique los elementos ESI apropiados para revisión y producción según los requisitos del proyecto.

* Aunque se representa como un flujo de trabajo lineal, moviéndose de izquierda a derecha, este proceso suele ser iterativo. Los bucles de retroalimentación se han omitido del diagrama para simplificar los gráficos.

Introducción

1. Procesamiento general

En un punto del ciclo de vida del descubrimiento electrónico ("ciclo de vida") después de la preservación, identificación y recopilación, a menudo se hace necesario "procesar" los datos antes de que puedan pasar a los siguientes pasos del ciclo de vida. Algunos objetivos principales del procesamiento son discernir a nivel de elemento exactamente qué datos están contenidos en el universo enviado; para registrar todos los metadatos a nivel de elemento tal como existían antes del procesamiento; y permitir una reducción defendible de datos mediante la “selección” solo de los elementos apropiados para avanzar a la revisión. Todo esto debe suceder con estricto apego a la auditoría de procesos; control de calidad; análisis y validación, y consideraciones de cadena de custodia.

Los datos pueden llegar a la etapa de procesamiento en varios formatos que luego deben restaurarse antes de que se pueda realizar el trabajo posterior (cintas, copias de seguridad, etc.); Es posible que sea necesario extraer archivos individuales y correo electrónico de archivos contenedores (PST, NSF, zip, rar, etc.); y es posible que sea necesario convertir ciertos tipos de datos para facilitar el procesamiento posterior (formatos de correo heredados; formatos de archivo heredados). Durante estas etapas de procesamiento, se catalogan elementos individuales y se capturan sus metadatos asociados.

Rara vez es necesario revisar todos los elementos que se envían para su procesamiento. Suelen estar disponibles varias oportunidades de reducción de datos. El procesamiento se divide además en cuatro subprocesos principales, a saber: evaluación; Preparación; Selección; y salida. La evaluación puede permitir la determinación de que ciertos datos no necesitan avanzar; La preparación implica realizar actividades contra los datos que luego permitirán que se produzca una selección a nivel de elemento específico (extracción, indexación, hash, etc.); La selección implica la deduplicación; buscando; y métodos analíticos para elegir elementos específicos que se avanzarán; La salida permite el transporte de elementos revisables a las siguientes fases del ciclo de vida.

1.1. Evaluación

La evaluación es un primer paso crítico en el flujo de trabajo, ya que permite que el equipo de procesamiento se asegure de que la fase de procesamiento esté alineada con la estrategia general de descubrimiento electrónico, identifique cualquier optimización de procesamiento que pueda resultar en ahorros de costos sustanciales y minimice los riesgos asociados con el procesamiento. Un aspecto crítico de este paso es asegurar que la metodología de procesamiento produzca los resultados esperados en términos de esfuerzo, tiempo y costos, así como los flujos de datos de salida esperados.

Es imperativo que se desarrolle una estrategia de garantía de calidad adecuada en esta fase inicial antes de emprender las tareas de procesamiento reales. Esto debe incluir metodología, objetivos, expectativas, informes y manejo de excepciones. Un elemento fundamental del éxito es el desarrollo de protocolos para la comunicación o la presentación de informes oportunos con los custodios / usuarios de datos sobre cualquier problema que surja, de modo que se puedan tomar medidas correctivas lo más rápido posible.

Temas a examinar:

  • Qué flujos de datos se van a procesar
  • Qué complejidades / puntos problemáticos se asocian típicamente con estos flujos de datos, incluida información adicional que puede ser necesaria para un procesamiento adecuado
  • Qué metodologías de procesamiento y / o proveedores tienen más probabilidades de tener éxito
  • El desarrollo de acuerdos específicos en todos los pasos de procesamiento, incluida la metodología de eliminación, la estrategia de selección (basada en metadatos u otros), la estrategia de búsqueda, etc.
  • Cualquier factor de riesgo involucrado (tipos de datos imprevistos, datos de origen / errores de medios, volúmenes inesperados, etc.)
  • Metodologías de control de calidad durante y posprocesamiento
  • Manejo de excepciones
  • Informes / pistas de auditoría
  • Criterios de aceptabilidad
  • Medios y formatos de destino
  • Protocolos de comunicaciones / informes (tiempo y detalles)
  • Programas de entrega / producción y protocolos de entrega, incluida la entrega continua si es posible
  • Funciones y responsabilidades
  • Protocolos de manejo de excepciones
  • Definición clara de éxito

1.2. Preparación

Durante la evaluación, se determina qué clases de datos deben avanzar a través del procesamiento. En ese momento, puede haber una serie de actividades necesarias para permitir el manejo y la reducción de esos datos. Algunas posibles actividades de este tipo son las siguientes:

  • Restauración de copias de seguridad y otros conjuntos de datos de archivo
  • Conversión de formatos heredados de correo electrónico u otros tipos de archivos
  • Extracción de archivos contenedores (incluido el correo electrónico y los conjuntos de archivos comprimidos)
  • Catalogación y desglose de todos los archivos extraídos, correos electrónicos, adjuntos y archivos sueltos
  • Hash de desduplicación
  • Hash de desduplicación cercana
  • Hash de similitud
  • Identificación y extracción de conceptos
  • Indexación de texto completo
  • Identificación y manejo de excepciones

Una vez que los datos elegidos para avanzar a través del procesamiento se han sometido a varias de las actividades anteriores, puede ocurrir la “selección” de datos que se incluirán en un conjunto de revisión.

1.3. Selección

Una de las principales razones para "procesar" datos en un proyecto de descubrimiento electrónico es que se pueda hacer una selección razonable de datos que deben pasar a una etapa de revisión de abogados. La selección, por su naturaleza, reduce la cantidad de datos que, en última instancia, deben revisarse. Una vez que los datos han pasado por la "preparación", hay una serie de técnicas para seleccionar los elementos que se van a avanzar y, por lo tanto, también identificar los que se van a dejar atrás. La deduplicación y algunas formas de casi deduplicación se pueden utilizar para evitar que los datos redundantes se revisen varias veces. Los términos de búsqueda se pueden aplicar como parte de un enfoque validado para encontrar ciertos elementos para su revisión y dejar otros atrás. La extracción de conceptos y otras formas de identificación de similitudes de documentos se pueden utilizar para clasificar los elementos que se están revisando.

1.4. Salida

Los datos que se han seleccionado para avanzar en la revisión se transforman en cualquier número de formatos dependiendo de los requisitos de las plataformas de revisión posteriores o, en determinadas circunstancias, simplemente se pasan a una plataforma de revisión en su formato existente; o puede exportarse en formato nativo.

Como culminación de todos los esfuerzos anteriores, este paso es también la última oportunidad para identificar y corregir cualquier problema que surja durante el procesamiento. Sería aconsejable implementar procedimientos de garantía de calidad finales que comparen los resultados del procesamiento con las expectativas previamente asignadas, incluida la identificación y explicación de las excepciones. A menudo, la inspección visual de última hora de muestras estadísticamente significativas de los datos es parte de este proceso. Cualquier variación significativa de las expectativas debe tenerse en cuenta, los informes de auditoría deben correlacionarse con los resultados producidos y las diferencias marcadas. Un número sorprendente de proyectos produce resultados que no se anticipan debido a una serie de problemas, como la falta de información lo suficientemente precisa sobre los flujos de datos de origen o formatos de destino mal definidos. Una prisa indebida para producir resultados puede ser contraproducente rápidamente y aumentar los costos generales de producción cuando se requiere reprocesamiento.

2. Análisis / validación general

A lo largo de las cuatro fases del procesamiento, existen oportunidades para analizar los datos o los resultados de ciertos subprocesos para garantizar que los resultados generales sean los previstos o que las decisiones sobre el manejo de los datos sean válidas y apropiadas. Algunas posibles oportunidades de análisis / validación son las siguientes:

  • Evaluación - Durante esta fase, se pueden examinar muestras representativas de ciertos tipos de datos para determinar exactamente qué tipos de datos son y considerar la probabilidad de que sean potencialmente relevantes y dignos de un procesamiento posterior. Se pueden examinar otras muestras de tipos de datos para determinar qué niveles de procesamiento y preparación se requieren para realizar adecuadamente la selección de subconjuntos de esos datos.
  • Preparación - Durante esta fase de procesamiento, se pueden examinar muestras representativas para determinar la eficacia de los diferentes tipos de preparación de datos. Esto no es necesariamente para determinar si algún subproceso funcionó técnicamente como se esperaba (lo que entraría en una consideración de control de calidad), sino más bien para determinar si la aplicación de ese subproceso tiene sentido y agrega valor en la práctica. Un ejemplo sencillo es la indexación de texto. Un proceso de control de calidad puede verificar que un documento PDF se haya indexado correctamente. Un proceso de análisis / validación intentaría determinar si el texto indexable de ese PDF era de hecho contenido de documento o simplemente metadatos sobre una imagen gráfica sin texto de búsqueda del contenido de la imagen.
  • Selección - La fase de selección puede ofrecer las oportunidades más útiles para el análisis de datos. Probar resultados de muestra de términos de búsqueda aplicados puede mejorar en gran medida el valor y la precisión de conjuntos de revisión seleccionados que se determinan mediante términos de búsqueda. La revisión de muestras de datos no seleccionados puede garantizar la exhaustividad de un proceso de selección. La revisión de elementos designados para la supresión de duplicaciones o casi deduplicaciones puede alertar a un equipo de descubrimiento de posibles fallas en su enfoque. Y la aplicación de herramientas analíticas automatizadas puede enseñar a un equipo de descubrimiento sobre los datos, lo que les permite tomar decisiones mejor informadas sobre la selección de un conjunto de revisión.
  • Salida - Mirar muestras de datos de salida puede agregar un nivel de comodidad de que el esfuerzo general de procesamiento está obteniendo los resultados esperados. En la medida en que se vean resultados inesperados en la salida, el proceso puede modificarse de manera apropiada.

3. Control de calidad general

La validación es la prueba de los resultados para garantizar que se hayan tomado las decisiones apropiadas de procesamiento y selección de alto nivel, y garantizar que los resultados finales coincidan con la intención del equipo de descubrimiento. El control de calidad (“QC”) implica realizar pruebas para ver que los procesos técnicos específicos se realizaron como se esperaba, independientemente de lo que muestren los resultados. Por ejemplo, una tarea de CC puede verificar que un conjunto particular de datos se haya indexado correctamente para la búsqueda de texto completo; que se aplicaron ciertos términos de búsqueda a esos índices; y que se identificaron los elementos de búsqueda resultantes. Un proceso de validación verificaría que los términos de búsqueda aplicados realmente obtuvieran elementos que contenían aciertos falsos o, en la alternativa, elementos devueltos que eran relevantes para el caso según los criterios establecidos.

4. Informes generales

Para satisfacer las necesidades de gestión de proyectos; informes de estado; informes de excepciones; cadena de custodia y defensa Es importante que los sistemas de procesamiento rastreen el trabajo realizado en todos los artículos sometidos a procesamiento. Cada artículo debe tener información de seguimiento de las diversas tareas que se han realizado en cada artículo. Además, los sistemas deben poder acumular esta información de seguimiento a nivel de artículo para mostrar informes que representen el estado general o el estado de cualquier artículo o grupo de artículos en particular, ya sea que finalmente pasen a revisión o no. Es importante poder documentar todas las decisiones de procesamiento y selección de alto nivel relacionadas con los datos procesados, y el sistema debe poder mostrar el efecto de esas decisiones de procesamiento y selección en los datos.

es_ESSpanish
en_USEnglish es_ESSpanish
X