MX2013000577A

MX2013000577A - Aprendizaje de maquina para redes electricas.

Info

Publication number: MX2013000577A
Application number: MX2013000577A
Authority: MX
Inventors: Roger N Anderson; Albert Boulanger; Cynthia Rudin; David Waltz; Ansaf Salleb-Aouissi; Maggie Chow; Haimonti Dutta; Phil Gross; Bert Huang; Steve Ierome; Delfina Isaac; Artie Kressner; Rebecca Passonneau; Axinia Radeva; Leon Wu; Frank Dougherty; Peter Hofmann
Original assignee: Univ Columbia
Priority date: 2010-07-16
Filing date: 2011-07-18
Publication date: 2013-06-05
Also published as: WO2012009724A1; CA2805747A1; JP2013538543A; EP2593844A1; CN103154845A; US20130232094A1; US8751421B2; EP2593844A4

Abstract

La clasifiación de una colección de métricas filtradas de la propensión a fallas de los componentes similares dentro de una red eléctrica que incluye una unidad de datos crudos para proporcionar datos crudos representativos de los componentes similares dentro de la red eléctrica; un procesador de datos acoplado a la unidad de datos crudos para convertir los datos crudos en datos más uniformes a través de una o más técnicas de procesamiento de datos, una base de datos, para almacenar los datos más uniformes, un motor de aprendizaje de máquina para proporcionar una colección de métricas de propensión a fallas para los componentes similares, un motor de evaluación, acoplado de manera operante al motor de aprendizaje de máquina, para detectar y quitar métricas que no cumplan, a partir de la colección de métricas de propensión a fallas para proporcionar la colección de métricas filtradas de propensión a fallas; y una aplicación de soporte de decisiones, configurada para presentar una clasificación de la colección de métricas filtradas de propensión a fallas de los componentes similares dentro de la red eléctrica.

Description

APRENDIZAJE DE MÁQUINA PARA REDES ELÉCTRICAS La presente solicitud reclama el beneficio de la Solicitud Provisional U.S. No. 61/364,988, presentada en Julio 16, 2010, y se incorpora a la presente para referencia en su totalidad. 1. ANTECEDENTE Uno de los principales descubrimientos de la estrategia "Red 2030" del Departamento U.S. de Energía es que el "sistema eléctrico de América, 'el logro supremo de la ingeniería del siglo 20' está envejeciendo, es ineficiente, congestionado, incapaz de cumplir las necesidades de energía futuras [...]." La conflabilidad será un problema clave a medida que las redes eléctricas se transformen a través de las siguientes décadas, y el mantenimiento de las redes se volverá aún más crítico de lo que es actualmente. Un estudio en 2007 hecho por NERC menciona que "el envejecimiento de la infraestructura y la nueva construcción limitada " es el más grande desafío para la conflabilidad de las redes eléctricas fuera de todos los desafíos considerados por el estudio. La Red Inteligente traerá más operaciones y mantenimiento en línea - moviendo la industria de operaciones reactivas a proactivas. Las compañías de energía conservan registros de datos históricos en relación con el equipo y fallas pasadas, pero estos registros en general no han sido utilizados en su totalidad para el mantenimiento preventivo y fomentar la conflabilidad de la red.

La mayor parte de redes eléctricas en las ciudades de Estados Unidos (por ejemplo, redes eléctricas en el Noreste y otras ciudades maduras) se han construido gradualmente en los últimos 120 años. Esto significa que el equipo eléctrico (transformadores, cables, uniones, terminales, e interruptores asociados, protectores de red, relés, etc.) varían en edad; por ejemplo, al menos 5% de los cables de bajo voltaje en Manhattan se instalaron antes de 1930, y unas pocas secciones alimentado-ras de alto voltaje originales instaladas durante la Era de Thomas Edison aún están en uso activo en NYC. En NYC hay más de 94, 000 millas de cables de distribución subterránea de alto voltaje, suficiente para envolver la tierra tres y media veces. Boston tiene 3,000 millas de cable subterráneo y muchas otras ciudades tienen igualmente grandes sistemas eléctricos subterráneos .

Mantener una gran red que es una mezcla de componentes nuevos y antiguos es más difícil que manejar una nueva red (por ejemplo, como se ha estado construyendo en algunas partes de China) . La red U.S. es generalmente más Antigua que muchas redes Europeas que se reemplazaron después de la 2a Guerra Mundial, y más antiguas que las redes en lugares donde la infraestructura debe ser continuamente reemplazada debido a desastres naturales (por ejemplo, Japón tiene terremotos que obligan a que los sistemas de energía eléctrica sean reemplazados) .

La Red Inteligente no se pondrá en práctica de la noche a la mañana. Por ejemplo, de acuerdo con la empresa Brattle Group, el costo para actualizar la red en 2030 sería de $1.5 trillones. Los componentes principales de la Red Inteligente serán los mismos (para un periodo largo) que los componentes principales de la red actual, y nuevos metros inteligentes deben trabajar con el equipo existente. Convertir a una Red Inteligente se ha comparado con "reemplazar las partes desgastadas de un 747 mientras está en el aire." Para crear la Red Inteligente del futuro, uno debe trabajar con la red eléctrica que está ahora. A medida que las partes de la red se reemplacen gradualmente y se adicionen los componentes inteligentes, los componentes antiguos, incluyendo cables, interruptores, sensores, etc., aún necesitarán mantenimiento. Además, el estado de los componentes antiguos dictaría las prioridades para la adición de nuevos interruptores y sensores inteligentes, nuevos, particularmente en la red secundaria.

La clave para hacer eficaces los componentes de la Red Inteligente es analizar donde serían más útiles las modernizaciones, dado el sistema actual. Considerar la analogía con pacientes humanos en la profesión médica, una disciplina para la cual muchos de los algoritmos y técnicas de aprendizaje de las máquinas utilizadas para la Red Inteligente se desarrollaron y probaron originalmente. Mientras cada paciente está hecho de las mismas clases de componentes (análogos a alimentadores , transformadores, pasos de hombre, y uniones), se visten y envejecen de forma diferente, con tensiones históricas variables y factores hereditarios (análogo a diferentes añadas, cargas, fabricantes) de modo que cada paciente debe ser tratado como un individuo único. Sin embargo los individuos se agrupan en familias, comunidades, y poblaciones (análogo a alimentadores, redes, municipios) con propiedades relativamente similares. La Red Inteligente se debe construir tras una fundación que ayude a mejorar la salud de los componentes de la red eléctrica (pacientes) , de modo que las redes (comunidades) mejoren su expectativa de vida, y la población (municipios) vivan de forma más sostenible .

Existe una necesidad para programas de mantenimiento preventivo proactivo para la conflabilidad de la red eléctrica. También hay una necesidad para utilizar los recursos de datos existentes, incluyendo los recursos de datos que no se obtuvieron o diseñaron originalmente para los propósitos predictivo (por ejemplo, registro de mantenimiento o una solicitud de mantenimiento) . 2. COMPENDIO El tema actualmente descrito proporciona métodos y sistemas para programas de mantenimiento preventivo, proactivo para la conflabilidad de las redes eléctricas, incluyendo, pero no limitado a, redes eléctricas urbanas maduras, robustas, que necesitan la modernización de los componentes del proceso (por ejemplo, la red eléctrica de la Ciudad de Nueva York). Por ejemplo, los métodos y sistemas de la presente solicitud, a través del aprendizaje de máquina, para proporcionar mantenimiento preventivo proactivo de los componentes secundarios en la red eléctrica a base de técnicas de aprendizaje de máquina mejoradas y haciendo uso de dato, obtenidos en el curso ordinario de manejo de redes, el cual no se diseñó para propósitos predictivos .

Un aspecto del tema descrito actualmente proporciona un sistema de aprendizaje de máquina para el ranking (clasificación) de una colección de métricas filtradas de la tendencia a fallas de los componentes similares dentro de una red eléctrica que incluye una unidad de datos crudos para proporcionar datos crudos representativos de los componentes similares dentro de la red eléctrica; (b) un procesador de datos acoplado a la unidad de datos crudos para convertir los datos crudos en datos más uniformes a través de una o más técnicas de procesamiento de datos; (c) una base de datos, acoplada al procesador de datos, para almacenar los datos más uniformes; (d) un motor de aprendizaje de máquina, acoplado a la base de datos, para proporcionar una colección de métricas de tendencia a fallas para los componentes similares; (e) un motor de evaluación, acoplado de manera operante al motor de aprendizaje de máquina, para detectar y quitar métricas que no cumplan, a partir de la colección de métricas de tendencia a fallas para proporcionar la colección de métricas filtradas de tendencia a fallas; y (f) una aplicación para sustentar la toma de decisiones, configurada para presentar un ranking de la colección de métricas filtradas de tendencia a fallas de los componentes similares dentro de la red eléctrica.

En una modalidad, los datos crudos representativos de los componentes similares se obtienen al menos en parte de un registro de mantenimiento o una solicitud de mantenimiento para al menos uno de los componentes similares. Las técnicas de procesamiento de datos pueden incluir una o más de una unión inferencial, coincidencia de patrones, extracción de información, normalización de texto, datos traslapantes de consultas para encontrar inconsistencias, e inferencia de registros relacionados o duplicados .

En una modalidad, las métricas que no cumplen se detectan con base en una o más AUC, AUC ponderadas, y exclusión de fallas de porcentaje predefinido. El motor de evaluación además puede incluir una base de datos derivada de la interrupción para almacenar las series de datos derivadas de la interrupción (ODDS) que capturen el precursor dinámico de datos de fallas representativos de al menos uno de los componentes similares.

En una modalidad, precursor dinámico de datos de fallas se obtiene de un dominio de tiempo desplazado en tiempo que termina al momento de, o justo antes, de la falla y empieza en un tiempo pre-seleccionado anterior a la falla. En una modalidad, los componentes similares son componentes de la red secundaria seleccionados de cables, uniones, terminadores , cabezas de martillo, pasos de hombre y transformadores. En una modalidad los componentes similares son pasos de hombre. La métrica de tendencia a fallas, en una modalidad, se puede seleccionar de la media del tiempo entre la falla (MTBF) y media del tiempo a la falla (MTTF) .

En una modalidad, el motor de evaluación incluye unos datos históricos para registrar una colección de métrica filtrada de tendencia a fallas sobre un primer periodo de tiempo y una colección de métrica filtrada de tendencia a fallas sobre un segundo periodo de tiempo, y un analizador de datos para determinar si la colección de métrica filtrada de tendencia a fallas en el primer periodo de tiempo se mejoró estadísticamente sobre la colección de métrica filtrada de tendencia a fallas en el segundo periodo de tiempo.

Otro aspecto del tema descrito actualmente proporciona un método para el ranking de una colección métrica filtrada de tendencia a fallas de componentes similares dentro de una red eléctrica a través del aprendizaje de máquina que incluye (a) proporcionar una unidad de datos crudos para proporcionar datos crudos representativos de los componentes similares dentro de la red eléctrica; (b) procesar los datos crudos para convertir los datos crudos a datos crudos más uniformes a través de una o más técnicas de procesamiento de datos; (c) almacenar los datos más uniformes en una base de datos; (d) transmitir los datos más uniformes a un motor de aprendizaje de máquina para proporcionar una colección de métricas de tendencia a fallas para los componentes similares; (e) evaluar la colección de métricas de tendencia a fallas en un motor de evaluación para detectar y quitar las métricas que no cumplen la colección de métricas de tendencia a fallas y para proporcionar la colección de métricas filtradas de tendencia a fallas; y (f) clasificar la colección de métricas filtradas de tendencia a fallas obtenidas del motor de evaluación y presentar el ranking en una aplicación para sustentar la toma de decisiones.

Otros detalles relacionados con el método se entenderán de la descripción del sistema correspondiente. Otros detalles relacionados con el sistema se entenderán de la descripción del método correspondiente. 3. BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 es una representación de una red eléctrica común en un entorno urbano (fuente: Con Edison).

La Figura 2 es el número de interrupciones del alimentador en NYC por día durante 2006-2007. La cuenta de interrupciones (curva inferior, gráfica de barras) tiene el eje x a la izquierda, y la carga eléctrica pico normalizada (superior, con linea punteada en la gráfica) tiene el eje a la derecha.

La Figura 3 es un extracto de un Ticket de problemas de un paso de hombre humeante muestra (SMH) en la Ciudad de Nueva York. Un Ticket de problemas es un ejemplo de un registro de mantenimiento.

La Figura 4 es una curva de bañera (fuente: ikipedia) .

La Figura 5 es un diagrama de flujo de un método y sistema para el ranking de una colección de métricas filtradas de tendencia a fallas de componentes similares dentro de una red eléctrica a través de aprendizaje de máquina.

La Figura 6 es una linea de tiempo muestra para una predicción de evento raro.

La Figura 7 muestra un ejemplo de las ventanas de tiempo de prueba y entrenamiento en una Serie de Datos Derivados de Interrupciones (ODDS) . En este ejemplo, el tiempo actual se toma como Agosto 13, 2008 y los datos de la falla para entrenamiento se deriva de Julio 30, 2007 a Agosto 27, 2007 y Julio 30, 2008 - Agosto 13, 2008.

La Figura 8 es un diagrama de flujo de un sistema y método ejemplar que incorpora el aprendizaje de máquina y ODDS.

La Figura 9 es un diagrama de flujo de un sistema y método ejemplar que se muestra incorporando los Tickets de problemas para los propósitos de ranking de la tendencia a fallar de los pasos de hombre, es decir, un ranking de eventos de pasos de hombre.

La Figura 10 demuestra el procesamiento de un Ticket de problemas .

La Figura 11 es una representación de los resultados de predicción SVCR en Cables PILC de 33 alimentadores en Queens. Cada fila representa un alimentador, y el eje horizontal es el tiempo de supervivencia en años. La escala indica el número de muestras pronosticadas para estar dentro de cada fichero de entrada para el análisis.

La Figura 12 es una representación de Área Bajo la Curva para las curvas ROC en pruebas ciegas del ranking del aprendizaje de máquina de componentes específicos al momento de la falla.

La Figura 13 es un ejemplo de la curva ROC para los alimentadores Crown Heights de Mayo, 2008 a Enero, 2009.

La Figura 14 representa el mejoramiento en el desempeño de aprendizaje de máquina al predecir el porcentaje de fallas del alimentador que fueron en el peor 15% (izquierda) y el mejor 25% (derecha) de ranking de Susceptibilidad al momento de cada una de las fallas. El sistema mejoró de 20% de la fallas en el peor 15% en 2005, a mayor de 60% en 2008, por ejemplo.

La Figura 15 es una ilustración de la prueba de rango logarítmico (Mantel-Cox) . Se muestra el porcentaje acumulado de mejoramiento MTBF entre 2002 y 2009 (punteado) , como una función del rendimiento MTBF del grupo testigo del verano 2002 (continuo) . La prueba resultó en una oportunidad de 99.8% de que el grupo en tratamiento en 2009 mejoró sobre el grupo testigo de 2002 a través de todas las redes en Con Edison, de las peores (izquierda) a las mejores (derecha) redes de rendimiento .

La Figura 16 representa como se utilizó la regresión lineal para determinar el mejoramiento en MTBF de 2002 hasta 2009 (parte superior) y la diferencia entre el testigo inicial 2002 y MTBF 2009 (fondo) en cada red subterránea en el sistema Con Edison, arreglada del peor índice de Confiabilidad de la Red (izquierda) al mejor (derecha) en el eje horizontal.

La Figura 17 es una gráfica de interrupción pronosticada SV contra la real para todas las clases de interrupciones no planeadas. La linea diagonal representa un modelo perfecto. Esto se basó en 3 años de datos de interrupciones. Hay un efecto llamado efecto de censura por la derecha para los alimentadores de velocidad de interrupción baja debido a la falta de fallas en los 3 años de la ventana de observación en el lado izquierdo inferior de la gráfica. También hay un proceso de mortalidad infantil, originando una subestimación de fallas reales para los alimentadores malos (visible particularmente en la parte superior derecha de la gráfica) .

La Figura 18 representa una curva ROC para la prueba ciega del Bronx 2009 del ranking del aprendizaje de máquina para la vulnerabilidad de pasos de hombre a eventos serios (fuegos y explosiones) .

La Figura 19 es una captura de pantalla de la Herramienta de Análisis de Contingencia (CAP) durante un 4° evento de contingencia en el verano de 2008, con los siguientes alimentadores más probablemente en riesgo de fallar subrayados en rojo. El ranking ODDS en el momento de la falla se muestra en una en la gráfica blow-up ROC en el centro. La Herramienta de Análisis de Contingencia es un ejemplo de una aplicación para sustentar la toma de decisiones.

La Figura 20 es una captura de pantalla de una Herramienta de Priorización de Capital Activo (CAPT) de la interfaz de usuario. Esta captura de pantalla es una evaluación de la predicción de los análisis de Aprendizaje de máquina del mejoramiento en MTBF (de 140 a 192 días) , si 34 de las secciones con revestimiento de plomo y aislamiento de papel (PILC) en mayor riesgo se reemplazaron en un alimentador en Brooklyn a un costo estimado de $650,000. La Herramienta de Prioritización del Capital activo es un ejemplo de una aplicación para sustentar la toma de decisiones.

La Figura 21 representa la salida de un ejemplo de análisis de Beneficio de Costo de posibles estrategias de reemplazo para componentes específicos en riesgo, analizadas por el sistema de Aprendizaje de máquina. La línea continua aproxima la "Frontera Eficiente" en la teoría de manejo de portafolio. Los planes de mantenimiento común intentan equilibrar mejor la carga del alimentador en el sistema, o el reemplazo diana en las secciones en riesgo, uniones, transformadores y componentes secundarios. CAPT depende del modelo de susceptibilidad ODDS para las secciones Diana para el trabajo de mantenimiento, y el modelo de estimación MTBF para juzgar el valor relativo de diferentes estrategias de reemplazo.

La Figura 22 representa imágenes de la Herramienta de Visualización de Eventos de Pasos de hombre. Parte superior: direcciones del boleto Geocodificado, coloreado por tipo de problema. Amarillo indica un tipo de evento serio, purpura indica un precursor potencial. Si el usuario da clic en el boleto, se presenta el texto completo del boleto. Fondo: Pasos de hombre y cables principales dentro del mismo lugar. Observe que un boleto dentro de la intersección no necesariamente corresponde al paso de hombre más cercano.

La Figura 23 demuestra que el sobre tratamiento en el programa de Mantenimiento Preventivo de Potencial Alto se identificó utilizando comparaciones estadísticas para el rendimiento de Grupos testigos y remediación en la forma de pruebas Modificadas y A/C Hipot fueron promovidas por el servicio público. 4. DESCRIPCIÓN DETALLADA Las empresas eléctricas se pueden beneficiar grandemente con el uso de los conocimientos de métodos nuevos y las estadísticas de aprendizaje de máquina para el mantenimiento preventivo. Los métodos y sistemas se proporcionan para transformar los datos históricos de la red eléctrica en modelos predictivos que pueden utilizar directamente las compañías eléctricas. Las versiones especializadas de este proceso se pueden utilizar para producir, por ejemplo, 1) clasificaciones de fallas del alimentador, 2) clasificaciones de cables, uniones, terminadores y transformadores, 3) estimados de alimentadores y componentes MTBF (Media del Tiempo Entre Fallas) y4) el ranking de vulnerabilidad de eventos en un paso de hombre. Los métodos y sistemas pueden manejar fuentes diversas, ruidosas, que son históricas (estadística), tiempo semi real, o tiempo real, incorpora estado de la técnica de los algoritmos de aprendizaje de máquina para la priorización (ranking supervisado o MTBF), e incluye una evaluación de resultados a través de validación cruzada y pruebas ciegas. Más allá de que las listas con ranking y estimados MTBF son interfaces de manejo de negocios que permiten que la capacidad de predicción sea integrada directamente en la planeación corporativa y sustentar la toma decisiones; esas interfaces dependen de varias propiedades importantes de nuestra teoría de modelado general: esas características de aprendizaje de máquina son significativas para los expertos de dominio, que el procesamiento de datos es transparente, y que los resultados de predicción son suficientemente exactos para soportar la toma de decisiones bien fundadas. Los desafíos al trabajar con los datos históricos de la red eléctrica que no se diseñaron con propósitos predictivos, y se describe como fueron direccionados estos desafíos. La "crudeza" de estos datos contrasta con la exactitud de los modelos predictivos estadísticos que se pueden obtener del proceso; estos modelos son suficientemente exactos para utilizarse para planear el mantenimiento de la red eléctrica de la Ciudad de Nueva, de acuerdo con una modalidad específica ilustrativa.

Solamente por propósitos de conveniencia, los métodos y sistemas actualmente presentados, se describen en relación con la red eléctrica de NYC. Se entiende, sin embargo, que el tema descrito actualmente se puede transferir a redes eléctricas a través del mundo.

En una modalidad no limitante, los métodos y sistemas proporcionan métricas de tendencia a fallas de componentes secundarios de la red. Como se utiliza en la presente, componentes secundarios de red se refiere a componentes ubicados corriente debajo de los cables alimentadores eléctricos de la red primaria. Por ejemplo, como se muestra en la - Figura 1, se puede resumir que la red eléctrica consiste en una etapa de generación (10) (por ejemplo energía nuclear de una planta de energía nuclear), una etapa de transmisión (20) que termina en una subestación (30). De la subestación, la electricidad se transmite a través de una red primaria, la red primaria concluye en cables alimentadores (40) (por ejemplo, alimentadores de 27,000 volts y que incluyen " alimentadores de distribución " y "alimentadores de transmisión."). La red corriente debajo de los alimentadores se considera la red secundaria (50). Los componentes ubicados corriente abajo de los cables alimentadores de la red primaria se consideran los componentes de la red secundaria, e incluyen, pero no se limitan a, transformadores (60), asi como uniones, terminadores, cabezas de martillo, y pasos de hombre (no se muestran) .

Desde un punto de vista técnico, los componentes de la red secundaria difieren de los componentes de la red primaria en la magnitud de voltaje, y debido a que la red secundaria está conectada a través de una estructura de "malla" en la cual hay redundancias incorporadas.

En la presente se describen Tecnologías para mantener la Red Inteligente, en la forma de a proceso para la predicción de fallas que se pueden especializar para aplicaciones individuales. El tema descrito actualmente proporciona procesamiento de datos (limpieza, coincidencia de patrones, estadísticas, integración) , formación de una base de datos, aprendizaje de máquina (colección de tiempo, formación de características y etiquetas, métodos de ranking) , y evaluación (pruebas ciegas, visualización) . Se han desarrollado versiones especializadas del proceso, en ciertas modalidades, para: 1) ranking de fallas del alimentador para alimentadores de distribución, 2) ranking de cables, uniones, terminadores y transformadores para alimentadores de distribución, 3) estimados de alimentadores y componentes MTBF (Media del Tiempo Entre Fallas) para alimentadores de distribución, y 4) ranking de vulnerabilidad de un paso de hombre. Cada proceso puede manejar datos con características particulares. En su forma más general, el proceso puede manejar diversas fuentes, ruidosas, que son históricas (estáticas) , tiempo semi real, o tiempo real, incorpora algoritmos de aprendizaje de máquina para priorizacion (ranking supervisado o MTBF) , e incluye una evaluación de resultados a través de validación cruzada en datos pasados, y mediante evaluación ciega. La evaluación ciega se puede realizar en datos generados como acontecimientos que suceden, dando una barrera verdadera a la información en el futuro. Los datos utilizados por los algoritmos del aprendizaje de máquina pueden incluir eventos pasados (fallas, reemplazamientos, reparaciones, pruebas, carga, eventos de calidad de energía, etc.) y características del activo (tipo de equipo, condiciones del entorno, fabricante, especificaciones, componentes conectados a él, municipio donde se instaló, red específica, fechas de instalación, reparación o prueba, etcétera) .

Más allá de las listas con ranking y estimados MTBF, se han diseñado interfaces gráficas del usuario que pueden utilizar los gerentes e ingenieros para la planeación y sustentar la toma de decisiones. Las aplicaciones de sustentar la toma de decisiones de la red de NYC, exitosas, que se han construido con base en nuestros modelos incluyen, pero no se limitan a, priorización de reparación, priorización de inspección, corrección de sobre tratamiento, generación de plan de reemplazo, y priorización de acción protectora del sistema. La utilidad de estas interfaces se puede obtener, al menos en parte, de la exactitud predictiva de los modelos subyacentes, y también de la interpretación de los resultados de modelo.

Una propiedad importante de la teoría de los métodos y sistemas actualmente descritos es que las características de aprendizaje de máquina son significativas para los expertos de dominio, y que el procesamiento de datos y diseño de factores causales responsables de las predicciones es transparente. El uso transparente de los datos sirve para varios propósitos: permite a los expertos de dominio detector las fallas del modelo o extensiones sugeridas, permite a los usuarios encontrar los factores subyacentes de las causas de fallas, y permite a los gerentes entender, y de este modo confiar, en el modelo (no caja negra) con el fin de tomar decisiones.

El tema descrito actualmente demuestra que los datos recolectados por los servicios eléctricos se pueden utilizar de forma proactiva para los programas de mantenimiento preventivo a través de del aprendizaje de máquina que proporciona predicción eficaz y aplicaciones de toma de decisiones.

La organización de la descripción detallada es como sigue: se describen las tareas de mantenimiento de la red eléctrica, incluyendo clasificaciones, predicciones, o propiedades subyacentes acerca de los componentes que los hacen buenos o malos, o causas raíz de fallas. Después, se describen los procesos por los cuales los datos crudos se pueden transformar para cumplir estas metas. Después, se describen los métodos específicos de aprendizaje de máquina utilizados para el conocimiento de procesos nuevos. También se describe la especialización de estos procesos para cuatro tareas de predicción. Se describe la evaluación de los resultados, y resultados de las muestras para la red eléctrica de NYC. Se describe el software de gestión desarrollada para hacer que los resultados se puedan utilizar, y para ayudar al descubrimiento del conocimiento. También se describen los sistemas y lecciones ejemplares, no limitantes obtenidos de la puesta en práctica de estos sistemas en la red de NYC.

TAREAS DE MANTENIMIENTO PROACTIVO Las compañías eléctricas están empezando a conmutar de planes de mantenimiento reactivo (fijos cuando algo está mal) a planes de mantenimiento proactivo (problemas potenciales fijos antes de que sucedan). Hay ventajas para esto: planes reactivos, que permiten que las fallas sucedan, pueden originar situaciones peligrosas, por ejemplo fuegos y fallas en cascada, y reparaciones de emergencia costosas. Sin embargo, no es una tarea simple determinar donde se deben asignar recursos limitados para reparar de forma más eficiente los componentes potencialmente vulnerables.

En sistemas eléctricos grandes, la electricidad fluye desde la fuente al consumidor a través de líneas de transmisión a subestaciones, después a, alimentador cables primarios ( "alimentadores" ) , y secciones asociadas, uniones, y cabezas de martillo, a través de transformadores, y al resto de la red de distribución eléctrica secundaria (bajo voltaje) . Hay dos tipos de alimentadores, "alimentadores de distribución" y "alimentadores de transmisión." El tema descrito actualmente, únicamente por conveniencia, se describe en relación con los alimentadores de distribución, los cuales son cables de alto voltaje grandes (13 o 27 KV) que forman una estructura tipo árbol, con transformadores en las hojas que alimentan la red secundaria.

Los sistemas y métodos actualmente descritos no se limitan a alimentadores de distribución, sino que también abarcan, por ejemplo, alimentadores de transmisión.

En algunas ciudades, estos transformadores dan servicio a edificios o pocos clientes, y una falla del alimentador origina interrupciones de servicio para todos los clientes corriente abajo. Por el contrario, los cables secundarios en muchas ciudades forman una malla o estructura tipo red que es alimentada por alimentadores de alto voltaje redundante, con la meta de continuar dando servicio, incluso si uno o más alimentadores fallan. Puede haber posibles debilidades en cualquiera de estos componentes: un alimentador puede estar fuera de servicio, los cables, uniones y cabezas de martillo pueden fallar, los transformadores pueden fallar, y el rompimiento del aislamiento de los cables en la red eléctrica secundaria puede provocar fallas. Se describe como pueden ayudar las políticas de mantenimiento preventivo basadas en la información.

Clasificaciones de Alimentadores Los cables alimentadores de distribución primaria son cables largos; en NYC operan at 13,600 o 27,000 volts. Generalmente se encuentra a lo largo de calles principales o avenidas y distribuyen la energía de subestaciones a la red secundaria. (Véase la Figura 1).

Un alimentador puede experimentar una interrupción debido a una falla en algún lugar a lo largo del alimentador, o debido a la desenergización deliberada (de modo que se puede realizar el mantenimiento) . Si un componente, como puede ser un alimentador, falla o queda fuera de servicio, esta falla se llama una "primera contingencia, " y si dos componentes en la misma red fallan, ésta se llama una "segunda contingencia," y así sucesivamente. La pérdida de un número pequeño de alimentadores generalmente no resulta en ninguna interrupción en el servicio eléctrico a los clientes, debido a la redundancia incorporada extensa en el sistema. (Por ejemplo, un sistema de red subterránea se puede diseñar para operar con la segunda contingencia, como se describe antes.) Sin embargo, una vez que uno o más alimentadores en una red están fuera de servicio, el resto de alimentadores y sus transformadores asociados tiene que " recoger" la carga de los alimentadores desconectados, colocándolos en mayor riesgo. Este aumento de carga eleva el riesgo de falla para el resto de alimentadores y transformadores, y pasando un punto determinado, la red experimentará una falla en cascada, donde el resto de activos de distribución son incapaces de portar la carga de la red, y la red completa se debe detener hasta que el sistema pueda ser reparado.

Cada cable alimentador puede consistir en muchas secciones de cable ("secciones"); por ejemplo, el número promedio de secciones por alimentador en la NYC es de aproximadamente 150.

Cada sección corre entre dos pasos de hombre, y tiene "uniones" en cada extremo. Las secciones f ecuentemente están hechas de tres manojos de cables, uno para cada fase de voltaje. Las uniones pueden unir dos secciones de cable simples, o se pueden ramificar en dos o más formas. Últimamente las secciones alimentadoras terminan en transformadores que reducen el voltaje a 120 o 240 Volts necesarios para los sistemas secundarios. Las secciones alimentadoras se conectan a transformadores a través de conectores que se pueden separar {"cabezas de martillo"). Las fallas de alimentadores generalmente ocurren en las uniones o dentro de una sección de cables. Las fallas de alimentadores subterráneos son con mucho más frecuentes durante el verano, especialmente durante las ondas de calor. Esta subsección describe el problema para pronosticar si un alimentador determinado tendrá una falla (incluyendo sus subcomponentes : secciones, uniones, cabezas de martillo) . La siguiente sección describe la predicción de fallas en cables individuales, uniones y cabezas de martillo.

Una clase de unión, la "unión de detención, " puede ser una fuente de un número desproporcionado de fallas. Las uniones de detención conectan antiguos "PILC" a cables modernos con dieléctricos sólidos. PILC permanece para cables con revestimiento de plomo y aislamiento de papel, una tecnología utilizada en la mayor parte de centros urbanos desde 1906 hasta aproximadamente la década de 1960. Las secciones PILC están cargadas de aceite, de modo que las uniones de detección no deben tener únicamente buenas conexiones eléctricas y aislamiento (como todas las uniones) sino que también deben tapar el aceite para evitar que se fugue. Aunque todos los servicios están quitando de forma agresiva los cables de plomo de sus sistemas, va a pasar un largo tiempo antes de que el trabajo se pueda completar. Por ejemplo, en la NYC, La Comisión de Servicios Públicos ha mandado que todas las -30,000 secciones PILC restantes se reemplacen por 2020. Observe sin embargo que algunas , secciones PILC han estado en operación durante un tiempo un largo sin problemas, y es práctico e importante hacer el mejor uso del limitado presupuesto de mantenimiento reemplazando primero las secciones más inestables.

La aplicación para clasificación de fallas de alimentadores, descrita más adelante, ordena los alimentadores desde el de mayor riesgo hasta el de menor riesgo. Los datos para la tarea de ranking de alimentadores puede consistir en -300 características para cada alimentador junto con historial de interrupciones. Se supone que estos datos están razonablemente completos y no son demasiado ruidosos. Los datos incluyen: fecha de inicio de servicio; las OA anteriores (fallas del alimentador), trabajo programado, pruebas, y fechas; %PILC; eventos de calidad de energía; etc. Muchas características del resumen se pueden calcular de los datos crudos, por ejemplo, el número total de las OA por alimentador sobre el periodo de recolección de datos. La fase de construcción del modelo utiliza dos años de datos pasados para pronosticar las fallas dentro de una fase de prueba de un año.

Como se puede ver en la Figura 2, un número pequeño de fallas de alimentadores ocurre diariamente, como se observa en una red eléctrica a través de todo el año. La tasa de fallas aumenta considerablemente durante el clima cálido. Las unidades de aire acondicionado ponen carga considerable en el sistema, provocando que el uso de electricidad aumente aproximadamente 50% durante el verano. Es durante estos tiempos cuando el sistema está más en riesgo.

Las listas de clasificaciones de fallas de alimentadores se puede utilizar para proporcionar la guia para un programa de reemplazo de primavera, el tiempo del año cuando se inician las reparaciones. Al inicio de la primavera de cada año, se mejora un número de alimentadores are quitando las secciones PILC, cambiando la topología de los alimentadores para equilibrar mejor la carga o para soportar el cambio de los requerimientos de energía para los edificios nuevos. La carga es ligera en primavera, de modo que los alimentadores se pueden poner fuera de servicio para actualizarlos con bajo riesgo. Prioritizar los alimentadores es importante: el reemplazo programado de cada sección cuesta aproximadamente $18,000, y si la sección es muy improbable que falle, el dinero esencialmente se desperdicia en relación con las secciones reemplazadas que es probable que fallen. Las fallas necesitan reemplazos de emergencia costosos y también tiene el riesgo de fallas en cascada.

Clasificación de Cables, Uniones, Terminadores y Transformadores Los cables, uniones, terminadores , y transformadores son componentes de alimentadores que tienen poblaciones muy largas. Modelar como fallan los componentes individuales (de un alimentador multicomponente) trae un nivel extra a la comprensión de fallas del alimentador. Las características de los componentes se pueden relacionar más directamente con la falla localizada y conservarla en una forma no agregada que una característica similar a enrollarse para un alimentador; por ejemplo una característica para la tarea de modelado del componente podría codificar que una sección PILC fue hecha por Okonite en 1950 considerando que una característica para la tarea de modelado del alimentador podría en su lugar codificar una cuenta de secciones PILC mayores de 40 años para el alimentador. La clasificación de los componentes permite soportar mejores decisiones después de que los alimentadores susceptibles se eligen para mejorar la conflabilidad (guiado por una clasificación de alimentadores) . Las clasificaciones de componentes permiten una priorización de componentes por susceptibilidad a fallas cuando las restricciones del presupuesto prohiben el reemplazo del alimentador completo. Por último las clasificaciones de componentes por si mismas se pueden utilizar para definir las características para la tarea de ranking del alimentador. En general uno podría construir sistemas de aprendizaje jerárquicos parciales o completes guiados por alguna estructura de asignación de crédito. Para Con Edison, los datos utilizados para la clasificación de cables, uniones y cabezas de martillo fue diversa y muy ruidosa, aunque menos ruidosa que los datos utilizados para los eventos en un paso de hombre de proyectos de predicción, descritos más adelante.

Clasificación de un Paso de hombre Un pequeño número de "eventos en un paso de hombre" serios ocurren cada año en muchas ciudades, incluyendo fuegos y explosiones. Estos eventos generalmente son provocados por el rompimiento del aislamiento del cable de bajo voltaje en la red secundaria. Debido a que el aislamiento se puede romper sobre un largo periodo de tiempo, es razonable tratar de predecir los eventos serios futuros de las características de eventos pasados.

Los eventos se consideran dentro dos categorías algo simplificadas: "eventos serios" (fuegos, explosiones, pasos de hombre humeantes, serios) y "eventos precursores potenciales" (incendios, luces centellantes, etc.). Los eventos precursores potenciales pueden ser indicadores de un problema de red de área ancha, o pueden indicar que hay un problema local afectando únicamente 1-2 pasos de hombre .

Muchas compañías eléctricas conservan registros de todos los eventos pasados en la forma de Tickets de problemas, los cuales son notas a mano tomadas por los despachadores. Un boleto ejemplar de un evento smoking paso de hombre en la NYC aparece en la Figura 3. Las técnicas de aprendizaje de máquina descritas en la presente pueden procesar eficazmente estos boletos.

Modelado de MTBF (Media del tiempo entre fallas) Una métrica para el rendimiento de conflabilidad es la media del tiempo entre fallas (MTBF) para componentes o sistemas que se pueden reparar, y la media del tiempo a la falla (MTTF) para componentes que no se pueden reparar. En manejo pobre, MTBF es la medida común o rendimiento de conflabilidad. Una vez que se cuantifica la conflabilidad entonces se puede realizar el análisis de costo contra beneficio y se pueden planear las políticas de reemplazo, políticas de inspección, y mejoramiento de programas de conflabilidad .

Los alimentadores se fabrican de componentes múltiples que pueden fallar de modo que se puede aplicar MTBF. Una vez que una unión falla se reemplaza, de modo que en su lugar se puede aplicar MTTF.

En general la tasa de fallas de un componente o un sistema compuesto como un alimentador tendrá un MTBF que varía sobre su vida útil. Algo que es nuevo o que se le ha dado mantenimiento puede tener fallas tempranas también conocidas como "mortalidad infantil." Entonces los sistemas se asientan en su vida media con una tasa de fallas inferior y por último la tasa de fallas aumenta al final de su vida útil. (Véase la Figura 4.) El cable PILC, un tipo de cable de elección desde el inicio de la industria eléctrica -pero ahora estando eliminado en la mayor parte de servicios - puede tener vida útil muy larga y es difícil determinar un fin de firma de vida para ellos. Los transformadores si muestran el envejecimiento con un aumento en la tasa de fallas.

MÉTODOS Y SISTEMAS PARA LA PREDICCIÓN DE FALLAS EN REDES ELÉCTRICAS El objetivo general es el "descubrimiento del conocimiento," esto es, encontrar información en datos que es implícita, nueva, y extremada y potencialmente útil. Harding et al. proporciona un panorama del descubrimiento del conocimiento en la fabricación. El armazón general CRISP-DM captura el procesamiento de datos para los datos extremadamente (potencialmente) crudos, sin embargo el descubrimiento del conocimiento tradicional en el perfil de bases de datos (KDD) no abarca esto. El proceso general presentado aquí se puede considerar un caso especial de CRISP-DM, pero está fuera del ámbito de KDD debido a la limpieza y procesamiento de datos pesados implicados en la construcción de la base de datos .

El proceso general del descubrimiento del conocimiento para datos de redes eléctricas se muestra en la Figura 5. Los datos primero se limpian e integran en una sola base de datos que se puede consultar de forma exacta. Después uno o más problemas de aprendizaje de máquina se formulan sobre una escala de tiempo adecuada. En ciertas modalidades, las características utilizadas en los modelos de aprendizaje de máquina son significativas para los expertos de dominio. Los parámetros en el algoritmo de aprendizaje de máquina se afina o prueba mediante validación cruzada, y se evalúa para pruebas de predicción a ciegas de la exactitud de la predicción en datos que no están en la base de datos. Los expertos de dominio también evalúan el modelo utilizando las herramientas de manejo de negocios y sugieren mejoramientos (generalmente en el manejo y limpieza de datos iniciales) .

El procesamiento/limpieza de datos es la pieza clave que asegura la integridad del modelo resultante. Esta vista está de acuerdo con la de Hsu et al., quien menciona que "... los pasos frecuentemente rechazados de pre-procesamiento y pos procesamiento en descubrimiento del conocimiento son los elementos más críticos para determinar el éxito de una aplicación de minería de datos reales." Los problemas de limpieza de datos se han descrito extensamente en la literatura, por ejemplo en e-commerce . Frecuentemente, la aplicación de técnicas de aprendizaje de máquina directamente (sin el paso de limpieza datos) no conduce a modelos útiles o significativos. En las aplicaciones de servicio eléctrico, estos datos pueden ser extremadamente crudos: los datos pueden venir de diversas fuentes a través de la compañía, con diferentes esquemas para grabar tiempos para eventos o identidades de componentes, puede estar incompleto o extremadamente ruidoso, puede contener grandes números de documentos libres de texto (por ejemplo, Tickets de problemas). El procesamiento de datos define completamente la interpretación de los datos que serán utilizados por el modelo de aprendizaje de máquina, como puede ser procesando los ejemplos antes descritos de entradas de datos. Este procesamiento turna datos históricos de diversas fuentes en características predictivas que se pueden utilizar y etiquetas para aprender. La limpieza de datos puede incluir muchos pasos como puede ser coincidencia de patrones (por ejemplo, encontrar expresiones regulares en datos estructurados o no estructurados), extracción de información, normalización de texto, utilizando el traslape de datos para encontrar inconsistencias, y registros duplicados o relacionados interferentes . Se pueden utilizar estadísticas preliminares para evaluar si faltan datos, y para verificaciones sanitarias en uniones inferenciales .

Una unión inferencial es el proceso por el cual múltiples tablas de datos crudos se pueden utilizar en una base de datos con base en al menos una inferencia. Las uniones inferenciales pueden ser una pieza clave de la limpieza de datos. Un ejemplo para ilustrar la lógica detrás de la utilización de la coincidencia de patrones básicos y estadísticas para la unión inferencial es la unificación de los registros de cables principales a los datos de un paso de hombre para el proceso del evento de un paso de en la NYC, para determinar cuáles cables entran en cuales pasos de hombre. Les cables principales conectan dos pasos de hombre (contrarios a los cables de servicio o luz pública que entran únicamente en un paso de hombre) . Los datos del cable pueden venir del departamento de contabilidad del servicio público, que es diferente de la fuente de los datos de localización del paso de hombre. Una unión cruda de pasos de hombre a cables (basados en un identificador único de paso de hombre que es la unión de 3 campos tipo paso de hombre, número, y código de 3 bloques local) produce una coincidencia únicamente a la mitad aproximada de los registros de cables. La primera ronda de correcciones hecha a los datos del cable incluye la normalización del deletreo y encontrar las coincidencias a los códigos de 3 bloques colindantes (el código de 3 bloques colindantes frecuentemente se ingresa de forma errónea para los pasos de hombre en un límite) . La siguiente ronda de correcciones utiliza el hecho de que los cables principales tienen longitud limitada: si únicamente uno de los dos extremos del cable coincide únicamente con un paso de hombre, con varios posibles pasos de hombre para el otro extremo, el paso de hombre más cercano se selecciona (la longitud del cable más corta posible) . Este procesamiento produce una coincidencia con aproximadamente tres cuartos de los registros de cables. Sin embargo, los histogramas de la longitud del cable indican que aproximadamente 5% de estos registros unidos representan cables que son demasiado largos para ser reales. Esos cables se pueden utilizar para la detección de averias de la unión nuevamente. Las estadísticas generalmente pueden ayudar a encontrar nichos de datos que no se unieron adecuadamente a otros datos pertinentes.

Los datos pueden ser: estáticos (representan la topología de la red, como puede ser el número de cables, conectividad) , semi dinámicos (ocasional, o topológicamente cuando se quita o reemplaza una sección -casi para siempre), y dinámicos (tiempo real, con fecha y hora) . Los datos dinámicos se pueden medir electrónicamente (por ejemplo, las mediciones de carga del alimentador) , o se pueden mediar a medida que ocurren (por ejemplo, Ticket de problemas) . Para los datos semi dinámicos y dinámicos, se puede elegir una escala de tiempo de recolección para las características y etiquetas para el aprendizaje de máquina. Los datos pueden ser de texto estructurado o datos categóricos, datos numéricos, o documentos de texto no estructurados.

Para las cuatro aplicaciones descritas anteriormente, los modelos de aprendizaje de máquina se pueden formar, entrenar, y validar con datos pasados cruzados, y evaluar en un motor de evaluación a través de, por ejemplo, "prueba ciega" en los datos más recientes utilizando una clasificación o medición MTBF. La formación de las características y etiquetas para el aprendizaje de máquina y los algoritmos del aprendizaje de máquina se describen más adelante.

El motor de evaluación frecuentemente produce cambios al procesamiento inicial. Estas correcciones pueden ser importantes para la clasificación de problemas. En la clasificación de problemas donde la parte superior de la lista frecuentemente es la más importante, existe la posibilidad de que la parte superior de la lista se pueble completamente por valores atípicos que son provocados por el procesamiento de datos incorrecto o incompleto, y de este modo la lista completa es completamente inútil. Esto sucede particularmente cuando las uniones inferenciales son ruidosas; si un alimentador está enlazado incorrectamente a unos pocos eventos de falla extra, parecerá que este alimentador es particularmente vulnerable. Por un lado, es posible detector averias de esta clase de valor atipico realizando estudios de casos de los componentes en la parte superior de las listas con ranking.

Para el ranking de algoritmos, la evaluación generalmente se realiza utilizando las estadísticas de rango, y las listas con ranking se pueden visualizar como, por ejemplo, curvas ROC (Característica Receptor Operador) . La muestra de evaluación de métricas puede incluir: Porcentaje de sucesos en la parte superior k% : el porcentaje de componentes que fallaron dentro de la parte superior k% de la lista con ranking.

• AUC o AUC ponderada: Área bajo la curva ROC, o estadística ilcoxon ann Whitney U, como se formula más adelante. La AUC se relaciona a la suma de pares mal clasificados en la lista. Las métricas AUC ponderadas (por ejemplo, como se utiliza el algoritmo P-Norm Push descrito más adelante) son más útiles cuando la parte superior de la lista es la más importante.

MTBF y MTTF se pueden evaluar directamente.

APRENDIZAJE DE MÁQUINA DE MÉTODOS PARA RANKING EN UN MARCO DE TRABAJO DE PREDICCIÓN DE EVENTO RARO El subcampo de ranking en aprendizaje de máguina se ha expandido rápidamente sobre los últimos pocos años a medida que la comunidad de recuperación de información (IR) ha empezado a desarrollar y utilizar estos métodos de forma extensa (véase el sitio web LETOR y las referencias en él) . "Aprendiendo a Clasificar" recientemente se ha identificado como uno de los desafios científicos clave de Yahoo en aprendizaje de máquina. El ranking de algoritmos se puede utilizar fácilmente para aplicaciones más allá de la recuperación de información; nuestro interés es el desarrollo y aplicación de ranking de algoritmos para el rango de componentes de la red eléctrica. En IR, el objetivo es clasificar una serie de documentos con el fin de dar relevancia a una consulta determinada. Para el ranking de componentes eléctricos e IR, ambos, la parte superior de la lista se considera que es la más importante.

El ranking de problemas considerados en la presente se encuentra en la categoría general de problemas de aprendizaje supervisado. En el aprendizaje supervisado, el objetivo es construir una función f de una serie de datos determinada (llamada "serie de entrenamiento"). La serie de entrenamiento se puede suponer que se obtenga de forma aleatoria de una distribución de probabilidad desconocida, y consiste en una serie de objetos, cada uno de los cuales está representado por un vector of características (es decir, atributos) , y una etiqueta (es decir, la salida deseada). El objetivo es construir una función que prediga la etiqueta para obtener un nuevo objeto de la misma distribución. Para un problema de aprendizaje determinado, una función de pérdida de R(f, data), o métrica de calidad, se puede definir para la función. Esta métrica de calidad puede ser una pérdida de clasificación errónea, pérdida de regresión (como se utiliza en TBF) , pérdida de clasificación errónea, etc., dependiendo del objetivo. La función f frecuentemente se construye a través de la "minimi zación empírica de riesgo," donde f se elije optimizando R para la serie de entrenamiento, por ejemplo: f<EF Con el fin de evitar el sobre ajuste en altas dimensiones, la clase de funciones F es la serie de combinaciones lineales de características.

Debido a que el algoritmo optimiza únicamente los criterios de evaluación R(f, datos de entrenamiento), estos modelos no son de doble propósito. Los modelos de ranking no necesariamente serán tan exactos en las predicciones MTBF cuando se evalúan en criterios MTBF (y viceversa) . En lo que sigue, los algoritmos de aprendizaje de máquina y criterios de evaluación se describen para el ranking supervisado por lotes. Los rankings de fallas del alimentador, el cable, uniones, y rankings de cabezas de martillo, y los rankings de eventos en un paso de hombre se pueden construir a través de algoritmos de aprendizaje de máquina supervisados por lote.

Es importante observar que la elección especifica del aprendizaje de máquina algoritmo no es necesariamente el principal componente de éxito en este dominio; en su lugar, la clave del éxito puede ser la limpieza y procesamiento de datos, como se describe anteriormente. Si las características y etiquetas del aprendizaje de máquina están bien construidas, cualquier algoritmo razonable las realizará bien; lo contrario también se sostiene, en que las características y etiquetas mal construidas no producirán un modelo útil independientemente de la elección del algoritmo.

En las tareas de ranking bipartitas supervisadas, el objetivo es clasificar una serie de ejemplos obtenidos de forma aleatoria de acuerdo con la probabilidad de poseer un atributo particular. La función de marcación se construye a partir de una serie de entrenamiento obtenida de la misma distribución (desconocida) . Formalmente, la serie de entrenamiento consiste en ejemplos con etiquetas : {(*MK)>W *i€ W {~ 4-1} donde cada ejemplo se caracteriza por un vector de valores de características: En este caso, los ejemplos son componentes eléctricos, y el atributo que uno quiere predecir es si una falla ocurrirá dentro de un intervalo de tiempo determinado. Las características codifican el rendimiento pasado, fabricante, etc., de los componentes. Por ejemplo, x es una cabeza de martillo, y hj (x) es 1 si la cabeza de martillo es menor de 10 años de edad, de otro modo hj{x) es 0. La función de marcación se elige para que sea una combinación lineal de las características: El objetivo de la tarea de ranking es minimizar una estadística de la lista con ranking calculada en la distribución total (desconocida) de la que se obtienen los ejemplos. Esa distribución desconocida representa la serie completa de posibilidades para los valores de la característica (por ejemplo, la clase de cabezas de martillo posibles) . Un objetivo posible es minimizar la probabilidad de que un nuevo par de ejemplos elegidos de forma aleatoria se clasifiquen mal: P»{fx(x+)= fxfr-) I y+ = t,- = -i}- (i> La notación ^° indica la probabilidad con respecto a la obtención aleatoria de (x+, y+) y (x-, y-) de la distribución D en X x {-1, +1}. Por ejemplo, esta es la probabilidad de que un cabeza de martillo que no falla será clasificado de forma errónea como más vulnerable que un cabeza de martillo que falló. Debido a que la distribución D es desconocida, uno puede construir la función de marcación utilizando la minimización de riesgo, donde el error de clasificación errónea se minimiza en la serie de entrenamiento, y la esperanza es que la solución se generalizará a toda la distribución. Los enlaces de generalización probabilística se utilizan para justificar teóricamente este tipo de teoría. El riesgo empírico correspondiente a (1) es el número de pares clasificados de forma errónea en la serie de entrenamiento : El error de clasificación errónea por pares se relaciona directamente con el (negativa del) área bajo la curva ROC, o de forma equivalente, la estadística Wilcoxon-Mann- Whitney U; la única diferencia es que los amarres se cuentan como clasificaciones erróneas en la definición anterior. Un algoritmo natural es utilizar el minimizador de con respecto a ? como la función de marcación.

Hay tres desventajas potenciales para este algoritmo: primera, NP es difícil de minimizar ^(^directamente . Segunda, el error de clasificación errónea considera igualmente todas las clasificaciones erróneas, en el sentido de que las clasificaciones erróneas en la parte superior de la lista se cuentan igualmente con las clasificaciones erróneas hacia el fondo, aunque en los problemas de predicción de fallas es claro que las clasificaciones erróneas en la parte superior de la lista se deben de considerar más importantes. Una tercera desventaja es la falta de regulación generalmente impuesta para permitir la generalización (habilidad de predicción) en altas dimensiones. Un remedio para todos estos problemas es utilizar casos especiales de la siguiente formulación general para el objetivo del ranking que no falla en ninguna de las trampas listadas anteriormente : donde g se llama la función Price y ^ se llama la función de pérdida. un caso especial de ^^con ¦^(z) -z<o y g(z)— Z. De forma alternativa, el objetivo es convexo en ? cuando se utiliza la pérdida exponencial ^ ' 5 o la pérdida de la función hinge¦ de la SVM (máquina de vector de sustentación) ^(^) ^ ^)+;; otras diversas funciones de pérdida convexa también se pueden utilizar. La norma utilizada en el término de regularización generalmente es una norma de Reproducción de los espacios del núcleo Hilbert (para los SVM) , el cual en el caso más simple es o una norma Ll 114 . La constante C se puede ajusfar por validación cruzada.

Casos especiales del objetivo (2) son: Rango SVM que utiliza la pérdida de la función hinge, g(z) = z como la función precio, y regularización de Reproducción de los espacios del núcleo Hilbert; algoritmo RankBoost, que utiliza la pérdida exponencial y no regularización; y el algoritmo P-Norm Push. El algoritmo P-Norm Push utiliza la función precio ° ?)~ ^ >la cual fuerza el valor del objetivo que se va a determinar principalmente mediante los ejemplos negativos clasificados más altos cuando p es larga; la energía p actúa como un máximo suave. Debido a que la mayor parte de la "energía" del objetivo está en la parte superior de la lista, el algoritmo concentra más en la parte superior. El algoritmo P-Norm Push complete es : El vector ?* no es difícil de calcular, por ejemplo mediante el gradiente descendente. En la serie de pruebas, las marcas se calculan como: y los ejemplos se clasificaron en orden por la marca.

En una modalidad, el algoritmo P-Norm Push se utiliza cuando el componente que está siendo analizado es un paso de hombre (por ejemplo como una herramienta de predicción de eventos paso de hombre.) Como una modalidad alternativa, se puede utilizar un algoritmo SVM con regularización ^2 como una herramienta de fallas del alimentador , es decir cuando el componente que está siendo analizado es un alimentador.

Para los métodos de ranking supervisados por lote, la predicción de fallas se realiza en un marco de predicción de eventos raros, significando que el objetivo es predecir eventos dentro de un "intervalo de predicción" utilizando datos anteriores a ese intervalo. La elección de intervalos de predicción determina las etiquetas para el problema de aprendizaje de máquina. Específicamente, y> es +1 si el componente i falló durante el periodo de predicción y de otro modo -1. Las características se derivan del periodo de tiempo anterior al intervalo de predicción.

Por ejemplo, como se muestra en la Figura 6, si el objetivo es para clasificar componentes por vulnerabilidad con respecto a 2010, el modelo se entrena en características derivadas desde antes de 2009 y etiquetas derivadas desde 2009. Las características para pruebas se derivan de datos anteriores a 2010. La elección de la longitud del intervalo de predicción depende de la aplicación; si el intervalo es muy pequeño, la predicción puede ser extremadamente difícil. Si la longitud es demasiado larga, las predicciones pueden ser demasiado aproximadas para ser útiles. Para la predicción de eventos en un paso de hombre en la NYC, este periodo de tiempo elegido puede ser de 1 año como se muestra en la Figura 6, aunque un experto en la técnica puede seleccionar periodos de tiempo adicionales.

La colección de tiempo se realiza utilizando el método de la Figura 6 para la predicción de eventos en un paso de hombre. Un esquema de colección de tiempo más elaborado se describe en relación con el ranking de falla del alimentador, donde se utilizan las características de "tiempo conmutado". Estos principios aplican con igual fuerza a todas las otras aplicaciones descritas en la presente, incluyendo las clasificaciones paso de hombre.

MTBF se puede estimar indirectamente a través de las tasas de fallas; la tasa de falla se convierte a MTBF tomando la reciproca de la tasa pronosticada. La tasa de fallas se estima en lugar de MTBF por razones numéricas: los alimentadores buenos sin fallas tienen un MTBF infinito. La tasa de fallas se puede estimar mediante algoritmos de regresión, por ejemplo SVM-R (regresión de la máquina del vector de sustentación) , CART (Árboles de Clasificación y Regresión) , técnicas basadas en la totalidad como puede ser Random Forests, y métodos estadísticos, por ejemplo Cox Proportional Hazards (Peligros Proporcionales de Cox).

PROCESOS Y DESAFÍOS ESPECÍFICOS El proceso general se puede adaptar con el fin de manejar los desafíos del procesamiento de datos y aprendizaje de máquina específicos a cada tarea de conflabilidad eléctrica. Los desafíos del ranking de alimentadores y específicos del proceso de ranking de fallas del alimentador desarrollado por Con Edison (también llamado "Series de Datos Derivados de Interrupciones - ODDS"), se describe de acuerdo con una modalidad específica, no limitante. Los desafíos para el procesamiento de datos para cables, uniones y cabezas de martillo se describen como ctra modalidad ilustrativa. El proceso de predicción de eventos paso de hombre se describe a continuación, y por último, se describe el proceso de estimación de MTBF como otra modalidad especifica, no limitante.

Ranking de Fallas del Alimentador Para la tarea de ranking de alimentadores, las características se pueden derivar en una modalidad especifica, de: características físicas del alimentador, incluyendo características de los componentes subyacentes que componen el alimentador; características eléctricas, obtenidas de simulaciones de flujo de carga eléctrica; y datos dinámicos, de telemetría en tiempo real unida al alimentador . Algunas características adicionales se pueden calcular de fórmulas desarrolladas por expertos de dominio.

Los datos de Con Edison en relación con la composición física de los alimentadores puede ser ruidosa; errores en la entrada de base de datos y volverá alambrar los componentes de un alimentador a otro pueden hacer difícil obtener una instantánea perfecta del estado actual del sistema. Además, uno debe manejar la colección de componentes: un alimentador común está compuesto de más de cien secciones de cable, conectadas por un número similar de uniones, y terminando en unas pocas decenas de transformadores. Para un solo alimentador, estos subcomponentes pueden ser una mezcolanza de tipos y edades, por ejemplo, una sección de cable de marca nueva puede estar conectada a una que tiene muchas décadas de edad. Uno puede tomar un número de propuestas para resolver este problema "Roll-up", incluyendo ver la máxima, promedios, 90° percentil (similar a máx . , pero evita valores atípicos) , y características eléctricas (por ejemplo, cuanta corriente se espera que porte un alimentador bajo diversas condiciones de red) . Las características eléctricas son imprecisas, ya que las simulaciones de flujo-carga eléctrica que las generan dependen de la precisión de un modelo de sistema determinado .

Los datos dinámicos presentan un problema similar a los datos físicos, pero aquí el desafío puede ser la colección en tiempo en lugar de espacio. Los datos de telemetría se recolectan a tasas que varían de cientos de veces por segundo (para datos de calidad de energía) a únicamente unas pocas mediciones por día (datos del clima) . Éstos se pueden recolectar sobre el tiempo, utilizando nuevamente funciones como pueden ser máximas o promedio, utilizando diferentes ventanas de tiempo. Algunas de las ventanas de tiempo son relativamente simples (por ejemplo, recolección sobre 15 o 45 días) , mientras otros toman ventaja de la periodicidad del sistema (véase la Figura 7), y recolectar sobre los datos más recientes más datos del mismo tiempo del año en años anteriores.

Uno de los desafíos de la aplicación para el ranking de alimentadores es que de los datos desequilibrados/escasez de datos que caracterizan la clase de falla puede provocar problemas con la generalización.

Específicamente, los alimentadores de distribución primaria son susceptibles a diferentes clases de fallas, y uno puede tener muy pocos ejemplos de entrenamiento para cada clase de evento, haciendo difícil extraer de forma confiable las regularidades estadísticas o determinar las características que afectan conflabilidad . Por ejemplo, la falla se puede deber a aislamiento de emergencia provocado por los relés de la subestación automática (Open Autos o OA) (Apertura automática) , detención de otros alimentadores en la red, por ejemplo para mantenimiento o inspecciones, envejecimiento, eventos de calidad de energía (por ejemplo, espigas), sobre cargas (que tienen variación estacional, con ondas de calor en verano especialmente problemáticas), componentes débiles conocidos (por ejemplo, cable PILC y uniones que conectan PILC a otras secciones) , topologías en riesgo (donde podrían ocurrir fallas en cascada) , problemas de fabricación, la tensión de pruebas "HiPot" (potencial alto), y desenergización/reenergización de alimentadores que puede resultar en fallas múltiples dentro de un lapso de tiempo corto llamado "mortalidad infantil." Otros problemas de escasez de datos son provocados por el intervalo en tiempo de vida de los alimentadores; mientras algunos alimentadores son relativamente nuevos y duran un tiempo muy largo (por ejemplo, más de 5 años), otros pueden tener vidas cortas (fallas dentro de unos pocos días entre sí). Además, los efectos estacionales raros (como puede ser altas temperaturas en verano) pueden afectar las tasas de fallas de los alimentadores . De este modo hay considerable desequilibrio en los datos de entrenamiento que hacen difícil la generalización. Las soluciones a estos problemas potenciales se describen más adelante.

En una modalidad particular, el foco está en la mayor parte de tipos de falla serios, donde el alimentador completo automáticamente es desconectado de línea por los relés de la subestación de emergencia, debido a algún tipo de falla que está siendo detectado por los sensores. El sistema actualmente descrito para la generación de series de datos puede dirigir el desafío de aprendizaje con ejemplos positivos raros (fallas del alimentador). Un incidente de falla de alimentador real es instantáneo: una instantánea del sistema en ese momento tendrá únicamente un ejemplo de falla. Para equilibrar mejor los datos, uno puede emplear la instalación de predicción de eventos raros que se muestra en la Figura 6, etiquetando cualquier ejemplo que haya experimentado una falla sobre alguna ventana de tiempo como positiva. Sin embargo, las características dinámicas para estos ejemplos se construyen desde el marco temporal antes del periodo de predicción, y de este modo no representan las condiciones precisas en el momento de la falla. Esto puede ser un problema, ya que algunos de los datos dinámicos únicamente podrían tener valor predictivo en el periodo justo antes de la falla. Para resolver este problema, uno puede conmutar a ejemplos positivos interrumpidos por tiempo: los ejemplos positivos se crean de las interrupciones pasadas dentro del periodo de predicción con las características dinámicas capturadas poco antes de que suceda la falla. Esto permite que el modelo capture los precursores de plazo corto a fallas. La clase de no fallas (ejemplos negativos) se pueden calcular utilizando las características de las instantáneas actuales de todos los alimentadores en el sistema. No únicamente esta propuesta, la cual se menciona en la presente como "ODDS" para las Series de Datos Derivados de Interrupciones, capturan los datos dinámicos justo antes de la falla, ayuda a reducir el desequilibrio masivo entre los ejemplos positivos y negativos que ocurren naturalmente en los datos de falla. La Figura 7 muestra un ejemplo de los periodos utilizados para entrenar y probar el modelo de acuerdo con esta modalidad especifica .

Otro desafío que surge y se soluciona mediante la aplicación de ranking de fallas del alimentador descrito en la presente fue el "concepto de derivación, " que significa que los patrones de fallas cambian muy rápidamente sobre el tiempo, de modo que un modelo de aprendizaje de máquina generado con datos del pasado puede no ser completamente representativo de patrones de fallas futuras para el equipo actual. Las características se pueden volver inactivas o cambiar de calidad. Las causas de esto incluyen: (1) reparaciones hechas en los componentes, que provocan que cambie la naturaleza de fallas futuras, (2) equipo nuevo que tiene propiedades de falla diferentes al equipo actual, (3) variación estacional en modos de falla (por ejemplo, una mayor probabilidad de falla del alimentador en el verano) . Para solucionar este desafío, ODDS aprende un nuevo modelo en una base regular en órdenes relativamente cortas (por ejemplo, cada 4 horas) en la serie de datos actual.

Un diagrama del sistema completo de acuerdo con esta modalidad específica se muestra en la Fig. 8. Un número de aplicaciones de manejo de negocios pueden utilizar los datos en el Repositorio de Datos de Salida a las áreas de riesgo resaltadas a través de presentaciones gráficas y mapas sobrepuestos.

Como en muchas aplicaciones de la vida real, las aplicaciones se pueden enfrentar con el problema de pérdida de datos. Las técnicas como puede ser imputación media se pueden utilizar para llenar los valores faltantes.

Cables , Uniones , Terminadores , & Procesamiento de Datos de Transformadores Los principales desafios para construir clasificaciones de componentes del alimentador traslapan algo con aquellos con los que se enfrentan al construir clasificaciones para los alimentadores : el uso de datos corporativos históricos, y el problema de desequilibrio de datos.

Idealmente, uno debería ser capaz de componer una serie de características consistente y completa para cada componente y también la conectividad, entorno, y contextos operativos que vive en el momento de la falla. Recrear estos contextos en una forma exacta puede ser imposible con los datos disponibles. En Con Edison, los datos del cable utilizados para las clasificaciones del cable, unión, y terminador reside en el sistema "Vision Mapping" y se diseñó únicamente para representar la distribución actual de los cables en el sistema, y no para proporcionar la distribución en tiempos particulares en el pasado. Los esfuerzos para archivar datos se iniciaron, y también dependen de otras instantáneas de datos de cable que están disponibles mediante los servicios públicos, por ejemplo, datos de cables capturados para el programa Indicador de Conflabilidad de la Red de Con Edison.

Generar datos de entrenamiento para las uniones en la ciudad de Nueva York fue especialmente desafiante. Las uniones son los enlaces más débiles en los alimentadores con ciertos tipos de unión sensible al calor que han acelerado las tasas de fallas durante las ondas de calor. Con Edison conserva una base de datos de fallas de componentes de alimentadores llamada CAJAC. Ella captura los datos de fallas de uniones en detalle. Con Edison hace autopsias a los componentes que fallaron y las razones de falla descubiertas se capturan en esta base de datos. Aunque los datos de falla de la unión se registran en detalle, algunas veces no hay una lista completa de la serie de uniones instaladas dentro de la red. La serie de uniones instaladas principalmente se tiene que ingresar de las conexiones entre cables. Además, las longitudes cortas de cable llamadas insertos, utilizadas para hacer las conexiones en pasos de hombre, no se capturan en el sistema Vision Mapping, de modo que el número de uniones en cualquier paso de hombre únicamente se puede estimar en general. También, para uniones muy antiguas, la naturaleza de la unión (tipo de unión, fabricante, etc.) se ha tenido que inferir de la fecha de instalación. Esto se puede hacer suponiendo que la política activa en la fecha de instalación se utilizó para esa unión, lo que permite inferir los fabricantes y técnicas utilizadas.

Se fusionaron varias fuentes de datos, utilizando uniones inferenciales , para crear una base de datos de transformadores, incluyendo datos del departamento de contabilidad de Con Edison, base de datos de registro de inspección, y la base de datos de gas disuelto. El ranking de transformadores tiene diversos desafios semánticos. Hay un gran número de diseños y fabricantes de transformadores diferentes y la serie completa de las clases de transformadores únicamente la pueden conocer los expertos en el servicio público local y nunca se transfiere para utilizarse en aplicaciones predictivas, de aprendizaje de máquina. También, se observe que la población de transformadores era monitorizada de forma activa y reemplazada de forma agresiva por Con Edison, significando que los transformadores que no hablan fallado podían reemplazarse de cualquier forma, originando el efecto de censura por la derecha (significando pérdida de información después de un cierto tiempo en la vida del transformador) . Además, debido a que transformadores algunas veces se reemplazaban antes de fallar, fue un desafio determinar cuándo ocurrían las fallas, y la asignación incorrecta de fallas provocó el sesgo de la etiqueta para el aprendizaje de máquina.

Los componentes que tienen funciones múltiples o actúan como interfaces entre múltiples tipos de componentes, como pueden ser terminadores , presentan el desafío de traer junto múltiples bases de datos para capturar el contexto completo para el componente. Con el fin de clasificar las cabezas de martillo (las cuales son un tipo de terminador de cables a los transformadores) se construyó una base de datos que unió datos de ticket de empalme, datos de cables, y datos del transformador, donde los datos del transformador mismo vinieron de una unión anterior de las bases de datos largas.

No todas las series de datos utilizan la misma convención para registrar fechas; en algunos casos, la entrada de datos representa una fecha cuando se hizo el trabajo, en otros casos, la fecha es una fecha de entrada de datos. En algunos casos había confusiones de tiempo en base a si el tiempo se proporcionó en GMT, ED ST o EDT, originando en algunos casos que el sistema de aprendizaje de máquinas hiciera predicciones perfectas, pero por las razones equivocadas: ellos aprendieron a detectar resultados de fallas inevitables, pero donde estos resultados aparentemente tenían fecha anterior de las interrupciones debido a la temporización de datos distorsionada .

Ranking de Eventos en un Paso de hombre Un desafío principal para la predicción del evento en un paso de hombre fue determinar en cuales de las muchas fuentes datos, y en cuales campos dentro de las fuentes, confiar. Los datos utilizados para el proceso de predicción del evento en un paso de hombre incluye: información acerca de la infraestructura, a saber una tabla de lugares e información en un paso de hombre, y una instantánea de datos de cable recientes del departamento de contabilidad de Con Edison (tipo de cable, pasos de hombre en cualquier extremo del cable, fechas de instalación) ; cinco años de reportes de inspección llenados por los inspectores; y lo más importante, datos de eventos. Los datos de eventos vienen de varias fuentes diferentes: ECS (Sistemas de Control de Emergencias) Ticket de problemas que incluyen ambos, campos estructurados y texto no estructurados, una tabla de datos estructurados en relación con eventos en un paso de hombre (llamados ELIN - INcidentes ELéctricos) , y una tercera tabla en relación con eventos de choques eléctricos y equipo energizado (llamados ESR/ENE) . Estos datos fueron la entrada para el proceso de la predicción del evento en un paso de hombre descrito en la Figura 9.

El Ticket de problemas pueden ser documentos de texto no estructurado, de modo que una representación del ticket se tiene que definir para el problema de aprendizaje. Esta representación puede codificar información acerca del tiempo, lugar, y naturaleza (grado de seriedad) del evento. La fecha grabada en el ticket se puede utilizar directamente, pero el lugar y seriedad se pueden inferir (y/o aprender), como se describe más adelante.

Los lugares de eventos se infirieron utilizando varias fuentes de información de lugar presentes en el Ticket de problemas, incluyendo una dirección de calle (por ejemplo, 325 GREENWHICH ST) , nombres de estructura tipificados dentro del texto del ticket (S/B 153267) y nombres de estructura algunas veces incluidos en los campos estructurados de tres tablas (la parte delantera del ticket, ELIN o ESR/ENE) . Toda la información de lugar se tipificó a mano, y estos datos fueron muy ruidosos -por ejemplo, el término "caja de servicio" se escribió en al menos 38 formas diferentes - y ninguna fuente de información estaba completa. La redundancia en los datos se utilizó con el fin de obtener datos de lugares confiables: los números de la estructura se extrajeron del texto del ticket utilizando técnicas de extracción de información (véase la Figura 10) . Después los tickets se geocodificaron para determinar el lugar aproximado del evento. Si la dirección geocodificada no estaba dentro de una distancia corta (200m) de la estructura mencionada dentro del ticket, la información se descartó. El resto de coincidencias (verificado dos veces) se utilizaron, de modo que el ticket se identificó correctamente con los pasos de hombre que estaban implicados en el evento.

También fue necesario determinar la seriedad de los eventos; sin embargo los Ticket de problemas ECS no se diseñaron para contener una descripción del evento mismo, y no hay campo estructurado para codificar la seriedad directamente; por otro lado, los tickets no tienen un campo de "tipo de problema", el cual se diseñó para codificar la naturaleza del evento (por ejemplo, evento AC subterráneo "UAC," luces centellantes "FLT, " etc.). Originalmente, el tipo de problema se utilizó para caracterizar la seriedad del evento: los códigos "MHX" (explosión en un paso de hombre) , "MHF" (fuego en un paso de hombre) , y "SMH" (humo en un paso de hombre) se utilizaron para identificar eventos serios. Sin embargo, posteriormente se realizó un estudio que mostró que el tipo de problema no estaba de acuerdo con la etiqueta de tickets de los expertos, y no es una buena medida de seriedad. Con el fin de estimar mejor la seriedad de los eventos, se creó una representación de cada ticket con base en la información extraída del texto del ticket, incluyendo la longitud del ticket, la presencia de metadatos serios (por ejemplo, el término "SMOKING LIGHTLY"), y si los tamaños de los cables aparecen en el texto (indicando el reemplazo de un cable) . Esta extracción de información se realizó de forma semiautomática utilizando herramientas para el procesamiento de texto, incluyendo la Arquitectura Generalizada para Ingeniería de Texto "GATE".

La representación del ticket se utilizó para clasificar los tickets en las categorías: eventos serios, posible precursor de eventos, y sin eventos. Este ranking se realizó con un método manual, con base en una regla o métodos de agrupamiento de aprendizaje de máquina general (agrupamiento k-means (k medias)). En esta modalidad, hubo dos pasos de aprendizaje de máquina en el proceso de ranking de evento en un paso de hombre: un paso de clasificación de ticket, y un paso de ranking en un paso de hombre.

Un desafio enfrentado anteriormente fue elegir los marcos temporales para sustentar la predicción del evento raro. Originalmente se trató de pronosticar los eventos en un paso de hombre en una escala de tiempo corta (del orden de 60 días) con base en la intuición de los expertos de dominio de que esa escala de tiempo produciría un modelo predictivo útil. Sin embargo, fue claro que los eventos en un paso de hombre no serían fácilmente pronosticados sobre ese tiempo corto; por ejemplo se sabe que un evento en un paso de hombre ocurrirá dentro de 60 días después de un evento anterior, es casi imposible pronosticar cuándo sucederá dentro de esos 60 días. De hecho, el rompimiento del aislamiento, lo que provoca eventos en un paso de hombre, puede ser un proceso lento, que toma lugar en meses o años. Por consiguiente, se eligió un periodo de predicción de un año para el aprendizaje de máquina, como se muestra en la Figura 6.

Los datos de cable, los cuales son una instantánea en un punto en el tiempo (reciente), se unificaron con los otros datos para construir características "estáticas" y etiquetas para la tarea de ranking. Esto supone implícitamente que la instantánea representa aproximadamente el número y tipo de cables sobre el periodo de tiempo de predicción. Esta suposición es necesaria debido a que el estado exacto de los cables en un paso de hombre en un tiempo determinado en el pasado puede no estar disponible. Sin embargo, esta suposición n es universalmente verdadera; por ejemplo no es verdad para cables neutrales (que no portan corriente, tierra) en Con Edison, y los datos de cables neutrales de este modo no se pueden utilizar para la predicción de fallas.

En esta modalidad, el algoritmo P-Norm Push (descrito anteriormente) se utilizó como el algoritmo de ranking principal para el ranking en un paso de hombre.

Proceso MTBF Se hizo evidente que para mejorar el valor del trabajo del alimentador al mantenimiento proactivo, uno tenía también que producir estimados que permitan una medida absoluta de vulnerabilidad, en lugar de una medida relativa (ranking) ; como en otros esfuerzos de gestión pobres, muchas decisiones de reemplazo de activos se hicieron evaluando cuanta conflabilidad en días se gana si se hace una elección particular (por ejemplo, remplazar una serie de cables PILC vs . otro reemplazo al mismo costo) . Las herramientas para analizar TBF de los datos y para estimar si se utilizan modelos estadísticos y de aprendizaje de máquina se describen más adelante de acuerdo con una modalidad específica.

Los campos de Ingeniería de Conflabilidad y estadística de Análisis de Supervivencia proporcionan técnicas para modelar y relacionar tasas de fallas a las características del componente o sistema. Una de esas técnicas es el modelo de peligros proporcionales de Cox. Uno puede estudiar las relaciones de covariables que afectarían la tasa de fallas en una forma multiplicadora . Una alternativa es el modelo de tiempo de falla acelerado que supone que el efecto de una covariable es multiplicar el tiempo del evento pronosticado por alguna constante.

Las técnicas de aprendizaje de máquina se pueden utilizar para estimar MTBF de covariables también. Diversos investigadores han explotado la habilidad para manejar datos censurados como restricciones ordenadas en la regresión SVM. La Figura 11 muestra la aplicación de una de estas técnicas para pronosticar los tiempos de supervivencia de los cables PILC en Queens. La regresión SVM se utilizó para estimar MTBF de covariables para los alimentadores . La Figura 11 está en la forma de un resultado de predicción SVCR, la cual se describe en más detalle en "A Support Vector Approach to Censored Targets", Pannagadatta Shivaswamy, Wei Chu, Martin Jansche, Seventh IEEE International Conference on Data Mining (ICDM) , 2007, pp. 655-660, la cual se incorpora a la presente en su totalidad para referencia.

EVALUACIÓN EN LA NYC Se describen los resultados de nuestros procesos específicos aplicados a la red eléctrica de la NYC. Con Edison opera ahora el sistema eléctrico subterráneo más largo del mundo, el cual entrega hasta 14000 MW de electricidad a más de 3 millones de clientes. Un cliente puede ser un edificio de oficinas completo o un complejo de apartamentos en la NYC de modo que se les da servicio de electricidad hasta 15 millones de personas. Con Edison empezó a conservar registros de datos del fabricante, edad, e historia del mantenimiento de los componentes sobre un siglo anterior, con un nivel de exactitud mejorado de Supervisión, Control y Adquisición de Datos (SCADA) adicionado principalmente sobre los últimos 15 años. Las estadísticas de rendimiento contra inversión y costos de mantenimiento de todos los componentes se han medido automáticamente desde 2002.

Se han generado los modelos de aprendizaje de máquina para clasificar la conflabilidad de todos los alimentadores (13-27 KV) de 1000+ alto voltaje que forman el esqueleto del sistema de distribución de energía de la NYC; y para cada una de las -150,000 secciones de cables y -150,000 uniones que las conectan; para los -50,000 transformadores y -50,000 conectores que unen los transformadores a los alimentadores; y para las -150,000 estructuras secundarias (pasos de hombre y cajas de servicio) a través de las cuales se distribuye el bajo voltaje (120-240 V) de energía de los transformadores a todos los edificios en la NYC.

Evaluación de Fallas de Alimentador y Componentes El rendimiento de los modelos de aprendizaje de máquina descritos actualmente se puede rastrear verificando el ranking del componente del alimentador que falló cuando sucede una falla. Uno puede después compilar las curvas ROC en tiempo real que presentan tanto los componentes que fallaron (Figura 12) como el alimentador que automáticamente abre su interruptor de circuitos cuando ocurre la falla (Figura 13). Estas pruebas ciegas pueden proporcionar la validación de que los algoritmos están trabajando suficientemente para utilizarse en decisiones de operación que afecten el programa mantenimiento del servicio público.

El sistema de aprendizaje de máquina para calcular la susceptibilidad del alimentador con base en el sistema ODDS es en linea. Las clasificaciones de susceptibilidad se pueden utilizar en diversas aplicaciones de manejo de negocios. En una, las reparaciones y mejoras del alimentador hipotético se evalúan contra el modelo, con el fin de juzgar su efecto potencial en la susceptibilidad del alimentador. Las acciones de mantenimiento más benéficas se pasan después a los centros de control de operaciones. Otra herramienta, que corre continuamente, evalúa de forma automática cual seria la peor falla posible siguiente, es decir, que falla subsiguiente pondría al sistema en el mayor riesgo? Esta aplicación ahora es aumentada con un ranking de susceptibilidad ODDS para dar una entrada adicional importante: ¿qué alimentadores fallarán más probablemente después? Los operadores pueden considerar la probabilidad estimada y la gravedad estimada cuando determina que acciones tomar para aliviar la tensión en el sistema.

El rendimiento ODDS se puede rastrear en tiempo real registrando el ranking de susceptibilidad del modelo (corriendo cada 4 horas) al momento de cada nueva falla OA (falla del alimentador) . El sistema ODDS tiene las clasificaciones de todos los modelos de componentes corridos, incluyendo transformadores, secciones, uniones, cabezas de martillo, y pasos de hombre. Además, ODDS es mandado por las alimentaciones de tres sistemas dinámicos en tiempo real: peso del nicho de carga, calidad de la energía, e historial de interrupciones. Se encontró que el entrenamiento separado en Brooklyn y Queens, con sus redes de 27KV, y Manhattan y Bronx, con sus redes de 13KV, produjeron mejores resultados.

Uno puede utilizar AUC para cada ROC de la red dentro de cada municipio para medir el rendimiento del sistema ODDS (Figura 12) . El sistema de aprendizaje de máquina ha mejorado hasta el punto donde 60% de fallas ocurren en el 15% de alimentadores con clasificación ODDS como los más susceptibles a fallar. Igual de importante, menos de 1% de las fallas ocurren en alimentadores en el mejor 25% del ranking de Susceptibilidad del Alimentador ODDS (Figura 1 ) .

Evaluación MTBF El mejoramiento en la Media del Tiempo Entre Fallas se rastreó para cada red a medida que se hacia el trabajo de mantenimiento preventivo para mejorar el rendimiento desde 2002. Para probar si este mejoramiento es importante, se utilizó una prueba estadística, llamada la prueba del rango logarítmico, que compara las distribuciones de supervivencia de dos muestras. En este caso, se deseó determinar si el punto extremo de una regresión lineal en MTBF anual por red en 2009 se mejoró de forma importante desde el punto de inicio de la regresión en 2002. Esto supone que el rendimiento de la red en 2002 sea el grupo testigo. Los resultados se resumen en la Figura 15.

La Figura 15 muestra una curva tipo ROC para la muestra y grupos testigos. Esta curva se obtuvo sustrayendo de forma acumulativa el registro del tiempo de supervivencia (MTBF) de lo peor a lo mejor (se utilizó el ranking del "índice de Conflabilidad de la Red" de Con Edison en 2009 para ese ranking de cada red, con los alimentadores arreglados en el eje horizontal desde el peor a la izquierda al mejor a la derecha) . El rendimiento del sistema un mejoramiento importante, comparando el periodo de tiempo hasta el verano de 2009 con el grupo testigo del verano de 2002. De hecho, hay menos de una oportunidad en un billón de que la población del tratamiento en 2009 no mejore sobre la población testigo de 2002. Mientras más grande sea la separación entre el mejoramiento del porcentaje acumulado en MTBF (linea punteada) contra el testigo de 2002 (continua) , más alto el nivel de importancia del resultado. En 2008, por ejemplo, había 1468 fuera de 4590 red-días que estaban libres de falla, o uno fuera de cada tres días de verano, pero en el grupo testigo de 2002, había únicamente 908 o uno fuera de cinco días de verano que estaban libres de falla. Mientras más grande el porcentaje de red-días que estaban libres de falla, menor la probabilidad de contingencias múltiples, lo cual también mejora de forma importante el índice de Conflabilidad de la Red (Figura 16) .

La Figura 17 demuestra la exactitud de predicción de las tasas de interrupción para todas las clases de interrupciones no planeadas sobre un periodo de tres años para el modelo MTBF del alimentador. Los resultados son activos claramente muy fuertes. Los conceptos del estudio valiosos de observar son: 1) Mortalidad infantil. El estudio no modeló la mortalidad infantil, es decir, la probabilidad aumentada de falla después de que un sistema reparado se regresó a servicio. Empíricamente se observó una probabilidad aumentada de mortalidad infantil durante aproximadamente seis semanas. 2) Datos censurados. Si los eventos son muy infrecuentes dentro de una muestra de entrenamiento de aprendizaje de máquina, no es posible entrenar con exactitud el sistema de aprendizaje para pronosticar con exactitud su frecuencia. Por ejemplo, si hay únicamente una falla durante tres años, ninguno de los dos periodos de tiempo - desde el inicio de recolección de datos al evento, y desde el evento al final de la recolección de datos - proporciona un estimado exacto de la frecuencia del evento real. Los sistemas CAP y CAPT, descritos más adelante, utilizan un estimado de frecuencia de evento que es igual a la longitud del periodo de entrenamiento dividido por el número de eventos, un método que conduce a mejores datos de entrenamiento, y en consecuencia estimados más exactos para activos "buenos" que los que se muestran en la Figura 17.

Evaluación del Ranking de Eventos en un Paso de hombre : La más reciente evaluación de los rankings en un paso de hombre fue una prueba ciega para pronosticar eventos en 2009 en el Bronx. La base de datos tiene datos a través de 2007, datos incompletos de 2008, y ningún dato de 2009 o después. Hay 27212 pasos de hombre en el Bronx. La prueba ciega mostró: • El 10% con mayor riesgo (2721/27212) de la lista con ranking contenía 44% (8/18) de los pasos de hombre que experimentaron un evento serio, • El 20% con mayor riesgo (5442/27212) de la lista con ranking contenía 55% (10/18) de los pasos con averías para eventos serios.

La Figura 18 contiene la Curva ROC para la lista con ranking completa.

Antes del inicio del proyecto, no era claro si los eventos en un paso de hombre se podrían pronosticar de los datos secundarios muy ruidosos. Estos resultados muestran que los eventos en un paso de hombre si son valiosos para los modelos de predicción.

SOFTWARE DE GESTIÓN Se desarrollaron interfaces con el fin de hacer útiles los resultados, y para ayudar en el descubrimiento del conocimiento .

CAP (Programa de Análisis de Contingencias) CAP es una herramienta utilizada en el centro de control principal. Recopila información pertinente a la interrupción de un cable alimentador primario. Cuando ocurre una contingencia, las aplicaciones están en uso (integradas en la herramienta CAP) que modela de forma preventiva la red para la posibilidad de alimentadores adicionales que fallan. Un indicador de susceptibilidad del alimentador (descrito anteriormente) se considera que da a los operadores una pieza importante nueva de información: un indicador de cuáles son los alimentadores con más probabilidad de fallar después. Los operadores pueden utilizar esta información para ayudar a determinar la asignación de esfuerzos y recursos para evitar una cascada. El alimentador con "las peores consecuencias" puede no ser el mismo que el alimentador con "más probabilidad de fallar ", de modo que el operador no siempre puede elegir asignar recursos completos al alimentador que es más probable que falle.

CAPT (Herramienta de Priorizacion de Capital Activo) CAPT es una aplicación que ofrece un mecanismo avanzado para ayudar a ingenieros y gerentes a planear las actualizaciones a los sistemas alimentadores de la NYC. Utilizando una interfaz gráfica, los usuarios ingresan primero las restricciones en trabajo que les gustarla hacer. Por ejemplo, los usuarios pueden especificar un municipio o red, una o más secciones especificas del alimentador o tipo de sección del alimentador, cantidad en dólares que se va a asignar, etc. CAPT produce entonces gráficas de beneficio contra curvas de costo de diversas estrategias de reemplazo con los objetivos de optimizar "sacar el mayor provecho"- el mayor aumento en el sistema MTBF (Media del tiempo entre fallas) para los dólares gastados.

Los componentes clave de CAPT incluyen 1) el modelo de regresión SVM utilizado para estimar MTBF para ambos alimentadores antes de cualquier cambio; 2) modelos de susceptibilidad que ordenen todas las secciones de cables, y uniones desde el mayor riesgo hasta el menor riesgo, permitiendo a CAPT decidir sobre buenos candidatos para reemplazo; 3) El mismo modelo en 1) utilizado para volver a estimar el MTBF de un alimentador mejorado propuesto; y 3) un sistema que presente en forma de gráfica para el usuario, curvas de intercambio (Pareto) de beneficio contra costo para diversas estrategias de reemplazo (Figura 21). El modelo para alimentadores es el mismo que para CAP, pero entrenado en el periodo más caliente del verano pasado para la planeación de otoño, y el modelo para cables, uniones y cabezas de martillo.

Herramienta de Perfilación de Estructura de Eventos en un Paso de hombre y Herramienta de Visualizacion Se han desarrollado diversas herramientas que permiten una evaluación cualitativa de resultados y métodos por los expertos de dominio. La herramienta más útil fue la " herramienta de perfilación de estructura, " (también llamada la herramienta de "tarjeta de reporte") que produce un reporte completo de datos crudos y procesados relacionados con un paso de hombre individual. Antes de que se pusiera en práctica esta herramienta, un estudio de un caso individual de un paso de hombre tomó días y resultó en un estudio incompleto. También se desarrolló una herramienta visualizacion que utiliza Google Earth como un contexto para presentar los lugares de eventos, pasos de hombre y cables. La Figura 22 presenta dos capturas de pantalla de la herramienta de visualizacion.

TRABAJO RELACIONADO Las aplicaciones incluyen la predicción de violaciones de la seguridad eléctrica, previsión, operación y control de sistemas de energía, y clasificación de alteraciones de los sistemas de energía. La exactitud predictiva ganada utilizando una técnica diferente frecuentemente es pequeña comparada con la exactitud ganada a través de otros pasos en el proceso de descubrimiento, o formulando el problema de forma diferente. Los datos de problemas en ingeniería eléctrica generalmente se supone que son sensibles para aprenden en su forma cruda, al contrario con nuestros datos. La segunda razón por la que la presente descripción es distinta de la literatura de ingeniería eléctrica es que las técnicas del aprendizaje de máquina que ha desarrollado la comunidad de ingenieros eléctricos frecuentemente son métodos de "caja negra" como pueden ser redes neurales y algoritmos genéticos. Las redes neurales y algoritmos genéticos se pueden ver como procedimientos de optimización heurística, no convexos para objetivos que tienen mínima local múltiple; el resultado de los algoritmos puede ser extremadamente sensible a las condiciones iniciales. Los métodos y sistemas descritos en la presente pueden emplear procedimientos de optimización convexa para evitar este problema. Además, estos tipos de algoritmos generalmente no producen soluciones que se pueden interpretar/significativas (por ejemplo la relación de entrada-salida de una red neural multicapa generalmente no se puede interpretar) , considerando que las modalidades de la presente solicitud pueden emplear combinaciones de características lineales simples.

La presente descripción soluciona los desafíos en datos históricos de redes eléctricas de minería de alta complejidad en una forma sin precedentes. La presente descripción contrasta completamente con una subserie de trabajos en ingeniería eléctrica donde los datos se generan utilizando las simulaciones Monte Cario, y las fallas simuladas se pronostican utilizando algoritmos de aprendizaje de máquina. En un sentido, la presente descripción puede estar más cerca a los desafíos de datos de minería en otros campos como puede ser comercio electrónico, investigación criminal, o procesamiento de pacientes médicos que abarcan el proceso de descubrimiento completo. Por ejemplo, es interesante contrastar, la presente descripción en eventos en un paso de hombre con el estudio de Cornélusse et al. Quien utilizó expertos de dominio para etiquetar los "incidentes de frecuencia " en generadores, y construyó un modelo de aprendizaje de máquina de las señales de frecuencia y etiquetas que determinan las fallas con precisión. La tarea de predicción del evento en un paso de hombre descrita en la presente también utilizó expertos de dominio para etiquetar Tickets de problemas si representaban eventos serios; sin embargo, el nivel de procesamiento requerido para limpiar y representar los tickets, junto con la geocodificación y extracción de información necesarios para determinar con precisión los lugares del evento, acoplados con la integración de la tarea de aprendizaje de máquina que etiqueta el ticket con la tarea de clasificar el aprendizaje de máquina hace de la última tarea un compromiso mucho más considerable.

LECCIONES APRENDIDAS Hay varios mensajes "transmitidos" al poner en práctica nuestras herramientas en la red de la NYC: La Predicción es Posible Se ha mostrado éxito al pronosticar las fallas de componentes eléctricos con base en los datos recolectados por una compañía de servicios públicos eléctricos. No era claro al inicio que el descubrimiento del conocimiento y las propuestas de datos de minería podrían pronosticar fallas de componentes eléctricos, solo permitirían ayudar a los ingenieros de dominio con los programas del mantenimiento proactivo. Antes de los sucesos en el proyecto del evento en un paso de hombre, muchos ingenieros de servicios públicos no vieron la predicción de eventos en un paso de hombre como una meta real. Los datos del Ticket de problemas podría haberse dejado fácilmente que se volviera lo que Fayyad et al. considera una "tumba de datos." En este caso, el remedio se creó de una formulación cuidadosa del problema, herramientas de procesamiento de texto sofisticadas, y técnicas de aprendizaje de máquina de más innovadoras.

Los Datos son la Clave Las Compañías eléctricas ya recolectan una gran cantidad de datos, sin embargo, si estos datos se van a utilizar para la predicción de fallas, sería ideal tener ciertas propiedades: primero, sería claro de los datos cuando ha ocurrido una falla, y el tipo (y causa, si está disponible) de falla. Segundo, los datos serían tan "limpios" como fuera posible, significando por ejemplo, que los identificadores únicos se utilizarían para cada componente. También, si un componente se reemplaza, es importante registrar las propiedades del componente antiguo antes del reemplazo; de otro modo no se puede determinar que propiedades de componentes son comunes a aquellos que están siendo reemplazados.

Para los Tickets de problemas, los campos de texto no estructurados se deberían eliminar. Es verdad que los datos estructurados son más fáciles de analizar; por otro lado, el texto libre puede ser mucho más confiable. Esto también lo describe Dalai et al, al tratar con Tickets de problemas de los datos de transacciones de la web; en su caso, un campo de texto libre de 40 caracteres contiene más información que ningún otro campo en la base de datos. En el caso del Ticket de problemas descrito en la presente, la representación actual con base en el texto libre puede determinar de forma mucho más confiable la seriedad de eventos que el código tipo problema (estructurado) . Además, el tipo de información que generalmente se registra en el Ticket de problemas no puede ajustar fácilmente en un número limitado de categorías, y se pregunta a los operadores que elijan la categoría con presión de tiempo no es práctico. Se ha demostrado que el análisis de texto no estructurado es posible, e incluso práctico.

Los Métodos de Ranking de Aprendizaje de Máquina son útiles para Priorización Los métodos de aprendizaje de máquina para ranking no se utilizan en muchos dominios de la aplicación además de la recuperación de información. Hasta ahora, se ha encontrado que en el dominio de mantenimiento de redes eléctricas, una clave para tener éxito está en la interpretación y procesamiento de datos, en lugar del método exacto de aprendizaje de máquina utilizado; sin embargo, estos nuevos métodos de ranking se diseñan exactamente para la priorización de problemas, y es posible que estos métodos puedan ofrecer una ventaja sobre los métodos más antiguos en muchas aplicaciones. Además, a medida que la recolección de datos se vuelve más automatizada, es posible que la dependencia al procesar disminuya, y habrá una ventaja considerable al utilizar algoritmos diseñados precisamente para la tarea de priorización.

El Mantenimiento Reactivo puede originar sobre tratamiento Se ha demostrado con un método estadístico llamado tendencia que el programa de prueba de Potencial Alto (Hipot) en Con Edison estaba sobre tratando al "paciente," es decir, los alimentadores . Hipot es, por definición, mantenimiento preventivo en esas fallas incipientes que son mandadas para fallar creando tensión intencionalmente el alimentador. Se encontró sin embargo, que la prueba Hipot DC, en particular, no estaba superando un grupo testigo "placebo" que fue marcado por Con Edison igualmente "enfermo" pero en el cual no se hizo ningún trabajo (Figura 23) . Cuando se adicionó una nueva prueba AC para deshacer algo del sobre tratamiento, se demostró que como la prueba era perfecta en el sistema Con Edison, el nivel de rendimiento aumentó y habría sobrepasado las subsiguientes del grupo testigo. Después de esto, las operaciones e ingeniería de distribución en Con Edison adicionó una prueba AC modificada que de hecho había mejorado el rendimiento del grupo testigo. Esta interacción entre aprendizaje de máquina, estadísticas, programas de mantenimiento preventivo y expertos de dominio probablemente identificarán el sobre tratamiento en la mayor parte de servicios públicos que son predominantemente reactivos a fallas ahora. Esa ha sido la experiencia en otras industrias, incluyendo aquellas para las cuales se han desarrollado estas técnicas, como puede ser la industria automotriz y aeroespacial , la militar, así como la industria médica.

CONCLUSIONES Sobre las diversas décadas siguientes habrá mayor dependencia en una infraestructura eléctrica envejecida y rebasada. La conflabilidad de la red futura dependerá fuertemente en las nuevas políticas de mantenimiento preventivo que actualmente están siendo puestas en práctica alrededor del mundo. La presente descripción proporciona un instrumento fundamental para construir políticas eficaces: aprendizaje de máquina y descubrimiento del conocimiento para la predicción de componentes vulnerables. Los servicios públicos eléctricos pueden utilizar los métodos y sistemas descritos en la presente para la predicción de fallas y mantenimiento preventivo. Se ha mostrado la especialización de este proceso para el ranking de alimentadores, ranking de componentes del alimentador (cables, uniones, cabezas de martillo, etc.), estimación MTBF, y ranking de vulnerabilidad en un paso de hombre. Se ha demostrado, a través de la aplicación directa a la red eléctrica de la NYC, que los datos ya recolectados por las compañías eléctricas se pueden utilizar para pronosticar, y de este modo prevenir, las fallas de la red.

Claims

REIVINDICACIONES

1. Un sistema de aprendizaje de máquina para el ranking de una colección de métricas filtradas de la tendencia a fallas de los componentes similares dentro de una red eléctrica que incluye: a. una unidad de datos crudos para proporcionar datos crudos representativos de los componentes similares dentro de la red eléctrica; b. un procesador de datos acoplado a la unidad de datos crudos para convertir los datos crudos en datos más uniformes a través de una o más técnicas de procesamiento de datos; c. una base de datos, acoplada de manera operante a la base de datos, para almacenar los datos más uniformes; d. un motor de aprendizaje de máquina, acoplado de manera operante a la base de datos, para proporcionar una colección de métricas de tendencia a fallas para los componentes similares; e. un motor de evaluación, acoplado de manera operante al motor de aprendizaje de máquina, para detectar y quitar métricas que no cumplan, a partir de la colección de métricas de tendencia a fallas para proporcionar la colección de métricas filtradas de tendencia a fallas; y f. una aplicación para sustentar la toma de decisiones, acoplada de manera operante al motor de evaluación, configurada para presentar un ranking de la colección de métricas filtradas de tendencia a fallas de los componentes similares dentro de la red eléctrica.

2. El sistema de aprendizaje de máquina de acuerdo con la reivindicación 1, en donde los datos crudos representativos de los componentes similares se obtienen al menos en parte de un registro de mantenimiento o una solicitud de mantenimiento para al menos uno de los componentes similares.

3. El sistema de aprendizaje de máquina de acuerdo con la reivindicación 1, en donde las técnicas de procesamiento de datos incluyen una o más de una unión inferencial, coincidencia de patrones, extracción de información, normalización de texto, datos traslapantes de consultas para encontrar inconsistencias, e inferencia de registros relacionados o duplicados.

4. El sistema de aprendizaje de máquina de acuerdo con la reivindicación 1, en donde las métricas que no cumplen se detectan con base en una o más de AUC, AUC ponderada, y una exclusión de porcentaje de falla predefinida.

5. El sistema de aprendizaje de máquina de acuerdo con la reivindicación 1, en donde el motor de evaluación además contiene una base de datos derivada de interrupciones para almacenar las series de datos derivadas de interrupciones que captura el precursor dinámico para datos de fallas representativos de al menos uno de los componentes similares.

6. El sistema de aprendizaje de máquina de acuerdo con la reivindicación 5, en donde el precursor dinámico para datos de fallas se obtiene de un dominio de tiempo desplazado en tiempo que termina justo antes del momento de la falla y empieza en un tiempo preseleccionado anterior a la falla.

7. El sistema de aprendizaje de máquina de acuerdo con la reivindicación 1, en donde los componentes similares son componentes de la red secundaria seleccionados de cables, uniones, terminadores , cabezas de martillo, pasos de hombre y transformadores.

El sistema de aprendizaje de máquina de acuerdo con reivindicación 7, en donde los componentes similares pasos de hombre.

9. El sistema de aprendizaje de máquina de acuerdo con la reivindicación 1, en donde la métrica de tendencia a fallas se selecciona de la Media del Tiempo Entre Fallas (MTBF) y media del tiempo a la falla (MTTF) .

10. El sistema de aprendizaje de máquina de acuerdo con la reivindicación 1, en donde el motor de evaluación una historia de datos para grabar una colección de métrica filtrada de tendencia a fallas sobre un primer periodo de tiempo y una colección de métrica filtrada de tendencia a fallas sobre un segundo periodo de tiempo, y un analizador de datos para determinar si la colección de métrica filtrada de tendencia a fallas en el primer periodo de tiempo mejoró estadísticamente sobre la colección de métrica filtrada de tendencia a fallas en el segundo periodo de tiempo.

11. Un método para el ranking de una colección de métricas filtradas de tendencia a fallas de componentes similares dentro de una red eléctrica a través de aprendizaje de máquina que consiste en: (a) proporcionar una unidad de datos crudos para proporcionar datos crudos representativos de los componentes similares dentro de la red eléctrica; (b) procesar los datos crudos para convertir los datos crudos a datos crudos más uniformes a través de una o más técnicas de procesamiento de datos; (c) almacenar los datos más uniformes en una base de datos; (d) transmitir los datos más uniformes a un motor de aprendizaje de máquina para proporcionar una colección de métricas de tendencia a fallas para los componentes similares ; (e) evaluar la colección de métricas de tendencia a fallas en un motor de evaluación para detectar y quitar las métricas que no cumplen la colección de métricas de tendencia a fallas y proporcionar la colección de métricas filtradas de tendencia a fallas; y (f) clasificar la colección de métricas filtradas de tendencia a fallas obtenidas del motor de evaluación y presentar el ranking en una aplicación para sustentar la toma de decisiones.

12. El método de acuerdo con la reivindicación 11, en donde los datos crudos representativos de los componentes similares se obtienen al menos en parte de un registro de mantenimiento o una solicitud de mantenimiento para al menos uno de los componentes similares.

13. El método de acuerdo con la reivindicación 11, en donde las técnicas de procesamiento de datos incluyen una o más de una unión inferencial, coincidencia de patrones, extracción de información, normalización de texto, datos traslapantes de consultas para encontrar inconsistencias, e inferencia de registros relacionados o duplicados.

14. El método de acuerdo con la reivindicación 11, en donde las métricas que no cumplen se detectan con base en una o más de AUC, AUC ponderada, y una exclusión de porcentaje de falla predefinido.

15. El método de acuerdo con la reivindicación 11, en donde la evaluación además consiste en almacenar las series de datos derivados de interrupciones que captura el precursor dinámico a los datos de fallas representativas de al menos uno de los componentes similares .

16. El método de acuerdo con la reivindicación 15, en donde el precursor dinámico de datos de fallas se obtiene de un dominio de tiempo desplazado en tiempo que termina en o justo antes del momento de la falla y empieza en un tiempo preseleccionado anterior a la falla.

17. El método de acuerdo con la reivindicación 11, en donde los componentes similares son componentes seleccionados de alimentadores, cables, uniones, terminadores, cabezas de martillo, pasos de hombre y transformadores.

18. El sistema de aprendizaje de maquina de acuerdo con la reivindicación 17, en donde los componentes similares son pasos de hombre.

19. El método de acuerdo con la reivindicación 11, en donde la métrica de tendencia a fallas se selecciona de Media del Tiempo Entre Fallas ( TBF) y media del tiempo a la falla (MTTF) .

20. El método de acuerdo con la reivindicación 1, en donde la evaluación además consiste en grabar una colección de métricas filtradas de tendencia a fallas sobre un primer periodo de tiempo y una colección de métricas filtradas de tendencia a fallas sobre un segundo periodo de tiempo, y analizarlas para determinar si la colección de métricas filtradas de tendencia a fallas en el primer periodo de tiempo mejoró estadísticamente sobre la colección de métricas filtradas de tendencia a fallas en el segundo periodo de tiempo.