EA038056B1 - Computerized method for creating and managing scoring models - Google Patents
Computerized method for creating and managing scoring models Download PDFInfo
- Publication number
- EA038056B1 EA038056B1 EA201700609A EA201700609A EA038056B1 EA 038056 B1 EA038056 B1 EA 038056B1 EA 201700609 A EA201700609 A EA 201700609A EA 201700609 A EA201700609 A EA 201700609A EA 038056 B1 EA038056 B1 EA 038056B1
- Authority
- EA
- Eurasian Patent Office
- Prior art keywords
- factors
- scoring
- factor
- credit
- scoring model
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000007477 logistic regression Methods 0.000 claims abstract description 6
- 230000001131 transforming effect Effects 0.000 claims abstract 2
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000010200 validation analysis Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 10
- 238000011161 development Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 5
- 238000009434 installation Methods 0.000 claims description 3
- 238000010295 mobile communication Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 16
- 238000003860 storage Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 238000005267 amalgamation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000010970 precious metal Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000012113 quantitative test Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
Description
Область техникиTechnology area
Данное изобретение в общем относится к области вычислительной техники, а в частности к способам автоматической разработки моделей кредитного скоринга и их автоматической имплементации в кредитный процесс.This invention generally relates to the field of computing, and in particular to methods for the automatic development of credit scoring models and their automatic implementation in the credit process.
Уровень техникиState of the art
В настоящее время финансовые учреждения применяют стандартные статистические подходы к анализу исторических данных для описания возможных клиентов с точки зрения риска. Это позволяет классифицировать заемщиков на хороших и плохих и таким образом принимать окончательное решение о кредитовании. В большинстве кредитных учреждений созданы подразделения, разрабатывающие модели кредитного скоринга на основании собственной статистики с учетом специфики клиентского профиля. Однако данные кредитные учреждения часто обращаются в бюро кредитных историй, из-за чего процесс оценки кредитоспособности заемщика сильно затягивается и становится неточным, так как зависит от использованных алгоритмов бюро кредитных историй.Currently, financial institutions use standard statistical approaches to analyzing historical data to describe potential clients in terms of risk. This allows you to classify borrowers into good and bad and thus make the final decision on lending. Most credit institutions have established departments that develop credit scoring models based on their own statistics, taking into account the specifics of the client profile. However, these credit institutions often contact the credit bureaus, which is why the process of assessing the borrower's creditworthiness is greatly delayed and becomes inaccurate, since it depends on the algorithms used by the credit bureaus.
Сущность изобретенияThe essence of the invention
Данное изобретение направлено на устранение недостатков, присущих существующим решениям, известным из уровня техники.This invention is aimed at eliminating the disadvantages inherent in existing solutions known from the prior art.
Технической проблемой (или технической задачей) в данном изобретении является осуществление автоматической разработки моделей кредитного скоринга с их последующей имплементацией в систему принятия решения и мониторингом.The technical problem (or technical problem) in this invention is the implementation of the automatic development of credit scoring models with their subsequent implementation into the decision-making and monitoring system.
Техническим результатом, проявляющимся при решении вышеуказанной задачи, является повышение качества создаваемых моделей кредитного скоринга. Дополнительным техническим результатом, проявляющимся при решении технической задачи, является увеличение скорости разработки моделей кредитного скоринга. Также снижается потребность в количестве ресурсов, необходимых для разработки и поддержки моделей, увеличение скорости и простоты внедрения моделей в промышленный контур, а также обеспечение мониторинга работы моделей и оперативной реакции на изменения.The technical result, which manifests itself in solving the above problem, is to improve the quality of the created credit scoring models. An additional technical result that manifests itself in solving a technical problem is an increase in the speed of developing credit scoring models. It also reduces the need for the amount of resources required to develop and maintain models, increase the speed and ease of implementation of models into the industrial circuit, as well as ensure monitoring of the operation of models and prompt response to changes.
Указанный технический результат достигается благодаря осуществлению способа разработки и управления моделями скоринга, в котором получают данные за заданный период времени, содержащие факторы, влияющие на модель скоринга;The specified technical result is achieved due to the implementation of a method for the development and management of scoring models, in which data is obtained for a given period of time, containing factors affecting the scoring model;
после чего осуществляют разбиение полученных данных на выборки для разработки, валидации и тестирования модели скоринга;after that, the obtained data are divided into samples for the development, validation and testing of the scoring model;
затем осуществляют трансформацию факторов посредством установления соотношений между группами значений преобразованного фактора и уровнями дефолтов;then, the transformation of factors is carried out by establishing relationships between the groups of values of the transformed factor and the levels of defaults;
далее исключают из выборок по меньшей мере один преобразованный фактор, коррелирующий по меньшей мере с одним другим фактором;then exclude from the samples at least one transformed factor that correlates with at least one other factor;
формируют модель кредитного скоринга посредством обучения бинарной множественной логистической регрессии;form a credit scoring model by training binary multiple logistic regression;
подбирают автоматически зоны отсечения для по меньшей мере одной модели скоринга для ее установки в кредитную процедуру.automatically select cut-off zones for at least one scoring model for its installation in the credit procedure.
В некоторых вариантах осуществления получают данные за заданный период времени с мобильного устройства связи пользователя.In some embodiments, data is obtained for a predetermined period of time from a user's mobile communications device.
В некоторых вариантах осуществления при осуществлении разбиения полученных данных на выборки получают непересекающиеся во времени части исходной совокупности или случайные подвыборки.In some embodiments, the implementation of splitting the received data into samples obtains time-disjoint portions of the original population or random subsamples.
В некоторых вариантах осуществления факторами, влияющими на модель скоринга, являются годовой доход, и/или размер непогашенного долга, и/или владение недвижимостью, и/или владение автомобилем, и/или стаж работы на последнем месте, и/или возраст.In some embodiments, the factors influencing the scoring model are annual income and / or outstanding debt and / or ownership of real estate and / or car ownership and / or seniority in last place and / or age.
В некоторых вариантах осуществления факторы, влияющие на модель скоринга, являются дискретными или непрерывными.In some embodiments, the factors influencing the scoring model are discrete or continuous.
В некоторых вариантах осуществления при осуществлении трансформации факторов определяют степень отклонения уровня дефолтов по группе данных от среднего уровня дефолтов по всей выборке.In some embodiments, the implementation of the transformation of factors determines the degree of deviation of the default rate for the data group from the average default rate for the entire sample.
В некоторых вариантах осуществления при осуществлении трансформации факторов по факторам, попавшим в список исключенных, запускают алгоритм разбиения значений факторов с новым набором настроек.In some embodiments, the implementation of the transformation of factors by factors included in the excluded list, an algorithm for splitting the factor values with a new set of settings is started.
В некоторых вариантах осуществления при исключении из выборок преобразованных факторов формируют таблицу со значениями коэффициентов парных корреляций преобразованных факторов.In some embodiments, when the transformed factors are excluded from the samples, a table is formed with the values of the pair correlation coefficients of the transformed factors.
В некоторых вариантах осуществления при исключении из выборок преобразованных факторов в цикле отбирают фактор, который имеет наибольшее количество коррелированных с ним факторов.In some embodiments, excluding transformed factors from the samples in the cycle selects the factor that has the largest number of factors correlated with it.
В некоторых вариантах осуществления при формировании модели кредитного скоринга строится логистическая модель с использованием пошаговой регрессии для отбора итогового набора факторов.In some embodiments, when generating a credit scoring model, a logistic model is constructed using stepwise regression to select the resulting set of factors.
Краткое описание чертежейBrief Description of Drawings
Признаки и преимущества настоящего изобретения станут очевидными из приводимого ниже под- 1 038056 робного описания изобретения и прилагаемых чертежей.Features and advantages of the present invention will become apparent from the detailed description of the invention which follows and the accompanying drawings.
На фиг. 1 показан пример осуществления способа разработки и управления моделями скоринга в виде блок-схемы.FIG. 1 shows an example of an implementation of a method for developing and managing scoring models in the form of a block diagram.
На фиг. 2 показана верхнеуровневая примерная схема осуществления способа разработки и управления моделями скоринга.FIG. 2 shows a high-level exemplary diagram of a method for developing and managing scoring models.
Основное ядро составляют два блока - это переобучение и подбор/корректировка зон отсечения, причем без адаптации зон отсечения невозможно организовать автоматическое внедрение модели в систему принятия решения. Результаты двух этих блоков интегрируются в промышленную среду (в данном варианте осуществления в SAS RTDM). Кроме того, каждый из этих двух блоков подвергается регламентным проверкам в виде ежедневного мониторинга целевого показателя, зависящего от зон отсечения (уровень одобрения) и ежемесячной валидации моделей.The main core is made up of two blocks - this is retraining and selection / adjustment of cut-off zones, and without adaptation of cut-off zones, it is impossible to organize automatic introduction of the model into the decision-making system. The results of these two blocks are integrated into a production environment (in this embodiment, SAS RTDM). In addition, each of these two blocks is subject to routine checks in the form of daily monitoring of the target indicator depending on the cut-off zones (approval level) and monthly model validation.
Подробное описание изобретенияDetailed description of the invention
Данное изобретение может быть реализовано на компьютере, в виде автоматизированной системы (АС) или машиночитаемого носителя, содержащего инструкции для выполнения вышеупомянутого способа.This invention can be implemented on a computer, in the form of an automated system (AS) or a computer-readable medium containing instructions for performing the above method.
Изобретение может быть реализовано в виде распределенной компьютерной системы.The invention can be implemented as a distributed computer system.
В данном решении под системой подразумевается компьютерная система, ЭВМ (электронновычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность вычислительных операций (действий, инструкций).In this solution, the system means a computer system, a computer (electronic computing machine), CNC (numerical control), PLC (programmable logic controller), computerized control systems and any other devices capable of performing a given, well-defined sequence of computational operations (actions, instructions ).
Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).A command processing device means an electronic unit or an integrated circuit (microprocessor) that executes machine instructions (programs).
Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройства хранения данных. В роли устройства хранения данных могут выступать, но, не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.A command processor reads and executes machine instructions (programs) from one or more storage devices. The role of data storage devices can be, but are not limited to, hard disks (HDD), flash memory, ROM (read only memory), solid state drives (SSD), optical drives.
Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.A program is a sequence of instructions intended for execution by a computer control device or a command processing device.
Ниже будут описаны термины и понятия, необходимые для осуществления изобретения.Below will be described the terms and concepts necessary for the implementation of the invention.
Кредитный скорииг - это метод моделирования кредитного риска заемщика, основанный на численных статистических методах. Назначение кредитного скоринга - принятие решений по выдаче кредитов физическим или юридическим лицам.Credit score is a method for modeling the credit risk of a borrower based on numerical statistical methods. The purpose of credit scoring is making decisions on granting loans to individuals or legal entities.
P-value - величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода).P-value is a value used when testing statistical hypotheses. In fact, this is the probability of error when the null hypothesis is rejected (errors of the first kind).
Репрезентативность - соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом.Representativeness is the correspondence of the characteristics of the sample to the characteristics of the population or the general population as a whole.
Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определенной выборки на всю генеральную совокупность.Representativeness determines how much it is possible to generalize the results of a study using a certain sample for the entire general population.
DR - уровень дефолтов. Рассчитывается как число дефолтных наблюдений в группе, деленное на число всех наблюдений в группе.DR is the level of defaults. Calculated as the number of default cases in the group divided by the number of all cases in the group.
Бутстреп - практический компьютерный метод исследования распределения статистик вероятностных распределений, основанный на многократной генерации выборок на базе имеющейся выборки.Bootstrap is a practical computer method for studying the distribution of statistics of probability distributions, based on the repeated generation of samples based on the available sample.
Вероятность дефолта - вероятность наступления дефолта по сделке в течение одного года с даты присвоения/корректировки рейтинга.Default Probability - the probability of a default occurring on a transaction within one year from the date of the rating assignment / adjustment.
Выборка - набор сделок и их параметров, отвечающих заданным характеристикам и представляющим из себя часть анализируемой генеральной совокупности.A sample is a set of transactions and their parameters that correspond to the given characteristics and represent a part of the analyzed general population.
Выборка для обучения - набор сделок и их параметров, использующихся для оценки модели.Sample for training - a set of transactions and their parameters used to evaluate the model.
Выборка для оценки стабильности - набор сделок и их параметров, использующихся для оценки стабильности ранжирующей способности факторов и их разбиений.Sample for assessing stability - a set of transactions and their parameters used to assess the stability of the ranking ability of factors and their breakdowns.
Выборка для тестирования - данные по всем имеющимся договорам за все доступные отчетные даты. Определяется применительно к сегменту, на котором разрабатывается модель.Sample for testing - data for all available contracts for all available reporting dates. Defined in relation to the segment in which the model is developed.
Генеральная совокупность - совокупность пар сделка-дата, относящихся к выделенному сегменту.General population - a collection of transaction-date pairs related to the selected segment.
Дискретные факторы - факторы с ограниченным количеством вариантов значений.Discrete factors are factors with a limited number of value options.
Непрерывные факторы - факторы с неограниченным количеством возможных вариантов значений.Continuous factors are factors with an unlimited number of possible variants of values.
Обучающая выборка - набор сделок и их параметров, использующихся для разработки модели.Training sample - a set of deals and their parameters used to develop a model.
Преобразование факторов - замена значений факторов на расчетные величины (скоры, WOE), связанные с оценкой вероятности дефолта, относящейся к значению фактора.Factor transformation - replacing factor values with calculated values (rates, WOE) associated with an estimate of the probability of default related to the factor value.
Скоринговый балл - значение показателя качества сделок с точки зрения вероятности их дефолта.Scoring score - the value of the indicator of the quality of transactions in terms of the probability of their default.
Тестовая выборка - выборка, используемая для проверки эффективности полученной модели (не участвует в разработке)Test sample - a sample used to test the effectiveness of the resulting model (not involved in the development)
Трансформация факторов - то же, что и преобразование факторов.The transformation of factors is the same as the transformation of factors.
- 2 038056- 2 038056
PD - величина вероятности дефолта.PD is the value of the probability of default.
WOE (англ. weight of evidence) - величина, которая характеризует степень отклонения уровня дефолтов по группе от среднего уровня дефолтов по всей выборке.WOE (weight of evidence) is a value that characterizes the degree of deviation of the default rate for a group from the average default rate for the entire sample.
Компьютеризированный способ разработки и управления моделями скоринга, схематично показанный на фиг. 1, включает следующие шаги.The computerized method for developing and managing scoring models, schematically shown in FIG. 1 includes the following steps.
Шаг 101: получают данные за заданный период времени, содержащие факторы, влияющие на модель скоринга.Step 101: Get data for a given period of time containing factors that influence the scoring model.
Данные пользователя могут включать текущее состояние счетов (включая закрытые) - даты открытия, текущие остатки, срок, валюта, тип и название продукта, количество пролонгаций, текущий статус и так далее, не ограничиваясь.User data may include the current state of accounts (including closed ones) - opening dates, current balances, term, currency, product type and name, number of renewals, current status, and so on, but not limited to.
Также полученные данные могут включать ежемесячные балансы (на конец каждого месяца) по каждому счету за последний промежуток времени (например, за последние полгода), все операции за тот же период с суммой, типом и подтипом, с признаком дебет/кредит.Also, the obtained data may include monthly balances (at the end of each month) for each account for the last period of time (for example, for the last six months), all transactions for the same period with the amount, type and subtype, with the debit / credit attribute.
Вышеуказанные данные, которые представляют собой выборку, могут получать с мобильного устройства связи пользователя, например, такого как планшет, мобильный телефон, смартфон, или из автоматизированной системы финансово-кредитной организации, в которой хранятся данные.The above data, which is a sample, can be obtained from a user's mobile communication device, for example, such as a tablet, mobile phone, smartphone, or from an automated system of a financial and credit institution in which the data is stored.
На основе полученных данных о пользователях автоматически определяют кредитный скоринг, т.е. прогнозируют невозврат выданного кредита пользователем. Для этого используют обучающую выборку: набор объектов (пользователей), каждый из которых характеризуется набором признаков (таких как возраст, зарплата, тип кредита, состояние счетов, ежемесячные балансы, невозвраты в прошлом и т.д.), а также целевым признаком. Целевым признаком может быть, например, просрочка кредита. Если этот целевой признак - просто факт невозврата кредита (принимает значение 1 или 0, т.е. финансовокредитная организация знает о своих клиентах, кто вернул кредит, а кто - нет), то это задача (бинарной) классификации. Если известно, насколько по времени клиент затянул с возвратом кредита, и хочется то же самое прогнозировать для новых клиентов, то это будет задачей регрессии.Based on the received user data, the credit score is automatically determined, i.e. predicting non-repayment of the issued loan by the user. For this, a training sample is used: a set of objects (users), each of which is characterized by a set of characteristics (such as age, salary, type of loan, account balance, monthly balances, past defaults, etc.), as well as a target feature. The target attribute could be, for example, a loan delinquency. If this target feature is simply the fact that a loan is not repaid (takes the value 1 or 0, i.e. the financial institution knows about its customers, who repaid the loan and who did not), then this is a (binary) classification problem. If you know how long the client has delayed with the loan repayment, and you want to predict the same for new clients, then this will be a regression task.
Для каждой группы счетов (депозиты и прочие счета) могут учитываться следующие данные или факторы:For each group of accounts (deposits and other accounts), the following data or factors can be taken into account:
количество счетов;number of accounts;
количество счетов со статусом Действующий;number of accounts with the Active status;
количество счетов со статусом Закрыт;number of accounts with the Closed status;
количество счетов со статусом Счет арестован;number of accounts with the Account arrested status;
Худший статус по всем счетам клиента;Worst status for all client accounts;
количество счетов в иностранной валюте;the number of accounts in foreign currency;
количество счетов в драгоценных металлах;number of accounts in precious metals;
минимальный срок по счетам;minimum term on accounts;
средний срок по счетам;average term on accounts;
максимальный срок по счетам;maximum term on accounts;
минимальный срок по действующим счетам;minimum term for current accounts;
средний срок по действующим счетам;average term for active accounts;
максимальный срок по действующим счетам;maximum term for active accounts;
средневзвешенный по текущему остатку в рублях срок договора;the weighted average of the current balance in rubles term of the agreement;
общая сумма текущих остатков;the total amount of current balances;
максимальная сумма остатка по всем счетам;the maximum amount of the balance for all accounts;
средневзвешенный по текущему остатку доля валютных счетов;the weighted average for the current balance share of foreign currency accounts;
средневзвешенный по текущему остатку доля счетов в драгоценных металлах;the weighted average for the current balance of the share of accounts in precious metals;
время в днях, прошедшее с даты открытия самого раннего счета.time in days since the earliest account was opened.
Специалисту в данном уровне техники очевидно, что представленный выше набор данных является примерным и в некоторых вариантах осуществления может отличаться от приведенного выше.A person skilled in the art will appreciate that the above dataset is exemplary and, in some embodiments, may differ from the above.
Далее осуществляют формирование по меньшей мере одной выборки для разработки модели скоринга. Для этого используются наиболее актуальные, выданные за один календарный год кредиты, находящиеся в портфеле не менее 12 месяцев. Поскольку модели скоринга разрабатываются для прогнозирования поведения всех заемщиков, ее разработка исключительно на выданных заявках может привести к неточным результатам. В таком случае модель будет обучена на смещенной выборке, поэтому осуществляют анализ заявок, по которым получены отказы предыдущей модели скоринга. В целях учета этих отказов к выборке для разработки модели скоринга добавляется некоторый процент худших заявок, по которым получен отказ предшествующей модели. Все такие заявки считаются по умолчанию дефолтными.Next, at least one sample is formed to develop a scoring model. For this, the most relevant loans issued in one calendar year are used, which are in the portfolio for at least 12 months. Since scoring models are designed to predict the behavior of all borrowers, developing it solely on issued applications may lead to inaccurate results. In this case, the model will be trained on a biased sample, therefore, applications are analyzed for which the previous scoring model failed. In order to account for these rejections, a certain percentage of the worst claims for which the previous model was rejected is added to the sample for developing a scoring model. All such orders are considered default by default.
Шаг 102: осуществляют разбиение полученных данных на выборки для обучения, валидации и тестирования модели скоринга.Step 102: split the obtained data into samples for training, validation and testing of the scoring model.
На данном этапе исходная совокупность данных разбивается на обучающую, валидационную и тестовую выборку в заданном соотношении. В дальнейшем обучающая выборка используется на всех этапах процесса, валидационная применяется для отбора наиболее стабильных факторов и итоговой проверки качества модели скоринга, а тестовая - для комплексного независимого тестирования. Выборки в не- 3 038056 которых вариантах осуществления могут формироваться как последовательные, непересекающиеся во времени части исходной совокупности или как случайные подвыборки.At this stage, the initial data set is divided into training, validation and test sets in a given ratio. In the future, the training sample is used at all stages of the process, the validation sample is used to select the most stable factors and the final quality check of the scoring model, and the test sample is used for comprehensive independent testing. Samples in non-3 038056 of which embodiments may be generated as sequential, time-disjoint portions of the original population, or as random subsamples.
Шаг 103: осуществляют трансформацию факторов посредством установления соотношений между группами значений преобразованного фактора и уровнями дефолтов.Step 103: transformation of factors is carried out by establishing relationships between groups of values of the transformed factor and levels of defaults.
В качестве факторов, используемых в качестве входных параметров для моделей скоринга и потенциально связанных с кредитоспособностью пользователя, могут быть, не ограничиваясь, такие как годовой доход, размер непогашенного долга, владение недвижимостью или автомобилем, стаж работы на последнем месте, возраст и т.п.Factors used as inputs to scoring models and potentially related to a user's creditworthiness may include, but are not limited to, annual income, outstanding debt, ownership of real estate or a car, length of service in last place, age, etc. ...
Среди факторов, описывающих данные кредитной заявки, большую часть обычно составляют дискретные (образование, пол, семейное положение, цель кредита, вид собственности на жилье, род деятельности и т.п.). При этом, если некоторые факторы поддаются некоторому упорядочению (например, образование - можно считать, что чем выше уровень, тем больше значение переменной), то для других не существует никакого осмысленного линейного порядка (например, семейное положение или цель кредита). Следовательно, такие переменные нельзя даже приблизительно считать непрерывными, поскольку их значения суть номера ответов на соответствующие вопросы, которые могут располагаться в произвольном порядке. Если используемая модель скоринга требует использования непрерывных переменных, то можно обойти дискретность переменных, заменив их на большее количество переменных, принимающих значения от 0 до 1.Among the factors that describe the data of a loan application, most are usually discrete (education, gender, marital status, purpose of the loan, type of housing ownership, occupation, etc.). At the same time, if some factors lend themselves to some ordering (for example, education - we can assume that the higher the level, the greater the value of the variable), then for others there is no meaningful linear order (for example, marital status or the purpose of the loan). Consequently, such variables cannot be considered even approximately continuous, since their values are the numbers of answers to the corresponding questions, which can be arranged in an arbitrary order. If the used scoring model requires the use of continuous variables, then the discreteness of the variables can be bypassed by replacing them with a larger number of variables taking values from 0 to 1.
Трансформация каждого рассматриваемого фактора заключается в замене его значений расчетной величиной - WOE.The transformation of each factor under consideration consists in replacing its values with a calculated value - WOE.
WOE - weight of evidence, характеризует степень отклонения уровня дефолтов по группе данных от среднего уровня дефолтов по всей выборке. Таким образом, каждый фактор заменяется соответствующим ему WOE-фактором следующим образом:WOE - weight of evidence, characterizes the degree of deviation of the default level for a group of data from the average default level for the entire sample. Thus, each factor is replaced by its corresponding WOE factor as follows:
W OE-факторi=W OE;(f), где f - рассматриваемый фактор, i - номер группы значений фактора f, WOEi(f) - значение WOE, соответствующее группе значений i. В некоторых вариантах осуществления показатель WOE может принимать любые значения. Положительные значения WOE говорят о том, что рассматриваемый сегмент имеет более низкое значение уровня дефолтов, чем выборка в целом (чем больше WOE, тем ниже уровень дефолтов). Значение WOE меньше нуля говорит о том, что рассматриваемый сегмент имеет более высокое значение уровня дефолтов, чем выборка в целом. Значения WOE по группе i может определяться следующим образом:W OE factor i = W OE; (f), where f is the factor under consideration, i is the number of the group of values of the factor f, WOEi (f) is the WOE value corresponding to the group of values i. In some embodiments, the implementation of the indicator WOE can be any value. Positive WOE values indicate that the segment under consideration has a lower default rate than the sample as a whole (the larger the WOE, the lower the default rate). A WOE value less than zero indicates that the segment in question has a higher default rate than the sample as a whole. The WOE values for group i can be determined as follows:
где NG(i) и NG - количество недефолтных наблюдений в группе i и по всей выборке соответственно, NB(i) и NB - количество дефолтных наблюдений в группе i и по всей выборке соответственно.where NG (i) and NG are the number of non-default observations in group i and across the entire sample, respectively, NB (i) and NB are the number of default observations in group i and across the entire sample, respectively.
Если NG(i)=0 или NB(i)=0, то значение WOE для группы определяется по формуле:If NG (i) = 0 or NB (i) = 0, then the WOE value for the group is determined by the formula:
Для непрерывных факторов группировка осуществляется таким образом, чтобы в каждый диапазон попадали наблюдения с сопоставимым уровнем дефолтов (DR). В результате процесса группировки непрерывный фактор делится на несколько групп, для каждого из которых возможно оценить уровень дефолтов на базе наблюдений, попавших в этот диапазон.For continuous factors, the grouping is done so that observations with a comparable default rate (DR) fall within each range. As a result of the grouping process, the continuous factor is divided into several groups, for each of which it is possible to estimate the level of defaults on the basis of observations that fall within this range.
Группировка переменных с дискретным набором значений осуществляется аналогично группировке непрерывных факторов - на основании сопоставимого уровня дефолтов (DR). В каждую группу может попадать одно или несколько значений фактора. Уровень дефолтов вычисляется по всем наблюдениям, входящим в группу.The grouping of variables with a discrete set of values is carried out in the same way as the grouping of continuous factors - based on the comparable default rate (DR). Each group can include one or more factor values. The default rate is calculated for all cases included in the group.
Использование WOE-факторов имеет следующие преимущества.Using WOE factors has the following advantages.
Линеаризация факторов в соответствии с предпосылками логистической регрессии.Linearization of factors in accordance with the premises of logistic regression.
Автоматическая обработка пропущенных значений: они либо объединяются с наиболее похожей по уровню дефолтов группой, либо выступают в качестве отдельной группы. В случае когда пропущенное значение не интерпретируемо или отсутствует в выборке, то оно относится в худшую по уровню риска группу.Automatic handling of missing values: they are either combined with the most similar group in terms of default, or act as a separate group. In the case when the missing value is not interpretable or is absent in the sample, then it belongs to the group with the worst risk level.
Автоматическая обработка аномальных значений, так как они не способны негативно повлиять на модель и их фактическое значение не используется в модели. Они войдут в модель как элемент одной из крайних групп, характеризующейся своим WOE-значением, основанным только на соотношении дефолтных и недефолтных наблюдений в группе.Automatic processing of anomalous values, since they are not able to negatively affect the model and their actual value is not used in the model. They will be included in the model as an element of one of the extreme groups, characterized by their WOE-value, based only on the ratio of default and non-default observations in the group.
- 4 038056- 4 038056
Возможность оценить и контролировать логичность направления связи значений фактора и уровня дефолтов (бизнес-логику), что позволяет гарантировать, что итоговые скоринговые баллы будут иметь смысл (например, люди старшего возраста обычно набирают больше баллов, чем молодые). Логичные связи подтверждают бизнес-опыт, поэтому позволяют получить более стабильную модель.The ability to assess and control the logical direction of the relationship between factor values and the level of defaults (business logic), which helps to ensure that the final scores are meaningful (for example, older people tend to score more points than young people). Logical connections are confirmed by business experience, therefore, they allow you to get a more stable model.
Позволяет снизить риск переобучения. В модель не включается каждое случайное изменение данных, что имело бы место в случае не сгруппированных атрибутов. Такая модель обладает большей гибкостью и способна выдержать некоторые изменения в популяции, что обеспечивает стабильность в течение более долгого периода времени.Reduces the risk of overfitting. The model does not include every random change in the data, which would be the case for non-grouped attributes. Such a model is more flexible and able to withstand some changes in the population, which provides stability over a longer period of time.
Первоначальная группировка значений факторов может происходить с помощью однофакторных деревьев решений. Это позволяет увеличить дискриминирующую способность полученных факторов по сравнению с ручными группировками, так как полученные группы будут максимально однородны внутри и различны между собой на основании используемого статистического критерия.The initial grouping of factor values can be done using one-way decision trees. This makes it possible to increase the discriminating ability of the obtained factors in comparison with manual groupings, since the obtained groups will be maximally homogeneous within and differ among themselves based on the statistical criterion used.
Под дискриминирующей силой фактора понимают его способность дифференцировать дефолтные и недефолтные наблюдения. Для оценки дискриминирующей способности переменной может использоваться индекс Джини.The discriminating power of a factor is understood as its ability to differentiate between default and non-default observations. The Gini index can be used to assess the discriminatory power of a variable.
На основании практики, имеющейся в уровне техники, по интерпретируемости используемых в скоринге факторов необходимо обращать внимание не только на ранжирующую способность WoEтрансформированных факторов, но и на их бизнес-логику. По этой причине на данном этапе происходит не только автоматическое разбиение значений факторов и расчет для них WoE, но и проверка получившихся разбиений на бизнес-логику. Если полученное разбиение не проходит данную проверку, то алгоритм пытается получить новое разбиение, используя альтернативные настройки. Способ получения итоговых WoE-факторов включает шаги, приведенные ниже.Based on the practice available in the prior art, in terms of the interpretability of the factors used in scoring, it is necessary to pay attention not only to the ranking ability of the WoE-transformed factors, but also to their business logic. For this reason, at this stage, not only the automatic splitting of the factor values and the calculation of WoE for them occurs, but also the verification of the resulting splits into business logic. If the resulting partition does not pass this check, then the algorithm tries to obtain a new partition using alternative settings. The method for obtaining the final WoE factors includes the steps below.
Сначала запускают разбиения значений факторов с указанным набором настроек.First, partitions of factor values are started with the specified set of settings.
Затем осуществляют слияние полученных групп по близости значений WoE в случае, если расстояние по WoE между группами не превосходит заданный порог. Для интервальных факторов также учитывается порядок следования групп, упорядоченных по значениям фактора. Факторы, у которых осталась всего одна группа после объединений, переходят в список исключенных.Then, the obtained groups are merged according to the proximity of the WoE values if the WoE distance between the groups does not exceed a predetermined threshold. For interval factors, the order of the groups ordered by factor values is also taken into account. The factors that have only one group left after the amalgamations are transferred to the list of excluded.
На следующем шаге осуществляют слияние групп маленького размера в соответствии с заданным пороговым значением с ближайшей по WoE группой. Для интервальных факторов также учитывается порядок следования групп, упорядоченных по значениям фактора. Факторы, у которых осталась всего одна группа после объединений, переходят в список исключенных. После каждого слияния необходимо вернуться ко второму пункту.The next step is to merge small groups according to a predetermined threshold with the WoE closest group. For interval factors, the order of the groups ordered by factor values is also taken into account. The factors that have only one group left after the amalgamations are transferred to the list of excluded. After each merge, you need to return to the second point.
Также важно проводить слияние полученных групп по близости значений WoE в случае, если сформировано больше групп, чем изначально заданное максимальное количество для данного предиктора. Для интервальных факторов также учитывается порядок следования групп, упорядоченных по значениям фактора. Факторы, у которых осталась всего одна группа после объединений, переходят в список исключенных. После каждого слияния необходимо вернуться ко второму пункту.It is also important to merge the obtained groups according to the proximity of the WoE values if more groups are formed than the initially specified maximum number for this predictor. For interval factors, the order of the groups ordered by factor values is also taken into account. The factors that have only one group left after the amalgamations are transferred to the list of excluded. After each merge, you need to return to the second point.
В некоторых вариантах осуществления проверяют монотонность, условия немонотонности и направления риска для интервальных переменных в соответствии со справочником. Факторы, которые не соответствуют условиям из справочника, переходят в список исключенных.In some embodiments, monotonicity, non-monotonicity conditions, and risk directions for interval variables are checked in accordance with the guide. Factors that do not meet the conditions from the reference book are transferred to the excluded list.
В некоторых вариантах осуществления проверяют минимально допустимое количество групп. Если по переменной доступно меньше групп, чем изначально заданное минимально допустимое число, то она переходит в список исключенных.In some embodiments, the implementation checks the minimum number of groups allowed. If there are fewer groups available for a variable than the initially specified minimum allowable number, then it goes into the list of excluded.
В некоторых вариантах осуществления проверяют условия соотношения риска в различных группах для категориальных и бинарных переменных в соответствии со справочником (проверка бизнеслогики). Условия задаются с помощью специального языка, который позволяет описывать паттерны соотношения риска в группах любой сложности. Факторы, которые не соответствуют условиям из справочника, переходят в список исключенных.In some embodiments, the implementation checks the conditions of the risk ratio in different groups for categorical and binary variables in accordance with the reference book (business logic check). Conditions are set using a special language that allows you to describe risk ratio patterns in groups of any complexity. Factors that do not meet the conditions from the reference book are transferred to the excluded list.
В некоторых вариантах осуществления проверяют падение коэффициента Джини. Если данный коэффициент по предиктору на валидационной выборке меньше изначально заданного порогового значения либо падает по сравнению с коэффициентом Джини на обучающей выборке более чем на заданное число процентов, то такой фактор переходит в список исключенных.In some embodiments, the drop in the Gini coefficient is checked. If this coefficient for the predictor on the validation sample is less than the initially specified threshold value or falls in comparison with the Gini coefficient on the training sample by more than a specified number of percent, then such a factor goes into the list of excluded.
В некоторых вариантах осуществления проверяют стабильность порядка следования групп, упорядоченных по WoE. Происходит сравнение обучающей выборки и 20 выборок, случайным образом отобранных из объединения обучающей и валидационной. Факторы, у которых выявлена нестабильность в порядке следования групп, упорядоченных по WoE, переходят в список исключенных.In some embodiments, the implementation checks the stability of the sequence of the groups, ordered by the WoE. There is a comparison of the training sample and 20 samples randomly selected from the combination of training and validation. Factors that are found to be unstable in the order of the groups, ordered by WoE, go to the excluded list.
По факторам, попавшим в список исключенных, необходимо запустить алгоритм разбиения значений факторов с новым набором настроек. Если доступных настроек нет или все они уже проверены, то формирование разбиений считается законченным. Количество настроек определяется возможностями используемого статистического пакета, например на основании SAS Enterprise Miner. Таким образом, по результатам применения алгоритма формируются WoE-факторы. Исходные факторы, которые не прошли проверку ни при одном наборе настроек разбиения, исключаются из процесса.For the factors included in the excluded list, it is necessary to run the algorithm for splitting the factor values with a new set of settings. If there are no available settings, or all of them have already been checked, then the formation of partitions is considered complete. The number of settings is determined by the capabilities of the used statistical package, for example, based on SAS Enterprise Miner. Thus, based on the results of applying the algorithm, WoE factors are formed. Initial factors that did not pass the test with any set of split settings are excluded from the process.
- 5 038056- 5 038056
Шаг 104: исключают из выборок по меньшей мере один преобразованный фактор, коррелирующий по меньшей мере с одним другим фактором.Step 104: Eliminate from the samples at least one transformed factor that correlates with at least one other factor.
Анализ парных корреляций используется для выявления коллинеарных зависимостей между переменными. Наличие корреляций между факторами повышает стандартные отклонения коэффициентов регрессии, что снижает их устойчивость и надежность в многофакторном анализе. Для корреляционного анализа рассчитывается матрица корреляций - таблица со значениями коэффициентов парных корреляций преобразованных WOE-факторов. Анализ данной таблицы позволяет определить переменные, имеющие высокие линейные связи с другими факторами. Значение, начиная с которого коэффициенты корреляции признаются высоким, устанавливается в справочнике. Рекомендуемое значение, начиная с которого коэффициенты корреляции признаются высоким, находится в диапазоне от 0,5 до 1 по модулю. Из каждой пары коррелирующих факторов следует оставить только один на основании либо более высокой индивидуальной предиктивной способности, либо большей важности фактора с точки зрения бизнеслогики. В системе используется следующий алгоритм: в цикле отбирается фактор, который имеет наибольшее количество коррелированных с ним факторов (значение корреляции выше выбранного порога). Если таких несколько, то из них выбирается фактор с наименьшим значением индекса Джини. Такой фактор исключается из рассмотрения. После этого отбирается следующий фактор с наибольшим количеством коррелированных с ним оставшихся факторов и наименьшим значением индекса Джини. Таким образом, на выходе из цикла остаются факторы без корреляций выше выбранного порога. Данный подход обеспечивает наибольшее число некоррелированных факторов в итоговом списке факторов для мо делирования.Pairwise correlation analysis is used to identify collinear relationships between variables. The presence of correlations between factors increases the standard deviations of the regression coefficients, which reduces their robustness and reliability in multivariate analysis. For correlation analysis, a correlation matrix is calculated - a table with the values of the pair correlation coefficients of the converted WOE factors. Analysis of this table makes it possible to determine the variables that have high linear relationships with other factors. The value from which the correlation coefficients are recognized as high is set in the reference book. The recommended value, starting from which the correlation coefficients are recognized as high, is in the range from 0.5 to 1 modulo. Of each pair of correlating factors, only one should be left based on either a higher individual predictive ability or a greater importance of the factor from the point of view of business logic. The system uses the following algorithm: the cycle selects the factor that has the largest number of factors correlated with it (the correlation value is higher than the selected threshold). If there are several of them, then the factor with the smallest value of the Gini index is selected from them. This factor is excluded from consideration. After that, the next factor is selected with the largest number of remaining factors correlated with it and the smallest value of the Gini index. Thus, at the exit from the cycle, there are factors without correlations above the selected threshold. This approach provides the largest number of uncorrelated factors in the final list of factors for modeling.
Шаг 105: формируют модель кредитного скоринга посредством обучения бинарной множественной логистической регрессии, имеющий следующий вид:Step 105: build a credit scoring model by training binary multiple logistic regression as follows:
PD(Y l|XlfX2.....Х„) 1 + exp(_(Po + pA+fcX2 + ...+PnW PD (Y l | X lf X 2 ..... X „) 1 + exp ( _ (Po + pA + fcX2 + ... + PnW
......
где Y - зависимая переменная (признак дефолта), Y=1 - событие дефолта, ХцХ2, ,Xn - набор независимых, объясняющих WOE-факторов, β0,β1,β2, вероятность дефолта.where Y is a dependent variable (a sign of default), Y = 1 is a default event, ХцХ 2 ,, Xn is a set of independent explanatory WOE factors, β 0 , β1, β 2 , the probability of default.
en - коэффициенты логистической регрессии, PD ...,en - coefficients of logistic regression, PD ...,
Значения вероятности дефолта (PD - Probability of Default) располагаются в интервале [0, 1]. Она показывает вероятность дефолта для каждого рассчитанного рейтинга. В некоторых вариантах осуществления значения вероятности дефолта могут располагаться в интервале от 0 до 100 в процентном или численном эквиваленте. Несмотря на отсутствие коррелирующих пар, исключенных на предыдущем шаге, между факторами модели скоринга может возникать мультиколлинеарность, поэтому на этапе построения модели скоринга необходимо проверять ее отсутствие. Кроме того, т.к. модель скоринга разрабатывается на основе WoE-факторов, а чем больше WoE, тем меньше риск, необходимо проверять корректность знака коэффициента в модели скоринга (все коэффициенты регрессии должны быть отрицательными). Помимо этого, требуется обеспечить высокую стабильность модели, поэтому значимость каждого из входящих в нее факторов проверяется с помощью процедуры статистического бутстрэпа: каждый из факторов должен быть значим исходя из статистики Вальда минимум в 85% случаев. Способ формирования итоговой модели скоринга выглядит следующим образом.The values of the probability of default (PD - Probability of Default) are located in the interval [0, 1]. It shows the probability of default for each calculated rating. In some embodiments, the implementation of the values of the probability of default can range from 0 to 100 in percentage or numerical equivalent. Despite the absence of correlated pairs excluded in the previous step, multicollinearity can occur between the factors of the scoring model; therefore, at the stage of constructing a scoring model, it is necessary to check its absence. In addition, since the scoring model is developed on the basis of WoE factors, and the more WoE, the less the risk, it is necessary to check the correctness of the sign of the coefficient in the scoring model (all regression coefficients must be negative). In addition, it is required to ensure high stability of the model, therefore the significance of each of the factors included in it is checked using the statistical bootstrap procedure: each of the factors should be significant based on the Wald statistics in at least 85% of cases. The method of forming the final scoring model is as follows.
На основе всех факторов, дошедших до данного этапа, строится логистическая модель с использованием пошаговой регрессии (stepwise) для отбора итогового набора факторов.Based on all the factors that have reached this stage, a logistic model is built using stepwise regression to select the final set of factors.
Для таких факторов происходит расчет фактора инфляции дисперсии (Variance Inflation Factor, VIF), Для определения VIF необходимо оценить линейную регрессионную модель, где в качестве зависимой переменной будет рассматриваемый фактор, а в качестве независимых переменных будут выступать оставшиеся факторы, включенные в модель. Итоговое значение VIF для фактора может быть найдено по формуле:For such factors, the Variance Inflation Factor (VIF) is calculated.To determine VIF, it is necessary to evaluate a linear regression model, where the factor under consideration will be the dependent variable, and the remaining factors included in the model will act as independent variables. The final VIF value for the factor can be found using the formula:
VIF =------,VIF = ------,
- R2’ где R2 - коэффициент детерминации описанной выше модели. Переменная, значение VIF которой больше заданного значения и величина коэффициента Джини минимальна, исключается. Первый и второй шаги повторяются до тех пор, пока все включенные в модель факторы не будут иметь значение VIF ниже заданного.- R 2 'where R 2 is the coefficient of determination of the model described above. A variable whose VIF value is greater than the specified value and the value of the Gini coefficient is minimum is excluded. The first and second steps are repeated until all factors included in the model have a VIF value below the specified value.
Затем проводится проверка на наличие факторов с положительным знаком коэффициента регрессии. В случае их обнаружения происходит исключение фактора с минимальным значением коэффициента Джини, после чего необходимо вернуться к первому шагу. Если таких факторов нет, то следует перейти к следующему пункту.Then a check is carried out for the presence of factors with a positive sign of the regression coefficient. If they are found, the factor with the minimum value of the Gini coefficient is eliminated, after which it is necessary to return to the first step. If there are no such factors, then you should go to the next point.
Далее осуществляется объединение обучающей и валидационной выборок. Из их объединения случайным образом отбирается несколько десятков выборок того же размера, что и обучающая. На каждой из полученных выборок происходит обучение модели скоринга с текущим набором факторов. Если есть факторы, которые значимы, по статистике Вальда, менее чем в 85% случаев, то исключается тот из них, величина коэффициента Джини которого является наименьшей. После исключения необходимо вернуть- 6 038056 ся к первому шагу. Если таких факторов нет, то скоринговая модель считается успешно построенной.Next, the training and validation samples are combined. Several dozen samples of the same size as the training one are randomly selected from their combination. On each of the obtained samples, the scoring model is trained with the current set of factors. If there are factors that are significant, according to Wald's statistics, in less than 85% of cases, then the one with the lowest Gini coefficient is excluded. After exclusion, you must return to the first step. If there are no such factors, then the scoring model is considered to be successfully built.
Таким образом, алгоритм позволяет в автоматическом режиме разрабатывать скоринговые модели, отвечающие всем разумным требованиям качества. Помимо этого он гарантирует, что каждый фактор будет соответствовать бизнес-логике, описанной в специальном справочнике.Thus, the algorithm makes it possible to automatically develop scoring models that meet all reasonable quality requirements. In addition, it ensures that each factor will correspond to the business logic described in a special reference book.
В некоторых вариантах осуществления проводят автоматическую валидацию модели в соответствии с любой методикой валидации статистических моделей, известной из уровня техники. На данном этапе рассчитываются количественные тесты для оценки качества модели. Процесс валидации использует тестовую выборку, сформированную на шаге 102, и генеральную совокупность данных. В случае прохождения валидации переходим к шагу 107, иначе пользователю системы направляется уведомление о том, что валидация не пройдена, а также подробный отчет о выявленных недостатках. Варьируя настройки алгоритма, пользователь может скорректировать подходы к моделированию и обеспечить успешность следующей валидации.In some embodiments, automatic model validation is performed in accordance with any statistical model validation technique known in the art. At this stage, quantitative tests are calculated to assess the quality of the model. The validation process uses the test sample generated in step 102 and the population. If validation is passed, go to step 107, otherwise the system user is notified that the validation was not passed, as well as a detailed report on the identified deficiencies. By varying the algorithm settings, the user can adjust the modeling approaches and ensure the success of the next validation.
Выбор оптимального значения порога отсечения зависит от цены совершения ошибки первого и второго рода при классификации. Модель должна точнее классифицировать плохих заемщиков, т.к. в кредитном скоринге цена ошибки перового рода выше. При снижении порога отсечения в модели будет увеличиваться чувствительность, т.е. способность модели правильно выявлять тех заемщиков, у которых будет просрочка платежа. За оптимальный порог отсечения можно взять точку баланса между чувствительностью и специфичностью.The choice of the optimal value of the cut-off threshold depends on the cost of committing an error of the first and second kind during classification. The model should more accurately classify bad borrowers, since in credit scoring, the price of a first-order error is higher. Decreasing the cutoff threshold in the model will increase the sensitivity, i.e. the model's ability to correctly identify those borrowers who will be in arrears. The optimal cutoff point can be taken as a balance point between sensitivity and specificity.
Шаг 106: подбирают автоматически зоны отсечения для по меньшей мере одной модели скоринга для ее установки в кредитную процедуру.Step 106: automatically select cut zones for at least one scoring model to fit into the credit procedure.
Далее осуществляют автоматический подбор зон отсечения для моделей скоринга по скоринговым баллам для их установки в кредитную процедуру. Алгоритм подбора зон отсечения состоит из двух частей: внешней и внутренней. Внешняя часть отвечает за итеративный перебор уровней отсечения, внутренняя - за расчет ожидаемого уровня одобрения заявки на выдачу кредита, соответствующего текущему набору отсечений. Стоит отметить, что в качестве критерия для внутренней части алгоритма может выступать не только уровень одобрения, а любой интересующий показатель, зависящий от уровней отсечения, например, уровень риска или NPV портфеля. Алгоритм работает на исторической выборке данных по заявкам на кредиты. Ввиду того, что уровень одобрения характеризуется сезонностью в рамках недели, в данном изобретении речь идет о целевом уровне одобрения только в рамках семи дней, т.к. иначе придется определять его отдельно для каждого дня недели. Исходя из этого число дней, за которые рассматривается история по заявкам, должно быть кратно семи. Предположим, что в процессе принятия кредитного решения используется комбинация из трех моделей:Next, automatic selection of cut-off zones for scoring models by scoring points is carried out for their installation in the credit procedure. The algorithm for selecting clipping zones consists of two parts: external and internal. The outer part is responsible for iterative enumeration of cut-off levels, the inner part is responsible for calculating the expected approval level of a loan application corresponding to the current set of cut-off points. It is worth noting that not only the approval level can act as a criterion for the internal part of the algorithm, but any indicator of interest depending on the cut-off levels, for example, the level of risk or NPV of the portfolio. The algorithm works on a historical sample of data on loan applications. Due to the fact that the level of approval is characterized by seasonality within a week, in this invention we are talking about a target level of approval only within seven days, since otherwise, you will have to define it separately for each day of the week. Based on this, the number of days for which the history of applications is reviewed should be a multiple of seven. Suppose a combination of three models is used in the credit decision making process:
1) качества кредитной истории или скоринга бюро кредитных историй (БКИ-скоринга);1) the quality of credit history or credit bureaus scoring (CRI-scoring);
2) анкетных данных (заявочного скоринга);2) personal data (application scoring);
3) склонности к мошенничеству или FDC-скоринга (Fraud Detection Card Scoring).3) tendency to fraud or FDC-scoring (Fraud Detection Card Scoring).
Предположим, что мы имеем комбинацию баллов отсечения по моделям заявочного, FDC- и БКИскоринга. Пусть (t1, t2, t3) - значение корректировок для отсечений по соответствующим моделям, а (n1, n2, n3) - число последовательных повторений корректировки для каждой из соответствующих моделей. Тогда внешний алгоритм подбора баллов отсечения будет следующим. Последовательно для каждой из моделей скоринга необходимо осуществить следующие действия:Suppose we have a combination of cutoff scores for the bid, FDC, and BCI scoring models. Let (t1, t2, t3) be the value of corrections for the cutoffs for the corresponding models, and (n1, n2, n3) - the number of successive repetitions of the adjustment for each of the corresponding models. Then the external algorithm for selecting cutoff points will be as follows. Sequentially, for each of the scoring models, it is necessary to carry out the following actions:
1) прибавить соответствующую t корректировку из (t1, t2, t3) к уровню отсечения по этой модели;1) add the corresponding t correction from (t1, t2, t3) to the cutoff level for this model;
2) запустить внутреннюю часть алгоритма, описанную далее, для подсчета ожидаемого уровня одобрения;2) run the internals of the algorithm described below to calculate the expected level of approval;
3) если отклонение ожидаемого уровня одобрения изменило направление, то выбрать такую комбинацию уровней отсечения по моделям заявочного, FDC- и БКИ-скоринга, при которой отклонение ожидаемого уровня одобрения является наименьшим (фактически выбор осуществляется из последних двух проверяемых комбинаций);3) if the deviation of the expected level of approval changed direction, then choose a combination of cut-off levels according to the models of application, FDC and CRI scoring, at which the deviation of the expected level of approval is the smallest (in fact, the choice is made from the last two tested combinations);
4) если отклонение ожидаемого уровня одобрения от целевого не изменило направления и первый пункт повторился менее n из (n1, n2, n3) раз, то перейти к первому пункту, т.е. к корректировке следующей модели скоринга.4) if the deviation of the expected level of approval from the target did not change direction and the first item was repeated less than n out of (n1, n2, n3) times, then go to the first item, i.e. to adjust the next scoring model.
В некоторых вариантах осуществления вышеописанная процедура повторяется до тех пор, пока не будет получен целевой уровень одобрения или достигнута верхняя/нижняя граница баллов по каждой из моделей.In some embodiments, the above procedure is repeated until a target approval level is achieved or an upper / lower bound for scores is reached for each of the models.
В рамках внутренней части алгоритма оценивается изменение уровня одобрения при изменении баллов отсечения по работающим скоринговым моделям. Как уже отмечалось ранее, эффект от изменения зон отсечения может оцениваться на различные показатели, будь то риск или доходность, но в любом случае необходимо оценить, кто будет одобрен в рамках новых зон отсечения, а кто отказан (или вероятность одного из этих событий). В связи с этим будет рассмотрен алгоритм оценки изменения уровня одобрения.As part of the internal part of the algorithm, the change in the approval level is assessed when the cut-off points change according to the running scoring models. As noted earlier, the effect of a change in cut-off zones can be assessed on various indicators, be it risk or profitability, but in any case, it is necessary to assess who will be approved within the new cut-off zones and who will be refused (or the likelihood of one of these events). In this regard, an algorithm for assessing changes in the level of approval will be considered.
Как правило, система принятия решения (СПР) в финансово-кредитной организации представляет собой последовательность проверок и применения правил и может включать следующие этапы прохождения заявок:As a rule, the decision-making system (DMS) in a financial and credit institution is a sequence of checks and application of rules and may include the following stages of the application process:
- 7 038056- 7 038056
1) отказ по минимальным требованиям, на основе данных системы Hunter, стоп-листа и др.;1) failure according to minimum requirements, based on data from the Hunter system, stop list, etc .;
2) использование заявочного, БКИ- и FDC-скоринга;2) use of bid, BKI and FDC scoring;
3) применение моделей благонадежности;3) application of models of trustworthiness;
4) андеррайтинг;4) underwriting;
5) отказы на последующих этапах.5) refusals at subsequent stages.
По этой причине для оценки уровня одобрения в случае переопределения фактических отказов скоринга по заявкам необходимо знать решение по ним на каждом из этапов, следующих за вторым этапом (использования скоринга). Для любой заявки, одобренной по всем работающим моделям скоринга (заявочного, БКИ-, FDC-скоринга и др.), доступна необходимая информация о процессе ее прохождения через последующие этапы СПР. Для заявок, по которым получен отказ хотя бы от одной из моделей, возникает неопределенность в отношении последующих этапов, т.к. такие заявки до этих этапов не доходят. Для того чтобы исключить данную неопределенность, в рамках алгоритма производится моделирование отказов после этапа скоринга для заявок, по которым ранее был получен отказ. Алгоритм можно представить как последовательность следующих действий.For this reason, in order to assess the level of approval in case of redefining the actual scoring failures on applications, it is necessary to know the solution to them at each of the stages following the second stage (using the scoring). For any application approved for all working scoring models (application, BKI-, FDC-scoring, etc.), the necessary information is available about the process of its passage through the subsequent stages of the MSS. For applications for which at least one of the models was rejected, there is uncertainty regarding the subsequent stages, since such applications do not reach these stages. In order to eliminate this uncertainty, within the framework of the algorithm, refusals are simulated after the scoring stage for applications for which a refusal was previously received. The algorithm can be thought of as a sequence of the following actions.
1. Для заявок, дошедших до этапа скоринга, производится симуляция отказов по трем видам моделей при новых баллах отсечения. Все заявки, по которым получены фактический отказ на этапе скоринга и одобрение по всем моделям во время симуляции, помечаются (для них необходимо отдельное моделирование вероятности отказа на последующих этапах СПР).1. For applications that have reached the scoring stage, a simulation of failures is performed for three types of models with new cutoff points. All applications for which an actual refusal was received at the scoring stage and approval for all models during the simulation are marked (they require a separate modeling of the probability of refusal at the subsequent stages of the PRM).
2. Осуществляется моделирование вероятности отказа на этапе применения модели благонадежности. Для построения модели используются заявки, которые успешно прошли процедуру скоринга до изменения баллов отсечения.2. Modeling of the probability of failure is carried out at the stage of applying the reliability model. To build the model, applications are used that have successfully passed the scoring procedure before changing the cutoff points.
3. Производится моделирование вероятности отказа на этапе андеррайтинга. Для этого дополнительно из предыдущей выборки исключаются заявки, по которым получен отказ на этапе применения моделей благонадежности.3. Modeling of the probability of failure at the underwriting stage is carried out. To do this, in addition, applications for which a refusal was received at the stage of applying the reliability models are excluded from the previous sample.
4. Осуществляется моделирование вероятности отказа на последующих этапах. Дополнительно исключаются заявки, по которым получен отказ на этапе андеррайтинга.4. Modeling of the probability of failure at subsequent stages is carried out. In addition, applications for which a refusal was received at the underwriting stage are excluded.
5. Рассчитывается вероятность отказа послепрохождения процедуры скоринга для помеченных заявок, требующих отдельного моделирования (п.1).5. The probability of refusal after passing the scoring procedure is calculated for marked applications that require separate modeling (clause 1).
В целях определения вероятности отказа для заявок, по которым получен отказ на этапе скоринга, используется следующая формула:In order to determine the probability of rejection for applications that were rejected at the scoring stage, the following formula is used:
Ppeject Pblag + (1 Pblag) * Punderr + (1 — Pblag) * (1 Punderr) * Pnext» где Pblag - вероятность отказа для заявки по модели благонадежности; Punderr - вероятность отказа для заявки на этапе андеррайтинга; Pnext - вероятность отказа для заявки на последующих этапах.Ppeject Pblag + (1 Pblag) * Punderr + (1 - Pblag) * (1 Punderr) * Pnext "where P blag is the probability of rejection for the application according to the trustworthiness model; P underr is the probability of rejection for the application at the underwriting stage; P next is the probability of refusal for the application at subsequent stages.
Для определения вероятности одобрения по заявке вероятность отказа вычитается из единицы. После этого уровень одобрения рассчитывается как отношение количества одобренных заявок (суммы вероятностей одобрения) к числу всех заявок. При усреднении данного значения по рассматриваемому портфелю получают уровень одобрения при выбранных зонах отсечения.To determine the likelihood of approval for an application, the probability of rejection is subtracted from one. After that, the approval level is calculated as the ratio of the number of approved applications (the sum of the approval probabilities) to the number of all applications. When this value is averaged over the portfolio under consideration, a level of approval is obtained for the selected cut-off zones.
Если выбрать за целевой показатель уровень риска, то полученное значение необходимо умножить на уровень риска, получаемый из модели PD. При усреднении данного произведения получают уровень риска в выданном при выбранных зонах отсечения портфеле.If we choose the risk level as the target indicator, then the resulting value must be multiplied by the risk level obtained from the PD model. When this product is averaged, the level of risk in the portfolio issued for the selected cut-off zones is obtained.
После автоматического подбора зон отсечения происходит оптимизация этих зон по различным сегментам портфеля. Принцип работы алгоритма оптимизации построен на итеративном оптимизационном расчете оптимальных порогов принятия решения для отдельных сегментов клиентов с точки зрения соотношения Уровень одобрения - уровень риска. Ниже приведены основные предпосылки, критичные для получаемых результатов работы алгоритма.After automatic selection of cut-off zones, these zones are optimized for different portfolio segments. The principle of operation of the optimization algorithm is based on an iterative optimization calculation of the optimal decision thresholds for individual customer segments in terms of the ratio Level of approval - level of risk. Below are the main prerequisites that are critical for the obtained results of the algorithm.
1. Уровень риска оценивается как средний уровень вероятности просрочки внутри каждого сегмента.1. The level of risk is assessed as the average level of the probability of delinquency within each segment.
2. Прогноз вероятности просрочки делается на последних доступных данных с учетом сегментации.2. The forecast of the probability of delinquency is made on the basis of the latest available data, taking into account segmentation.
Основная идея алгоритма расчета - итеративный сдвиг порога отсечения для отдельного клиентского сегмента, который в итоге приводит к повышению общего уровня одобрения при сохранении текущего уровня риска.The main idea of the calculation algorithm is to iteratively shift the cut-off threshold for a particular client segment, which ultimately leads to an increase in the overall level of approval while maintaining the current level of risk.
На каждой итерации алгоритма рассматривается оптимальный с точки возможного улучшения соотношения AR/DR клиентский сегмент, в рамках которого происходят операции закрутка - раскрутка в данной последовательности с предзаданным шагом в 15 баллов (данный шаг может наращиваться в соответствии с правилами формирования цикла, но не более чем до 60 баллов). Таким образом, ищется оптимальная окрестность базового порога отсечения, приводящая к улучшению общего соотношения AR/DR.At each iteration of the algorithm, the optimal client segment from the point of possible improvement of the AR / DR ratio is considered, within which the spin-spin operations take place in a given sequence with a predetermined step of 15 points (this step can be increased in accordance with the rules for forming a cycle, but no more than up to 60 points). Thus, an optimal neighborhood of the base cutoff threshold is sought, leading to an improvement in the overall AR / DR ratio.
Далее происходит внедрение модели скоринга (или моделей) и зон отсечения в промышленную среду.Next, the scoring model (or models) and cut-off zones are introduced into the industrial environment.
В результате автоматического подбора уровней отсечения целевой уровень одобрения может быть не достигнут с требуемой точностью. В результате необходимо адаптивно корректировать отсечения по скорингам для максимального приближения целевому AR. Для этого спустя 7 полных дней после по- 8 038056 следнего изменения целевого уровня одобрения или сразу после корректировки баллов отсечения без изменения целевого уровня одобрения начинается адаптивная корректировка полученных баллов отсечения. Она продолжается до тех пор, пока фактический уровень одобрения не войдет в допустимые границы хотя бы раз. Корректировка производится по следующей схеме. Прибавляем ко всем зона отсечения следующую величину:As a result of automatic selection of cutoff levels, the target approval level may not be achieved with the required accuracy. As a result, it is necessary to adaptively adjust the scoring cutoffs to maximally approximate the target AR. To do this, 7 full days after the last change in the target approval level by 8 038056 or immediately after adjusting the cutoff points without changing the target approval level, an adaptive adjustment of the obtained cutoff points begins. It continues until the actual level of approval is within acceptable limits at least once. The correction is made according to the following scheme. Add the following value to all the clipping zones:
тт(20‘, Корректировка * —----:----------К), highAR - ARtarget где Δ=AR - highAR, если последний выход AR за установленные границы произошел в большую сторону;тт (20 ', Correction * ------: ---------- K), highAR - AR t arget where Δ = AR - highAR, if the last AR out of the established boundaries occurred in a large direction;
—min(20, Корректировка *---------------т),—Min (20, Correction * --------------- t),
ARtarget ^War где Δ=lowAR - AR, если в меньшую. Размер корректировки задается экспертно в справочнике эмпирическим путем.ARtarget ^ War where Δ = low AR - AR, if lower. The size of the adjustment is set by experts in the reference book empirically.
Корректировки запускаются ежедневно до тех пор, пока уровень одобрения не вернется в допустимый интервал между значениями highAR и lowAR. В некоторых вариантах осуществления проводится ежемесячная автоматическая валидация модели скоринга в соответствии с принятой в финансовокредитном учреждении методологией. Если модель не проходит валидацию, она направляется на переобучение.Adjustments are run daily until the approval level returns within the acceptable range between highAR and lowAR values. In some embodiments, a monthly automatic validation of the scoring model is performed in accordance with a financial institution's methodology. If the model fails validation, it is sent for retraining.
В некоторых вариантах осуществления проводят ежедневный мониторинг уровня одобрения. Данная методология подходит для наблюдения не только за уровнем одобрения, но и другими показателями, например, таким как риск. В рамках мониторинга рассматривается средний скользящий уровень одобрения с окном в 7 дней как временной ряд, элементы которого моделируются с помощью независимых нормально распределенных случайных величин. Для того чтобы поддерживать уровень одобрения на каком-либо целевом уровне, прежде всего необходим критерий, с помощью которого можно понять, что изменение действительно произошло, так как данный показатель имеет естественные флуктуации. Исходя из этого, для выявления отклонений в целевом уровне одобрения может быть использован CUSUMтест. Для этого определяют, что есть момент изменения уровня одобрения (разладки) - это момент, когда меняется закон распределения в потоке поступающих данных об уровне одобрения. В данном изобретении рассматривается изменение среднего значения. Пусть Xn, n>1 - последовательность наблюдений, которые моделируются с помощью независимых нормально распределенных случайных величин, θ е [1,n] неизвестный момент времени, в который меняется распределение наблюдений с f0~N(μ0,σ2) на f1~N(μ1,σ2), а n - текущий момент времени. Так как точный момент времени разладки неизвестен, то гипотеза Н0 - разладки на отрезке [1,n] нет, а Н1 - разладка произошла на отрезке [1,n]. Чтобы различить две этих гипотезы, необходимо определить обобщенный критерий отношения правдоподобия:In some embodiments, the level of approval is monitored on a daily basis. This methodology is suitable for monitoring not only the level of approval, but also other indicators, such as risk. The monitoring considers the moving average level of approval with a window of 7 days as a time series, the elements of which are modeled using independent normally distributed random variables. In order to maintain the level of approval at any target level, first of all, a criterion is needed with which it can be understood that a change has really occurred, since this indicator has natural fluctuations. Based on this, the CUSUM test can be used to identify deviations in the target approval level. To do this, it is determined that there is a moment of change in the level of approval (disagreement) - this is the moment when the distribution law in the stream of incoming data on the level of approval changes. In this invention, the change in the average value is considered. Let X n , n> 1 be a sequence of observations that are modeled using independent normally distributed random variables, θ е [1, n] is an unknown moment in time at which the distribution of observations changes from f 0 ~ N (μ 0 , σ 2 ) to f1 ~ N (μ1, σ 2 ), and n is the current moment in time. Since the exact time of the disorder is unknown, the hypothesis H0 - there is no disorder on the segment [1, n], and H1 - the disorder occurred on the segment [1, n]. To distinguish between these two hypotheses, it is necessary to define a generalized likelihood ratio criterion:
V ; Α(χί) ГV; Α ( χ ί) Г
Тп = max ) log . . . > Со, П Oe[l,n]Lj а fjxd 0 ι=θ где с помощью С0 контролируется число ложных срабатываний. Данное выражение известно как CUSUM-тест. Полученная запись теста будет вычислительно неэффективна, но в случае независимых случайных величин статистика может быть представлена рекуррентным соотношением:T n = max) log. ... ... > С о , П Oe [l, n] Lj а fjxd 0 ι = θ where with the help of С 0 the number of false alarms is controlled. This expression is known as the CUSUM test. The resulting test record will be computationally ineffective, but in the case of independent random variables, the statistics can be represented by a recurrent relation:
ΙΛ (хп)ΙΛ (x n)
Тп = тах[Тп_1 + 1од'/^,0}T n = t ax [T n _ 1 + 1od '/ ^, 0}
J0\xn)J0 \ x n)
Так как мы предполагаем, что f0 и f1 распределены нормально:Since we assume that f 0 and f1 are normally distributed:
I'T С Д1+До\ ΏI'T FROM D1 + TO \ Ώ
Тп = max + хп---— , 0 . ν \ ί / )T n = max + x n --- -, 0. ν \ ί /)
Пусть μ1=μ0±δ, где δ - это допустимая погрешность, которая выбирается в зависимости от того, какое отклонение мы считаем приемлемым. Тогда выражение для вычисления CUSUM можно переписать в виде:Let μ1 = μ 0 ± δ, where δ is the permissible error, which is chosen depending on which deviation we consider acceptable. Then the expression for calculating CUSUM can be rewritten as:
Хп - До п-1 для отклонений в сторону снижения и для отклонений в сторону увеличения.Xn - Up to n-1 for downward deviations and for upward deviations.
Итоговое решение находится из условия max(Tn +,Tn-)>h=е(C0).The final solution is found from the condition max (T n + , Tn - )> h = e (C0).
Описанный подход позволяет выявлять отклонения уровня одобрения от целевого уровня с минимальной задержкой и небольшим количеством ложных срабатываний.The described approach makes it possible to detect deviations of the approval level from the target level with minimal delay and a small number of false positives.
Если смена целевого уровня одобрения произошла менее чем 7 дней назад, мы не можем проводитьIf the approval target changed less than 7 days ago, we cannot
- 9 038056- 9 038056
CUSUM-тест, так как нет наблюдений скользящего среднего уровня одобрения за 7 дней, не включающих дни до корректировки. Кроме того, нужно застраховать себя от некорректной работы теста CUSUM. Для этого используется альтернативный более простой тест, основанный на установке границ допустимого диапазона для наблюдаемого показателя. Аспекты настоящего изобретения могут быть также реализованы с помощью устройства обработки данных, являющегося вычислительной машиной или системой (или таких средств как центральный/графический процессор или микропроцессор), которая считывает и исполняет программу, записанную на запоминающее устройство, чтобы выполнять функции вышеописанного варианта(ов) осуществления, и способа, показанного на фиг. 1, этапы которого выполняются вычислительной машиной или устройством путем, например, считывания и исполнения программы, записанной на запоминающем устройстве, чтобы исполнять функции вышеописанного варианта(ов) осуществления. С этой целью программа записывается на вычислительную машину, например, через сеть или со среды для записи различных типов, служащей в качестве запоминающего устройства (например, машиночитаемой среды). Устройство обработки данных может иметь дополнительные особенности или функциональные возможности. Например, устройство обработки данных может также включать в себя дополнительные устройства хранения данных (съемные и несъемные), такие как, например, магнитные диски, оптические диски или лента. Устройства хранения данных могут включать в себя энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или при помощи любой технологии для хранения информации, такой как машиночитаемые инструкции, структуры данных, программные модули или другие данные. Устройство хранения данных, съемное хранилище и несъемное хранилище являются примерами компьютерных носителей данных. Компьютерные носители данных включают в себя, но не в ограничительном смысле, оперативное запоминающее устройство (ОЗУ), постоянное запоминающее устройство (ПЗУ), электрически стираемое программируемое ПЗУ (EEPROM), флэш-память или память, выполненную по другой технологии, ПЗУ на компактдиске (CD-ROM), универсальные цифровые диски (DVD) или другие оптические запоминающие устройства, магнитные кассеты, магнитные ленты, хранилища на магнитных дисках, или другие магнитные запоминающие устройства, или любую другую среду, которая может быть использована для хранения желаемой информации и к которой может получить доступ устройство обработки данных. Устройство обработки данных может также включать в себя устройство(а) ввода, такие как клавиатура, мышь, перо, устройство с речевым вводом, устройство сенсорного ввода, и так далее. Устройство(а) вывода, такие как дисплей, динамики, принтер и тому подобное, также могут быть включены в состав системы.CUSUM test, as there is no 7-day moving average of approval observations not including the days before the adjustment. In addition, you need to insure yourself against incorrect operation of the CUSUM test. For this, an alternative, simpler test is used, based on setting the boundaries of the acceptable range for the observed indicator. Aspects of the present invention may also be implemented with a data processing device being a computer or system (or means such as a central / graphics processing unit or microprocessor) that reads and executes a program written to a memory device to perform the functions of the above-described embodiment (s) implementation, and the method shown in FIG. 1, the steps of which are performed by a computer or device by, for example, reading and executing a program recorded on a memory device in order to perform the functions of the above-described embodiment (s). For this purpose, the program is written to a computer, for example, via a network or from a recording medium of various types serving as a storage device (for example, a computer-readable medium). The data processing device may have additional features or functionality. For example, the data processing device may also include additional storage devices (removable and non-removable) such as, for example, magnetic disks, optical disks, or tape. Storage devices can include volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storing information such as computer readable instructions, data structures, program modules, or other data. Storage device, removable storage, and non-removable storage are examples of computer storage media. Computer storage media include, but are not limited to, random access memory (RAM), read only memory (ROM), electrically erasable programmable ROM (EEPROM), flash memory or other technology, CD ROM ( CD-ROM), versatile digital disks (DVD) or other optical storage devices, magnetic cassettes, magnetic tapes, magnetic disk storage, or other magnetic storage devices, or any other medium that can be used to store desired information and to which the data processing device can access. The processing device may also include input device (s) such as a keyboard, mouse, stylus, voice input device, touch input device, and so on. Output device (s) such as display, speakers, printer, and the like may also be included in the system.
Устройство обработки данных содержит коммуникационные соединения, которые позволяют устройству связываться с другими вычислительными устройствами, например по сети. Сети включают в себя локальные сети и глобальные сети наряду с другими большими масштабируемыми сетями, включая, но не в ограничительном смысле, корпоративные сети и экстрасети. Коммуникационное соединение является примером коммуникационной среды. Как правило, коммуникационная среда может быть реализована при помощи машиночитаемых инструкций, структур данных, программных модулей или других данных в модулированном информационном сигнале, таком как несущая волна, или в другом транспортном механизме, и включает в себя любую среду доставки информации. Термин модулированный информационный сигнал означает сигнал, одна или более из его характеристик изменены или установлены таким образом, чтобы закодировать информацию в этом сигнале. Для примера, но без ограничения, коммуникационные среды включают в себя проводные среды, такие как проводная сеть или прямое проводное соединение, и беспроводные среды, такие как акустические, радиочастотные, инфракрасные и другие беспроводные среды. Термин машиночитаемый носитель, как употребляется в этом документе, включает в себя как носители данных, так и коммуникационные среды. Последовательности процессов, описанных в этом документе, могут выполняться с использованием аппаратных средств, программных средств или их комбинации. Когда процессы выполняются с помощью программных средств, программа, в которой записана последовательность процессов, может быть установлена и может выполняться в памяти компьютера, встроенного в специализированное аппаратное средство, или программа может быть установлена и может выполняться на компьютер общего назначения, который может выполнять различные процессы.The data processing device contains communication connections that allow the device to communicate with other computing devices, such as over a network. Networks include local area networks and wide area networks along with other large scalable networks, including, but not limited to, corporate networks and extranets. A communication connection is an example of a communication medium. Typically, a communication medium can be implemented with machine-readable instructions, data structures, program modules, or other data in a modulated information signal such as a carrier wave or other transport mechanism, and includes any information delivery medium. The term “modulated information signal” means a signal that has one or more of its characteristics changed or set in such a way as to encode information in this signal. By way of example, but not limited to, communication media includes wired media such as a wired network or direct-wired connection, and wireless media such as acoustic, RF, infrared, and other wireless media. The term computer-readable media, as used in this document, includes both storage media and communication media. The series of processes described in this document can be performed using hardware, software, or a combination of both. When processes are executed by software, a program in which a sequence of processes is recorded can be installed and executed in the memory of a computer embedded in specialized hardware, or a program can be installed and executed on a general-purpose computer that can execute various processes ...
Например, программа может быть заранее записана на носитель записи, такой как жесткий диск, или ПЗУ (постоянное запоминающее устройство). В качестве альтернативы программа может быть временно или постоянно сохранена (записана) на съемном носителе записи, таком как гибкий диск, CDROM (компакт-диск, предназначенный только для воспроизведения), МО (магнитооптический) диск, DVD (цифровой универсальный диск), магнитный диск или полупроводниковая память. Съемный носитель записи может распространяться в виде так называемого продаваемого через розничную сеть программного средства.For example, the program can be pre-recorded on a recording medium such as a hard disk or ROM (read only memory). Alternatively, the program can be temporarily or permanently stored (recorded) on a removable recording medium such as a floppy disk, CDROM (compact disk intended for playback only), MO (magneto-optical) disk, DVD (digital versatile disk), magnetic disk. or semiconductor memory. The removable recording medium can be distributed in the form of so-called retail software.
Программа может быть установлена со съемного носителя записи, описанного выше, на компьютер, или может быть передана по кабелю с сайта загрузки в компьютер, или может быть передана в компьютер по сетевым каналам передачи данных, таким как ЛВС (локальная вычислительная сеть) или Интернет.The program can be installed from the removable recording medium described above to a computer, or it can be cabled from a download site to a computer, or it can be transferred to a computer via network communication channels such as a LAN (Local Area Network) or the Internet.
Компьютер может принимать переданную таким образом программу и может устанавливать ее на носитель записи, такой как встроенный жесткий диск. Процессы, описанные в этом документе, могутThe computer can receive the program transferred in this way and can install it on a recording medium such as a built-in hard disk. The processes described in this document can
- 10 038056 выполняться последовательно по времени, в соответствии с описанием, или могут выполняться параллельно или отдельно, в зависимости от характеристик обработки устройства, выполняющего процессы, или в соответствии с необходимостью. Система, описанная в этом документе, представляет собой логический набор множества устройств и не ограничивается структурой, в которой эти устройства установлены в одном корпусе.- 10 038056 be executed sequentially in time, as described, or can be executed in parallel or separately, depending on the processing characteristics of the device executing the processes, or as required. The system described in this document is a logical collection of multiple devices and is not limited to the structure in which these devices are installed in a single housing.
Claims (10)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017146235A RU2680760C1 (en) | 2018-04-04 | 2018-04-04 | Scoring models development and control computerized method |
Publications (2)
Publication Number | Publication Date |
---|---|
EA201700609A1 EA201700609A1 (en) | 2019-10-31 |
EA038056B1 true EA038056B1 (en) | 2021-06-29 |
Family
ID=65479249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EA201700609A EA038056B1 (en) | 2018-04-04 | 2018-04-05 | Computerized method for creating and managing scoring models |
Country Status (3)
Country | Link |
---|---|
EA (1) | EA038056B1 (en) |
RU (1) | RU2680760C1 (en) |
WO (1) | WO2019194696A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2710914C1 (en) * | 2018-11-08 | 2020-01-14 | Федеральное государственное бюджетное образовательное учреждение высшего образования "Уфимский государственный нефтяной технический университет" | Automated method of spatial economic studies |
CN113033717B (en) * | 2021-05-26 | 2021-08-31 | 华控清交信息科技(北京)有限公司 | Model generation method and device for model generation |
CN113822755B (en) * | 2021-09-27 | 2023-09-05 | 武汉众邦银行股份有限公司 | Identification method of credit risk of individual user by feature discretization technology |
CN117036008B (en) * | 2023-10-08 | 2024-06-18 | 中邮消费金融有限公司 | Automatic modeling method and system for multi-source data |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060212386A1 (en) * | 2005-03-15 | 2006-09-21 | Willey Dawn M | Credit scoring method and system |
US8407139B1 (en) * | 2006-08-07 | 2013-03-26 | Allstate Insurance Company | Credit risk evaluation with responsibility factors |
US20150019405A1 (en) * | 2011-10-10 | 2015-01-15 | Zestfinance, Inc. | System and method for building and validating a credit scoring function |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2181216C1 (en) * | 2000-10-17 | 2002-04-10 | Закрытое акционерное общество "Компания "Русский Стандарт" | Method and system for taking decisions in crediting (scoring) field |
-
2018
- 2018-04-04 WO PCT/RU2017/000988 patent/WO2019194696A1/en active Application Filing
- 2018-04-04 RU RU2017146235A patent/RU2680760C1/en active
- 2018-04-05 EA EA201700609A patent/EA038056B1/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060212386A1 (en) * | 2005-03-15 | 2006-09-21 | Willey Dawn M | Credit scoring method and system |
US8407139B1 (en) * | 2006-08-07 | 2013-03-26 | Allstate Insurance Company | Credit risk evaluation with responsibility factors |
US20150019405A1 (en) * | 2011-10-10 | 2015-01-15 | Zestfinance, Inc. | System and method for building and validating a credit scoring function |
Also Published As
Publication number | Publication date |
---|---|
WO2019194696A1 (en) | 2019-10-10 |
EA201700609A1 (en) | 2019-10-31 |
RU2680760C1 (en) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220122171A1 (en) | Client server system for financial scoring with cash transactions | |
US12002094B2 (en) | Systems and methods for generating gradient-boosted models with improved fairness | |
Vanini et al. | Online payment fraud: from anomaly detection to risk management | |
US20240211967A1 (en) | Adaptive transaction processing system | |
US20200280578A1 (en) | Feature drift hardened online application origination (oao) service for fraud prevention systems | |
US20150142713A1 (en) | Real-Time Adaptive Decision System And Method Using Predictive Modeling | |
US20160148321A1 (en) | Simplified screening for predicting errors in tax returns | |
US20220004923A1 (en) | Systems and methods for model explanation | |
US20230351396A1 (en) | Systems and methods for outlier detection of transactions | |
RU2680760C1 (en) | Scoring models development and control computerized method | |
Bakhach et al. | TSFDC: A trading strategy based on forecasting directional change | |
US20230076559A1 (en) | Explainable artificial intelligence based decisioning management system and method for processing financial transactions | |
US20220207420A1 (en) | Utilizing machine learning models to characterize a relationship between a user and an entity | |
GB2521749A (en) | Real-time adaptive decision system and method using predictive modeling | |
Sembina | Building a scoring model using the adaboost ensemble model | |
Chen et al. | Memory and beliefs in financial markets: A machine learning approach | |
Bosker et al. | Machine learning-based variable selection for clustered credit risk modeling | |
US20240428133A1 (en) | Systems and methods for intelligent generation and assessment of candidate less discriminatory alternative machine learning models | |
Rudnichenko et al. | Intelligent System for Processing and Forecasting Financial Assets and Risks | |
US12210850B1 (en) | Ingestion and segmentation of real-time event data | |
US20240378508A1 (en) | System and method for detecting ethical bias in machine learning models | |
US20240281672A1 (en) | Method and system for testing a classification machine learning (ml) model of a tenant of a service provider, in a cloud-based environment | |
US11580426B2 (en) | Systems and methods for determining relative importance of one or more variables in a nonparametric machine learning model | |
Parvin et al. | A machine learning-based credit lending eligibility prediction and suitable bank recommendation: an Android app for entrepreneurs | |
US20250061516A1 (en) | Predicting recurrence from financial data |