RU2510891C2

RU2510891C2 - Способы и устройство обеспечения системы прогнозирования групповой торговли

Info

Publication number: RU2510891C2
Application number: RU2010125682/08A
Authority: RU
Inventors: Томас МАКГИАН
Original assignee: Мастеркард Интернешнл Инкорпорейтед
Priority date: 2007-12-31
Filing date: 2008-12-04
Publication date: 2014-04-10
Also published as: MX2010007273A; JP5485911B2; RU2010125682A; EP2240916A1; CA2710752A1; EP2240916A4; KR101468764B1; BRPI0821420A2; US8738486B2; WO2009085554A1; AU2008343492B2; KR20100114058A; JP2011508353A; AU2008343492A1; US20090171759A1

Abstract

Изобретение относится к способу и системе обнаружения шаблонов в данных транзакции платёжной карты для определения группового членства продавца в данных транзакции. Технический результат заключается в повышении точности прогнозирования принадлежности продавца к различным группам продавцов. Способ включает в себя запоминание данных транзакции в базе данных, выборку данных транзакции первым компьютером, связанным с базой данных; использование по меньшей мере одного алгоритма прогнозирования и выбранных данных транзакции для прогнозирования множества групповых членств продавца в группе продавцов, при этом алгоритм реализуется первым компьютером; генерацию метаданных, описывающих каждый прогноз, выданный по меньшей мере одним алгоритмом прогнозирования; ввод множества спрогнозированных групповых членств для продавца и метаданных, описывающих каждое прогнозирование, в программу анализа данных, исполняемую на втором компьютере; присвоение, с использованием второго компьютера, коэффициента доверительности каждому спрогнозированному групповому членству при помощи программы анализа данных, основанное по меньшей мере частично на спрогнозированных групповых членствах и метаданных, при этом коэффициент доверительности представляет собой вероятность действительной ассоциации продавца с соответствующим спрогнозированным групповым членством; и выдачу с использованием второго компьютера прогноза о групповом членстве с наивысшим коэффициентом доверительности в качестве окончательного прогноза о членстве продавца. 2 н. и 18 з.п. ф-лы, 10 ил.

Description

Уровень техники

Настоящее изобретение в основном относится к системам прогнозирования торговли, и конкретнее к способам и системам прогнозирования групповой торговли по платежным транзакциям, проводимым по сети обслуживания банковских карт от имени владельцев банковского счета.

Исторически, использование "платежных" карт для транзакций потребительских платежей было самым распространенным и основанным на связи между выдающими кредиты локальными банками и различными локальными продавцами. Индустрия платежных карт с тех пор развивалась вместе с банками-эмитентами, образующими корпорации (например MasterCard), и включает сторонние компании по обработке транзакций (например «Merchant Acquirers»), чтобы позволить владельцам кредитных карт широко использовать платежные карты в любых торговых учреждениях, независимо от банковских отношений продавца с эмитентом карты.

Например, на фиг.1 настоящей заявки показана представленная в качестве примера спаренная система индустрии платежной карты для проведения транзакции оплаты картой. Как показано, у продавца и эмитента карты не обязательно должна быть непосредственная связь. Все же, сегодня существуют различные сценарии в индустрии оплаты картой, где у эмитента карты есть специальная или специализированная связь с определенным продавцом, или группой продавцов.

Более 25 миллионов торговых точек принимают к оплате карты. Иногда продавцы аффилированы с более распознаваемой цепочкой, брендом, или другим юридическим лицом. В одном примере лицо, получившее от фирмы право самостоятельного представительства крупной международной компании фаст-фуда может быть идентифицировано для эмитента карты транзакций как "Chris's Restaurants, LLC", и поэтому нет никакой корреляции с фирмой, предоставляющей франшизу. Рассмотрим способы улучшения вариантов реализации в отрасли оплаты покупок картой. В частности рассмотрим использование исторических данных транзакции для прогнозирования будущих финансовых транзакций карты и определения, есть ли корреляции, которые должны быть сделаны по этим данным.

Конкретнее, данным местоположения продавца, которые собираются компаниями, часто присваивается высокоуровневая группа, основанная на юридическом владении, бренде или некотором другом определении. Часто эти отношения не явно определяются или не являются общедоступными. Установление этого отношения прежде включало ручной контроль данных транзакции, чтобы обнаружить поле или набор полей, которые могут использоваться, чтобы квалифицировать местоположение как членство соответствующей группы.

Краткое описание изобретения

Один объект представляет компьютерный способ обнаружения шаблона в данных транзакции платежной карты для определения группового членства в данных транзакции, где данные касаются продавцов, которые принимают платежную карту для оплаты. Способ включает получение данных транзакции по меньшей мере от одной базы данных, прогнозирование принадлежности продавца к группе, используя по меньшей мере один алгоритм прогноза и выбранные данные транзакции, алгоритм, генерирующий метаданные, описывающие прогнозы, ввод по меньшей мере одного спрогнозированного группового членства и метаданных в приложение анализа данных и присвоение оценки доверительности каждому спрогнозированному групповому членству по условию, получаемому приложением при использовании спрогнозированного группового членства и метаданных.

Другой объект представляет компьютерную систему обнаружения шаблона в данных транзакции платежной карты для определения группового членства отдельных продавцов, используя данные транзакции. Компьютерная система программируется, чтобы выполнить множество алгоритмов прогноза с данными транзакции, каждый алгоритм прогноза, предсказывает групповое членство продавца, основываясь на данных транзакции, присваивает оценку доверия каждому спрогнозированному групповому членству и выводит прогноз группового членства с самой высокой оценкой доверия как финальный прогноз принадлежности продавца.

Краткое описание чертежей

Фиг.1 - упрощенная схема, иллюстрирующая примерную многостороннюю систему индустрии платежной карты для проведения транзакции оплаты картой.

Фиг.2 - упрощенная блок-схема примерного варианта осуществления архитектуры сервера системы в соответствии с одним из вариантов осуществления представленного изобретения.

Фиг.3 - расширенная блок-схема примерного варианта осуществления архитектуры сервера системы в соответствии с одним из вариантов осуществления представленного изобретения.

Фиг.4 - схема последовательности операций, иллюстрирующая высокоуровневые компоненты объединенной совокупности торговой системы прогноза.

Фиг.5 - схема последовательности операций, иллюстрирующая работу механизма ведущего подсчет, связанного с объединенной совокупности торговой системы прогноза.

Фиг.6 - схема 250 последовательности операций, иллюстрирующая данные, которые вводятся в алгоритм, который классифицирует местоположения торговых точек.

Фиг.7 - схема последовательности операций, описывающая алгоритм, который классифицирует местоположения торговых точек.

Фиг.8А-8B - схема, иллюстрирующая как торговые точки собираются и размещаются в качестве документов в системе классификации.

Фиг.9 - схема последовательности операций, иллюстрирующая определение набора ссылочных символьных строк, или основных компонентов, в базе данных.

Фиг.10 - схема последовательности операций, иллюстрирующая использование набора ссылочных строк, чтобы определить метрику подобия для символьной строки кандидата.

Подробное описание изобретения

В настоящем документе описываются и используются системы и способы прогноза групповой торговли для обнаружения значимых торговых шаблонов (например, данных местоположения торговой точки), которые выявляют высокий уровень упорядоченности, такой как бренд, цепочка, юридическое владение или аналогичные им для существующей, в какой-то степени случайно выбранной, коллекции местоположений торговых точек. Система прогноза группы, используемая здесь, обращается к множеству систем прогнозирования, отдельные прогнозы которых объединены вместе, чтобы сформировать единственный прогноз.

Как правило, когда групповое членство явно не определяется, отношение должно быть выведено через ручной контроль данных местоположения. Описанная система прогноза групповой торговли использует алгоритмический подход, чтобы решить описанную проблему для по меньшей мере части пространства, которое включает записи местоположения.

Технический эффект систем и способов, описанных в данном документе, включает по меньшей мере одно из: (а) определения шаблонов, касающихся торговых фирм, таких как данные местоположения, (b) обеспечение объединенного прогноза из нескольких прогнозов, которые связаны с данными местоположения продавца и (с) определение уровней доверительности для каждого объединенного прогноза, использующего несколько прогнозов и любых метаданных, связанных с прогнозами.

В одном варианте осуществления предлагается компьютерная программа, которая воплощается на машиночитаемом носителе и использует Структурированный язык запросов (SQL) с клиентским пользовательским внешним интерфейсом для администрирования и веб-интерфейсом для стандартных пользовательских входных данных и отчетов. В примерном варианте осуществления система реализована в виде веб-приложения и работает в существующей на предприятиях сети интранет. В еще одном варианте осуществления к системе полностью получают доступ пользователи, имеющие санкционированный доступ, вне брандмауэра предприятия, через Интернет. В дополнительном примерном варианте осуществления система выполняется в среде Windows® (Windows - зарегистрированная торговая марка Microsoft Corporation, Redmond, Washington). Приложение является гибким и разработано для работы во всевозможных средах без ущерба основной функциональности.

Системы и процессы не ограничиваются определенными вариантами осуществлениями, описанными здесь. Кроме того, компоненты каждой системы и каждого процесса могут быть осуществлены независимо и отдельно от других компонентов и процессов, описанных здесь. Каждый компонент и процесс также может использоваться в комбинации с другими комплектами элементов и процессами.

В качестве уровня техники фиг.1 представляет упрощенную схему 20, иллюстрирующую примерную многостороннюю систему индустрии платежной карты для проведения обычных транзакции оплаты картой, в которых исторические транзакции используются по меньшей мере частично с системой прогнозирования продавца, зачисленного в группу. Представленный в настоящем документе совокупный продавец относится к высокому уровню группировки местоположений продавца. Более конкретно, различные местоположения индивидуальных продавцов розничной торговли группируются вместе (например соединены друг с другом в базе данных) для формирования совокупного продавца. Одно местоположение продавца представляет собой компонент совокупного продавца. Как правило, совокупный продавец используется, при обращении к цепочке магазинов, и местоположения сгруппированы вместе, как описано далее, основываясь на многих значениях полей, сохраненных в базе данных транзакции.

Данное изобретение относится к системам платежных карт, такой как система платежей по кредитной карте, использующая MasterCard® для обмена информацией. MasterCard® для обмена информацией является собственным коммуникационным стандартом, провозглашенным MasterCard International Incorporated® для обмена данными финансовых операций между финансовыми учреждениями, которые являются членами MasterCard International Incorporated®, (MasterCard зарегистрированная торговая марка MasterCard International Incorporated, расположенной в Purchase, New York).

В обычной карточной платежной системе, финансовое учреждение, именуемое «эмитентом», выпускает платежную карту, такую как кредитную карту, для потребителя, который использует эту карту для предоставления в качестве средства оплаты за покупку продавцу. Для приема оплаты по платежной карте обычно продавец должен создавать учетную запись в финансовом учреждении, которое является частью финансовой платежной системы. Это финансовое учреждение обычно называют "инвестиционным банком" или "банком получения" или "банком получателя". Когда потребитель 22 производит оплату за покупку посредством платежной карты (также известный как карта финансовой операции), продавец 24 запрашивает авторизацию в инвестиционном банке 26 суммы покупки. Запрос может быть выполнен по телефону, но обычно выполняется с помощью терминала продаж, который считывает информацию об учетной записи потребителя с магнитной дорожки на платежной карте и связывается через интернет с компьютерами обработки транзакций инвестиционного банка. Альтернативно, инвестиционный банк может разрешить третьей стороне выполнять обработку транзакций от своего лица. В этом случае, кассовый терминал будет сконфигурирован так, чтобы связываться с третьей стороной. Такую третью сторону обычно называют "торговым процессором" или "процессором получения".

Используя обмен 28 информацией, компьютеры инвестиционного банка или торгового процессора связываются с компьютерами банка 30, выпустившего карту, чтобы определить, является ли учетная запись потребителя в положительном положении и покрывается ли покупка доступным кредитным лимитом потребителя. Основываясь на этих определениях, просьба на авторизацию будет отклонена или принята. Если запрос принимается, код авторизации посылается продавцу.

Когда запрос на авторизацию принимается, доступный кредитный лимит учетной записи 32 потребителя уменьшается. Обычно, запрос средств не сразу отправляется на учетную запись потребителя, потому что ассоциации банковских карт, такие как MasterCard International Incorporated®, провозгласили правила, которые не позволяют продавцу запрашивать средства или "получать" транзакцию, пока товары или услуги не предоставляются. Когда продавец поставляет или предоставляет товары или услуги, продавец получает транзакцию, например, посредством соответствующей процедуры ввода данных на терминале продажи. Если потребитель отменяет транзакцию прежде, чем она будет получена, генерируется "пустая операция". Если потребитель возвращает товары после того, как транзакция была получена, то генерируется "кредит".

После того, как осуществляется транзакция, транзакция урегулируется между продавцом, инвестиционным банком и эмитентом. Урегулирование относится к передаче финансовых данных или фондов, связанных с транзакцией, между учетной записью продавца, инвестиционным банком, и выпускающим карту. Обычно, транзакции проходят и накапливаются в "пакет", которые урегулируются как группа. Данные, которые связанны с такими транзакциями, как описано далее, используются в технике прогнозирования будущих действий покупателя.

Карты финансовых транзакций или платежные карты могут относится к кредитным картам, дебетовым картам, и картам с предоплатой. Все эти карты могут использоваться в качестве способа оплаты за выполнение транзакции. Как описано здесь, термины "финансовая операция карты" или "платежная карта" включают карты, такие как кредитные карты, дебетовые карты и карты с предоплатой, но также включают любые другие устройства, которые могут содержать платежную информацию об учетной записи, такую как мобильные телефоны, персональные цифровые секретари (PDA), и брелки.

Фиг.2 - упрощенная блок-схема примерной системы 100 в соответствии с одним из вариантов осуществления представленного изобретения. В одном варианте осуществления система 100 является системой платежной карты, используемой для реализации, например, настройки связи между эмитентом и продавцом, и в то же время обработки исторических данных, связанных с транзакциями. В другом варианте осуществления система 100 является системой платежной карты, которая может быть использована владельцами банковского счета для того, чтобы ввести коды обработки, которые будут применены к актам платежа.

Более конкретно, в варианте осуществления, в качестве примера, система 100 включает систему сервера 112, и множество клиентских подсистем, также называемых клиентскими системами 114, соединенных с системой сервера 112. В одном варианте осуществления клиентские системы 114 являются компьютерами включающими веб-браузер, так что система сервера 112 доступна для клиентских систем 114 при использовании Интернета. Клиентские системы 114 присоединяются к Интернету через различные интерфейсы включающие сети, такие как локальная сеть (LAN) или глобальная сеть (WAN), соединения удаленного доступа, кабельные модемы и специальные высокоскоростные линии ISDN. Клиентские системы 114 могут быть любым устройством, способным к соединению к Интернету включая сетевой телефон, персональный цифровой секретарь (PDA), или другое сетевое соединяемое оборудование. Сервер базы данных 116 соединяется с базой данных 120, содержащий информацию о множестве тем, как описано ниже более подробно. В одном варианте осуществления централизованная база данных 120 записана в системе сервера 112 и к ней может быть получен доступ потенциальными пользователями в одной из клиентских систем 114, посредством регистрации на системе сервера 112 через одну из клиентских систем 114. В альтернативном варианте осуществления база данных 120 сохранена удаленно от системы сервера 112 и может быть не централизована.

Так же, как описано ниже, база данных 120 хранит данные транзакции, сгенерированные как часть деятельности по продаже, проводимой по банковской сети включающей данные, касающиеся продавцов, владельцев банковского счета или клиентов, и покупок. База данных 120 дополнительно включает данные, касающиеся программ наград и специальных предложений, включая обработку кодов и деловых правил, связанных с различными программами наград и специальными предложениями.

Фиг.3 - расширенная блок-схема примерного варианта осуществления архитектуры сервера системы 122 в соответствии с одним из вариантов осуществления представленного изобретения. Компоненты системы 122, идентичные компонентам системы 100 (показанной на фигуре 2), обозначены на фиг.3 с использованием тех же ссылочных цифр, какие использовались на фиг.2. Система 122 включает систему сервера 112 и клиентские системы 114. Система сервера 112 дополнительно включает сервер базы данных 116, сервер приложений 124, веб-сервер 126, факсовый сервер 128, сервер каталогов 130 и почтовый сервер 132. Дисковый накопитель 134 связывается с сервером базы данных 116 и сервером каталогов 130. Серверы 116, 124, 126, 128, 130 и 132 связываются по локальной сети (LAN) 136. Кроме того, системная рабочая станция администратора 138, пользовательская рабочая станция 140 и рабочая станция супервизора 142 присоединяются к LAN 136. Альтернативно, рабочие станции 138, 140 и 142 связываются с LAN 136, при использовании соединения Интернет или присоединяются через Интранет.

Каждая рабочая станция 138, 140 и 142 является персональным компьютером, имеющим веб-браузер. Хотя функции, выполняемые на рабочих станциях, обычно, иллюстрируются как выполняемые на соответствующих рабочих станциях 138, 140 и 142, такие функции могут быть выполнены в одном из многих персональных компьютеров, связанных с LAN 136. Рабочие станции 138, 140 и 142 иллюстрируются как связываемые с отдельными функциями, только чтобы облегчить понимание различных типов функций, которые могут быть выполнены пользователями, имеющими доступ к LAN 136.

Система сервера 112 конфигурируется так, чтобы быть коммуникативно связанной с различными пользователями, включая сотрудников 144, и с третьими сторонами, например, владельцами банковского счета, клиентами, аудиторами и т.д. 146, использует Интернет-соединения ISP 148. Передача, в примерном варианте осуществления, иллюстрируется как выполняемая с использованием Интернет, однако, в других вариантах осуществления может быть использован любой тип передачи, отличный от глобальной сети (WAN), то есть системы и процессы не ограничиваются той реализацией, в которой используется Интернет. Кроме того, вместо WAN 150 может быть использована локальная вычислительная сеть 136.

В примерном варианте осуществления любой авторизованный пользователь, имеющий рабочую станцию 154, может получить доступ к системе 122. По меньшей мере одна из клиентских систем включает рабочую станцию менеджера 156, расположенную удаленно. Рабочие станции 154 и 156 являются персональными компьютерами, имеющими веб-браузер. Кроме того, рабочие станции 154 и 156 конфигурируются, чтобы связываться с системой сервера 112. Кроме того, факсовый сервер 128 связывается с удаленно расположенными клиентскими системами, включая клиентскую систему 156, используя телефонные линии. Факсовый сервер 128 также конфигурируется, чтобы связываться с другими клиентскими системами 138, 140 и 142.

Фиг.4 - схема 200 последовательности операций, иллюстрирующая высокоуровневые функциональные компоненты для одного из вариантов осуществления системы прогнозирования сгруппированного, или совокупного продавца, где каждый компонент обеспечивает прогноз, касающийся операций транзакции платежной карты по сети. После прогнозы объединяются в единственный прогноз как описано далее. Это объединение прогнозов иногда упоминается как совокупный прогноз. Один пример, относящийся к варианту осуществления, описанному здесь, включает объединенные прогнозы, которые касаются полученных данных местоположения продавца. Как представлено на фиг.4, все алгоритмы прогноза более полно описываются в данном документе.

Первый компонент - это алгоритм 202 прогноза близких местоположений (иногда называемый алгоритмом прогноза k-подобных местоположений), который конфигурируется для выборки "k" местоположений продавца, самых близких к данному местоположению продавца. Алгоритм 202 прогноза дополнительно содержит функцию классификации группы близких местоположений продавца в качестве группировки мод из выбранных "k" наиболее близких местоположений.

Объединенные местоположения как алгоритм Прогноза документов 204 используется, чтобы вычислить релевантность каждого поля и значения поля относительно каждого из объединенных местоположений (высокоуровневая группировка данных) в пространстве известных значений, результаты сохраняются как документ. Самые релевантные значения этих документов используются, чтобы генерировать прогноз.

Сторонний алгоритм Прогноза данных 206, включающий систему сравнения местоположения, используется, если прогноз ассоциируется с определенным сторонним брендом. По меньшей мере один ввод алгоритма 206 включает записи транзакции, полученные от третьей стороны, которые используются в формировании прогноза. В одном варианте осуществления формирование прогноза выполняется после того, как выполнено сравнение местоположения с данными стороннего источника данных. Алгоритм 208 Прогнозирования числовой подписи, вариант осуществления которого базируется в значительной степени на Законе Бенфорда и дополнительно на наблюдаемой тенденции у продавцов, принадлежащих одной группе, отличаться от распределения Бенфорда относительно последовательным способом, включен в схему 200 последовательности операций. Прогноз по алгоритму 208 превращается в группу местоположений, у которых самое близкое числовое распределение по сравнению с каждым местоположением продавца.

Статистическая модель верхнего уровня и механизм 210 подсчета в одном варианте осуществления, реализованые в Oracle, используют прогнозы алгоритмов 202, 204, 206 и 208 для определения группового членства из данных, которые недавно получены и/или сохранены в базе данных. Пример данных - данные о местоположении продавца. По меньшей мере в одном варианте осуществления, и как далее описано, данные о местоположении продавца в базе данных описываются с точки зрения местоположения и расстояния, например несколько местоположений продавца, которые находятся на данном расстояния от данного местоположения. По меньшей мере в одном объекте, местоположение и расстояние являются не обязательно географическими, а скорее основаны на близости, вычисленном с использованием данных продавца, хранящихся в базе данных. В определенных вариантах осуществлениях местоположение и расстояние основаны на близости как меры пересечения атрибутов, весовых коэффициентов, отношений частоты вхождения термина к обратной частоте документа (TF/IDF), вычисление значений полей и значений маркированных полей в базе данных.

Фиг.5 - схема 220 последовательности операций, иллюстрирующая работу механизма 210 подсчета. Определен механизм 210 подсчета, использующий 222 прогнозы местоположений продавца по алгоритмам 202, 204, 206 и 208 наряду с метаданными, относящимися к прогнозированию, из приложения 224 Интелектуальный анализ данных Oracle (ODM) для описания обстоятельств, окружающих каждый отдельный прогноз, затем производит 226 заключительный прогноз - скомпонованный из объединенных индивидуальных прогнозов. Этот заключительный прогноз может относится к местоположению продавца. Приложение также производит подсчет коэффициента доверительности, связанного с объединеными прогнозами по множеству алгоритмов 202, 204, 206 и 208.

Каждый из этих четырех алгоритмов 202, 204, 206 и 208 теперь будет описан более подробно.

К - близкие местоположения (алгоритм 202)

Фиг.6 - схема 250 последовательности операций, иллюстрирующая данные, которые вводятся в алгоритм 202, классифицирующая местоположения продавца, основываясь на близости, например близости местоположения. Набор полей уровня местоположений, или координат 252 местоположений, которые, как известно, значимы в контексте цепочки получения или коллекции (например группы), значений членства, идентифицируется в базе данных учреждений 254, которые принимают карту финансовых операций. Дополнительно, данные ежедневно новой/измененной базы данных 256 местоположений наряду с их ассоциированными новыми/измененными координатами местоположений 258, обеспечивают описанный ниже алгоритм классификации местоположения продавца.

Фиг.7 - схема 280 последовательности операций, описывает один из алгоритмов (на фиг.4 показан алгоритм 202), который используется для классификации местоположений продавца в составе группы. Алгоритм 202 использует по меньшей мере данные, описанные применительно к схеме 250 последовательности операций на фиг.6. Определенно, данные местоположения продавца в базе данных ищутся 282 для нахождения нескольких (k) местоположений, которые находятся в пределах данного расстояния от данного местоположения. Дополнительно, для значения близости ведется поиск местоположений на данном расстоянии, чтобы определить 284 любые новые и/или измененные местоположения. Значение моды определяется 286 классификацией местоположений продавцов, которая осуществляется среди (k) местоположений в пределах определенного пространства признаков (область, из которой данные транзакции вводятся в алгоритм 202). Наиболее часто полученное значение, которое следует из классификации (k) записей местоположения, имеет самый высокий весовой коэффициент и называется значением моды, определенным как описано ниже. Это значение моды возвращается 288 как прогноз по алгоритму 202.

Как описано далее, поля (координаты местоположения 252 и 258) маркируются, и обратная частота документа вычисляется для всех маркируемых значений полей, охватывающих пространство функции. В одном варианте осуществления для каждого местоположения разреженная матрица метрик весовых коэффициентов вычисляется для каждого значения поля и каждого маркируемого значения поля как значение частотность / инверсная частотность документа. Значение прогноза вычисляется, присоединением данного поля местоположения к любому полю местоположения, основываясь на типе поля и/или значении поля.

Разреженная матрица включает местоположения, типы полей и веса для значений термина и маркера термина и генерируется как описано в абзацах ниже.

Матрица создается такой, что содержит обратную частоту документа всех значений полей и маркируемых значений полей и в одном варианте осуществления имеет девять измерений. В определенном варианте осуществления эти девять измерений включают код категории продавца, индивидуальный код участника Ассоциации Europay (ICA), бизнес регион, наименование продавца, номер телефона продавца, эквайринговый идентификационный номер продавца, идентификатор уровня продавца, юридическое наименование продавца, и федеральный идентификационный налоговый номер. Эти измерения включаются во все записи местоположения продавца. Обратная частота документа - логарифм (в одной определенной реализации по основанию 2) частного от числа записей, деленного на число записей, содержащих определенное значение. Один из примеров показан в Таблице 1. В одном варианте осуществления это частное вычисляется отдельно для каждой из этих девяти измерений. Число записей вычисляется как число местоположений продавца. Число записей, содержащих определенный термин, вычисляется подсчетом числа местоположений продавца, которые содержат каждый термин в каждом типе поля.

Таблица 1
Тип поля	Значение поля	Обратная частота документа
Номер телефона	2014234177	12.788106546
Номер телефона	8002285882	6.0265553135
Маркер наименования продавца	DCC	5.0067468324
Маркер наименования продавца	DFQ	8.9807516239
Бизнес регион	01	1.4041323134

Для каждого местоположения перекрестный атрибут нормированного отношения частоты вхождения термина к удвоенной обратной частоте документа вычисляется для значений и маркированных значений, охватывающих девять измерений как проиллюстрировано в Таблице 2, где эти девять измерений снова включают код категории продавца, код ICA, регион осуществления деловых операций, наименование продавца, номер телефона продавца, эквайринговый идентификационный номер продавца, идентификатор уровня продавца, юридическое наименование продавца и федеральный идентификационный налоговый номер.

Таблица 2
Местоположение	Тип поля	Значение поля	Взвешенное отношение частоты вхождения термина к обратной частоте документа
100	Номер телефона	2014234177	.2453254
100	Маркер наименования продавца	BE	.125859
100	Маркер наименования продавца	ST	.1125445
100	идентификатор	525414152	.2155224

	федерального налога
100	Бизнес регион	01	.0252546

Прогноз группового членства и доверительности для данного местоположения вычисляются присоединением прогнозированного местоположения ко всем другим местоположениям по типу поля и значению поля с последующим суммированием результата взвешенного отношения частоты вхождения термина к обратной частоте документа для общих типов полей и значений полей. Результаты местоположения затем сортируются в порядке убывания итогового коэффициента, и группа мод, возникающая среди, например, тринадцати местоположений с самым высоким коэффициентом, выдается в качестве прогноза. Коэффициент доверительности этого прогноза представляется числом местоположений среди лучших тринадцати местоположений, которые содержатся в той же группе (ожидаемое значение), индивидуальными весовыми коэффициентами для k местоположений, которые принадлежат прогнозированной группе и изменениями весовых коэффициентов.

Объединенные местоположения в качестве Прогноза документов (алгоритм 204)

На фиг.8А-8B представлена схема 300, иллюстрирующая местоположения, объединенные в наборы в документах в качестве системы классификации. Алгоритм 204 (показанный на фиг.4), который создает документы объединенных местоположений, аналогичен алгоритмам релевантности документов, обычно используемых механизмами поиска в Интернете. Определенно, релевантность данного местоположения продавца относительно каждого объединения, или набора, местоположений продавца вычисляется как описано ниже.

Для генерирования документа 302 релевантные признаки, например адрес улицы, извлекаются из базы данных, причем данные касаются множества местоположений 304, и группируются в наборы, например набор 306. В целях иллюстрации схема 300 включает четыре набора местоположений; 306, 308, 310, и 312. Набор 312 маркируется как Набор М, указывая, что в определенной реализации число наборов может быть больше или меньше четырех проиллюстрированных. Аналогично число местоположений в пределах набора может измениться от одного до "N".

Сгенерированные документы 302, 320, 322, и 324, каждый из которых включает извлеченные релевантные признаки, собираются в словарь 330. Используя словарь 330, формируется разреженная матрица 340, посредством чего вычисляется релевантность каждого значения поля и маркируемого значения поля, используя извлеченные признаки, для каждой объединенной группы продавцов, основанной на по меньшей мере одной из частот вхождения термина и обратной частоте документа.

В пространстве матрицы 340 матрица уровней весовых коэффициентов местоположения соединяется с матрицей весовых коэффициентов группы продавцов, основанной на типе поля и значении поля. Сумма этих весовых коэффициентов используется, в одном варианте осуществления, как механизм релевантности 350, чтобы определить релевантность каждого местоположения в каждой группе продавцов. Группа продавцов с самой высокой релевантностью возвращается как ожидаемое значение, описанное выше. Более конкретно генерирование пространства матрицы групп, типов полей и весовых коэффициентов для правил термина и маркеров термина описано в следующих абзацах.

Во-первых, создается матрица, содержащая обратную частоту документа всех значений полей и маркируемых значений полей, охватывающих девять измерений, перечисленных в данном документе, конкретно код категории продавца, код ICA, регион осуществления деловых операций, наименование продавца, номер телефона продавца, эквайринговый идентификационный номер продавца, идентификатор уровня продавца, юридическое наименование продавца и федеральный идентификационный налоговый номер, по всем записям местоположения продавца.

С учетом объединения местоположений как алгоритма прогноза документов, как показано в Таблице 3, обратная частота документа представляет собой логарифм (по основанию 2 в одном определенном варианте осуществления) частного от деления числа записей на число записей, содержащих определенное значение. В одном варианте осуществления обратная частота документа вычисляется отдельно для каждого из девяти измерений. Число записей вычисляется как число местоположений продавца. Число записей, содержащих определенный термин, вычисляется подсчетом числа местоположений продавца, которые содержат каждый термин в каждом поле каждого типа.

Таблица 3
Тип поля	Значение поля	Обратная частота документа
Номер телефона	2014234177	12.788106546
Номер телефона	8002285882	6.0265553135
Маркер наименования продавца	DCC	5.0067468324
Маркер наименования продавца	DFQ	8.9807516239
Бизнес регион	01	1.4041323134

Для каждой группы перекрестный атрибут нормированной частоты вхождения термина - двойной обратной частоты документа, вычисляется для значений и маркированных значений, охватывая девять измерений кода категории продавца, код ICA, региона осуществления деловых операций, наименования продавца, номера телефона продавца, эквайрингового идентификационного номера продавца, идентификатора уровня продавца, юридического наименования продавца и федерального идентификационного налогового номера, как показано в Таблице 4, и все местоположения, принадлежащие каждой группе.

Таблица 4
Группа	Тип поля	Значение поля	Частота вхождения термина - двойная обратная частота документа
14420	Эквайринговый идентификационный номера продавца	000000077480312	0.0104721165
14420	Эквайринговый идентификационный номера продавца	000000077519532	0.0052360583
14420	Федеральный идентификационный налоговый номер	362023393	0.6529357998
14420	Бизнес регион	05	0.0627648557
14420	Маркер наименования продавца	TEN	0.0011391784

Один прогноз группового членства вычисляется для данного местоположения, присоединением к строкам матрицы (k)-близких местоположений, которая описана выше, к матрице групп по типу поля и значении поля, затем суммируя результаты весовых коэффициентов частоты вхождения термина - двойная обратная частота документа для общих типов полей и значений полей. Спрогнозированная группа и коэффициент доверительности - группа с самым высоким коэффициентом близости (данным суммой весовых коэффициентов x весовые коэффициенты значений сравниваемых полей и маркируемых значений). Оценка доверия для прогноза - получающееся значение.

Прогноз сторонних данных и установление соответствия местоположения (алгоритм 206)

Третьим компонентом совокупного прогноза является алгоритм 206 (показанный на фиг.4), который использует данные, предоставленные третьей стороной, которые соответствуют базе данных финансовых операций по местоположению продавца. В одном варианте осуществления этим сторонним записям присваивается цепочечный идентификатор, который связан, например, с поставщиком. Эти цепочечные идентификаторы связаны с группами местоположений продавца, ассоциированного с брендом карты финансовых операций (например эмитентом). Прогноз, поэтому, является просто группировкой данных продавца, соответствующих цепочке, с которой была соединена сторонняя запись. Это соединение сопровождает сравнение местоположения, как описано в следующем абзаце.

Набор данных местоположений продавца извлекается из стороннего источника данных, причем местоположения были присвоены (поставщиком) цепочке. Каждая цепочка в пространстве сторонних местоположений продавца ставится в соответствие соответствующей группе. Механизм приблизительного сравнения местоположений продавца используется, чтобы присоединить набор сторонних записей местоположения продавца к набору записей местоположения продавца, заданных эмитентом карты. Прогнозированная группа для данного местоположения вычисляется, тогда, как группа, соответствующая цепочке сторонней записи местоположений, которая была подогнана к записи местоположения продавца-эмитента карты. Коэффициент доверительности это равноценный коэффициент доверительности, присвоенный механизмом подгонки приблизительного местоположения продавца.

Прогнозирование числовой подписи (алгоритм 208)

В одном варианте осуществления алгоритм 208 числовой подписи продавца (показанного на фиг.4) использует наблюдение за распределением цифр в первой позиции суммы транзакций и объема транзакций за день. Для определенности, распределение имеет тенденцию к некоторой уникальности при объединении данных продавца. Кроме того, распределение имеет тенденцию находится в соответствии с распределением, предложенным Законом Бенфорда в естественных данных. На практике цепочка ресторанов быстрого обслуживания может показывать тенденцию иметь определенную неоднократно появляющуюся цифру, как первую цифру количества транзакции. Такая тенденция может быть использована по меньшей мере частично, чтобы идентифицировать, например, местоположение цепочки франшизополучателей ресторана быстрого обслуживания с определенным местоположением или адресом.

Одним примером прогноза, использующего такой алгоритм, является случайная выборка десяти процентов местоположений продавца из каждого совокупного продавца (сгруппированных данных продавца). Распределение чисел 1-9, возникающих в первой позиции количества транзакций и объема транзакций, вычисляется и суммируется относительно совокупного продавца. Вычисляется угловое расстояние между этим распределением и распределением, идентифицированным Законом Бенфорда.

Распределение чисел 1-9 находящихся в первой позиции количества транзакции и объема транзакции, тогда, вычисляется для данного местоположения продавца. Вычисляется угловое расстояние между этим распределением и распределением, идентифицированным Законом Бенфорда. Совокупного продавца с угловым расстоянием, самым близким к угловому расстоянию местоположения продавца, определяют как прогнозированного совокупного продавца для данного местоположения.

Более конкретно, и для каждой группы, распределение частоты возникновения каждого числа (то есть, 1, 2, 3, 4, 5, 6, 7, 8, 9), охватывающих все местоположения в пределах группы среди количества транзакций, количество транзакций и среднего количества транзакций, вычисляется и представляется как процент от целого. Упомянутое распределение сохраняется в таблице, которая представлена Таблицей 5.

Таблица 5
Группа	Номер	Распределение
14420	1	16%
14420	2	14%
14420	3	20%
14420	4	12%
14420	5	5%
14420	6	19%
14420	7	2%
14420	8	8%
14420	9	4%
58625	1	8%
58625	2	14%
58625	3	12%
58625	4	3%
58625	5	5%
58625	6	3%
58625	7	30%
58625	8	18%
58625	9	7%

Как только вычислены распределения для каждой группы, определяется числовая подпись для каждой группы вычислением скалярного произведения вектора распределения группы и вектора распределения, предложенного Законом Бенфорда. Скалярное произведение (угол расхождения) делится на сумму квадратов вектора распределения для каждой группы. Распределение, идентифицированное законом Бенфорда, вычисляется и сохраняется в таблице, которая представлена Таблицей 6.

Таблица 6
Группа	Скалярное произведение
14420	70.9
58625	75.4

Для каждого местоположения, распределение частоты возникновения каждого числа (1, 2, 3, 4, 5, 6, 7, 8, 9), охватывающего количество транзакций, количество транзакций и среднее количество транзакций, наблюдаемых в течение одного месяца для данного местоположения, вычисляется и представляется как процент от целого. Затем эти распределения сохраняются в таблице, которую иллюстрирует Таблица 7.

Таблица 7
Группа	Номер	Распределение
100	1	16%
100	2	14%
100	3	20%
100	4	12%
100	5	5%

100	6	19%
100	7	2%
100	8	8%
100	9	4%
200	1	8%
200	2	14%
200	3	12%
200	4	3%
200	5	5%
200	6	3%
200	7	30%
200	8	18%
200	9	7%

Как только вычисляются распределения для каждого местоположения, числовая подпись для каждого местоположения определяется вычислением скалярного произведения вектора распределения местоположения и вектора распределения, предложенного Законом Бенфорда. Это скалярное произведение (угол расхождения), деленное на сумму квадратов вектора распределения, для каждого местоположения и распределения, идентифицированного законом Бенфорда, вычисляется и сохраняется в таблицу, которая иллюстрируется Таблицей 8.

Таблица 8
Группа	Скалярное произведение
100	70.9
200	75.4

Спрогнозированное групповое членство для данного местоположения, кроме того, вычисляется нахождением группы с числовой подписью, самой близкой к числовой подписи данного местоположения, и коэффициентом доверительности, вычисленным как расстояние между этими двумя подписями.

Статистическая модель и оценка

Как было описано выше со ссылкой на фиг.5, каждое ожидаемое значение от четырех прогнозирующих алгоритмов (202, 204, 206 и 208) наряду с богатым набором метаданных, описывающих обстоятельства каждого прогноза, собирается 222 и вводится в приложение 224 Интеллектуальный Анализ Oracle (ODM). Приложение 224 ODM использует, в одном из вариантов осуществления, статистическую модель (дерево решений), созданную посредством маркированных обучающих данных, чтобы присвоить коэффициент доаерительности каждому ожидаемому значению. Ожидаемое значение с самым высоким коэффициентом доверительности, тогда, выдается как окончательное прогнозированное совокупное значение для каждого местоположения продавца.

Установление приблизительного соответствия строк

Как описано выше, один из компонентов совокупного прогноза - это алгоритм, который использует данные местоположения, которые были приведены в соответствие, например, с местоположением продавца в базе данных финансовых транзакций карты. Некоторые данные могут быть обеспечены сторонними источниками. Варианты осуществления, описанные ниже, относятся к способам и системам извлечения приблизительной строки (например символьной строки), соответствующей данным базы данных. В вариантах осуществления, соответствие строки используется, чтобы определить, например, представлена ли строка, представляющая местоположение в базе данных, другой строкой. Такой алгоритм подходит для многих вариантов осуществления, из-за изменений, которые происходят в записях транзакций, тем более, что записи касаются наименования и местоположения продавца.

Система установления приблизительного соответствия строк базы данных, действует, чтобы присоединить один набор записей к другому набору записей, когда нет общего ключа присоединения, такого как точное соответствие, или общиие значения полей присутствуют в данных. Предполагается, что есть некоторая близость в наборах записей.

Как правило, когда два набора данных присоединяются в базе данных, они совместно используют идентичные значения в одном или более полях. Когда идентичные значения полей не используются совместно двумя источниками данных (наборами записей) из-за различий в данных, традиционный подход к присоединению наборов данных от соответствующих источников данных должен реализовать функцию, которая принимает два значения, затем вычисляет и возвращает значение их близости. Чтобы использовать этот тип функции как основу для присоединения наборов данных требуется много итераций, количественно равных числу записей в каждом наборе данных который присоединяется.

Как пример, если есть 10000 записей в наборе данных А и 500000 записей в наборе данных В, функция вычисления значения близости должна быть вызвана пять миллиардов раз, чтобы присоединить набор данных А к набору данных В. Кроме того не могут быть использованы никакие индексы или функции, основанные на индексах оптимизатором базы данных при вызове такой функции. Этот тип набора данных очень неэффективен и обрабатывается слишком интенсивно для использования при присоединении наборов данных, имеющих нетривиальные объемы данных.

Был разработан способ сравнения строк, который реализуется в различных вариантах осуществления, используя один или более следующих компонентов. При этом, набор ссылочных строк используется в критерии присоединения, который получается посредством основного компонента факторного анализа (PCFA). PCFA стремится идентифицировать набор очень несходных представленных строк в пространстве известных значений, которые будут использоваться в качестве ссылочных строк.

Другой компонент - вычисление значений близости n-граммной частоты, реализуемое на чистом ASCII структурированном языке запроса (SQL), чтобы максимизировать производительность в системе управления реляционной базы данных (RDBMS). Дополнительно, процесс реализуется в RDBMS, использующий вычисление значений близости n-граммной частоты, чтобы сформировать двоичный ключ, как описано ниже, который указывает на близость данной записи с каждой из ссылочных строк, идентифицированных в PCFA.

В одном варианте осуществления набор управляемых данными стандартизованных функций реализуется в RDBMS, как таблица, содержащая инверсную частоту документа (IDF) всех n-грамм, и SQL-реализация расчета отношения перекрестного атрибута весовых коэффициентов частоты вхождения термина к обратной частоте документа (TF/IDF).

Один из вариантов осуществления способа установления соответствия строк включает параметризованный аналитический запрос SQL, присоединяющий записи, которые совместно используют то же самое двоичное значение ключа, после чего сортирует их релевантность, суммируя значения весовых коэффициентов TF/IDF всех соответствующих n-грамм. z-й бит в двоичном ключе устанавливается в логическую 1, если соответствие записи z-й ссылочной строке выше определенного порога.

Процесс реализуется в RDBMS для присвоения коэффициента доверительности каждому соответствию, получаемому от присоединения, пока модель данных RDBMS для хранения данных, включенных в присоединение наборов данных, также включена.

Одна простая версия проблемы присоединения набора данных - соответствие одного названия (или адреса) большему набору названий (или адрессов) содержащихся в базе данных, такой как таблица Oracle. Пример этого n-грамм соответствия иллюстрируется Таблицей 9.

Таблица 9
Кандидат (или новый) адрес	Существующий лист адресов продавцов
10014 S Clarkson Rd.	100 Manchester Rd
	2014 Clarkson Rd
	4 Main Street
	10014 South Clarkson Rd
	1400 Clayton Rd

Элемент, необходимый для решения присоединения набора данных, является метрикой измерения любого значения близости между строками. n-грамм - просто уникальная строка n символов, и n-грамм сравнение - является процессом определения соответствие между n-граммами. Для случая, где n равен двум, адрес кандидата в Таблице 1 состоит из следующих 2 граммов: "10", "00", "01", "14", "4<space>", "<space>S", "S<space>", "<space>C", "C1", "1a"…, "Rd".

В таблице 10 подведен итог прогона алгоритма соответствия n-грамм, который включает определение вектора частоты n-грамма для строки кандидата (например, массив Кандидата), определение вектора частоты n-граммы для каждой записи в базе данных соответствия кандидата (например, Candidate_Match_Array), измерение степени близости между Candidate_Array и Candidate_Match_Array и сохранение тех соответствий кандидата, которые превышают указанный порог. Например, "JoJo's Diner", принимает вид

Таблица 10
Candidate_Array	2-грамм	Частота
1	"Jo"	2
2	"oJ"	1
3	"о"	1
4	"s"	1
5	"s"	1
6	"D"	1
7	"Di"	1
8	"in"	1
9	"ne"	1
12	"er"	1

Таблицы 11, 12, и 13 являются примерами n-грамм Метрики соответствия. "Скалярное внутреннее произведение" - это скалярное произведение массива, "Величины" - корень квадратный суммы квадратов, "Косинус (угла)" - скалярное произведение деленное на произведение Величин, и угол - инверсный косинус скалярного произведения деленного на произведение Величин.

Таблица 11

Таблица 12

Таблица 13

Ссылочные строки

Вышеупомянутые таблицы и описание иллюстрируют возможность представить строки количественно и измерить степень близости между ними. В этой точке индекс для каждой записи в базе данных может быть создан, основываясь на ее относительной позиции в малом наборе ссылочных строк.

При выборе ссылочных строк может быть вычислена позиция новой записи относительно каждой из ссылочных строк. Дополнительно, у каждой записи в базе данных есть своя собственная предварительно вычисленная позиция относительно ссылочных строк. Поэтому, приблизительные соответствия могут быть найдены, получением записей, индексированных в той же самой близости, без необходимости вычисления полной метрики подобия между новой записью и всех записей базы данных. Одна цель выбора ссылочных строк состоит в том, чтобы выбрать записи, которые являются несходными, таким образом, давая лучшую перспективу. Один подход к выбору ссылочных строк обрисовывается в общих чертах в следующих абзацах.

Ссылочные строки идентифицируются, взятием выборки строк из индексируемой базы данных. Генерируются n-грамм представления для каждой строки в выборке, создавая вектор частот, где z-й компонент вектора содержит число встреч n-граммы в этой строке. Генерируется матрица подобия измерением подобия между каждой парой выбранных строк, используя косинусную метрику подобия.

Одним способом нахождения несходных компонентов в наборе подобных данных является основным компонентным анализом. Основной компонентный анализ проводится по матрице подобия, и сохраняются первые k основных компонентов. Выборка строки с максимальной нагрузкой на каждом компоненте сохраняется, формируя набор ссылочных строк.

Двоичный индекс и информационный поиск

Для группировки подобных строк вместе, чтобы индекс мог быть создан для обеспечения быстрого извлечение кандидата во время приблизительного сравнения строк, каждая потенциальная запись кандидата и каждая запись сравнения сравнивается с каждой из ссылочных строк путем SQL-вычисления частоты подобия n-грамм.

Если вычисление подобия приводит к значению, превышающему предопределенный порог, позиции двоичного ключа, соответствующей ссылочной строке, присваивается значение 1. Если значение ниже порога, соответствующей позиции двоичного ключа присваивается 0.

Вычисление подобия n-граммы

Запрос SQL был разработан для формирования двумерного вектора, содержащего частоты возникновения всех представленных уникальных n-грамм в двух данных строках. Затем запрос делит сумму каждой частоты, умноженной на квадрат

величины вектора частоты каждого измерения, для получения нормированной метрики подобия.

Такое вычисление представляется следующим примером, в котором строкой сравнения A является "MASTERCARD", и строкой сравнения B "MASTERCHARGE". Следующая таблица, Таблица 14, является двумерным вектором, содержащим частоты возникновения каждого уникального n-грамма, присутствующего в двух строках сравнения:

Таблица 14
	А	В
МА	1	1

AS	1	1
ST	1	1
ТЕ	1	1
ER	1	1
RC	1	1
CA	1	0
ER	1	1
RD	1	0
CH	0	1
HA	0	1
RG	0	1
GE	0	1

Величина строки A вычисляется как квадратный корень суммы квадратов каждого значения частоты в распределении A, и эта величина строки A равна 3,0. Величина строки B вычисляется как квадратный корень суммы квадратов каждого значения частоты в распредлении B, и эта величина B равна 3,3166247903554. Вычисляется скалярное произведение вектора, и для этого примера скалярное произведение равно 7,0 (число записей таблицы, где и A и B имеют значение 1). Подобие вычисляется как скалярное произведение / (Величина А × Величина В), или 0,703526470681448 для иллюстративного примера.

Формирование значения двоичного ключа

Если вычисление подобия приводит к значению, превышающему предопределенный порог, позиции двоичного ключа, соответствующего ссылочной строке, присваивается значение 1. Если значение ниже порога, соответствующей позиции ключа присваивается 0. В одном варианте осуществления процесс для определения позиции двоичного ключа реализуется, использованием комбинации SQL и PL/SQL. Реализация алгоритма минимизирует число необходимых вычислений сравнений строк при использовании аналитического структурированного языка запросов, чтобы автоматически присвоить данной строке двоичное значение ключа, если двоичное значение ключа было вычислено для точно того же значения в более ранней итерации алгоритма. Эта оптимизация выполняется в SQL.

Уникальный идентификатор и каждое двоичное значение ключа сохранены в организованной таблице разделенного индекса (IOT) в RDBMS. Каждый уникальный набор данных сохранен в единственном разделе, и никакие два набора данных не используют совместно один и тот же раздел. Чтобы максимизировать производительность, загрузка каждого набора данных в таблице выполняется путем создания таблицы операциями «select (CTAS)» и «exchange partition)). Данные в каждом сегменте хранятся в порядке значений двоичного ключа, чтобы максимизировать производительность присоединения.

Стандартизация данных

Чтобы улучшить точность сравнений подобия и распределение двоичных значений ключа, в одном из вариантов осуществления данные стандартизируются по известным сокращениям и синонимам. Чтобы выполнить такую стандартизацию данных, таблица составляется так, что содержит все известные сокращения и синонимы для различных типов полей, наряду с их соответствующими стандартными представлениями. Тогда алгоритм работает для маркировки каждого элемента данных и отображения любого известного сокращения или синонима к их стандартным формам.

Таблица IDF

Для более высокой производительности при вычислении весовых коэффициентов TF/IDF для всех n-грамм, существующих в полях, включенных в объединение по приблизительному совпадению, создается таблица, содержащая инверсную частоту документа всех двух символов n-грамм в записи кандидате. Формирование всех n-грамм пространства выполняется через PL/SQL, в то время как вычисление IDF делается в SQL ASCII. Таблица IDF хранит значение IDF для каждой возможной n-граммы каждой категории данных. Таблица - это индекс, организованный согласно категории данных и n-граммы для максимизации производительности присоединения.

Перекрестный Атрибут весовых коэффициентов TF/IDF

Чтобы присвоить весовой коэффициент, или значение, к каждым двум символам n-грамм, существующих в данной записи для каждого поля, включенного в объединение по приблизительному совпадению, значение перекрестного атрибута весовой коэффициент частоты термина/обратная частота документа TF/IDF вычисляется для каждого значения n-граммы. Вычисляются n-граммные термины и их соответствующие частоты возникновения в каждой данной записи и в каждом данном поле при помощи конвейерной табличной функции, которая берет REF_CURSOR в качестве входных данных. Это вычисление немного отличается от традиционных вычислений весовых коэффициентов TF/IDF, в том что после вычисления TF/IDF для каждой n-граммы каждого поля корректируется весовой коэффициент для всех n-грамм каждого поля путем увеличивения или уменьшения согласно итогового значения весового коэффициента n-граммов в других полях той же самой записи. Этот способ приводит к динамической корректировке уровня записи относительного весовых коэффициентов соответствия n-граммы согласно значимости значения каждого поля.

Как упомянуто выше, уникальные идентификаторы для каждой записи в данном наборе данных, наряду с их n-граммами терминов и вычисленными значениями весовых коэффициентов, сохраняются в разделенной Индексно Организованной Таблице (IOT), чтобы максимизировать производительность объединения. Таблица организуется согласно уникальному идентификатору, категории данных и значению n-грамма термина. Каждый уникальный набор данных сохранен в отдельном сегменте таблицы. Каждый сегмент загружается посредством создания таблицы операциями «select (CTAS)» и «exchange partition», чтобы максимизировать производительность загрузки.

Запрос соединения

Как только расчеты двоичных ключей и перекрестных атрибутов TF/IDF загружены в RDBMS, используется аналитический запрос на объединение, чтобы получить записи совпадения кандидата и отсортировать их по релевантности или качеству как меры сравнения с записью сравнения. Это выполняется, объединением записи с совпадающими значениями двоичного ключа, затем присоединением n-граммы значений для получившейся записи кандидата и вычислением суммы результатов их весовых коэффициентов.

Присвоение коэффициента доверительности

Результаты запроса на предоставление объединения отправляются через функцию, реализованную в RDBMS, которая выполняет очень низкоуровневое сравнение каждой входящей записи и записи кандидата, затем присваивает коэффициент доверительности, используя статистическую модель для использования в приложении анализа данных Oracle, описанную выше.

Вышеупомянутые описанные процессы, связанные с приблизительным соответствием строки, дополнительно иллюстрируются рисунками 9 и 10, которые являются блок-схемами 400 и 450, соответственно, иллюстрирующими определение набора ссылочных символьных строк, и использование набора ссылочных строк для определения метрики подобия символьной строки кандидата. Выборочные строки, максимально нагружающие каждый компонент, сохраняются для формирования набора ссылочных строк. Эти выборочные строки представляют основной компонент в целях корреляции. Метрика подобия основана на многих соответствиях «n-грамм при сравнении символьной строки кандидата и отдельных символьных строк в выбранном наборе ссылочных символьных строк.

Согласно фиг.9 база данных включает пространство данных сравнения потенциального кандидата 402, которое иногда упоминается в настоящем документе как база данных символьных строк (например наименование и/или данные местоположения продавца). Как описано, случайная выборка полей соответствия или записей базы данных), генерируется 404 на основе, например, оптимизированного поиска набора разнородных символьных строк. Вычисляется матрица подобия 406, и применяется факторный анализ 408 основного компонента с получением основных компонентов 410, каждый из которых обращается к соответствующей ссылочной символьной строке. Этот набор ссылочных символьных строк используется для сравнения с символьными строками кандидатов, потому что набор был специально сгенерирован, чтобы включать несходные данные.

Согласно фиг.10 после получения символьной строки кандидата, вычисляется 452 сходство между каждой символьной строкой кандидата и ссылочной строкой, связанной с каждым основным компонентом. Как описано здесь, такое сравнение может быть основано на алгоритме соответствия n-граммы, так, что создается двоичный ключ 454, показывающий сходство символьной строки кандидата к каждой ссылочной строке и соответствующему основному компоненту. Для быстрого и эффективного установления приблизительного соответствия символьной строки записи (ссылочные символьные строки) присоединяются 456 к символьным строкам кандидата, основываясь на сравнении их соответствующих записей двоичных ключей. Такой процесс позволяет пользователю быстро получать соответствия высокой вероятности между ссылочными символьными строками (которые могут включать торговое название и/или данные местоположения) и символьной строки кандидата, которая может представлять наименование продавца и/или данные местоположения продавца. Посредством создания 458 двоичного ключа для каждой записи базы данных, подлежащей сравнению, может быть сгенерирован 460 файл соответствия ссылочных символьных строк символьным строкам кандидата.

Несмотря на то, что изобретение было описано с точки зрения различных конкретных вариантов осуществления, специалистам в данной области техники должно быть понятно, что изобретение может быть осуществлено с изменениями в пределах сущности и объема формулы изобретения.

Claims

1. Автоматизированный способ обнаружения шаблонов в данных транзакций платежной карты для определения группового членства продавца в данных транзакции, предусматривающий: запоминание данных транзакции в по меньшей мере одной базе данных, при этом база данных включает данные, относящиеся к продавцам, принимающим платежные карты к оплате; выборку данных транзакции первым компьютером, связанным с по меньшей мере одной базой данных; использование по меньшей мере одного алгоритма прогнозирования и выбранных данных транзакции для прогнозирования множества групповых членств продавца в группе продавцов, при этом алгоритм реализуется первым компьютером; генерацию метаданных, описывающих каждый прогноз, выданный по меньшей мере одним алгоритмом прогнозирования, при этом метаданные генерируются по меньшей мере одним алгоритмом; ввод множества спрогнозированных групповых членств для продавца и метаданных, описывающих каждое прогнозирование, в программу анализа данных, исполняемую на втором компьютере; присвоение, с использованием второго компьютера, коэффициента доверительности каждому спрогнозированному групповому членству при помощи программы анализа данных, основанное по меньшей мере частично на спрогнозированных групповых членствах и метаданных, при этом коэффициент доверительности представляет собой вероятность действительной ассоциации продавца с соответствующим спрогнозированным групповым членством; и выдачу с использованием второго компьютера прогноза о групповом членстве с наивысшим коэффициентом доверительности в качестве окончательного прогноза о членстве продавца.

2. Автоматизированный способ по п.1, согласно которому использование по меньшей мере одного алгоритма прогнозирования и выбранных данных транзакций для прогнозирования множества групповых членств предусматривает определение, из по меньшей мере одной базы данных, набора полей базы данных, которые значимы в контексте извлечения группового членства, и способ дополнительно предусматривает: поиск данных о местоположении продавца в по меньшей мере одной базе данных множества местоположений продавца, которые находятся в пределах заданного расстояния от заданного местоположения, при этом местоположение и расстояние основаны на близости, определяемой вычислением пересечения атрибутов, весовых коэффициентов, отношений частоты вхождения термина к обратной частоте документа (TF/IDF) для значений полей и значений помеченных полей в базе данных; поиск данных о местоположении продавца для тех местоположений продавца, которые находятся в пределах заданного расстояния от заданного местоположения для значений близости для определения по меньшей мере одного из местоположений продавца - новых и измененных; вычисление типа значений по классификации местоположений продавца, которые встречаются в пределах заданного расстояния от заданного местоположения; и возврат наиболее часто встречающегося типа значения в качестве прогноза группы.

3. Автоматизированный способ по п.1, согласно которому использование по меньшей мере одного алгоритма прогнозирования и выбранных данных транзакций для прогнозирования множества групповых членств предусматривает: маркирование по меньшей мере одного поля в базе данных; вычисление обратной частоты документа для всех значений маркированных полей в базе данных; вычисление разреженной матрицы метрик весовых коэффициентов для каждого значения поля базы данных и каждого значения маркированного поля базы данных; и генерирование прогноза путем присоединения заданного поля местоположения в базе данных к каждому другому полю местоположения в базе данных, основанное на одном или более типах полей и значений полей, используя разреженную матрицу, и при этом разреженная матрица включает код категории продавца, индивидуальный номер участника Ассоциации Europay (ICA), регион осуществления деловых операций, наименование продавца, номер телефона продавца, эквайринговый идентификационный номер продавца, идентификатор уровня продавца, юридическое название продавца и федеральный идентификационный налоговый номер.

4. Автоматизированный способ по п.1, согласно которому использование по меньшей мере одного алгоритма прогнозирования и выбранных данных транзакций для прогнозирования множества групповых членств предусматривает вычисление релевантности для одного местоположения продавца относительно набора местоположений продавца, при этом местоположение основано на расчете близости, при этом значение близости основано на значениях поля и значениях маркированного поля в базе данных, и при этом вычисление релевантности для одного местоположения продавца относительно набора местоположений продавца дополнительно предусматривает: извлечение релевантных признаков из множества местоположений продавца, сгруппированных в наборы для генерирования документа для каждого набора; объединение сгенерированных документов в словарь; формирование разреженной матрицы, используя словарь, в результате чего вычисляется релевантность каждого значения поля и значения маркированного поля в сгенерированных документах, используя извлеченные релевантные признаки, основанные на по меньшей мере одной из частот, а именно частоте термина и обратной частоте документа; и присоединение матрицы весовых коэффициентов местоположения продавца к матрице весовых коэффициентов группы продавцов, основанное на типах полей и значениях полей в разреженной матрице; использование суммы весовых коэффициентов местоположений продавца и весовых коэффициентов местоположений группы продавца в механизме релевантности для определения релевантности каждого местоположения продавца относительно каждого набора местоположений продавца, и вывод набора местоположений продавца с наивысшей релевантностью в качестве прогноза.

5. Автоматизированный способ по п.1, согласно которому использование по меньшей мере одного алгоритма прогнозирования и выбранных данных транзакций для прогнозирования множества групповых членств предусматривает прогнозирование с использованием алгоритма числовой подписи и наблюдаемой тенденции для продавцов, принадлежащих к одной и той же группе, к отклонению от распределения, в относительно непротиворечивой манере, группы местоположений, которые имеют близкое числовое распределение в сравнении с каждым расположением продавца, при этом местоположение основано на расчетном значении близости, а значение близости основано на значениях полей и значениях маркированных полей в базе данных.

6. Автоматизированный способ по п.1, согласно которому использование по меньшей мере одного алгоритма прогнозирования и выбранных данных транзакций для прогнозирования множества групповых членств предусматривает: отбор, в произвольном порядке, данных продавца из группы данных продавца в по меньшей мере одной базе данных; вычисление распределения цифр 1, 2, 3, 4, 5, 6, 7, 8 и 9, возникающих в первой позиции количества транзакции; суммирование объема транзакции по группе продавца; вычисление углового расстояния между вычисленным распределением чисел и распределением чисел, идентифицируемых Законом Бенфорда (Benford's Law); и вывод группы продавца с угловым расстоянием, самым близким к вычисленному угловому расстоянию, как спрогнозированная группа продавца для отобранного продавца.

7. Автоматизированный способ по п.1, согласно которому использование по меньшей мере одного алгоритма прогнозирования и выбранных данных транзакций для прогнозирования множества групповых членств предусматривает использование алгоритма множественного предсказания для обеспечения множественных предсказаний членства для продавца, и в котором присвоение коэффициента доверительности каждой спрогнозированной членской группе предусматривает: присвоение коэффициента доверительности каждому из предсказаний множества членств для продавца; обеспечение прогноза членства с наивысшим коэффициентом доверительности в качестве окончательного прогноза членства для продавца.

8. Автоматизированная система обнаружения шаблонов в данных транзакции платежной карты для определения для индивидуальных продавцов членства продавца в одной или более группах продавцов, используя данные транзакций, при этом система содержит: устройство обработки; и базу данных, при этом упомянутое устройство обработки выполнено с возможностью исполнения записанных в памяти инструкций, приводящих компьютер к выполнению: записи данных транзакций в базу данных, при этом данные транзакций включают в себя данные, относящиеся к продавцам, принимающим платежные карты к оплате; прогона множества алгоритмов прогнозирования, записанных в базе данных с данными транзакций, при этом каждый алгоритм прогнозирования прогнозирует членство продавца в одной или более группах продавца на основе данных транзакций, при этом по меньшей мере один из алгоритмов прогнозирования генерирует метаданные, описывающие прогнозирования; ввода метаданных и спрогнозированных групповых членств в программу анализа данных; присвоения коэффициента доверительности каждому спрогнозированному групповому членству для продавца, основанного на результатах, обеспеченных программой анализа данных, при этом коэффициент доверительности представляет собой вероятность действительной ассоциации продавца с соответствующим спрогнозированным групповым членством; и выдачи прогноза о групповом членстве с наивысшим коэффициентом доверительности в качестве окончательного прогноза членства для продавца.

9. Автоматизированная система по п.8, в которой по меньшей мере один из алгоритмов, записанных в базе данных, выполнен с возможностью определения в данных транзакции, набора полей базы данных, которые значимы для извлечения группового членства.

10. Автоматизированная система по п.9, в которой по меньшей мере один из алгоритмов, записанных в базе данных, выполнен с возможностью: поиска данных местоположения продавца в данных транзакций для множества местоположений продавца на заданном расстоянии от заданного местоположения; вычисления типа значений по классификации местоположений продавца, которые встречаются в пределах заданного расстояния от заданного местоположения; и возврата наиболее часто встречающегося типа значения в качестве прогноза группового членства, при этом местоположение и расстояние основаны на расчетном значении близости, а значение близости основано на значениях полей и значениях маркированных полей в базе данных.

11. Автоматизированная система по п.8, которая выполнена с возможностью прогона множества алгоритмов прогноза с данными транзакций, при этом по меньшей мере один из алгоритмов составлен с возможностью: маркирования по меньшей мере одного поля в базе данных; вычисления обратной частоты документа для всех значений маркированных полей базы данных в базе данных; генерирования разреженной матрицы весовых метрик для каждого значения поля базы данных и каждого значения маркированного поля базы данных; и вычисления прогноза путем соединения заданного местоположения поля базы данных с каждым другим местоположением поля базы данных, основанного на одном или более типах полей и значении поля в разреженной матрице.

12. Автоматизированная система по п.8, выполненная с возможностью прогона множества алгоритмов прогноза с данными транзакций, при этом упомянутая автоматизированная система запрограммирована на вычисление релевантности для одного местоположения продавца относительно набора местоположений продавца в данных транзакций, при этом местоположение основано на расчетном значении близости, а значение близости основано на значениях полей и значениях маркированных полей в базе данных.

13. Автоматизированная система по п.12, которая выполнена с возможностью вычисления релевантности для одного местоположения продавца относительно набора местоположений продавца в данных транзакций, при этом упомянутая автоматизированная система запрограммирована на: извлечение релевантных признаков из множества местоположений продавца, сгруппированных в наборы с целью генерирования документа для каждого набора; объединение сгенерированных документов в словарь; формирование разреженной матрицы, используя словарь, для вычисления релевантности каждого значения поля и значения маркированного поля в сгенерированных документах, используя извлеченные релевантные признаки, основанные на по меньшей мере одной из частот: частоте термина и обратной частоте документа; и присоединение матрицы весовых коэффициентов местоположений продавца к матрице весовых коэффициентов группы продавца, основанных на типах полей и значениях полей в разреженной матрице, и в которой для определения значения для каждого набора данных местоположения продавца упомянутая автоматизированная система запрограммирована на использование суммы весовых коэффициентов в механизме релевантности для определения релевантности каждого местоположения по отношению к группе продавца.

14. Автоматизированная система по п.13, в которой упомянутая система запрограммирована на: использование суммы весовых коэффициентов местоположения продавца и весовых коэффициентов группы продавца в механизме релевантности для определения релевантности каждого местоположения продавца относительно каждого набора местоположений продавца; и вывод набора местоположений продавца с наивысшей релевантностью в качестве прогноза.

15. Автоматизированная система по п.8, в которой для прогона множества алгоритмов прогноза с данными транзакций упомянутая компьютерная система запрограммирована на использование данных, обеспеченных третьей стороной, которые были подогнаны под базу данных транзакций, осуществляемых платежной картой, при помощи местоположения продавца, при этом местоположение основано на расчете значения близости, а значение близости основано на значениях полей и значениях маркированных полей в базе данных.

16. Автоматизированная система по п.8, в которой местоположение основано на расчетном значении близости, а значение близости основано на значениях полей и значениях маркированных полей в базе данных, при этом для прогона множества алгоритмов прогноза с данными транзакций упомянутая автоматизированная система запрограммирована на: использование данных местоположения третьей стороны, которые подогнаны под базу данных транзакций платежной карты бренда, при этом данные местоположения третьей стороны содержат присвоенный идентификатор цепочки; и соединение идентификаторов цепочек с данными местоположения продавца, ассоциированного с платежной картой бренда.

17. Автоматизированная система по п.8, в которой местоположение основано на расчетном значении близости, а значение близости основано на значениях поля и значениях маркированного поля в базе данных, при этом для прогона множества алгоритмов прогноза с данными транзакций упомянутая компьютерная система запрограммирована на: использование механизма подгонки приблизительного местоположения продавца для присоединения набора записей местоположений продавца, принадлежащих третьей стороне, с набором записей местоположения продавца; и вычисление спрогнозированной группы для заданного местоположения в качестве группы продавца, которая соответствует соединенному набору для заданного местоположения.

18. Автоматизированная система по п.17, дополнительно запрограммированная на присвоение подходящего коэффициента доверительности как присвоенного механизмом подгонки приблизительного местоположения продавца.

19. Автоматизированная система по п.8, в которой для прогона множества алгоритмов прогнозирования с данными транзакций упомянутая автоматизированная система запрограммирована на: отбор в произвольном порядке данных продавца из группы данных продавца; вычисление распределения цифр 1, 2, 3, 4, 5, 6, 7, 8 и 9, возникающих в первой позиции количества транзакций в данных транзакций; суммирование объема транзакций по группе продавца.

20. Автоматизированная система по п.19, дополнительно запрограммированная на: вычисление углового расстояния между вычисленным распределением чисел и распределением чисел, идентифицируемых Законом Бенфорда (Benford's Law); и вывод группы продавца с угловым расстоянием, самым близким к вычисленному угловому расстоянию, как спрогнозированной группы продавца для отобранного продавца.