[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Как стать автором
Обновить
17.47

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Поиск изображений по тексту с Manticore Search

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров471

Кратко: Узнайте, как Manticore Search даёт возможность искать изображения по текстовому описанию, совмещая обработку естественного языка и поиск по векторным представлениям. Мы рассмотрим разные пути — от классических методов до современных решений на базе векторного поиска. А если хотите увидеть всё в реальном времени, загляните в наше демо.

Читать далее

Новости

Может ли ИИ автоматизировать создание обзорных статей?

Время на прочтение5 мин
Количество просмотров981

Инструменты искусственного интеллекта отлично справляются с качественным анализом, но буксуют при работе с количественными показателями.

Читать далее

Применение OSINT-техник в сфере юриспруденции

Время на прочтение2 мин
Количество просмотров790

На удивление юристы работают не только с законодательством, бывает, что ответа на вопрос клиента или руководителя просто нет среди законов и кейсов. Тогда юрист превращается в OSINT-исследователя, потому что его работа в том, чтобы найти ответ на вопрос.

— Например, открытые данные помогают проверить контрагента, избежать нарушений законов или найти нужные доказательства для иска. Да и ресерч правовых баз можно отнести к поиску по открытым данным.

Читать далее

Синонимы, транслит и магия: Как заставить систему читать мысли пользователя

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров498

Поиск сопровождает практически любую информационную систему — будь то интернет-магазин, таск-трекер, CRM или что-либо другое. Заветная иконка поиска присутствует почти везде.

Читать далее

Истории

Яндекс внедрил в поиск Нейро и что поменялось в трафике

Время на прочтение3 мин
Количество просмотров3K

В октябре 2024 года «Яндекс» внедрил в поиск «Нейро»: https://ya.ru/neuro-search. Произошли достаточно заметные изменения, и мы решили выявить некоторые закономерности по нашему пулу клиентов — рассмотрим e-com, брендовые площадки, сайты услуг и информационные ресурсы. Выявили и делимся с вами. Пишите в комментариях свои наблюдения.

Читать далее

Как Google 15 лет создавала культуру сокрытия информации

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров14K

В конце 2008 года, когда Google подверглась проверке нарушений антимонопольного законодательства из-за сделки по продаже рекламы с её конкуренткой Yahoo и столкнулась с судебными исками, связанными с претензиями о нарушении патентов, торговых марок и авторского права, высшее руководство разослало внутри компании конфиденциальный меморандум.

«Мы верим, что информация — это благо», — заявляло руководство сотрудникам компании в этом меморандуме. Но, добавляло оно, государственные регулирующие органы или конкуренты могут воспользоваться неосмотрительными беседами работников Google друг с другом.

По словам Google, чтобы минимизировать шансы того, что при рассмотрении иска могут всплыть потенциально компрометирующие комментарии, сотрудники должны воздержаться от необоснованных рассуждений и сарказма, а также «тщательно продумывать» свои слова при общении на «горячие темы». «Не оставляйте комментариев, пока вам не будут известны все факты».

Изменились и технологии внутри компании. В инструменте для мгновенного обмена сообщениями была включена настройка «адвокатская тайна». Неосторожно оброненная фраза удалялась уже на следующий день.
Читать дальше →

Разбираем алгоритм полнотекстового поиска BM25

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.6K

BM25, или Best Match 25 — это широко используемый алгоритм полнотекстового поиска. Среди прочего, он по умолчанию применяется в Lucene/Elasticsearch и SQLite. В последнее время в рамках «гибридного поиска» часто начали комбинировать полнотекстовый поиск и поиск по схожести векторов. Мне захотелось понять, как работает полнотекстовый поиск и в частности BM25, поэтому в этой статье я постараюсь разобраться в этом.

Читать далее

Интернет изменился и больше не будет таким, как прежде

Время на прочтение6 мин
Количество просмотров89K

Помните, каким был интернет, когда вы только начали им пользоваться? Конечно, в зависимости от возраста кто-то из читателей приобщился к сети лет 10 назад, а кто-то подключался к ней через dial-up еще в 90-х (и оставлял семью без домашней телефонной линии). В любом случае интернет сегодня точно не тот, каким вы его помните при первом знакомстве. За последние 30 лет он прошел путь от места исключительно для игры в Counter Strike по сетке и кладезя постыдного контента до явления, на котором держатся гигантские корпорации и зарабатываются миллиарды. Давайте же посмотрим, как изменился интернет и почему это не всегда хорошо.
Читать дальше →

Создание приложения для обратного поиска изображений с помощью Manticore Search

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров943

TL;DR: Узнайте, как создать приложение для обратного поиска изображений с использованием Manticore Search. В статье рассказывается об истории технологии, её устройстве и практических подходах к системам поиска изображений.

Введение

Обратный поиск изображений изменил способ поиска цифрового контента, позволяя искать с помощью изображений, а не текста. Эта технология широко используется: от помощи покупателям в поиске товаров до проверки дизайнов у дизайнеров. Она стала важным инструментом во многих цифровых платформах.

Попробуйте демо на image.manticoresearch.com или посмотрите реализацию на GitHub.

Мы разберём, как работает обратный поиск изображений, его реальные применения и как векторный поиск делает этот инструмент удобным и эффективным для самых разных задач — от повседневного серфинга до узкоспециализированных приложений.

Читать далее

Что ищет он в краю далёком? Как найти смысл жизни с PostgreSQL

Уровень сложностиСредний
Время на прочтение31 мин
Количество просмотров5.2K

Эта статья родилась из пары лекций, которые я прочитал студентам в рамках курса, посвященного вопросам машинного обучения. Почему именно PostgreSQL? Почему векторы? За последние два года тема языковых моделей стала невероятно популярной, и вместе с этим появилось множество инструментов, доступных даже начинающему инженеру, стремящемуся познакомиться с миром текстового анализа.

Доступность этих технологий открывает безграничные возможности для их применения в самых разных областях: от систем управления знаниями до «копилотов», помогающих более тщательно анализировать анамнез пациентов, или информационных киосков, позволяющих собрать идеальную корзину товаров для пикника.

Вряд ли данная работа может похвастаться полнотой или глубиной, однако, я надеюсь, что она предоставит те самые “хорошие” точки входа, которые позволят, погружаясь в детали, открыть для себя множество новых интересных и полезных тем для исследований и инженерных проектов.

Откроем скрытые смыслы

Интернет тонет в спаме

Время на прочтение10 мин
Количество просмотров11K

Спам в каталоге пакетов npm

Интернет уже не тот, что в 90-е. Тогда мы искали интересные сайты по тематическим каталогам Yahoo и Рамблера. Поисковых систем не существовало до появления AltaVista. Даже мысли не было создавать мусорные сайты для прокрутки рекламы, продажи ненужных товаров или обмана людей. Коммерция ещё не пришла в интернет.

Сейчас совсем другое дело. Почти никто уже не воспринимает интернет как технологическое чудо и научный инструмент. Для мошенников это просто ещё один способ обмануть окружающих. Когда знакомый бизнесмен в начале 2000-х узнал про существование электронной почты, его первый вопрос был — как разослать тысячи писем со своей рекламой? Факт аморальности рассылки спама его совершенно не смутил на фоне потенциальной прибыли. У коммерсантов просто другая система ценностей.

И не только электронная почта. То же самое с сайтами, блогами и остальным UGC: сегодня всё генерируется автоматически для поисковой оптимизации, облапошивания простых людей и выманивания денег любым путём.

Иногда кажется, что в интернете осталось только 5% полезного контента — и 95% спама.
Читать дальше →

Киберпсихология или паттерны и стили поиска информации

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.2K

У каждого человека есть свой предпочитаемый способ поиска информации. Будь-то задание по работе, рецепт пирога или 67-мая страница на черно-оранжевом сайте. Новое исследование проливает свет на эдакие «архетипы нетраннера», которые показывают, как именно вы ищите информацию в сети.

Читать далее

Разбираемся с Vespa. Часть 2

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров773

Из этой статьи вы узнаете:

1) Что такое Document и Query Processing.

2) Как обрабатывается текст Vespa. Что такое токенизация и стемминг.

3) Какой из обработчиков текста лучше подходит для русского языка.

4) Как выполнить текстовый поиск.

5) Как происходит ранжирование результата.

Читать далее

Ближайшие события

Быстрее пули: как найти счастье с PostgreSQL

Уровень сложностиПростой
Время на прочтение24 мин
Количество просмотров11K

В этой статье мы расскажем о том, как эффективно реализовать полнотекстовый поиск с помощью PostgreSQL. Узнайте, как улучшить скорость и точность поиска по текстовым данным, используя такие инструменты, как tsvector, tsquery и индексы GIN, и как эти возможности могут значительно повысить производительность вашего приложения.

Читать далее

Полнотекстовый поиск vs. Векторный поиск

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.2K

Полнотекстовый поиск vs. Векторный поиск: в чём разница и когда их использовать? Технологии поиска информации сильно продвинулись вперёд. Раньше был доступен только поиск по ключевым словам, но теперь, благодаря машинному обучению, появился векторный поиск, который помогает находить информацию на основе смысла, а не только точных слов. В этой статье мы рассмотрим различия между полнотекстовым поиском и векторным поиском, их сильные стороны и когда каждый из них лучше всего использовать.

Что такое полнотекстовый поиск? Полнотекстовый поиск – это классический метод поиска информации, который сопоставляет введённые вами слова. Он ищет не только точные совпадения, но также поддерживает такие функции, как поиск по префиксам и инфиксам, морфологическую обработку (например, стемминг и лемматизацию), и даже нечеткие методы поиска, такие как кворумный или поиск по близости. Это означает, что полнотекстовый поиск может быть довольно гибким – он помогает вам находить нужную информацию, даже если вы не уверены в точной формулировке.

Одним из главных преимуществ полнотекстового поиска является его скорость и точность. Поскольку он сопоставляет конкретные ключевые слова и фразы, он может быстро сузить круг до того, что вам нужно, особенно если вы работаете с структурированными документами или базами данных с определённой терминологией. С помощью полнотекстового поиска вы также точно знаете, какие результаты соответствуют вашему запросу, что упрощает определение общего числа релевантных результатов.

Читать далее

Погружение в недра Apache Lucene: архитектура индекса, выполнение поиска и репликация данных

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.1K

Это перевод моей статьи в моем блоге про архитектуру Apache Lucene, про одну из самых известных библиотек реализации поискового индекса. Elasticsearch и Solr, широко известные реализации масштабируемых решений для поиска, они используют эту библиотеку под капотом. Я работаю над созданием решений для поиска в сфере электронной коммерции, и постоянно сталкиваюсь с этой библиотекой при повседневной работе. Apache Lucene реализует большую часть необходимого функционала для построения поисковой системы. Начиная с процесса токенизации, который извлекает канонические формы слов в виде токенов, продолжая полной реализацией инвертированного индекса, и завершая репликацией сегментов в режиме близком к реальному времени. Количество практически полезных фичей, реализованных за два десялилетия существования библиотеки, колоссально. Эта библиотека интегрирует знания из лингвистики, математики и компьютерных наук.

Инвертированный индекс

Apache Lucene реализует архитектуру инвертированного индекса. На уровне реализации логический индекс содержит коллекцию неизменяемых сегментов, хранящихся как файлы в файловой системе. Каждый сегмент сам по себе является инвертированным индексом. Такой индекс — это структура данных словаря с терминами в качестве ключей и данными по размещению (postings) в качестве значений. Постинг — это список идентификаторов документов и количеств вхождений термина в данном документе. Этот словарь использует Finite State Transducers, FST [1] для поиска терминов, что можно представить как нечто похожее на отсортированные списки с пропусками [2]. Такая отсортированная навигационная карта является краеугольным камнем для эффективного поиска по огромным обьемам документов. Lucene также очень эффективен в использовании памяти. Среди прочих алгоритмов, он использует алгоритмы кодирования разницами для сжатия идентификаторов документов в постингах [3]. Упрощенно идея этого сжатия заключается в сортировке списока целых чисел и сохранения дельт между ними. Это также повышает производительность операций ввода-вывода диска.

Читать далее

Кто стоит за убийством Google Search?

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров37K

Это история о том, как умер Google Search, и о причастных к его смерти людях.

Начинается она 5 февраля 2019 года, когда Бен Гомес, глава Google Search, столкнулся с проблемой. Джерри Дишлер, на тот момент вице-президент и главный управляющий Google Ads, вместе с Шивой Венкатараманом, тогда вице-президентом по разработке систем Google Search и Ads, объявили «код жёлтый» в отношении доходности Google Search. Причиной такого шага стало, цитирую: «Стабильно низкие ежедневные показатели», а также вероятность того, что к концу квартала доходность этого сегмента окажется в значительном упадке.
Читать дальше →

Полнотекстовый поиск в java приложениях с помощью Elasticsearch

Уровень сложностиПростой
Время на прочтение41 мин
Количество просмотров3.4K

Рассмотрим, как использовать Elasticsearch в качестве поискового движка в приложениях на Spring Boot. Поговорим о стратегии реализации полнотекстового поиска, эффективной индексации сущностей JPA и их связей. Уделим внимание использованию аннотаций полей, настройке релевантности с помощью весовых коэффициентов и реализации нечёткого поиска для обработки вариаций запросов. Также обсудим методы настройки синонимических связей, многоуровневых фильтров и ранжирования результатов по релевантности для повышения качества поиска.

Читать далее

Быстрый поиск опечаток на Rust

Время на прочтение6 мин
Количество просмотров1.5K

Мы запустили наш поисковик по Hacker News и RAG-движок с полусырой системой исправления опечаток. В нашей первой версии тратилось более 30 мс на обработку орфографически правильных запросов. Это достаточно много, поэтому по умолчанию мы отключили данную фичу. Наша новейшая версия работает в 100 раз быстрее, справляется за 300 мкс с корректно записанными запросами и тратит ~5 мс/слово на исправление ошибок. В этом посте мы объясним, как нам удалось этого добиться!

Читать далее

Применение OSINT-техник в сферах маркетинга, PR и HR

Время на прочтение3 мин
Количество просмотров2.6K

OSINT применим в сфере продаж и рекламы для анализа рынка, мнений потребителей, а также мониторинга конкурентов. Крупные компании в Европе активно используют OSINT-техники, которые помогают им эффективнее продвигать свои услуги и товары. 

Эти компании производят анализ соц. сетей, форумов, блогов, поисковых запросов, благодаря чему в их руках формируется общая картина того, какие молвы о ней ходят в обществе или им предоставляется возможность более детального анализа клиентов — что им нужно, чем они интересуются, что смотрят, читают, куда ходят.

GDQ: поиск конкурентов с помощью оператора related: данный дорк показывает нам похожие ресурсы, и его особенность в том, что поисковик ставит вас в позицию потенциального потребителя этих услуг.

Это даёт нам возможность узнать, какие ресурсы, по мнению алгоритмов, удовлетворяют ту же потребность, что и целевая компания. (что такое GDQ и как ими пользоваться)

Пример запроса: related:www.example.com

Кроме того, этот оператор можно использовать для поиска упоминаний компании по «картинкам» в таком случае дорк будет выглядеть следующим образом: related:«example.com» -site:«исследуемый офиц. сайт».(-site: подразумевает, что мы исключаем из выдачи всё связанное с указанным адресом) Стоит отметить, что для подобных целей есть масса других дорков, выдачи каждой отличаются, и порой кардинально: info:«company site/company name» -company site | inurl:«company name» intext:«company name» -company site | link:«company site» -site:«company site»

PR: ресерч ресурсов, где можно разместить рекламу: перед маркетологами часто стоит задача с поиском и анализом подходящих ресурсов, и не каждый потенциальный источник лидов станет сотрудничать.

Читать далее
1
23 ...

Вклад авторов