More Web Proxy on the site http://driver.im/

Как стать автором

Статистика в IT

Статистика, исследования, тенденции

Статьи Посты Новости Авторы Компании

ru_vds 26 дек в 16:01

Блог RUVDS 2024: держим марку

6 мин

769

Блог компании RUVDS.comHabrКонтент и копирайтинг*Статистика в IT

Ретроспектива

Каждый раз, когда мы видим критику читателей, направленную на блоги компаний на Хабре, мы испытываем горение ж… лёгкое раздражение. На Хабре непросто вести даже посредственный блог, что уж говорить о топовом блоге, который семь лет подряд держит пальму первенства. И речь сейчас даже не об экономике, не о редактуре и не о труде менеджеров. Речь прежде всего о талантливых и продуктивных авторах, которых мы привлекаем для публикации в блог. С нашей точки зрения это однозначный win-win-win: мы удерживаем блог на топовых позициях, читатели получают качественный и проверенный контент, авторы — вознаграждение за свой труд, опыт и талант. При этом мы относимся к авторам бережно: не душим их правками и «особыми» требованиями, не даём ТЗ, не читаем всем колхозом, предъявляя построчно претензии (мы узнавали, таких много). Пользуясь случаем, мы благодарим всех, кто делает с нами наш блог!

Конец года — отличное время оценить итоги, подсчитать просмотры, вспомнить лучшие статьи, а заодно поделиться некоторыми наблюдениями.

Читать дальше →

+37

7

aspnmrv 26 дек в 15:12

Расширенный CUPAC для снижения дисперсии в A/B экспериментах

Средний

13 мин

179

Big Data*Статистика в IT

Задача снижения дисперсии при проведении A/B экспериментов, кажется, никогда не перестанет быть актуальной. Хочу поделиться небольшим разбором свежей статьи, в которой авторы предлагают еще один ~~довольно-таки провокационный~~ метод для снижения дисперсии.

Читать далее

+1

1

Boomburum 25 дек в 12:21

Хабр — Итоги 2024 года

9 мин

8.4K

Блог компании ХабрHabrСтатистика в ITКонтент и копирайтинг*Управление сообществом*

Ретроспектива

Среди всей суеты в этому году было то, что остаётся неизменным поводом для веры в человечество. Это наука: Илон Маск впервые имплантировал микрочип Neuralink человеку, на спутнике Сатурна Мимасе открыли океан из воды, создан препарат для лечения страшной болезни Бехтерева, на основе мРНК разработана вакцина от меланомы (одного из самых распространённых видов рака), созданные вирионы уничтожили бактерию изнутри, установлен новый рекорд в беспроводной передаче данных (938 гигабит в секунду), препарат Ленакапавир против ВИЧ был проверен и оказался эффективен в 99% случаев. И это лишь малая часть…

Второе, что внушает веру в человечество, это чтение. В век коротких роликов, картинок и инфографики на Хабре продолжают писать и читать лонгриды, экспертно их комментировать, писать ответы, устраивать горячие дискуссии. При этом шардирование баз данных может увлечь так же сильно, как обсуждение чего-то научно-популярного.

Как всегда, Хабр был разным, оставался зеркалом IT-сферы и всего вокруг неё происходящего, реагировал, бурлил, обсуждал. Жил свою уже совершеннолетнюю жизнь. Оглянемся на 2024 год?

Читать далее

+131

16

Sivchenko_translate 21 дек в 19:14

Стратегия Келли точно не подведёт

6 мин

5.2K

Математика*Python*Алгоритмы*Программирование*Статистика в IT

Перевод

Возможно, вы слышали о финансовой стратегии ставок по методу Келли. Это система, позволяющая оборачивать себе на пользу известную информацию в азартной игре или связанные с ней предубеждения. Эта стратегия также называется максимально агрессивной или стратегией высокой дисперсии. Дело в том, что если сделать ставку выше, чем позволяет предел Келли, то последствия могут быть катастрофическими.
Недавно мне попалась странная карточная игра, в которой стратегия Келли абсолютно не подразумевала риска, поскольку в игре действует Нулевая дисперсия. В своей знаменитой книге «Математические головоломки» Питер Уинклер называет её «Next Card Bet» («Следующая карточная ставка»). Саму задачу и её решение, по-видимому, сформулировал Томас Кавер. Мне понравилась как сама эта игра в ставки, так и её анализ, поэтому я поделюсь ими с вами здесь.

Читать далее

+29

8

denis-19 20 дек в 20:24

Как информационная служба Хабра провела 2024 год

11 мин

2.2K

HabrКонтент и копирайтинг*Управление сообществом*Статистика в ITУправление персоналом*

Аналитика

Добрый вечер, Хабр! Вот и подходит к концу 2024 год. За последние 12 месяцев в мире нашлось большое количество технических инфоповодов и IT-событий, обновлений ПО, случалось появление новых технологий, произошло развитие электроники и масштабный приход ИИ-сервисов в нашу жизнь, включая различные вариации чат-ботов, Copilot и ИИ-агентов. Большую часть этих событий постаралась запечатлеть команда информационной службы Хабра. А вы, как пользователи этого технического ресурса, оценивали и комментировали новости, переводы и лонгриды, а также помогали нам развиваться в этом году, комментируя, критикуя, оценивая публикации и присылая в ЛС сообщения об ошибках или неточностях в материале.

Читать далее

+52

10

cappelchi 20 дек в 14:30

Прогнозирование результатов футбольных матчей и использование ставки «Обе забьют» (BTTS)

Сложный

33 мин

556

Исследования и прогнозы в IT*Математика*Машинное обучение*Статистика в ITФинансы в IT

Перевод

Насколько сложно прогнозировать результат 'обе команды забьют' (BTTS)?, Могут ли классификаторы машинного обучения прогнозировать BTTS точнее букмекерских контор? и Можно ли использовать классификаторы для разработки прибыльных стратегий на рынке BTTS?
Разберем генерацию признаков, обучение моделей машинного обучения и создание стратегий ставок.

Читать далее

+2

Lesnoy_otz 18 дек в 16:47

Diff-in-diff: жизнь за пределами идеального эксперимента

17 мин

1.2K

Блог компании X5 TechМатематика*Статистика в ITIT-компании

Привет, Хабр! На связи команда ad-hoc аналитики X5 Tech.

Основная задача аналитика при проведении А/Б тестирования - оценка эффекта воздействия (тритмента). В этой статье мы обсудим, что такое идеальный эксперимент и почему он позволяет корректно оценить эффект от воздействия. Затем расскажем, когда идеальный эксперимент невозможен и дадим интуитивное обоснование того, как метод difference-in-difference помогает справиться с оценкой эффекта воздействия в таких ситуациях. В конце мы обсудим формальные предпосылки метода и покажем на примере симуляций последствия их невыполнения.

Читать далее

+3

FeLkan 13 дек в 20:19

Как победить рецидив: путеводитель по полю битвы с онкологией

Простой

42 мин

28K

БиологияPython*Визуализация данных*Data Mining*Статистика в IT

FAQ

Итак, дорогие читатели! Сейчас я обучаюсь на 4 курсе (бакалавр) на программиста (направление: Информатика и вычислительная техника) в семестре столкнулся с очень интересным исследовательским проектом, связанным с биоинформатикой! Вместе с заказчиком мы ему дали научное название: «Снижение рисков развития рецидива злокачественного новообразования» и отправляем в долгое плавание!

На примере проекта‑исследования мы хотим рассказать: где искать медицинские данные? Какого это с ними работать? Как правильно подходить к исследовательской задаче и многое другое. Вы даже сами сможете повторить наши результаты, и я уверен, что у вас получится даже лучше.

Что приходит на ум, когда слышите слово «рецидив»? Правильно, возвращение того, от чего вы уже вроде как избавились. Для заболевших пациентов это слово внушает тревогу, а в онкологии и вовсе звучит как зловещий колокол. Но не бойтесь: сегодня мы не только посмеемся над этим монстром, но и узнаем, как ему дать отпор. Спойлер: с помощью науки и чуточки аналитики.

Читать далее

+22

4

aleksakirik 11 дек в 12:10

Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения

6 мин

1.4K

Блог компании X5 TechУправление персоналом*Управление проектами*Big Data*Статистика в IT

Кейс

Текущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e‑commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента.

И кажется, что все имеющиеся инструменты повышения эффективности уже использованы. Но есть ещё один. В этой статье я расскажу о нашем опыте повышения производительности операций в распределительных центрах торговой сети «Пятёрочка» без больших финансовых вливаний и долгосрочных разработок. Я руковожу Департаментом развития аналитики «Цепочки поставок и поддерживающие функции» в Х5 Tech, и моя команда занимается поиском путей повышения эффективности бизнеса через анализ больших данных.

Читать далее

+13

3

breakingtesting 11 дек в 01:48

Знай своего ментора

Простой

2 мин

1.4K

Тестирование IT-систем*Исследования и прогнозы в IT*Статистика в ITКарьера в IT-индустрииУчебный процесс в IT

Аналитика

Поскольку в последнее время часто вижу рекламу “войти в IT”, решил посмотреть и дать картину того, кто выступает в качестве менторов и стоит ли им доверять на примере наставников в тестирование.

Читать далее

+2

Nina_Feshchenko 9 дек в 20:19

Прогнозирование продаж с использованием библиотеки Prophet, часть 2

Средний

5 мин

6.5K

Блог компании билайнМашинное обучение*Статистика в ITBig Data*

Туториал

Привет! Продолжаю знакомить вас с библиотекой Prophet в качестве инстурмента прогнозирования продаж. Первая часть тут.

Функции для критериев качества в нашей прогнозной модели будут выглядеть следующим образом:

Читать далее

+14

3

aleksei_terentev 8 дек в 09:20

Метрики оценки качества вероятностей в бинарной классификации: опыт из ФинТеха

Средний

14 мин

2K

Машинное обучение*Python*Финансы в ITСтатистика в IT

Из песочницы

Бинарная классификация — одна из ключевых задач машинного обучения, но в реальных приложениях часто важно не только определить класс, но и понять, с какой вероятностью модель принимает решение. Как проверить точность вероятностных предсказаний?

В статье обсуждаются специализированные инструменты для оценки качества вероятностных прогнозов, ключевые метрики и их интерпретация. Материал будет полезен для практиков, стремящихся повысить точность и объяснимость своих моделей.

Читать далее

+8

ilya_undertakes 5 дек в 13:15

Как технарю и не только проверить блогера в телеграме на накрутку?

Простой

5 мин

1.5K

Контекстная реклама*Медийная реклама*ИнфографикаСтатистика в IT

Из песочницы

Прочитай статью и узнай, как не потерять деньги при размещении рекламы у блогеров. Сегодня — проверка на накрутку.

Читать далее

+4

OlgaDS 5 дек в 09:17

В чём секрет сдачи экзаменов на 100/100? Оцениваем результаты эксперимента с помощью статистики на неполных данных

Простой

8 мин

2.1K

Блог компании Яндекс ПрактикумАнализ и проектирование систем*Учебный процесс в ITСтатистика в IT

Аналитика

Недавно YouTube подкинул мне видео «Я пообщался со 100 людьми, сдавшими ЕГЭ на 100, и вот что понял» — автор поговорил со ста выпускниками, сдавшими экзамен на высший балл, и обобщил их опыт. Многие советы из видео можно распространить не только на подготовку к экзамену, но и на подготовку к собеседованию или «вхождение в IT» — так что ролик будет интересен и тем, кто давно окончил школу.

Меня зовут Ольга Матушевич, я наставница на курсе «Аналитик данных» в Яндекс Практикуме. Как аналитик с профдеформацией я в любом подобном исследовании вижу недоделанный А/В-тест — и считаю своим долгом его доделать. В этом тексте я расскажу, какие результаты показал эксперимент из YouTube, и попробую выяснить, являются ли они статзначимыми.

Читать далее

+5

2

a_belova 2 дек в 14:07

Цифровая доступность и кибербезопасность: интеграция или конфликт?

7 мин

935

Accessibility*Информационная безопасность*Статистика в ITИнтерфейсы*Управление продуктом*

Из песочницы

Сложные пароли, двухфакторка, CAPTCHA. Всё это должно защищать, но что, если сами эти механизмы превращаются в огромную дыру в безопасности?

Что делать, если ваш клиент — не «идеальный пользователь», а сотрудник компании с артритом, который не может набрать сложный пароль? Или клиент интернет-банка с ослабленным зрением? Или ваш пожилой сосед, который не смог настроить двухфакторную аутентификацию?

Сложные интерфейсы отпугивают клиентов, ломают UX, а иногда создают больше рисков, чем защищают. Можно ли совместить безопасность и цифровую доступность? Какие ошибки ломают UX, а какие решения работают?

Разберём реальные кейсы, свежие данные и подходы. Ответы есть — и они вас удивят (но это не точно).

Узнать правду

+1

AntonSoroka 2 дек в 10:23

Что за распределение у выборочных квантилей?

Средний

6 мин

898

Статистика в ITPython*Big Data*Data Mining*Математика*

Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?

В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.

Читать далее

+3

2

BolshinDS 1 дек в 12:28

Как сравнивать ML-модели: шпаргалка для разработчиков и менеджеров

Средний

10 мин

2.6K

Блог компании t2Машинное обучение*Статистика в ITУправление разработкой*

Туториал

При разработке и поддержке ML-продуктов одним из ключевых решений является решение о переходе на новую модель, опережающую предыдущую по ряду характеристик. Разработчики и бизнес сталкиваются с риском впустую потратить ресурсы на продуктивизацию новой модели, если разница между текущей и обновленной моделью статистически не обоснована. В статье представлен исчерпывающий системный подход к разрешению данной дилеммы, который успешно применяется у нас в t2 (ранее Tele2).

Читать далее

+5

cappelchi 29 ноя в 14:25

Байесовская иерархическая модель для прогнозирования футбольных результатов

Сложный

13 мин

1.1K

Исследования и прогнозы в IT*Математика*Машинное обучение*Статистика в ITФинансы в IT

Перевод

Проблема моделирования футбольных данных становится все более популярной в последние несколько лет, и было предложено множество различных моделей с целью оценки характеристик, которые приводят команду к поражению или победе, или для прогнозирования счета конкретного матча. Рассмотрим байесовскую иерархическую модель и проверим ее прогнозирующие способности на основе данных о чемпионате Италии Серии А.

Читать далее

+8

smatrosov 29 ноя в 13:35

Гайд по мета-анализу результатов тестов

Средний

21 мин

1.8K

Блог компании X5 TechСтатистика в ITАналитика мобильных приложений*Математика*Веб-аналитика*

Туториал

Привет! На связи команда аналитиков «Пятёрочки» X5 Tech.

Подсчитать и проанализировать можно не только A/B, но также подвергнуть анализу ряд тестов с общей нулевой гипотезой. Другими словами, протестировать результаты серии тестов с классическим статистическим выводом о значимости показателей этой серии, то есть провести мета-анализ.

На написание этой статьи меня вдохновило общение внутри моей классной команды, общение с одним из аналитиком Gett, а также данный пост и комментарии к нему по поводу статьи Ebay.

Мета-анализ стоит на ступеньку выше по доказательности, чем обычный тест, так как аккумулирует информацию по ряду тестов. Можно сказать, что он проводит операцию слияния данных (data fusion), давая оценку оценкам, поэтому и мета. И раз он сильнее по доказательности, то и позволяет увереннее внедрять статистически значимые инициативы. Про это и поговорим в статье.

Читать далее

+9

Saygin 25 ноя в 18:58

Справочник статистических методов для менеджеров продукта и маркетологов

Простой

1 мин

5K

Статистика в ITУправление продуктом*Интернет-маркетинг*Growth Hacking*

Туториал

Давно замечаю, что подавляющее большинство менеджеров (продакты, маркетологи, growth-менеджеры) ограничиваются, в основном, одним статистическим методом — хи-квадратом (Chi-squared test) — что уже неплохо, но это только верхушка айсберга. Методов гораздо больше, и каждый из них может закрывать свои задачи.

Я долго искал, что могло бы стать готовым помощником для менеджеров, но ничего, что отвечало бы всем требованиям, так и не нашёл.

Поэтому собрал свой справочник с методами частотной аналитики. Старался сделать всё максимально просто: без формул, сложных терминов и заумных объяснений. Главное — чтобы было интуитивно понятно, какой метод выбрать и для какой задачи

Читать далее

+31

1

1

2 3 ...