Комментарии 10
Мне кажется главная ошибка подобных статей - непонимание что обычые LLM ничего не решают сами. Они лишь предсказывают как ответил бы на такой вопрос человек, используя данные полученные из интернетов.
Единственная LLM которая как-то может в данном вопросе что-то предложить - это o1.
Семплирование отключали?
Как раз к формулировкам модели зачастую менее чувствительны, чем к семплированию
Я получил для этой задачи правильные ответы от 22b и 30b локальных моделей, упомянув в условии, что скорость всех электричек одинакова, ВКЛЮЧАЯ электричку, на которой едет герой задачи.
Так что тут дело именно в формулировках. Я уже писал, что сам сначала неверно решил эту задачу, но назвать себя тупым не могу, просто мышление в данном случае идёт по пути наименьшего сопротивления, используя для решения задачи самый подходящий на первый взгляд алгоритм.
Я не утверждаю, что эти llm мыслят, но процесс их рассуждений похож на человеческое мышление.
И да, o1 с такими задачами справляется очень легко, как и с гораздо более сложными.
Что можно сказать в итоге?
Что любой результат работы ИИ нужно трижды перепроверять.
Высказывания типа " равномерно распределено время в пути" или " их интервалы будут постоянными, независимо от того, в каком направлении они двигаются" сами по себе бессмысленны. Дальше можно и не проверять. Хотя напрашивается спросить типа вдоль чего или в каком смысле равномерно распределено, между чем и чем или какие именно их интервалы.
Аналогично, "В исходной ситуации вы едете на электричке в сторону от вокзала, так что вы встречаете электрички, которые едут обратно к вокзалу. Это означает, что между двумя соседними электричками есть временной промежуток в размере 10 минут." никак не обосновано хотя бы потому, что 5 минут не упомиается. То, что почему оно означает, никак не объяснено - уже мелочь.
А что будет делать LLM если от улья бежит барсук, а встречаются ему пчёлы которые летят в два раза медленнее? Тут интересно ещё и то, не поймается ли модель на разных способах передвижения. Или по реке сплавляется садху, а навстречу по берегу к храму бредут иноки.
Что вы хотите от LLM, если человек может перепутать тепловоз с электричкой ?
Вы едете на электричке в сторону от вокзала. Каждые 5 минут вам встречается электричка, идущая в сторону к вокзалу. Скорости всех электричек одинаковые. Сколько электричек приедет на вокзал за час?
Тут саму задачу можно завалить дополнительными вопросами.
Каждые 5 минут встречается электричка идущая к какому вокзалу? А остановки у электрички будут после встречи? А у вокзала всего один путь и только по нему приходят электрички?
Т.е. человек при ответе на этот вопрос будет делать много допущений.
Позабавило то, что в Вашем примере если попросить модель быть умной, то она реально становится умной)
А вообще не знаю, что ещё можно обсудить, как будто все, что можно - обсудили в комментах к оригинальной статье. Так что можно я тут просто поофигеваю с того, что статья стала настолько популярной, что даже на ее основе создаются новые статьи?: 🤯🤯🤯🤯🤯🤯🤯🤯🤯🤯🤯🤯🤯🤯🤯🤯🤯
Рад видеть продолжение традиции с забавными картинками с электричками, сгенерированными ИИ ❤️😁
Проверил на куче локальных, от 9б до 70б.
Никто не решил.
Добавил в системный промт "Думай как умный человек!"
Модель на 14б решила сразу!
Вот прямо неожиданно сейчас было
Как отличить, занимается ИИ дедукцией, или подводит базис под тезис?
Тезис номер 1: У нас есть числа 60 и 5, 60/5 = 12, выглядит как ответ.
Тезис номер 2: первый очевидный ответ неверный. У нас есть движение туда и обратно, кажется, есть число 2, 12/2 = 6, выглядит как ответ.
А если подкинуть промпт "предположи, что и второй ответ неверный, и подумай как следует", тогда что нейронка выдаст? Упрётся рогом и скажет - нифига, 6 и только 6, или же раз деление не прокатило, давайте попробуем умножить, 12*2 = 24?
Любопытное продолжение задачи об электричках. Так может LLM ее решить или нет?