8000 GitHub - orefkov/simstr: Yet another C++ strings library implmentation
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

orefkov/simstr

Repository files navigation

simstr - библиотека строковых объектов и функций

Версия 1.0.

В этой библиотеке содержится реализация нескольких видов строковых объектов и различных алгоритмов для работы со строками.

Цель библиотеки - сделать работу со строками в С++ такой же простой и лёгкой, как во множестве других языков, особенно скриптовых, но при этом сохранив оптимальность и производительность на уровне С и C++, и даже улучшив их.

Не секрет, что работа со строками в С++ зачастую доставляет боль. Класс std::string часто неудобен либо неэффективен. Многих функций, обычно необходимых при работе со строками, просто нет, и их каждому приходится писать самому.

Эта библиотека не делалась как универсальный комбайн, который "может всё", я реализовывал то, что мне приходилось использовать в работе, стараясь сделать это наиболее эффективным способом, и скромно надеюсь, что кое-что у меня получилось и пригодится другим людям, либо напрямую, либо как источник идей.

Библиотека не претендует на роль "поменял хедер и всё заработало лучше". Многие методы я старался делать совместимыми с std::string и std::string_view, но особо с этим не заморачивался. Переписывание старого кода на работу с simstr потребует некоторых усилий, но уверяю, что они окупятся. А новый код писать с её применением легко и доставляет удовольствие :)

Основное отличие simstr от std::string - для работы со строками используется не единый универсальный класс, а несколько видов объектов, каждый из которых хорош для своих целей, и при этом хорошо взаимодействующих друг с другом. Если вы активно использовали std::string_view и понимали, в чём его преимущество и недостатки по сравнению с std::string, то подход simstr вам также будет понятен.

Основные возможности библиотеки

  • Строки char, char16_t, char32_t, wchar_t.
  • Прозрачное преобразование строк из одного типа символов в другой, с автоматической конвертацией между UTF-8, UTF-16, UTF-32, используя simdutf.
  • Расширяемая система "Строковых выражений". Позволяет эффективно реализовать преобразование и сложение (конкатенацию) строк, литералов, чисел и возможно других объектов.
  • Строковые функции:
    • Выделение подстрок.
    • Поиск подстрок и символов. Для символов также эффективный поиск с конца строка.
    • Различный тримминг строк - справа, слева, везде, по пробельным символам, по заданным символам.
    • Замена подстрок
    • Замена набора символов на набор соответствующих подстрок.
    • Слияние (join) контейнеров строк в единую строку, с заданием разделителей и опций - "пропускать пустые", "разделитель после последней".
    • Разбиение (split) строк на части по заданному разделителю. Разбиение возможно сразу в контейнер со строками, либо вызовом функтора для каждой подстроки, либо путем итерации с помощью итератора Splitter.
  • Интеграция с функциями форматирования format и sprintf, (с автоматическим увеличением буфера). Форматирование возможно для строк char, wchar_t и строк, совместимых с wchar_t по размеру. То есть под Windows это char16_t, под Linux - char32_t. Писать свою библиотеку форматирования не входило в мои замыслы.
  • Парсинг целых чисел с возможностью "тонкой" настройки при компиляции - можно задавать опции проверки переполнения, пропуск пробельных символов, конкретное основание счисления либо автовыбор по префиксам 0x, 0, 0b, 0o, допустимость знака +. Парсинг реализован для всех видов строк и символов.
  • Парсинг double пока реализован вызовом стандартной библиотеки и работает только для строк char, wchar_t и совместимых с wchar_t по размеру типов.
  • Содержится минимальная поддержка Unicode при преобразовании upper, lower и регистро-независимом сравнении строк. Работает только для символов первой плоскости Unicode (до 0xFFFF), а при смене регистра не учитываются случаи, когда один code point может преобразовываться в несколько.
  • Реализован hash map для ключей строкового типа, на базе std::unordered_map, с возможностью более эффективного хранения и сравнения ключей по сравнению с ключами std::string. Поддерживается возможность регистро-независимого сравнения ключей (Ascii или минимальный Unicode (см. предыдущий пункт)).

Основные объекты библиотеки

  • simple_str<K> - самая простая строка (или кусок строки), иммутабельная, не владеющая, аналог std::string_view.
  • simple_str_nt<K> - то же самое, только заявляет, что заканчивается 0. Для работы со сторонними C-API.
  • sstring<K> - shared string, иммутабельная, владеющая, с разделяемым буфером символов, поддержка SSO.
  • lstring<K, N> - local string, мутабельная, владеющая, с задаваемым размером SSO буфера.

Небольшое введение и обзор

Использование

simstr состоит из трёх заголовочных файлов и двух исходников. Можно подключать как CMake проект через add_subdirectory (библиотека simstr), можно просто включить файлы в свой проект. Для сборки также требуется simdutf, (уже подключена к репозитарию как git submodule).

Для работы simstr требуется компилятор стандарта не ниже С++20 - используются концепты и std::format. Работа проверялась под Windows на MSVC-19 и Clang-19, под Linux - на GCC-13 и Clang-21. Также проверялась работа в WASM, сборка в Emscripten 4.0.6, Clang-21.

Бенчмарки

Бенчмарки производятся с использованием фреймворка Google benchmark. Постарался сделать замеры для наиболее типичных операций, встречающихся в обычной работе. Я проводил замеры на своём оборудовании, под Windows и Linux (в WSL), с использованием компиляторов MSVC, Clang, GCC. Сторонние результаты приветствуются. Также проводил замеры в WASM, сборка в Emscripten. Обращаю внимание, что под WASM в Emscripten собирается 32-битная сборка, а значит, размеры буферов SSO в объектах меньше.

Примеры использования

Пока отдельных примеров использования не подготовлено, можно посмотреть тексты тестов, бенчмарков, и утилиты подготовки html из результатов бенчмарков.

About

Yet another C++ strings library implmentation

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

0