Автоматическая обработка слов в строках текста.

Подсчет количества уникальных слов в строках текста.

Перестали работать кнопки и открываться картинки на сайте ? ... Код страниц исправный ; посмотреть решение здесь ...

Авторский сайт [x] запретить сбор данных

Открыть меню ...


Программная обработка слов / строк текста в программе Excel.

Любой пользователь компьютера, периодически сталкивается с проблемой обработки текста большой базы данных / или, многострочного офисного Excel документа ... В частности, интересуют вопросы, ответы на которые - нельзя получить стандартными средствами обработки текстовых данных : ...

# Как получить список уникальных / не повторяющихся значений ? ...

# Как подсчитать количество повторяющихся значений в столбце ? ...

# Как подсчитать количество повторений ? ...

# Как посчитать количество одинаковых ячеек ? ...

Ну, и - в том же духе ... Ладно, бы - это я, такой привередливый ... В крайнем случае, до 10 тысяч - могу и ручками посчитать ... Так - нет, же ... Это проблема известная, пусть и не часто встречаемая, но когда приспичит - хоть по компьютеру молотком колоти - он умнее не станет ... Я считаю, что это проблема разработчиков, напихавших всякой хрени в офисный пакет, из которой - 99% пользователей Microsoft Office - никогда не использовали встроенные функции, и понятия не имеют, как их использовать вообще ... А, те - что работают и часто применяются - порой оставляют желать лучшего в прямом смысле этого слова ... Лучшей функциональности ...

Посмотрите, сами - язык сломаешь : ДАТАКУПОНДО (Купондо - это, что за место?) ; ДЛСТР ... ; ДСТАНДОТКЛП (Дуст от клопов?) ... Это только на букву Д и таких примеров / весь список вставки функций - более 440 позиций ... Выговорить трудно - не то, что / запомнить и понять, как работает функция ... Да, при вводе - всплывают подсказки, ну - а толку ? ...

Категории функций, в основном - работают со значениями элементов / индексов (а не с их количеством), и не решают насущных задач ... Финансовые (гроши я и в уме посчитаю), статистика / логика и аналитика (тоже - пусть мозг занимается, главное - не мешать ему в этом), математические (эти - реально могут пригодиться для облегчения расчетов с цифрами) ... Текстовые ... Давайте рассмотрим внимательно ... Специально убил время, чтобы поближе узнать потенциальные возможности обработки текста ...

Задача : в колонке / столбце таблицы Excel - более 400000 (тысяч) строчек / слов - и надо подсчитать, сколько раз повторяются уникальные слова из общего массива текстовых данных ... Сделаем сортировку от А до Я, что дальше ? А, ничего, сиди / считай вручную ... Текстовые функции Excel предлагают для обработки текста : ...

UNICODE - возвращает число / код знака первого символа в тексте ...

БАТТЕКСТ - преобразование числа в текст ...

ДЛСТР - длина строки, количество знаков в строке (иногда применимо для тупого сравнения) ...

ЗАМЕНИТЬ - замена части строки текста ...

ЗНАЧЕН - преобразование текста в число ...

КОДСИМВ - возвращает число / код знака первого символа в тексте ...

ЛЕВСИМВ - возвращает число символов / знаков от начала строки ...

НАЙТИ - возвращает позицию искомой строки в тексте ...

ПЕЧСИМВ - удаление всех непечатаемых символов / знаков из текста ...

ПОВТОР - повтор текста заданное число раз ...

ПОДСТАВИТЬ - замена части строки текста ...

ПОИСК - возвращает позицию искомой строки в тексте / поиск слева направо ...

ПРАВСИМВ - возвращает число символов / знаков от конца строки ...

ПРОПИСН - конвертация всех букв текста в прописные ...

ПРОПНАЧ - конвертация первой буквы каждого слова текста в прописные, остальные - в строчные ...
ПСТР - возвращает заданное количество знаков / символов текста с указанной позиции ...

РУБЛЬ - преобразование текста в число, денежный формат ...

СЖПРОБЕЛЫ - сжать пробелы / удалить все лишние пробелы в тексте, кроме одиночных между словами ...

СИМВОЛ - возвращает символ с заданным кодом ...

СОВПАД - проверка идентичности двух строк текста ; возвращает : ИСТИНА / ЛОЖЬ

СТРОЧН - конвертация всех букв текста в строчные ...

СЦЕПИТЬ - объединение / коннектация нескольких строк текста в одну ...

Т - проверка содержимого ячейки на соответствие : текст ? или нет ...

ТЕКСТ - преобразование / форматирование числа в текст ...

ФИКСИРОВАННЫЙ - преобразование / форматирование числа в текст, с заданным числом десятичных знаков ...

ЧЗНАЧ - преобразование текста в число без учета языкового стандарта ...

ЮНИСИМВ - возвращает знак / символ Unicode, соответствующий числу / коду знака ...

Не густо ... Первое, что бросается в глаза : вернуть код первого символа ... Бред ...Зачем ? А, если - мне нужен третий / или, восьмой ? ... Если сильно не придираться - есть функция сравнения строк СОВПАД () щелкните мышью на точку / квадратик... Но, она - работает с логическими ИСТИНА / ЛОЖЬ значениями ... Как и функция ЕСЛИ () ... Языки программирования - не трогаем, VBS макросы оставим в покое, сводная таблица или диаграмма / курят бамбук - что, остается ? : ЕСЛИ, СУММ, СЧЁТ, СЧЁТЕСЛИ, СУММЕСЛИМН ... Их применение не позволило мне придумать простую и работоспособную конструкцию программного кода для подсчета вхождений / количества уникальных слов в тексте ... Поэтому я плюнул, тщательно растер, и обратил свой взор на привычные системные инструменты Windows - DOS / BAT / CMD командный процессор ...

Программная обработка слов / строк текста в скрипте процессора CMD / Windows.

Неважно, каким путем / обработкой были получены слова (построчно / в столбец) из массива текста (например, используя WinHex, шестнадцатеричный редактор - можно заменить HEX пробел 20 между словами на код 0D0A переноса строки) ... Главное, чтобы в обрабатываемом тексте не встречались специальные и служебные символы и команды, которые нарушают выполнение BAT / CMD скриптов ... Во-первых, это большинство знаков верхнего ряда клавиатуры ... Плюс - еще по мелочи ...

~ ` ! @ # $ % ^ & * ( ) - _ + = \ | / ' " ?

опасные знаки : больше / меньше, одиночная / двойная кавычка, двоеточие ...

Эти символы можно и нужно использовать при разработке CMD скриптов, но только при тщательном контроле и используя экранировку (если они применяются, как текст, а не специальные инструкции и команды) ... В случае обработки огромного массива строк (а, 400000 (тысяч) - это огромное число, в секундах равное 6666 минут, или 111 часов, или 4 с половиной дня ...) - нет возможности лично проконтролировать каждое значение, и поэтому - лучше сразу избавиться от них (в текстовом редакторе / блокноте : CTRL+ H, найти и заменить, заменить все на [пустая строка в качестве аргумента замены]) ... В разных кодировках текста / национальных алфавитах - также могут встречаться символы, расцениваемые командным процессором, как управляющие ...

Примечание : в этом месте, программисты - обычно организовывают проверку на соответствие символа - печатному и отбрасывают непечатные ... Серьезно - даже не представляю, есть ли подобная проверка в CMD ... А если еще учесть разнообразие кодировок текста ...

Не суть ... Скрипт подсчета слов / строк работает следующим образом ... В некоторой временной папке есть несколько файлов : ...

in.txt - исходный набор отсортированных слов / строк для подсчета и анализа количества уникальных словоформ ... Скрипт будет правильно работать только с предварительно отсортированным списком ... Чтобы последнее значение счетчика было записано в файл количества повторений - в файл in.txt, в самый конец - нужно добавить произвольное слово, например stopword ... Если слово / заглушку не добавлять - достигнув EOF / конца файла - цикл завершит выполнение без сработки на новое слово и последний счет счетчика не будет записан в файл (обусловлено программным кодом сценария скрипта) ...

inout.cmd - собственно / CMD скрипт, который рассмотрим ниже ...

null.txt - пустой файл ... используется для автоматической очистки выходных файлов при новом / следующем запуске скрипта ...

outnum.txt - выходной файл для счетчика повторений слова ...

outtxt.txt - выходной файл для уникального слова / строки ...

tmp.xlsx - временный файл Excel для сортировки и анализа (при необходимости) ...

Вывод результатов в два файла outnum.txt и outtxt.txt сделан для облегчения программного кода скрипта и не мешает совершать / получать успешный подсчет слов и строк в тексте ... Скрипт подсчета количества слов содержит следующие строки программного кода : ...

CHCP 1251 ... Для работы с текстом в кодировке Windows-1251 / русский ... Применяется при необходимости ...

COPY null.txt outnum.txt ...
COPY null.txt outtxt.txt ...
При каждом запуске скрипта - старые выходные файлы очищаются / заменяются (пере записываются) пустым файлом ...

SET OLD=nullword ... Это слово / заглушка - нужно для выравнивания строк в выходных файлах, чтобы слово и его значение - совпадали ... Обосновано работой логики скрипта ...

SET CNT=11 ... При установке счетчика в 0 или 1 - происходит сбой команды ECHO ... Для устойчивой работы скрипта - значение счетчика было умышленно увеличено на +10, что может быть учтено при анализе результатов ...

ECHO %OLD% перенаправляется в outtxt.txt ... Запись выравнивающего строки слова в файл слов / строк ...

SETLOCAL ENABLEEXTENSIONS ENABLEDELAYEDEXPANSION ... Включение режима локальной / расширенной обработки команд и отложенного расширения переменной среды для обработки переменных в режиме реального времени ... Переменные изменяют знак отображения с %x% (значение известно только после работы сценария, особенно в циклах) на !x! - значение известно сразу после расчета, в реальном времени ...

FOR /F %%I IN (in.txt) DO ( ... Запуск цикла для построчного считывания и обработки слов / строк из файла / источника ...

IF !OLD!==%%I (SET /A CNT=!CNT!+1) ... Если слово одинаковое с предыдущим / не изменилось - увеличить счетчик на +1 ...

REM ECHO Old !OLD! ; Word %%I ; Counter !CNT! ... Отладочная строка ... Можно удалить ... Раскомментировать REM строки, чтобы пошагово и наглядно увидеть, как происходит обработка входных слов и заполнение выходных файлов ...

IF NOT !OLD!==%%I ( ... Если слово изменилось - выполнить следующие действия ...

ECHO !CNT! перенаправить в outnum.txt ... Записать в файл значение счетчика для предыдущего слова ...

REM outnum.txt ... Отладочная строка ... Можно удалить ...

SET CNT=11 ... Установить / сбросить счетчик в псевдо нулевое значение ...

ECHO %%I перенаправить в outtxt.txt ... Записать новое слово в файл слов / строк ...

REM outtxt.txt ... Отладочная строка ... Можно удалить ...

SET OLD=%%I ... Установить новое слово - предыдущим / для будущего сравнения ...

) ... Завершение конструкции обработки для нового слова ...
Продолжение работы цикла построчного считывания слов из файла / источника ...

) ... Завершение цикла построчного считывания слов ... Если не было ошибок при чтении - исходный файл прочитан полностью / до конца ...

ENDLOCAL Завершение локализации рабочей среды CMD ...

EXIT ... Завершение работы интерпретатора команд / файла сценария ...

Результатом обработки слов CMD скриптингом - будут два OUT / выходных файла : со словами и с количеством / счетчиком повторений ... Чтобы иметь возможность сортировки, обработки и анализа полученного результата - можно открыть временный Excel файл и скопировать содержимое файлов в таблицу, например : ...
в столбец A - уникальные слова ...
в столбец B - значение счетчика количества повторов ...
В обоих файлах записи синхронизированы так что - проблем с копированием / вставкой быть не должно ...

Получится примерно такая Excel таблица, из которой явно видно, что слово скрипт встречалось в тексте 294 раза, а слово CMD - всего 161 раз ... Если вам нужны предельно точные значения - заполните в столбце C (ячейке C1) - формулу ...

=B1-10 ... Введенная в скрипте поправка будет вычтена из суммы подсчетов ...

Точка / квадратик в правом нижнем углу ячейки с формулой ... Щелкнуть на нее мышью, чтобы продлить ее действие - на все, следующие вниз - автоматически заполнить ячейки формулой по образцу первой ячейки ...

В столбце $B будет условно / сравнительный, а в столбце $C - точный результат подсчета количества слов по строкам ...

A		B	C
nullword	11	1
скрипт		294	284
CMD		161	151
BAT		193	183
строка		189	179
слово		265	255
stopword		-10

Используя Excel - можно вертеть полученной таблицей, "как угодно" : сортировкой найти максимум и минимум, самое часто употребляемое слово по-русски или самое редкое слово по-английски ... Таким образом, используя встроенные средства BAT / CMD программирования Windows, WinHex и Excel - можно относительно легко решить задачу по подсчету уникальных вхождений слов в текст значительного объема, не утруждая себя изучением сложных языков программирования высокого уровня и решением, связанных с ними, проблем ...

август, 2019 ...

Список всех страниц, раздел computer : смотреть онлайн бесплатно, интересное - надо посмотреть ...


Диагностика автомобиля.

Автодиагност визитка, компьютерная диагностика двигателя автомобиля, грузовика. Отечественные и импортные ... Быстрое чтение кодов ошибок DTC ... K-Line. ELM 327. ОБД. EOBD. MOBD. USA OBD. JOBD ... Рекомендации ... Подробнее ...

computer, script-slov. QR Code ссылка, куар код кюар.


ссылки ...

Уголок автолюбителя ... Авто транспорт ... Информация ... диагностика двс ... диагностика системы двигателя ... провести диагностику двигателя ... диагностика автомобиля ... Другие машины и услуги ...


Популярные ссылки.

Раствор соды деактивации поверхностного элект ... Испарения кислоты не только загрязняют аккумулятор, но и способствуют утечке тока по грязи ...

AMI UEFI BIOS настройки на Windows X GPT сист ... Список настроек устройств BIOS UEFI современных ПК на GPT жёстких дисках с ОС Windows X. С ...

Часовой пояс. Настройка в реестре. Time Zones ... Изменить часовой пояс. Display UTC. Time Zones. Записи реестра. Ekaterinburg standard time ...

М9 в г. Москва, Ржев, Великие Луки, Пустошка. ... Москва, Ржев, Великие Луки, Пустошка, Рига. Прогноз погоды на трассе М 9, в дороге по марш ...

Р228 в г. Сызрань, Балаково, Саратов, Волгогр ... Сызрань, Балаково, Саратов, Камышин, Волгоград. Прогноз погоды на трассе Р 228, в дороге п ...

Азбука Морзе напевы. Изучение на русском. Мои ... Напевы и образы при изучении приема на слух кода знаков телеграфной азбуки Морзе. Мой план ...

Р256 в г. Новосибирск, Барнаул, Бийск. ... Новосибирск, Бердск, Искитим, Барнаул, Бийск, Горно-Алтайск, Улан-Батор. Прогноз погоды на ...


Новости РУ СМИ, сводки.

2023-11-09 ... мира новости ... события развиваются настолько быстро, что никто не успевает понять, что происходит ... шутка ))) ...

# ... ria.ru, Украина разорила Запад. США истратили 96 процентов из 60 млрд, однако объем помощи уже превысил 100 млрд долларов.

... Белый дом сообщает, что США с начала российской спецоперации израсходовали 96 процентов всех средств, выделенных на поддержку Украины ... Оставшийся миллиард предназначен для замещения оружия на армейских складах США ... В 2022 году валовой государственный долг Америки впервые превысил 31 триллион долларов ...

2023-01-10 ... года новости ... news новости ... шутка ))) ...

На российских маркетплейсах (оптимизированная онлайн платформа электронной коммерции, магазин электронной торговли продуктов, товаров и услуг) появился в продаже пиратский и специальный корпоративный софт ... Специализированное корпоративное программное обеспечение, в виде пиратских версий софта Autodesk и Adobe, и продажа доступа к лицензионным копиям, которые продают корпоративные пользователи ... Бессрочная лицензия на Autodesk AutoCAD 2022 за 2,5 тыс. руб. ... Набор программ Adobe Master Collection 2022 (включает 23 программы Adobe, среди которых Photoshop, After Effects, Premiere Pro и т. д.) стоимостью в 5 тыс. руб. ... Независимые продавцы торгуют зарубежное ПО на Авито и Wildberries ...

2023-07-30 ... новости онлайн ... реально невероятно ... шутка ))) ...

# ... nplus1.ru, Сверхпроводимость при атмосферном давлении и комнатной температуре.

... Уже звучали слова про открытия учёных в области сверхпроводимости в обычных условиях атмосферы Земли, но эти наработки специалистов - продолжают вызывать сомнения в научных кругах ... Сверхпроводимость - эффект, при котором у некоторых материалов электрическое сопротивление становится нулевым, обычно наблюдается - при экстремально низких температурах или при сверхвысоких давлениях ...
- Физики из Южной Кореи обнаружили сверхпроводящие свойства у апатита свинца Pb10-xCux(PO4)6O, с замещением части атомов - медью ...
- Группа физиков при участии российских ученых подтвердила сверхпроводимость гидрида латана LaH10 ...
- Американские исследователи заявили о сверхпроводимости при 17 градусах Цельсия в смеси сероводорода, метана и водорода, но - отозвали статью ...
- Открытое российскими учёнымы семейство ртутьсодержащих сверхпроводящих купратов, как например HgBa2Ca2Cu3O8+x на настоящий момент имеет рекордную подтвержденную, на данный момент, критическую температуру -138 градусов Цельсия ...
- Ученые экспериментально подтвердили, что гидриды фосфора, иттрия, церия, урана и лантана - превращается в сверхпроводники - почти при комнатных температурах Цельсия, но остаются стабильными - только при крайне высоких давлениях порядка миллиона атмосфер ...
- В ход идут даже радиоактивные сверхпроводники, как высокотемпературный гидрид тория ThH10, полученный российскими физиками ...
- Не обошлось и без графена, но не его однослойного прототипа, а двухслойного, с небольшим углом поворота, создающего муаровый узор и магию особых физических свойств, ещё не до конца изученных исследователями ... В частности, муаровая сверхрешетка - создает условия сверхпроводимости, вкупе со странной металличностью, аномальным эффектом Холла и спонтанной поляризацией материала сегнето / ферро электрики ...

Смотреть все самые интересные новости последних дней, недели, месяца ...

Новые страницы сайта.

22:35 25.11.2023 Пневмоподвеска ECAS Экран МАЗ. Работа и неисправности. ... IndexNow : Y223525112023 , B223525112023 ...

7:16 16.11.2023 Научиться интерактивности. Скрытый контент в браузере.

13:46 15.11.2023 Дискретизация. Сэмплирование. Квантование. Понимание.

22:11 14.11.2023 AI. Character. Chat. Image. Voice. Cover. Video. Free.

4:47 14.11.2023 #4. Введение в радио конструктор GNU Radio на Python.

4:42 14.11.2023 #3. Радио конструктор обработки цифровых сигналов.

20:48 10.11.2023 Gorizont Linux LiveCD. RTL SDR редакция. Radio обзор.


Кратко полезное.

веб юмор программистов ...

Давненько не удавалось встретить и оценить юмор программистов страниц интернета ... При проверке сайта на оптимизацию для мобильных и наличие прочих ошибок, с использованием инструмента Google / Mobile Friendly - улыбнуло и развеселило общение команды разработчиков программного кода скриптов Яндекс - с роботами интернет сети, а именно - фраза : Робот, уходи отсюда! Ты не получишь наши виджеты! ))) ... Ха-ха ! ))) ... Это напомнило мне теги кода веб страниц конца 2000-ных, когда вебмастера вводили что-то, типа meta name = *** description = Робот, ты самый лучший! Пожалуйста вытащи мой сайт на первое место! Обещаю, что буду хорошо себя вести ))) ... Ха-ха ! ))) ... Говорят, что некоторым - помогало ))) ...


СоцСети, вход моя страница.

Cоциальная сеть, моя страница, поиск, вход без регистрации, знакомство без пароля, войти бесплатно ...

Разрешенные соцсети в РФ :

vk.com, моя страница вконтакте.

ok.ru, моя страница одноклассники.

t.me, моя страница телеграм.

youtube.com, мой канал на ютубе.

Запрещенные соцсети в РФ :

twitter.com, моя страница твиттер.

fb.me, моя страница фейсбук.

instagram.com, моя страница инстаграм.

linkedin.com, моя страница в линкедин.


музыку слушать онлайн бесплатно в хорошем качестве ... по закону до скольки можно слушать музыку ...

...

Thinking About It, Let It Go - Nathan Goshen, KVR Remix.

...

This Girl - Kungs Cookin On 3 Burners, 2009.

...

Drunk Groove - Maruv, Boosin.

лучшие новинки музыки ... песнь песней ...

...

Material Girl - Madonna.

...

Dr. Alban - Its My Life.

...

Everybody - Backstreet Boys.

музыка онлайн слушать бесплатно ... скачать музыку бесплатно хорошего качества без регистрации ...

...

Жара - Чичерина.

...

Непогода - Пугачева.

...

Rainbow Country - Bob Marley, Funkstar De Luxe.


techstop-ekb.ru © ТехСтоп, Екатеринбург, Россия. 2023.