| Регулярные выражения в VB .Net |
|
|
| Автор Westry | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 21.02.2008 г. | |||||||||||||||||||||||||||||||||||||||||||||||||||
|
Регулярные выражения - это мощная технология, предназначенная для работы со строками. Она была создана в шестидесятые годы, задолго до появления персональных компьютеров. Широко применяется в скриптовых языках программирования - Perl, Jscript, VBScript. Вы уже знаете, что недавно Microsoft выпустила в свет платформу .NET Framework. В неё были встроены классы для работы с регулярными выражениями. Ниже будет кратко описаны возможности регулярных выражений и принципы работы с ними на языке Visual Basic .NET.
Введение Регулярные выражения - это мощная технология, предназначенная для работы со строками. Она была создана в шестидесятые годы, задолго до появления персональных компьютеров. Широко применяется в скриптовых языках программирования - Perl, Jscript, VBScript. Вы уже знаете, что недавно Microsoft выпустила в свет платформу .NET Framework. В неё были встроены классы для работы с регулярными выражениями. Ниже будет кратко описаны возможности регулярных выражений и принципы работы с ними на языке Visual Basic .NET. Что такое регулярные выраженияЕсли Вы уже знакомы с регулярными выражениями, то можете смело пропустить этот раздел.С помощью регулярных выражений вы можете производить поиск, замену подстрок, используя шаблоны. Они состоят из обычных символов и так называемых метасимволов (metacharacters) - управляющих символов. Список метасимволов достаточно обширен. Ниже приведены наиболее часто используемые символы.
Другие метасимволы вы можете найти в MSDN . Ниже приведён простой пример регулярного выражения - шаблон номера телефона. ^(\(\d+\)){0,1}\d{3}-\d{2}-\d{2}$ Это выражение может показаться сложным, хотя на самом деле всё просто. Начинаем разбор полётов…
Класс RegExДля работы с регулярными выражениями в VB .NET используется класс RegEx, находящийся в пространстве имён System.Text.RegularExpressions. С помощью этого класса вы можете производить следующие действия:
Для произведения действий с регулярными выражениями необходимо создать экземпляр класса RegEx. Для этого используется стандартный конструктор New. Он перегружен и имеет две комбинации параметров. Вы можете задать только шаблон (переменная типа String), который будет использоваться в дальнейшем, либо шаблон и параметры объекта. Параметры задаются константами из перечисления RegExOptions. Ниже приведены константы и их описания.
Метод возвращает объект MatchCollection. Это коллекция, которая содержит объекты Match. Получить объект Match можно с помощью индексированного свойства Item коллекции. Нумерация элементов начинается с нуля. Чтобы получить найденную подстроку, следует использовать свойство Value объекта Macth. Ниже приведён небольшой пример поиска тэгов в HTML коде. Dim regexp As New Regex("<(.*?)>")
ЗаменаДругое часто используемое действие, производимая с помощью класса RegEx - замена подстрок с использованием шаблонов. Для замены используется метод Replace. Он, как и метод Matches, перегружен. Replace может принимать 10 комбинаций параметров. Я не буду перечислять здесь все - вы можете найти их в MSDN или в Object Browser. Метод может принимать комбинации из следующих параметров:
Метод возвращает переменную типа String - строка, в которой были произведены замены. Dim regexp As New System.Text.RegularExpressions.Regex("<(.*?)>") СравнениеСравнение строки с шаблоном - самая простая операция, которую можно произвести с помощью класса RegEx. Сравнение осуществляется методом IsMatch. Он перегружен и может принимать такие же параметры, как и метод Matches. Возвращаемое значение имеет тип Boolean. Метод возвращает True, если тестируемая строка совпадает с шаблоном и False в противном случае. Ниже приведён пример сравнения строки с шаблоном. Dim regexp As New System.Text.RegularExpressions.RegEx ("[0-9]+")
Разделение строкиРазделение строки используется реже остальных операций. Разделение строки с использованием регулярных выражений очень схоже с обычным разделением строки функцией Split. Но если в Split в качестве разделителя использовалась строка, то здесь разделителем является регулярное выражение.Для разделения строки используется перегруженный метод Split класса RegEx. Он может принимать такие же комбинации параметров, как и методы Matches и IsMatch. Split возвращает массив типа String, который содержит строки, полученные из исходной строки. Массив индексируется с нуля. Приведу небольшой пример. Допустим, вам нужно разбить строку по нескольким разделителям (скажем, "-", "." и ","). Можно использовать для этого функцию Split, но при этом будет много возни с массивами, код будет сильно загромождён и снизится быстродействие. А теперь посмотрим, как легко эта операция будет произведена с использованием регулярных выражений. Разделителем будет являться следующее выражение: "[-\.,]". Следующий код разбивает строку на подстроки с использованием этого шаблона.
Dim regexp As New Regex("[-\.,]") Компилированные регулярные выраженияПо умолчанию RegEx компилирует регулярные выражения в последовательность внутренних байт-кодов регулярных выражений (это высокоуровневый код). При выполнении регулярных выражений происходит интерпретация байт-кода.Если при создании объекта RegEx в конструкторе New была установлена константа Compiled, то RegEx будет скомпилирован в MSIL (Microsoft intermediate language). Это позволит JIT-компилятору преобразовать выражение в машинный код, что значительно повышает производительность. Однако в компилированных выражениях есть и плохая сторона - их нельзя выгрузить из памяти. Компилированные регулярные выражения выгружаются только при завершении работы всего приложения. RegEx остается в памяти, даже когда сам объект освобождён и уничтожен сборщиком мусора. Поэтому, следует задуматься над тем, стоит ли устанавливать флаг Compiled. Если вы постоянно используете несколько регулярных выражений, то лучше будет их скомпилировать. ЗаключениеРегулярные выражения - мощная технология для работы с текстом. Радует то, что разработчики Microsoft всё-таки встроили поддержку этой технологии в .NET Framework. Возможно, они сделали это потому что .NET Framework используется в Web-приложениях (ASP .NET), где регулярные выражения больше всего необходимы. |
|||||||||||||||||||||||||||||||||||||||||||||||||||
| « Пред. | След. » |
|---|


