ทำความรู้จัก Regular Expression แบบ 101 กัน
developer น่าจะเคยเห็น RegEx ผ่านตา และเคยเอามาใช้งานกันมาบ้าง
สำหรับคนทั่วไปอาจจะไม่รู้จักว่า RegEx คืออะไร? แล้วเดฟเอาไปใช้ทำอะไร?
แล้วมันคืออะไรล่ะ? เราสรุปจากที่เราเรียนจาก “Google IT Automation with Python Professional Certificate” ซึ่งเรื่อง RegEx อยู่ใน module 3 ของบทเรียนย่อย “Using Python to Interact with the Operating System” แน่นอนว่าต้องใช้ Python เนอะ
data:image/s3,"s3://crabby-images/b5160/b516051e4bf323c1d6725f347d4632658ee39cfa" alt=""
แล้ว RegEx คืออะไร? มีไว้ทำไม? ใช้อะไรบ้าง? มาอ่านกัน
RegEx คืออะไร?
RegEx หรือ Regular Expressions เป็นเครื่องมือที่ใช้ในการค้นหา, จัดการข้อความตาม pattern ที่เราต้องการ และเพื่อ validate บางอย่าง
RegEx ถูกใช้ทำอะไรบ้าง?
- Searching: เอาไว้ค้นหาคำตาม pattern ที่เราต้องการ
- Matching: เอาไว้ matching เพื่อ validate user input เช่น คนนี้ใส่ email ตรง format ไหม
- Replacing: ใช้ค้นหา และเปลี่ยน text ตาม pattern เช่น เปลี่ยนหลาย ๆ space ให้เหลือ space เดียว
- Extracting: ใช้ extract information บางอย่างออกจาก text เช่น วันที่ เบอร์โทร email
- Splitting: ใช้ตัดคำ อันนี้เหมาะกับการใช้กับ log file หรือพวก csv
🖍️ มีแล้วชีวิตเปลี่ยนยังไง?
สมมุติว่าเราค้นหา process id (PID) จาก log นี้
log = “July 31 07:51:48 mycomputer bad_process[12345]: ERROR Performing package upgrade”
ซึ่งก็คือ 12345 เนอะ
วิธีการได้มาคือ เราก็นับว่า วงเล็บใหญ่เปิดอยู่ตรงไหน แล้วก็นับไปอีก 5 ตัวอักษร ก็จะได้ล่ะ
index = log.index(”[”)
log[index+1:index+6]
แต่ถ้าค่า log เปลี่ยน แล้วตำแหน่ง square bracket ขยับ แล้วถ้า process id ยาวขึ้นหรือสั้นลงล่ะ เท่ากับไม่สามารถใช้ได้ทุกเคสถูกม่ะ?
แต่เรารู้อยู่แล้วว่า pattern มันคืออะไร? process id จะอยู่ใน square bracket ถูกม่ะ?
ดังนั้นจึงต้องใช้ RegEx ในการเอาค่า process id ออกมา
import re
log = “July 31 07:51:48 mycomputer bad_process[12345]: ERROR Performing package upgrade”
regex = r"\\[(\\d+)\\]"
result = re.search(regex, log)
print(result[1])
🖍️ Basic Matching with grep
grep เป็น command-line RegEx tool ที่ง่ายและทรงพลังสุด ๆ ในการนำ RegEx ไปใช้ เช่นเราอยาก search คำที่มีคำว่า “thon” สามารถพิมพ์ command grep thon /usr/share/dict/words
ผลจะเป็นแบบนี้ ดึงคำที่มี “thon” ออกมาให้เรา พร้อม highlight สีแดง ๆ ให้ด้วย
data:image/s3,"s3://crabby-images/8a991/8a9912a990ff25b7afba725038e993fa3faa682c" alt=""
ถ้าอยากได้คำว่า “python” โดยไม่สนตัวเล็กใหญ่ ใส่ -i
ลงไป พิมพ์ grep -i python /usr/share/dict/words
data:image/s3,"s3://crabby-images/d76a3/d76a3899439a95363e44a9c95fd0823ba6d6e672" alt=""
มาเรียนรู้ syntax อื่น ๆ เกี่ยวกับ RegEx กัน เรียกว่า Reserved Characters
.
เป็น wildcard ที่สามารถแทนที่แต่ละ character ใน result ได้ เช่นgrep l.rts /usr/share/dict/words
จะได้คำที่มี l ข้างหน้า ตามด้วยอะไรสักตัว แล้วจบด้วย rts
data:image/s3,"s3://crabby-images/2f3c2/2f3c2df2d276664f9bf6c16ce518ff4fc7f70e6a" alt=""
^
นำหน้าที่ string เราต้องการ เช่น ต้องการคำที่นำหน้าว่า fruit มันจะ match ให้ตามนี้
data:image/s3,"s3://crabby-images/a9708/a97083669242648967c7cbbc357bbde8818ed7b9" alt=""
$
ลงท้าย string ที่เราต้องการ เช่น ต้องการคำที่ลงท้ายว่า cat มันจะ match ให้ตามนี้
data:image/s3,"s3://crabby-images/76afd/76afd5cd36f7a25fea30295624b10d65532dbd70" alt=""
Basic Regular Expressions
🖍️ Simple Matching in Python
เริ่มลง code ภาษา Python ล่ะ ใช้ re.search()
เพื่อหาคำที่ match กับ pattern
ผลลัพธ์มี 2 แบบ คือ
- match: return ออกมาเป็น object ว่ามัน match ตรงไหน แล้ว match ด้วยอะไร
- not match: return None ออกมา หมายความว่าไม่มีค่าจากผลลัพธ์อันนี้
r
เป็น raw string ใช้เพื่อหลีกเลี่ยงปัญหาที่เกี่ยวกับ special characters สำหรับการทำ RegEx บน Python จึงใส่ไว้ด้านหน้า "
import re
# match: return object
result = re.search(r"aza", "pizza")
result = re.search(r"aza", "bazaar")
# not match: return None
result = re.search(r"aza", "maze")
data:image/s3,"s3://crabby-images/fd1d3/fd1d31e6e2eb58326f02f621a658203091fde590" alt=""
ลอง applied กับ Reserved Characters ที่เรียนมาเมื่อกี้
import re
print(re.search(r"^x", "xenon")
print(re.search(r"p.ng", "penguin")
print(re.search(r"p.ng", "clapping")
print(re.search(r"p.ng", "clapping")
print(re.search(r"p.ng", "sponge")
data:image/s3,"s3://crabby-images/1e6ed/1e6ed8c5974250584feb25ed68ed47c02cc5bf37" alt=""
เราสามารถ modify search behavior กับ re.search()
ได้ เช่น ใส่ re.IGNORECASE
ไว้ใน parameter สุดท้าย ว่าเราไม่สนตัวเล็กใหญ่นะ
import re
print(re.search(r"p.ng", "Pangaea", re.IGNORECASE)
🖍️ Wildcards and Character Classes
Character Classes จะถูก define ด้วย square brackets หรือเครื่องหมายวงเล็บใหญ่ []
สำหรับบอก set character ที่เราต้องการ match
ตัวอย่าง
re.search(r"[Pp]ython", "Python")
: ต้องการ match กับคำว่า python โดยเป็น P หรือ p ก็ได้ ที่นำหน้า ython
data:image/s3,"s3://crabby-images/013a7/013a7bfdcf00d994b062d155e56ccd21efa106ad" alt=""
re.search(r"[a-z]way", "The end of the highway")
: ทำเป็น range ของ character โดยก้อนนี้นำหน้าด้วย r ลงท้ายด้วย way และตรงกลางเป็นตัวพิมพ์เล็ก a-z ใส่เป็น [a-z] ถ้าอยากได้ uppercase ใส่ [A-Z] ถ้าอยากได้ตัวเลขใส่ [0-9]
data:image/s3,"s3://crabby-images/c9e66/c9e66cf9e18aa63944ecee5fd859d40361d7580e" alt=""
print(re.search(r"[Pp]ython", "Python")
print(re.search(r"[a-z]way", "The end of the highway")
print(re.search(r"[a-z]way", "What a way to go") #None
print(re.search(r"cloud[a-zA-Z0-9]", "cloudy")
print(re.search(r"cloud[a-zA-Z0-9]", "cloud9")
re.search(r"[^a-zA-Z]", "This is a sentence with spaces.")
:ใส่^
เพื่อบอกว่าไม่เอา characters ที่ไม่อยู่ใน set นี้ ในที่นี้คือไม่ match กับ a-z และ A-Z
data:image/s3,"s3://crabby-images/80a32/80a3207f556f6ee2adb9a9ed0433df9e87a9aeba" alt=""
re.search(r"cat|dog", "I like cats.")
: ใส่|
แทน or operator ว่าให้ match อย่างใดอย่างหนึ่ง เช่น cat|dog คำที่ match จะเป็น cat หรือ dog หรือทั้ง cat กับ dog ก็ได้
print(re.search(r"cat|dog", "I like cats.")
print(re.search(r"cat|dog", "I like dogs.")
print(re.search(r"cat|dog", "I like both dogs and cats.")
print(re.findall(r"cat|dog", "I like both dogs and cats.")
(re.findall(r"cat|dog", "I like both dogs and cats.")
:findall()
หาที่ match กับ pattern ทั้งหมด คืนค่าออกมาเป็น array คำที่ match
data:image/s3,"s3://crabby-images/6ae9c/6ae9ca5e5288d527f39124d297ebc9b8579d0902" alt=""
🖍️ Repetition Qualifiers
- concept ของ repeated matches ใช้
.*
ติดกัน จะ match character ซํ้า ๆ หลายครั้ง เพราะ syntax*
เป็น default greedy behavior มันจะ match กับ string ที่ยาวที่สุด ที่เป็นไปได้
print(re.search(r"Py.*n", "Pygmalion")
print(re.search(r"Py.*n", "Python Programming")
print(re.search(r"Py[a-z*]n", "Python Programming")
print(re.search(r"Py[a-z*]n", "Pyn Programming")
data:image/s3,"s3://crabby-images/a8492/a8492f06407fa78ef1959314ffd0787a3c68b85d" alt=""
+
สำหรับ 1 หรือหลาย occurrence เช่น o+l คืออยากได้ o ตามหลังด้วย l
print(re.search(r"o+l", "goldfish")
print(re.search(r"o+l", "woolly")
print(re.search(r"o+l", "boli")
data:image/s3,"s3://crabby-images/b0076/b0076152c3ae2fb94d5c4c8c976a01260dd83064" alt=""
?
สำหรับ 0 หรือ 1 occurrence เช่น ต้องการให้มี p อยู่ข้างหน้าหรือไม่ก็ได้ แต่ต้องมี each นะ
print(re.search(r"p?each", "To each their own")
print(re.search(r"p?each", "I like peaches")
data:image/s3,"s3://crabby-images/7f990/7f9907f915ecafa825eb0a506e055bb429b62a9e" alt=""
🖍️ Escaping Characters
ตัวอักษรที่มีความหมายพิเศษ ใช้ \ หรือ backslash ใช้ใน RegEx เพื่อบอกว่าเป็นตัวหนังสือธรรมดา จะมี \.
หมายถึง จุด อื่น ๆ จะมี \*
, \+
ตัวที่ใช้ในการเขียน code
\n
ขึ้นบรรทัดใหม่\t
tab\w
หมายถึงตัวหนังสือ ตัวเลข และ underscores\d
ตัวเลข\s
whitespace
🖍️ Regular Expressions in Action
A.*a
คำที่เริ่มต้นด้วย A และมี a ข้างหลัง
print(re.search(r"A.*a", "Argentina")
print(re.search(r"A.*a", "Azerbaijan")
"^A.*a$”
คำที่เริ่มต้นด้วย A และจบด้วย a
print(re.search(r"^A.*a$", "Azerbaijan")
print(re.search(r"^A.*a$", "Australia")
data:image/s3,"s3://crabby-images/7b5be/7b5be4836094d051a49117addbf8d7de5e1ecd7d" alt=""
ตัวอย่าง เราต้องการ valid ชื่อที่ประกอบด้วย ตัวหนังสือ ตัวเลย หรือ underscore และไม่นำหน้าด้วยตัวเลข
ตัว pattern ที่ validate ในเคสนี้คือ
^[a-zA-Z_]+[a-zA-Z0-9_]*$
^
บอกว่านำหน้า[a-zA-Z_]+
นำหน้าด้วย ตัวเล็ก ตัวใหญ่ และ underscore ซึ่งจะ match อย่างน้อย 1 ตัวอักษรขึ้นไป[a-zA-Z0-9_]*
ตามหลังด้วย นำหน้าด้วย ตัวเล็ก ตัวใหญ่ ตัวเลข และ underscore match มากกว่า 0 ขึ้นไป$
จบด้วยอะไร
data:image/s3,"s3://crabby-images/f559a/f559ab322eb4893c374fe0c8733f2e308e8db3e7" alt=""
🖍️ Regular Expressions Cheat-Sheet
อันนี้เขาแปะเกี่ยวกับ Regular Expression ของ Python เนอะ
data:image/s3,"s3://crabby-images/6f4a2/6f4a24e571ef508e47f42aff315ed7f4b07bc1fc" alt=""
data:image/s3,"s3://crabby-images/6f4a2/6f4a24e571ef508e47f42aff315ed7f4b07bc1fc" alt=""
data:image/s3,"s3://crabby-images/6f4a2/6f4a24e571ef508e47f42aff315ed7f4b07bc1fc" alt=""
ส่วน tool สามารถลองไปเล่นที่เว็บนี้ได้นะ
data:image/s3,"s3://crabby-images/54bf1/54bf1575fb955894dd4981bcd1ce18d102d183a0" alt=""
Advanced Regular Expressions
🖍️ Capturing Groups
การจัดกลุ่ม ตัวอย่าง คือ มี input เป็น last_name, first_name
แล้วเรามาจัดกลุ่มใหม่ โดยสลับมาเป็น first_name last_name
สร้าง function ที่มีชื่อว่า rearrange_name()
import re
def rearrange_name(name):
result = re.search(r"^(\w*), (\w).$", name)
if result == None:
return name
return "{} {}".format(result[2], result[1])
rearrange_name("Lovelane, Ada")
rearrange_name("Ritchie, Dennis")
rearrange_name("Hopper, Grace M.")
ก่อนอื่นเลย เรามา check name
ก่อนว่า match กับ format last_name, first_name
ไหม
ถ้าไม่ match คือ None ให้ return name ออกมา
ถ้าใช่ ให้ไปจัด format first_name last_name
จัด output ออกมาเป็น group โดยใช้ groups()
โดย result[0]
เป็นคำทั้งหมดที่ match ส่วน result[1]
เป็นคำแรกที่ match และ result[2]
เป็นคำสองที่ match
data:image/s3,"s3://crabby-images/ef8b3/ef8b35b5df5f186b31e7eb9d1a53208ba5510157" alt=""
ลองเล่นดูก็ได้ แต่จะมีเคสที่มีชื่อกลาง ผลลัพธ์ที่ได้มันควรจะเป็น Grace M. Hopper มากกว่า เราจึงต้องเปลี่ยน RegEx เป็น "^([\w .-]), ([\w .-])$"
เพื่อครอบคลุมทุกเคส
import re
def rearrange_name(name):
result = re.search(r"^([\w \.-]), ([\w \.-])$", name)
if result == None:
return name
return "{} {}".format(result[2], result[1])
name=rearrange_name("Kennedy, John F.")
print(name)
🖍️ More on Repetition Qualifiers
Numeric Repetition Qualifiers → ใช้ curly brackets {} กับจำนวน character ที่ต้องการ match
Open-Ended Ranges → ใช้ comma , ในการ define เช่น {5,} match อย่างน้อย 5 {,10} match มากสุด 10 {5,10} match 5 - 10
print(re.search(r"[a-zA-Z]{5}", "a ghost"))
print(re.search(r"[a-zA-Z]{5}", "a scary ghost appeared"))
print(re.findall(r"[a-zA-Z]{5}", "a scary ghost appeared"))
print(re.findall(r"\b[a-zA-Z]{5}\b", "A scary ghost appeared"))
print(re.findall(r"\w{5,10}", "I reallt like strawberries"))
print(re.findall(r"\w{5}", "I reallt like strawberries"))
print(re.findall(r"\w{,20}", "I reallt like strawberries"))
data:image/s3,"s3://crabby-images/a76b1/a76b1c56d4e58628fc86fc81262038e789031096" alt=""
🖍️ Extracting a PID Using regexes in Python
จากตัวอย่างช่วงแรกที่หา Process IDs (PIDs) จาก log lines เราทำเป็น function กัน ชื่อว่า extract_pid()
import re
def extract_pid(log_line):
regex = r"\[(\d+)\]"
result = re.search(regex, log_line)
if result is None:
return ""
return result[1]
log = "July 31 07:51:48 mycomputer bad_process [12345]: ERROR Performing package upgrade"
extract_pid(log)
extract_pid("A completely different string that also has numbers [34567]")
extract_pid("99 elephants in a [cage]")
เมื่อ input ไม่ตรง format ก็ควรจะ None แต่ดันเป็น error exception เป็น Handling Potential Errors
data:image/s3,"s3://crabby-images/84652/84652d0d90394d6a96aca04002727917c93431ee" alt=""
ดังนั้นเรามา handle ให้ถูกต้องกัน เราใช้ split()
ในการตัดคำแล้วจะได้ประมาณนี้
import re
def extract_pid(log_line):
regex = r"\[(\d+)\]: [A-Z]{3,}"
result = re.search(regex, log_line)
if result is None:
return None
final = result[0].split()
pid = re.search(r"\d{5}", final[0])[0]
return "{} ({})".format(pid, final[1])
print(extract_pid("July 31 07:51:48 mycomputer bad_process[12345]: ERROR Performing package upgrade")) # 12345 (ERROR)
print(extract_pid("99 elephants in a [cage]")) # None
print(extract_pid("A string that also has numbers [34567] but no uppercase message")) # None
print(extract_pid("July 31 08:08:08 mycomputer new_process[67890]: RUNNING Performing backup")) # 67890 (RUNNING)
🖍️ Splitting and Replacing
split()
ตัดคำด้วย character ที่เราต้องการ ใส่วงเล็บครอบคือตัดเอามาด้วย
re.split(r"[.?!]", "One sentence. Another one? And the last one!")
re.split(r"([.?!])", "One sentence. Another one? And the last one!")
data:image/s3,"s3://crabby-images/4b0cc/4b0cc9582a1061784fb22ad6076caa9bc3b5ed27" alt=""
replace()
แทนที่ด้วย character หรือคำที่เราต้องการ เช่นreplace(" ", "")
แทนที่ space ด้วย emptysub()
คล้ายreplace()
re.sub(r"[\w.%+-]+@[\w.-]+", "[RECACTED]", "Received an email for [email protected]")
data:image/s3,"s3://crabby-images/9e3b3/9e3b366f2f213ae694ca4c57092514eadcd2f0a0" alt=""
และใช้ในการ rearrange ได้ แทนการใช้ groups()
ง่ายกว่าการทำ function เมื่อกี้เยอะ
re.sub(r"[\w.-], [\w.-]$", r"\2\1", "Lovelace, Ada")
data:image/s3,"s3://crabby-images/ac161/ac161eab0f0b8b4a435abd68c31edfefda79e0ec" alt=""
🖍️ Advanced Regular Expressions Cheat-Sheet
data:image/s3,"s3://crabby-images/0dd75/0dd75ccbcf938c1d3cab9e378c60bd8d2da4df10" alt=""
ทั้งหมดก็จะประมาณนี้เนอะ
ติดตามข่าวสารตามช่องทางต่าง ๆ และทุกช่องทางโดเนทกันไว้ที่นี่เลย แนะนำให้ใช้ tipme เน้อ ผ่าน promptpay ได้เต็มไม่หักจ้า
ติดตามข่าวสารแบบไว ๆ มาที่ Twitter เลย บางอย่างไม่มีในบล็อก และหน้าเพจนะ
สวัสดีจ้า ฝากเนื้อฝากตัวกับชาวทวิตเตอร์ด้วยน้าา
— Minseo | Stocker DAO (@mikkipastel) August 24, 2020