Regex sighting in Taiwan's public national Taigi search tool

date-created:: 2023-07-06

src: 潘科元

Mr. 潘 has since posted several articles exemplifying regex power.

#taigi
#paste/b

新版教典(教育部臺灣閩南語常用詞辭典)雄雄上線,逐家耍甲píng--過!

以下舉例新教典的超專業級功能,使用「正規表達式」來做查詢(我共伊叫做「超專業」就是講這毋是普通使用者耍有路來的 !😅。

欲查詢啥咧?先講背景智識:

咱知影台語第五、七、八聲的清聲母字,大部份是對漢語中古音的全濁聲母變出來的。漢語中古音干焦有平、上、去、入四聲調,後來每一種聲調進一步分化出「陰」、「陽」兩種調類。台語第一聲到第四聲就是「陰平、陰上、陰去、陰入」,台語第五聲到第八聲就是「陽平、陽上、陽去、陽入」。(台語一般腔無分陰上佮陽上,鹿港腔有分。)

伊分化的起頭,主要就是濁聲母的字發生清化現象,按呢是毋是就佮本底的清聲母字變做仝音去矣?佳哉,遮的濁聲母清化的字佮原底的清聲母字佇聲調的層次也發生差異,所以猶原有法度做區別。聲韻學者就共舊底清聲母的調叫做「陰」的,濁聲母清化了後的調叫做「陽」的。

但是塞音佮塞擦音濁音(也就是 b / d / g / dz)清化了後,台語是變做無送氣的(就是 p / t / k / ts)抑是有送氣的(就是 ph / th / kh / tsh)咧?

中古漢語濁聲母清化了後,對應到現代客家話,主要攏是送氣聲母。但是台語就無的確,總是大部份是變做無送氣的(若送氣的可能是後來進一步閣變的)。咱通統計教典所收,第五、第七、第八聲的無送氣清聲母的字佮送氣清聲母的字的數量比例,就會使得顯明這點。

教典陽調類送氣聲母(ph / th / kh / tsh)的單字,「搜尋」欄內按呢拍:

^([ptk]|ts)h[^ ]+[578]$

(註:其中个 [^ ] 會使簡單拍做 \S 下面的例也仝款)

總共揣出 279 筆單字資料(注意,伊會連「又唸作」欄的音也做伙查,算在內)。閣來,

教典陽調類無送氣聲母(p / t / k / ts)的字,「搜尋」欄內按呢拍:

^([ptk]|ts)(?!h)[^ ]+[578]$

總共得著 828 筆單字資料。

比例:279/828 大約是 33.6%,所以教典陽調類單字當中,送氣聲母的字數是無送氣聲母的字數的三份一[sann-hūn-tsi̍t]爾。

#paste/e