2023-06-30

ChatGPT data extraction

Wow. Black-belt level.

$

Data extraction with ChatGPT

Looks like I need to re-learn Python and get familiar with JSON. It's time.

#Glasp

(379) ChatGPT Data Extraction: A quick demonstration - YouTube

Metadata

Page comment

PDF Plumber (a python package?); JSON representation; code block format (3 backticks)

Highlights & Notes

  • (01:09) 'll use a program called PDF plumber to do this but we'll copy it here and then we'll use backticks paste in our document and then for our prompt we'll ask can you return a Json representation of the above text

Regex + Taigi = Power

$

Regex sighting in Taiwan's public national Taigi search tool

date-created:: 2023-07-06

src: 潘科元

Mr. 潘 has since posted several articles exemplifying regex power.

#taigi
#paste/b

新版教典(教育部臺灣閩南語常用詞辭典)雄雄上線,逐家耍甲píng--過!

以下舉例新教典的超專業級功能,使用「正規表達式」來做查詢(我共伊叫做「超專業」就是講這毋是普通使用者耍有路來的 !😅。

欲查詢啥咧?先講背景智識:

咱知影台語第五、七、八聲的清聲母字,大部份是對漢語中古音的全濁聲母變出來的。漢語中古音干焦有平、上、去、入四聲調,後來每一種聲調進一步分化出「陰」、「陽」兩種調類。台語第一聲到第四聲就是「陰平、陰上、陰去、陰入」,台語第五聲到第八聲就是「陽平、陽上、陽去、陽入」。(台語一般腔無分陰上佮陽上,鹿港腔有分。)

伊分化的起頭,主要就是濁聲母的字發生清化現象,按呢是毋是就佮本底的清聲母字變做仝音去矣?佳哉,遮的濁聲母清化的字佮原底的清聲母字佇聲調的層次也發生差異,所以猶原有法度做區別。聲韻學者就共舊底清聲母的調叫做「陰」的,濁聲母清化了後的調叫做「陽」的。

但是塞音佮塞擦音濁音(也就是 b / d / g / dz)清化了後,台語是變做無送氣的(就是 p / t / k / ts)抑是有送氣的(就是 ph / th / kh / tsh)咧?

中古漢語濁聲母清化了後,對應到現代客家話,主要攏是送氣聲母。但是台語就無的確,總是大部份是變做無送氣的(若送氣的可能是後來進一步閣變的)。咱通統計教典所收,第五、第七、第八聲的無送氣清聲母的字佮送氣清聲母的字的數量比例,就會使得顯明這點。

教典陽調類送氣聲母(ph / th / kh / tsh)的單字,「搜尋」欄內按呢拍:

^([ptk]|ts)h[^ ]+[578]$

(註:其中个 [^ ] 會使簡單拍做 \S 下面的例也仝款)

總共揣出 279 筆單字資料(注意,伊會連「又唸作」欄的音也做伙查,算在內)。閣來,

教典陽調類無送氣聲母(p / t / k / ts)的字,「搜尋」欄內按呢拍:

^([ptk]|ts)(?!h)[^ ]+[578]$

總共得著 828 筆單字資料。

比例:279/828 大約是 33.6%,所以教典陽調類單字當中,送氣聲母的字數是無送氣聲母的字數的三份一[sann-hūn-tsi̍t]爾。

#paste/e