WWHO Architecture Pipeline

CodeSwitchSegmenter · Unicode Block Classification + Hard Script Boundaries

Latin #1AGI (Generalls=False

Sinhala #1කෘත්‍රිමls=True ← trailing space absorbed from Latin #1

Devanagari #1बुद्धिमत्ताls=True

Latin #2) Ultimatels=False

Devanagari #2लक्ष्यls=True

Sinhala #2එකls=True

Sinhala #3සපුරාls=True

Sinhala #4ගැනීමටls=True

Sinhala #5නම්ls=True

Latin #3, to anyone fromls=False

Sinhala #6ඕනෑමls=True

Sinhala #7භාෂාවකින්ls=True

Devanagari #3समानls=True

Devanagari #4गुणवत्ताls=True

Sinhala #8සහls=True

Latin #4 depth of knowledgels=False

Sinhala #9සහිතවls=True

Latin #5 respondls=False

Sinhala #10කිරීමටls=True

Sinhala #11හැකිls=True

Sinhala #12වනls=True

Sinhala #13පරිදිls=True

Latin #6 LLMsls=False

Devanagari #5प्रशिक्षितls=True

Sinhala #14කළls=True

Sinhala #15යුතුයිls=True

Latin #7....!!!!ls=False

SGPE Track — Indic Segments → LinguisTrie → SGPE Merges

Sinhala #1 · sinhala.json · ls=True

කෘ

ත්‍රි

ම

no merge — 3 tokens retained as base syllables

Devanagari #1 · devanagari.json · ls=True

बु

द्धि

म

त्ता

बु + द्धि + म + त्ता→ बुद्धिमत्ता

Devanagari #2 · ls=True

ल

क्ष्य

ल + क्ष्य→ लक्ष्य

Sinhala #2 · ls=True

එ

ක

එ + ක→ එක

Sinhala #3 · ls=True

ස

පු

රා

ස + පු + රා→ සපුරා

Sinhala #4 · ls=True

ගැ

නී

ම

ට

ගැ + නී + ම + ට→ ගැනීමට

Sinhala #5 · ls=True

න

ම්

න + ම්→ නම්

Sinhala #6 · ls=True

ඕ

නෑ

ම

ඕ + නෑ + ම→ ඕනෑම

Sinhala #7 · ls=True

භා

ෂා

ව

කි

න්

භා + ෂා + ව + කි + න්→ භාෂාවකින්

Devanagari #3 · ls=True

स

मा

न

स + मा + न→ समान

Devanagari #4 · ls=True

गु

ण

व

त्ता

गु + ण + व + त्ता→ गुणवत्ता

Sinhala #8 · ls=True

ස

හ

ස + හ→ සහ

Sinhala #9 · ls=True

ස

හි

ත

ව

ස + හි + ත + ව→ සහිතව

Sinhala #10 · ls=True

කි

රී

ම

ට

කි + රී + ම + ට→ කිරීමට

Sinhala #11 · ls=True

හැ

කි

හැ + කි→ හැකි

Sinhala #12 · ls=True

ව

න

ව + න→ වන

Sinhala #13 · ls=True

ප

රි

දි

ප + රි + දි→ පරිදි

Devanagari #5 · ls=True

प्र

शि

क्षि

त

प्र + शि + क्षि + त→ प्रशिक्षित

Sinhala #14 · ls=True

ක

ළ

ක + ළ→ කළ

Sinhala #15 · ls=True

යු

තු

යි

යු + තු + යි→ යුතුයි

ZERO-BREAKAGE GUARANTEE: every merge operand is a DFA-accepted syllable. No merge crosses a syllable boundary. Every emitted token is a sequence of whole syllables or a single pass-through character.

BPE Track — Latin Segments · tiktoken o200k_base

Latin #1 · ls=False

(

General

Latin #2 · ls=False

)

Ultimate

Latin #3 · ls=False

anyone

from

Latin #4 · ls=False

depth

knowledge

Latin #5 · ls=False

respond

Latin #6 · ls=False

Latin #7 · ls=False

....

!!!!

      Pre-trained vocabulary lookup. No re-training.

      IDs ∈ [0, 200019) · o200k_base vocab size = 200,019

Token count comparison

o200k_base alone

→

WWHO total

↓38.8%

reduction

        Indic syllables before SGPE merge: 61

        Indic tokens after SGPE merge: 22

        Indic compression: 61 → 22 syllable-tokens

MetaVocab · total_vocab_size = 200,019 + |SGPE_vocab|

tiktoken · [0, 200019)

AGtik id

Itik id

(tik id

Generaltik id

)tik id

Ultimatetik id

,tik id

totik id

anyonetik id

fromtik id

depthtik id

oftik id

knowledgetik id

respondtik id

Ltik id

LMtik id

stik id

....tik id

!!!!tik id

SGPE · [200019, 200019 + |SGPE_vocab|)

කෘ200019+rₐ

ත්‍රි200019+r_b

ම200019+r_c

बुद्धिमत्ता200019+r₁

लक्ष्य200019+r₂

එක200019+r₃

සපුරා200019+r₄

ගැනීමට200019+r₅

නම්200019+r₆

ඕනෑම200019+r₇

භාෂාවකින්200019+r₈

समान200019+r₉

गुणवत्ता200019+r₁₀

සහ200019+r₁₁

සහිතව200019+r₁₂

කිරීමට200019+r₁₃

හැකි200019+r₁₄

වන200019+r₁₅

පරිදි200019+r₁₆

प्रशिक्षित200019+r₁₇

කළ200019+r₁₈

යුතුයි200019+r₁₉

r-values = raw SGPE vocab IDs assigned by corpus frequency during training · offset = 200,019

Final token sequence · original text order preserved

AGtik

Itik

(tik

Generaltik

කෘ200019+rₐ

ත්‍රි200019+r_b

ම200019+r_c

बुद्धिमत्ता200019+r₁

)tik

Ultimatetik

लक्ष्य200019+r₂

එක200019+r₃

සපුරා200019+r₄

ගැනීමට200019+r₅

නම්200019+r₆

,tik

totik

anyonetik

fromtik

ඕනෑම200019+r₇

භාෂාවකින්200019+r₈

समान200019+r₉

गुणवत्ता200019+r₁₀

සහ200019+r₁₁

depthtik

oftik

knowledgetik

සහිතව200019+r₁₂

respondtik

කිරීමට200019+r₁₃

හැකි200019+r₁₄

වන200019+r₁₅

පරිදි200019+r₁₆

Ltik

LMtik

stik

प्रशिक्षित200019+r₁₇

කළ200019+r₁₈

යුතුයි200019+r₁₉

....tik

!!!!tik

WWHO total: 41

o200k_base alone: 67

Reduction: 38.8%

Latin (tiktoken): 19

Sinhala (SGPE): 17

Devanagari (SGPE): 5

Indic syllables → tokens: 61 → 22

WWHO Architecture — Full Pipeline Trace