WWHO Architecture — Full Pipeline Trace

Input (205 chars): AGI (General කෘත්‍රිම बुद्धिमत्ता) Ultimate लक्ष्य එක සපුරා ගැනීමට නම්, to anyone from ඕනෑම භාෂාවකින් समान गुणवत्ता සහ depth of knowledge සහිතව respond කිරීමට හැකි වන පරිදි LLMs प्रशिक्षित කළ යුතුයි....!!!!
1 · Layer 1 — Router · "The Where" · O(N) scan · O(1) per character · 27 segments
CodeSwitchSegmenter · Unicode Block Classification + Hard Script Boundaries
Latin #1AGI (Generalls=False
Sinhala #1කෘත්‍රිමls=True ← trailing space absorbed from Latin #1
Devanagari #1बुद्धिमत्ताls=True
Latin #2) Ultimatels=False
Devanagari #2लक्ष्यls=True
Sinhala #2එකls=True
Sinhala #3සපුරාls=True
Sinhala #4ගැනීමටls=True
Sinhala #5නම්ls=True
Latin #3, to anyone fromls=False
Sinhala #6ඕනෑමls=True
Sinhala #7භාෂාවකින්ls=True
Devanagari #3समानls=True
Devanagari #4गुणवत्ताls=True
Sinhala #8සහls=True
Latin #4 depth of knowledgels=False
Sinhala #9සහිතවls=True
Latin #5 respondls=False
Sinhala #10කිරීමටls=True
Sinhala #11හැකිls=True
Sinhala #12වනls=True
Sinhala #13පරිදිls=True
Latin #6 LLMsls=False
Devanagari #5प्रशिक्षितls=True
Sinhala #14කළls=True
Sinhala #15යුතුයිls=True
Latin #7....!!!!ls=False
2–3 · Layer 2: LinguisTrie "What" (DFA syllabification, O(N) time, O(K) space) + Layer 3: SGPE "How Often" (frequency-driven merge)
SGPE Track — Indic Segments → LinguisTrie → SGPE Merges
Sinhala #1 · sinhala.json · ls=True
කෘ
ත්‍රි
no merge — 3 tokens retained as base syllables
Devanagari #1 · devanagari.json · ls=True
बु
द्धि
त्ता
बु + द्धि + म + त्ता बुद्धिमत्ता
Devanagari #2 · ls=True
क्ष्य
ल + क्ष्य लक्ष्य
Sinhala #2 · ls=True
එ + ක එක
Sinhala #3 · ls=True
පු
රා
ස + පු + රා සපුරා
Sinhala #4 · ls=True
ගැ
නී
ගැ + නී + ම + ට ගැනීමට
Sinhala #5 · ls=True
ම්
න + ම් නම්
Sinhala #6 · ls=True
නෑ
ඕ + නෑ + ම ඕනෑම
Sinhala #7 · ls=True
භා
ෂා
කි
න්
භා + ෂා + ව + කි + න් භාෂාවකින්
Devanagari #3 · ls=True
मा
स + मा + न समान
Devanagari #4 · ls=True
गु
त्ता
गु + ण + व + त्ता गुणवत्ता
Sinhala #8 · ls=True
ස + හ සහ
Sinhala #9 · ls=True
හි
ස + හි + ත + ව සහිතව
Sinhala #10 · ls=True
කි
රී
කි + රී + ම + ට කිරීමට
Sinhala #11 · ls=True
හැ
කි
හැ + කි හැකි
Sinhala #12 · ls=True
ව + න වන
Sinhala #13 · ls=True
රි
දි
ප + රි + දි පරිදි
Devanagari #5 · ls=True
प्र
शि
क्षि
प्र + शि + क्षि + त प्रशिक्षित
Sinhala #14 · ls=True
ක + ළ කළ
Sinhala #15 · ls=True
යු
තු
යි
යු + තු + යි යුතුයි
ZERO-BREAKAGE GUARANTEE: every merge operand is a DFA-accepted syllable. No merge crosses a syllable boundary. Every emitted token is a sequence of whole syllables or a single pass-through character.
BPE Track — Latin Segments · tiktoken o200k_base
Latin #1 · ls=False
AG
I
(
General
Latin #2 · ls=False
)
Ultimate
Latin #3 · ls=False
,
to
anyone
from
Latin #4 · ls=False
depth
of
knowledge
Latin #5 · ls=False
respond
Latin #6 · ls=False
L
LM
s
Latin #7 · ls=False
....
!!!!
Pre-trained vocabulary lookup. No re-training.
IDs ∈ [0, 200019) · o200k_base vocab size = 200,019
Token count comparison
67
o200k_base alone
41
WWHO total
↓38.8%
reduction
Indic syllables before SGPE merge: 61
Indic tokens after SGPE merge: 22
Indic compression: 61 → 22 syllable-tokens
4 · Unified Meta-Vocabulary · No ID Collision · sgpe_id = raw_id + 200,019
MetaVocab · total_vocab_size = 200,019 + |SGPE_vocab|
tiktoken · [0, 200019)
AGtik id
Itik id
(tik id
Generaltik id
)tik id
Ultimatetik id
,tik id
totik id
anyonetik id
fromtik id
depthtik id
oftik id
knowledgetik id
respondtik id
Ltik id
LMtik id
stik id
....tik id
!!!!tik id
SGPE · [200019, 200019 + |SGPE_vocab|)
කෘ200019+rₐ
ත්‍රි200019+r_b
200019+r_c
बुद्धिमत्ता200019+r₁
लक्ष्य200019+r₂
එක200019+r₃
සපුරා200019+r₄
ගැනීමට200019+r₅
නම්200019+r₆
ඕනෑම200019+r₇
භාෂාවකින්200019+r₈
समान200019+r₉
गुणवत्ता200019+r₁₀
සහ200019+r₁₁
සහිතව200019+r₁₂
කිරීමට200019+r₁₃
හැකි200019+r₁₄
වන200019+r₁₅
පරිදි200019+r₁₆
प्रशिक्षित200019+r₁₇
කළ200019+r₁₈
යුතුයි200019+r₁₉
r-values = raw SGPE vocab IDs assigned by corpus frequency during training · offset = 200,019
5 · Output — 41-token Integer ID Sequence → LLM Embedding Layer
Final token sequence · original text order preserved
AGtik
Itik
(tik
Generaltik
කෘ200019+rₐ
ත්‍රි200019+r_b
200019+r_c
बुद्धिमत्ता200019+r₁
)tik
Ultimatetik
लक्ष्य200019+r₂
එක200019+r₃
සපුරා200019+r₄
ගැනීමට200019+r₅
නම්200019+r₆
,tik
totik
anyonetik
fromtik
ඕනෑම200019+r₇
භාෂාවකින්200019+r₈
समान200019+r₉
गुणवत्ता200019+r₁₀
සහ200019+r₁₁
depthtik
oftik
knowledgetik
සහිතව200019+r₁₂
respondtik
කිරීමට200019+r₁₃
හැකි200019+r₁₄
වන200019+r₁₅
පරිදි200019+r₁₆
Ltik
LMtik
stik
प्रशिक्षित200019+r₁₇
කළ200019+r₁₈
යුතුයි200019+r₁₉
....tik
!!!!tik
WWHO total: 41
o200k_base alone: 67
Reduction: 38.8%
Latin (tiktoken): 19
Sinhala (SGPE): 17
Devanagari (SGPE): 5
Indic syllables → tokens: 61 → 22
Latin / BPE (tiktoken)
Sinhala (SGPE)
Devanagari (SGPE)
SGPE merge result
Unified Meta-Vocab
tiktoken IDs illustrative · SGPE r-values are corpus-frequency dependent · router + syllables verified by code execution