Dari Kata Jadi Angka: Rahasia di Balik Text Embedding

Pernah nggak kamu bertanya: gimana caranya komputer bisa “mengerti” makna kata dan kalimat?
Kenapa saat kita mengetik “I love cats”, mesin pencari juga bisa menemukan hasil untuk “I like kittens”?

Nah 🔥 ini pertanyaan yang dalam banget — kamu udah masuk ke jantungnya machine learning semantics dan representation learning. Yuk, kita bedah pelan-pelan supaya logikanya jelas dan gampang dibayangkan 👇

🧠 1️⃣ Apakah tiap teks punya hasil embedding berbeda?

Ya.
Setiap teks menghasilkan vektor unik, tapi vektor dari teks yang maknanya mirip akan berdekatan di ruang vektor.

Bayangkan seperti koordinat di dunia 3D (padahal aslinya ribuan dimensi):

Teks	Vektor (disederhanakan)
"I like cats"	[0.21, -0.32, 0.48]
"I love kittens"	[0.23, -0.30, 0.47]
"I drive a car"	[-0.45, 0.12, 0.77]

Lihat kan? “cats” dan “kittens” punya vektor yang hampir sejajar.
Model tahu bahwa secara makna, mereka mirip, walau kata-katanya berbeda.

⚙️ 2️⃣ Bagaimana teks diubah jadi vektor?

Prosesnya tidak sesederhana “kata = angka acak”.
Embedding dihasilkan oleh neural network besar yang sudah dilatih untuk memahami hubungan antar kata dan konteksnya.

Langkah sederhananya:

Tokenisasi
Kalimat dipecah jadi potongan kecil (token):
"I love coding" → [I, love, coding]
Lookup / Encoding
Tiap token diubah jadi representasi awal berbasis angka.
Neural transformation
Model transformer (misalnya BERT, BGE, LLaMA Encoder) menghitung konteks antar kata — jadi paham bahwa “love” di “I love coding” beda makna dari “love” di “I love cats”.
Projection layer
Hasil jaringan diringkas jadi satu vektor berdimensi tetap, misalnya 768 angka:
```
"I love coding"
↓
[0.192, -0.488, 0.314, ..., 0.005]
```

Vektor ini bukan angka sembarang — melainkan koordinat makna.

📏 3️⃣ Kenapa kata bisa disamakan dengan angka?

Karena model belajar memetakan konsep makna ke ruang geometri.

Bayangkan sebuah peta:

Setiap kata = titik di ruang besar.
Kata yang maknanya mirip = letaknya berdekatan.

🐱 cat
   |
   |      🐈 kitten
   |
🐶 dog          🚗 car

Model tahu bahwa cat lebih dekat ke kitten dibanding car.
Pengetahuan ini muncul dari pola kemunculan kata di miliaran kalimat saat model dilatih.

🔬 4️⃣ Algoritma yang sering digunakan

Model	Algoritma dasar	Dimensi	Kelebihan
Word2Vec	Skip-gram / CBOW	300	cepat, sederhana
GloVe	Matrix factorization	300	hasil stabil
BERT / SBERT / BGE / mxbai	Transformer encoder	768–1024	sangat kontekstual, akurat
OpenAI text-embedding-3-large	Transformer dengan pooling	3072	akurat & stabil untuk semantic search

🗺️ 5️⃣ Visualisasi makna

Kalau divisualisasikan (misalnya pakai PCA atau t-SNE), teks dengan makna mirip akan berkumpul di area yang sama.
Jadi ketika kamu mencari "kitten", sistem tinggal menghitung jarak antar titik.
Yang paling dekat → dianggap paling relevan.

⚡ 6️⃣ Kesimpulan

Konsep	Penjelasan
Setiap teks punya vektor unik	tapi mirip kalau maknanya mirip
Vektor = representasi semantik	bukan angka acak
Model belajar dari konteks	lewat miliaran kalimat
Makna = posisi di ruang vektor	semakin dekat = semakin mirip
Cosine distance digunakan	karena fokus pada arah, bukan panjang

🧭 Singkatnya: embedding adalah cara komputer “menggambar peta makna”.
Semakin canggih modelnya, semakin akurat peta itu.