Dari Kata Jadi Angka: Rahasia di Balik Text Embedding

Pernah nggak kamu bertanya: gimana caranya komputer bisa “mengerti” makna kata dan kalimat?
Kenapa saat kita mengetik “I love cats”, mesin pencari juga bisa menemukan hasil untuk “I like kittens”?

Nah 🔥 ini pertanyaan yang dalam banget — kamu udah masuk ke jantungnya machine learning semantics dan representation learning. Yuk, kita bedah pelan-pelan supaya logikanya jelas dan gampang dibayangkan 👇


🧠 1️⃣ Apakah tiap teks punya hasil embedding berbeda?

Ya.
Setiap teks menghasilkan vektor unik, tapi vektor dari teks yang maknanya mirip akan berdekatan di ruang vektor.

Bayangkan seperti koordinat di dunia 3D (padahal aslinya ribuan dimensi):

Teks

Vektor (disederhanakan)

"I like cats"

[0.21, -0.32, 0.48]

"I love kittens"

[0.23, -0.30, 0.47]

"I drive a car"

[-0.45, 0.12, 0.77]

Lihat kan? “cats” dan “kittens” punya vektor yang hampir sejajar.
Model tahu bahwa secara makna, mereka mirip, walau kata-katanya berbeda.


⚙️ 2️⃣ Bagaimana teks diubah jadi vektor?

Prosesnya tidak sesederhana “kata = angka acak”.
Embedding dihasilkan oleh neural network besar yang sudah dilatih untuk memahami hubungan antar kata dan konteksnya.

Langkah sederhananya:

  1. Tokenisasi
    Kalimat dipecah jadi potongan kecil (token):
    "I love coding"[I, love, coding]

  2. Lookup / Encoding
    Tiap token diubah jadi representasi awal berbasis angka.

  3. Neural transformation
    Model transformer (misalnya BERT, BGE, LLaMA Encoder) menghitung konteks antar kata — jadi paham bahwa “love” di “I love coding” beda makna dari “love” di “I love cats”.

  4. Projection layer
    Hasil jaringan diringkas jadi satu vektor berdimensi tetap, misalnya 768 angka:

    "I love coding"
    ↓
    [0.192, -0.488, 0.314, ..., 0.005]
    

Vektor ini bukan angka sembarang — melainkan koordinat makna.


📏 3️⃣ Kenapa kata bisa disamakan dengan angka?

Karena model belajar memetakan konsep makna ke ruang geometri.

Bayangkan sebuah peta:

  • Setiap kata = titik di ruang besar.

  • Kata yang maknanya mirip = letaknya berdekatan.

🐱 cat
   |
   |      🐈 kitten
   |
🐶 dog          🚗 car

Model tahu bahwa cat lebih dekat ke kitten dibanding car.
Pengetahuan ini muncul dari pola kemunculan kata di miliaran kalimat saat model dilatih.


🔬 4️⃣ Algoritma yang sering digunakan

Model

Algoritma dasar

Dimensi

Kelebihan

Word2Vec

Skip-gram / CBOW

300

cepat, sederhana

GloVe

Matrix factorization

300

hasil stabil

BERT / SBERT / BGE / mxbai

Transformer encoder

768–1024

sangat kontekstual, akurat

OpenAI text-embedding-3-large

Transformer dengan pooling

3072

akurat & stabil untuk semantic search


🗺️ 5️⃣ Visualisasi makna

Kalau divisualisasikan (misalnya pakai PCA atau t-SNE), teks dengan makna mirip akan berkumpul di area yang sama.
Jadi ketika kamu mencari "kitten", sistem tinggal menghitung jarak antar titik.
Yang paling dekat → dianggap paling relevan.


⚡ 6️⃣ Kesimpulan

Konsep

Penjelasan

Setiap teks punya vektor unik

tapi mirip kalau maknanya mirip

Vektor = representasi semantik

bukan angka acak

Model belajar dari konteks

lewat miliaran kalimat

Makna = posisi di ruang vektor

semakin dekat = semakin mirip

Cosine distance digunakan

karena fokus pada arah, bukan panjang


🧭 Singkatnya: embedding adalah cara komputer “menggambar peta makna”.
Semakin canggih modelnya, semakin akurat peta itu.

Hey there 👋

Ready to help you explore?