Gemma 3 Mini: AI utan molnservrar

AI kräver ofta molnservrar och GPU-hyra – men inte längre. Google har släppt Gemma 3 270M, en minivariant som är liten nog att köras direkt i webbläsaren via WebGPU. För dev-curious läsare betyder det snabb prototypning, minimal kostnad och bättre integritet – eftersom modellen körs lokalt i din browser lämnar ingen data datorn.

Varför Gemma 270M kan ersätta moln-API:n i tidiga tester

Enligt Googles officiella release är Gemma 270M den minsta varianten i familjen – byggd för att fungera på mobiler och i webbläsare. Den följer instruktioner överraskande väl för sin storlek. Enligt Ars Technica presterar Gemma 270M ~51.2 % i IFEval, vilket är imponerande för en så liten modell. Den är perfekt för snabba, UI-nära uppgifter som sammanfattning, omskrivningar och enklare bild-till-text.

Eftersom modellen körs lokalt i browsern slipper du molnöverföring – vilket betyder ökad integritet och kontroll.
Men kom ihåg: Gemma 270M är inte byggd för komplexa AI-samtal eller tunga NLP-flöden. Den briljerar när du vill ha direkt respons i ett UI, inte när du ska hantera långa dialoger eller avancerade analyser.

Prestandahint

Computer Sweden rapporterar att ett test på Pixel 9 Pro (INT4) visade cirka 0,75 % batteridragning för 25 konversationer. Det räcker fint för korta, interaktiva sessioner i webbläsaren.

Källa: Computer Sweden

Demo: kör AI i webbläsaren (copy-paste)

Kräver Chrome/Edge med WebGPU.

Den officiella .task-filen för Gemma 270M släpps av Google.
Tills den finns i webbvänligt format kan du börja med gemma3-1b-it-int4.task – det är samma API, bara en större modellfil.

Notera: Prestanda och respons kan variera beroende på hårdvara – särskilt på äldre laptops eller mobiler.

<!-- 1) Lägg till MediaPipe GenAI (Web) -->
<script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai/genai_bundle.cjs"
        crossorigin="anonymous"></script>

<div id="out" style="white-space:pre-wrap;font-family:ui-monospace"></div>
<script>
(async () => {
  const { FilesetResolver, LlmInference } = window;

  // 2) Initiera WASM/WebGPU
  const genai = await FilesetResolver.forGenAiTasks(
    "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai@latest/wasm"
  );

  // 3) Modellfil — byt till 270M när webbvikt finns
  const MODEL = "/assets/gemma3-1b-it-int4.task"; // senare: "/assets/gemma3-270m-it-int4.task"

  const llm = await LlmInference.createFromOptions(genai, {
    baseOptions: { modelAssetPath: MODEL },
    maxTokens: 256, topK: 40, temperature: 0.7
  });

  const text = await llm.generateResponse(
    "Skriv två meningar om 'AI i webbläsaren med Gemma 270M' på svenska."
  );
  document.getElementById("out").textContent = text;
})();
</script>

Vill du prova utan setup? Öppna MediaPipe Studio och kör en färdig demo direkt i browsern.

Vad du mäter innan du går upp i storlek

Första-token-latens & tokens/s i din målmiljö (laptop vs mobil).
Resultatkvalitet för just din uppgift – 270M räcker långt för strukturering och korta svar.
Kostnad kontra moln-API: lokal inferens kan ersätta dyra API-anrop i tidiga iterationer.
Integritet & licens: on-device minskar dataläckage; följ Gemma-villkoren i produktion.