Runtime voor alle open-weight modellen

Ollama als runtime van keuze

Wij draaien altijd het beste open-weight reasoning model op jouw eigen server. Ollama is onze gewenste runtime, naast vLLM en andere inference engines. Geen cloud, geen externe API's.

Wat is Ollama?

Ollama is een open-source framework voor het lokaal draaien van large language models. Wij gebruiken Ollama als onze gewenste runtime om modellen als Kimi K2, GPT-OSS, DeepSeek R1, Qwen 3 en Llama op je eigen hardware te draaien, zonder dat data je netwerk verlaat. We kiezen per use case altijd het sterkste open-weight reasoning model en hosten het in het TransNoc datacenter.

Voor elk soort model het juiste type

Wij draaien alle relevante open-weight modellen op je eigen server. Per use case kiezen we het sterkste model.

Reasoning modellen

Voor complexe analyses, planning en agentic taken. State-of-the-art chain-of-thought prestaties.

Kimi K2 · GPT-OSS · DeepSeek R1

Multilinguale modellen

Sterke prestaties in Nederlands, Duits, Frans en 100+ andere talen. Ideaal voor internationale organisaties.

Qwen 3 · Llama 3 · Mistral

Code modellen

Gespecialiseerd in code generatie, code review en software engineering. Voor developer tooling en automatisering.

Qwen Coder · DeepSeek Coder · Code Llama

Vision modellen

Multimodale modellen die afbeeldingen, documenten en screenshots begrijpen. Voor OCR, document analyse en visual reasoning.

Qwen-VL · Llama 3.2 Vision · LLaVA

Embedding modellen

Voor semantisch zoeken, RAG en knowledge retrieval. De motor achter elke kennisbank en vector search.

Nomic Embed · BGE · Jina

Fine-tuned modellen

Eigen modellen getraind op jouw data en domein. Voor maximale precisie binnen jouw vakgebied.

Custom fine-tunes · LoRA adapters

Waarom Ollama als runtime?

Lokale uitvoering

Modellen draaien op je eigen servers in het TransNoc datacenter. Geen enkele API call naar externe partijen.

Volledige privacy

Data verlaat nooit je gecontroleerde omgeving. Geen logging door derden, geen data harvesting.

Snelle inferentie

Geoptimaliseerd voor GPU-acceleratie. Vergelijkbare snelheden als cloud API's, maar dan lokaal.

Model management

Eenvoudig wisselen tussen modellen. Per taak het juiste model inzetten zonder configuratie overhead.

Enterprise ready

Geschaald voor enterprise gebruik. Meerdere modellen tegelijk, load balancing en failover.

Fine-tuning ready

Ondersteuning voor fine-tuning op jouw organisatiedata. Maak modellen die jouw domein begrijpen.

Waarom geen Big Tech modellen?

OpenAI (GPT), Google (Gemini) en Anthropic (Claude) zijn krachtige modellen. Maar voor enterprise gebruik brengen ze fundamentele risico's mee:

Data wordt verstuurd naar Amerikaanse servers

Geen controle over model updates en wijzigingen

CLOUD Act: Amerikaanse overheid kan data opvragen

Per-token pricing maakt kosten onvoorspelbaar

Bekijk alle modellen