Anthropic mengklaim model terbarunya adalah yang terbaik di kelasnya

OpenAI rival Anthropic sedang merilis model AI generatif baru yang powerful yang disebut Claude 3.5 Sonnet. Tapi ini lebih merupakan langkah inkremental daripada loncatan monumental ke depan.

Claude 3.5 Sonnet dapat menganalisis teks dan gambar serta menghasilkan teks, dan ini adalah model kinerja terbaik Anthropic hingga saat ini - setidaknya di atas kertas. Di sejumlah benchmark AI untuk membaca, coding, matematika, dan visi, Claude 3.5 Sonnet mengungguli model yang digantikannya, Claude 3 Sonnet, dan mengalahkan model andalan sebelumnya Anthropic Claude 3 Opus.

Benchmark tidak selalu merupakan ukuran yang paling berguna dari kemajuan AI, sebagian karena banyak dari mereka menguji kasus-kasus tepi esoteris yang tidak berlaku untuk orang biasa, seperti menjawab pertanyaan ujian kesehatan. Tapi sebagaimana layaknya, Claude 3.5 Sonnet hampir saja mengungguli model-model unggulan rival, termasuk GPT-4o OpenAI yang baru diluncurkan, dalam beberapa benchmark yang diuji Anthropic.

Di samping model baru, Anthropic merilis apa yang disebutnya Artifacts, sebuah ruang kerja di mana pengguna dapat mengedit dan menambahi konten - misalnya kode dan dokumen - yang dihasilkan oleh model-model Anthropic. Saat ini dalam pratinjau, Artifacts akan mendapatkan fitur-fitur baru, seperti cara untuk berkolaborasi dengan tim yang lebih besar dan menyimpan basis pengetahuan, dalam waktu dekat, kata Anthropic.

Fokus pada efisiensi

Claude 3.5 Sonnet sedikit lebih performan daripada Claude 3 Opus, dan Anthropic mengatakan bahwa model tersebut lebih memahami instruksi yang rumit dan kompleks, selain konsep-konsep seperti humor. (AI terkenal tidak lucu, meskipun.) Tapi mungkin yang lebih penting bagi pengembang yang membangun aplikasi dengan Claude yang memerlukan tanggapan yang cepat (misalnya chatbot layanan pelanggan), 3.5 Sonnet lebih cepat. Anthropic mengklaim kecepatannya sekitar dua kali lipat dari 3 Opus.

Visi - menganalisis foto - adalah salah satu area di mana Claude 3.5 Sonnet jauh lebih baik daripada 3 Opus, menurut Anthropic. 3.5 Sonnet dapat menginterpretasikan grafik dan grafik dengan lebih akurat dan menafsirkan teks dari gambar-gambar 'tidak sempurna', seperti foto dengan distorsi dan artefak visual.

Michael Gerstenhaber, pemimpin produk di Anthropic, mengatakan bahwa pembaruan tersebut adalah hasil dari perubahan arsitektur dan data pelatihan baru, termasuk data yang dihasilkan oleh AI. Data mana secara khusus? Gerstenhaber tidak mau mengungkap, tapi dia menyiratkan bahwa Claude 3.5 Sonnet memperoleh kekuatannya sebagian besarnya dari set pelatihan ini.

Kredit Gambar: Anthropic

“Yang penting bagi [bisnis] adalah apakah AI membantu mereka memenuhi kebutuhan bisnis mereka, bukan apakah AI bersaing di sebuah benchmark,” kata Gerstenhaber kepada TechCrunch. “Dan dari perspektif tersebut, saya percaya Claude 3.5 Sonnet akan menjadi langkah maju di depan segala yang kami miliki - dan juga di depan segala sesuatu yang ada di industri.”

Sekarang, apa yang kita tahu adalah Claude 3.5 Sonnet dilatih dengan banyak teks dan gambar, seperti model-model sebelumnya Anthropic, ditambah umpan balik dari tester manusia untuk mencoba 'menyelaraskan' model dengan niat pengguna, dengan harapan mencegahnya mengeluarkan teks yang toxic atau sebaliknya bermasalah.

Kredit Gambar: Anthropic

Informasi apa lagi yang kita ketahui? Nah, jendela konteks Claude 3.5 Sonnet - jumlah teks yang dapat dianalisis oleh model sebelum menghasilkan teks baru - adalah 200.000 token, sama seperti 3 Sonnet. Token adalah bit data mentah yang terbagi, seperti suku kata “fan”, “tas” dan “tic” dalam kata “fantastis”; 200.000 token setara dengan sekitar 150.000 kata.

Dan kita tahu bahwa Claude 3.5 Sonnet sudah tersedia hari ini. Pengguna gratis dari klien web Anthropic dan aplikasi iOS Claude dapat mengaksesnya tanpa biaya; pelanggan berlangganan dari paket berbayar Anthropic Claude Pro dan Claude Team mendapatkan batasan tingkat 5x lebih tinggi. 3.5 Sonnet juga aktif di API Anthropic dan platform-managed seperti Amazon Bedrock dan Google Cloud's Vertex AI.

“Claude 3.5 Sonnet benar-benar langkah kecerdasan tanpa mengorbankan kecepatan, dan ini menyiapkan kita untuk rilis masa depan di seluruh keluarga model Claude,” kata Gerstenhaber.

Claude 3.5 Sonnet juga mendorong Artifacts, yang munculkan jendela khusus di klien web Claude ketika pengguna meminta model untuk menghasilkan konten seperti potongan kode, dokumen teks, atau desain situs web. Gerstenhaber menjelaskan: “Artifacts adalah keluaran model yang meletakkan konten yang dihasilkan di sisi dan memungkinkan Anda, sebagai pengguna, untuk mengiterasi konten tersebut. Katakanlah Anda ingin menghasilkan kode — artefak akan diletakkan di UI, dan kemudian Anda bisa berbicara dengan Claude dan mengiterasi dokumen untuk memperbaikinya sehingga Anda bisa menjalankan kode tersebut.”

Gambaran yang lebih besar

Claude 3.5 Sonnet menunjukkan bahwa kemajuan inkremental adalah sejauh apa yang dapat kita harapkan saat ini di depan model, kecuali terjadi terobosan penelitian yang besar. Beberapa bulan terakhir telah menyaksikan rilis unggulan dari Google (Gemini 1.5 Pro) dan OpenAI (GPT-4o) yang memindahkan jarum sedikit dalam hal benchmark dan kinerja kualitatif. Tapi belum ada loncatan yang sebanding dengan loncatan dari GPT-3 ke GPT-4 dalam waktu yang cukup lama, karena arsitektur model saat ini yang kaku dan komputasi besar yang diperlukan untuk melatihnya.

Saat vendor AI generatif beralih perhatiannya ke kuration data dan lisensi sebagai gantinya arsitektur yang scalable yang baru menjanjikan, ada tanda-tanda bahwa investor mulai waspada terhadap jalan menuju ROI yang lebih lama dari yang diantisipasi untuk AI generatif. Anthropic agak kebal dari tekanan ini, berada di posisi yang diinginkan sebagai asuransi Amazon (dan dalam tingkat yang lebih rendah Google) terhadap OpenAI. Tapi pendapatan perusahaan, yang diproyeksikan mencapai kurang dari $1 miliar pada akhir tahun 2024, adalah sebagian kecil dari yang dimiliki OpenAI - dan saya yakin para pendukung Anthropic tidak membiarkan perusahaan itu melupakan fakta itu.

Meskipun memiliki basis pelanggan yang semakin besar yang mencakup merek-merek terkenal seperti Bridgewater, Brave, Slack, dan DuckDuckGo, Anthropic masih kurang memiliki daya tarik entitas bisnis. Secara mencolok, adalah OpenAI - bukan Anthropic - dengan siapa PwC baru-baru ini bermitra untuk menawarkan kembali penawaran AI generatif kepada perusahaan.

Jadi, Anthropic mengambil pendekatan strategis, dan sudah lazim, untuk membuat terobosan, menginvestasikan waktu pengembangan ke produk-produk seperti Claude 3.5 Sonnet untuk memberikan kinerja yang sedikit lebih baik dengan harga komoditas. 3.5 Sonnet dihargai sama dengan 3 Sonnet: $3 per juta token yang dimasukkan ke dalam model dan $15 per juta token yang dihasilkan oleh model.

Gerstenhaber berbicara tentang ini dalam percakapan kita. “Ketika Anda membangun aplikasi, pengguna akhir seharusnya tidak perlu tahu model mana yang digunakan atau bagaimana seorang insinyur mengoptimalkan pengalaman mereka,” katanya, “tapi insinyur harus memiliki alat yang tersedia untuk mengoptimalkan pengalaman itu sesuai vektor yang perlu dioptimalkan, dan biaya pastinya salah satunya.”

Claude 3.5 Sonnet tidak menyelesaikan masalah halusinasi. Hampir pasti membuat kesalahan. Tapi mungkin cukup menarik bagi pengembang dan perusahaan untuk beralih ke platform Anthropic. Dan pada akhirnya, itu yang penting bagi Anthropic.

Dalam hal tujuan yang sama, Anthropic telah fokus pada alat seperti AI pengarah eksperimentalnya, yang memungkinkan pengembang ‘mengarahkan’ fitur internal modelnya; integrasi untuk memungkinkan modelnya mengambil tindakan dalam aplikasi; dan alat-alat yang dibangun di atas modelnya seperti pengalaman Artifacts yang disebutkan sebelumnya. Dan telah merekrut seorang pendiri Instagram sebagai kepala produk. Dan telah memperluas ketersediaan produknya, baru-baru ini membawa Claude ke Eropa dan mendirikan kantor di London dan Dublin.

Anthropic, secara keseluruhan, tampaknya telah menyadari bahwa membangun ekosistem sekitar model - bukan hanya model secara terpisah - adalah kunci untuk mempertahankan pelanggan ketika kesenjangan kapabilitas antar model makin menyempit.

Meski begitu, Gerstenhaber bersikeras bahwa model yang lebih besar dan lebih baik - seperti Claude 3.5 Opus - ada di cakrawala dekat, dengan fitur-fitur seperti pencarian web dan kemampuan untuk mengingat preferensi diikuti.

“Saya belum pernah melihat pembelajaran mendalam mencapai tembok sejauh ini, dan saya akan membiarkan peneliti berspekulasi tentang tembok itu, tapi saya pikir masih agak dini untuk membuat kesimpulan tentang itu, terutama jika melihat kecepatan inovasi,” katanya. “Ada perkembangan yang sangat cepat dan inovasi yang sangat cepat, dan saya tidak punya alasan untuk percaya bahwa itu akan melambat.”

Kita akan melihat.