Search Engine, Apa yang Dapat “Dilihat” olehnya di halaman Web
Perayap mesin pencari (search engine crawler) dan program pengindeksan pada dasarnya adalah program perangkat lunak. Program-program ini luar biasa kuat. Mereka merayapi (crawling ratusan triliunan halaman web, untuk menganalisis konten semua halaman ini, dan menganalisis cara semua halaman ini terhubung satu sama lain. Kemudian mereka mengaturnya menjadi serangkaian database yang dapat merespons kueri penelusuran pengguna dengan rangkaian hasil yang sangat disesuaikan dalam sepersepuluh detik.
Ini adalah pencapaian yang luar biasa, tetapi memiliki keterbatasan. Perangkat lunak sangat mekanis, dan hanya dapat memahami sebagian dari sebagian besar halaman web. Crawler mesin pencari (search engine crawler) menganalisis bentuk kode HTML mentah dari halaman web. Jika Anda ingin melihat seperti apa?, Anda dapat melakukannya dengan menggunakan browser Anda untuk melihat sumbernya.
Menggunakan Browser Chrome
- Buka salah satu alamat situs yang Anda ketahui, dalam contoh ini saya menggunakan alamat situs dari CNN Indonesia
- Klik kanan di area mana saja pada halaman situs tersebut maka akan muncul panel option seperti terlihat pada gambar di


Ada juga berbagai web developer tools yang tersedia dalam browser dalam bentuk add-on dan ekstensi yang dapat memfasilitasi kita untuk melihat kode sumber di browser pilihan Anda, serta mendeteksi aplikasi web dan pustaka JavaScript. Salah satu alat analisis kode yang paling banyak digunakan adalah Web Developer Add-on Extension, dari Chris Pederick, tersedia untuk Chrome, Firefox, dan Opera.
Setelah Anda melihat sumbernya, Anda akan diberikan kode yang tepat untuk halaman web yang dikirimkan server web ke browser Anda. Inilah sebagian besar yang dilihat perayap mesin telusur (search engine crawler), (mesin telusur juga melihat tajuk HTTP untuk laman tersebut, yang merupakan kode status yang diterimanya dari server web tempat laman dihosting).
Dalam beberapa kasus, Google juga akan mengeksekusi JavaScript di halaman. Saat mencoba menganalisis konten yang terlihat oleh pengguna di halaman web, search engine sebagian besar mengabaikan kode yang terkait dengan navigasi dan tampilan halaman, seperti yang ditunjukkan pada Gambar 3 karena tidak ada hubungannya dengan konten halaman.

Crawler mesin pencari paling tertarik dengan teks HTML yang unik pada halaman dan biasanya terdapat pada konten yang sebenarnya. Pada gambar 4 adalah contoh teks HTML untuk halaman konten dari salah satu artikel di CNN Indonesia.

Meskipun pada gambar 4 masih menunjukkan beberapa penyandian kode HTML, Anda dapat melihat teks “biasa” dengan jelas di dalam kode yang ditandai kotak garis putus-putus berwarna merah. Ini adalah konten unik yang ingin ditemukan perayap (crawler). Selain itu, search engine membaca beberapa elemen lainnya. Salah satunya adalah judul halaman. Judul halaman adalah salah satu faktor terpenting dalam menentukan peringkat halaman web tertentu. Ini adalah teks yang ditampilkan di bilah judul browser (di atas menu browser dan alamat)
Gambar 5 menunjukkan kode yang dilihat perayap, menggunakan Trip Advisor sebagai contoh. Area pertama yang disorot pada Gambar 5 adalah untuk tag . Tag


Selain judul halaman, search engine sebelumnya menggunakan meta keywords tag. Ini adalah daftar kata kunci yang ingin Anda kaitkan dengan halaman. Para spammer (orang yang mencoba memanipulasi hasil dari search engine dengan melanggar pedoman mesin telusur) merusak nilai SEO dari tag ini bertahun-tahun yang lalu, sehingga nilainya sekarang dapat diabaikan, karena search engine tidak lagi menggunakannya. Hal ini hanya menghabiskan waktu untuk spam meta keyword, dan ini tidak disarankan karena kurang manfaatnya untuk SEO.
Area yang disorot kedua pada Gambar 5 menunjukkan contoh tag meta keyword. Mesin pencari (search engine) juga membaca tag meta deskripsi (area ketiga yang disorot dalam sumber HTML pada Gambar 5). Namun, isi tag meta deskripsi tidak secara langsung digunakan oleh mesin pencari dalam algoritme pemeringkatannya.
Meskipun demikian, tag meta deskripsi memainkan peran kunci, karena mesin pencari sering menggunakannya sebagai bagian atau seluruh deskripsi halaman Anda di hasil pencarian. Bahkan tag meta deskripsi yang dibuat dengan kalimat yang tepat akan mampu menarik perhatian para pengguna search engine yang sedang mencari sesuatu, hal ini akan meningkatkan rasio klik tayang halaman web Anda.
Meta deskripsi yang ditulis dengan baik dapat memiliki pengaruh yang signifikan pada berapa banyak klik yang Anda dapatkan pada daftar pencarian Anda, dan rasio klik-tayang pada daftar pencarian Anda dapat memengaruhi peringkat Anda. Akibatnya, waktu yang dihabiskan untuk deskripsi meta cukup berharga. Gambar 7 menggunakan pencarian di trip advisor untuk menunjukkan contoh tag deskripsi meta yang digunakan sebagai deskripsi di hasil pencarian.

Catatan : Kata kunci pencarian pengguna biasanya ditampilkan dalam huruf tebal saat muncul di hasil pencarian (terkadang sinonim yang mirip juga ditampilkan dalam huruf tebal). Sebagai contoh, pada Gambar 7, TripAdvisor dicetak tebal di awal deskripsi. Ini disebut kata kunci dalam konteks (KWIC).
Elemen keempat yang dibaca oleh mesin pencari adalah atribut alt untuk gambar. Atribut alt awalnya dimaksudkan untuk memungkinkan sesuatu dirender untuk audiens yang tidak dapat melihat gambar, terutama:
- Orang dengan gangguan penglihatan yang tidak memiliki pilihan untuk melihat gambar.
- Orang yang mematikan gambar untuk berselancar lebih cepat. Ini umumnya merupakan masalah hanya bagi mereka yang tidak memiliki koneksi broadband yang cepat.
Dukungan untuk gangguan penglihatan tetap menjadi alasan utama untuk menggunakan atribut alt. Anda dapat membaca lebih lanjut tentang ini dengan mengunjungi halaman the W3C’s Web Accessibility Initiative page.
Search engine juga membaca teks yang terdapat dalam atribut alt dari sebuah tag gambar (). Tag gambar adalah elemen yang digunakan untuk memberi tahu halaman web agar menampilkan gambar. Elemen lain yang dibaca search engine adalah tag
Google Webmaster Central Blog, “Understanding Web Pages Better,” May 23, 2014.
Namun, sebagian kecil pengguna tidak mengizinkan JavaScript berjalan saat mereka memuat halaman web (pengalaman kami adalah sekitar 2%). Bagi para pengguna tersebut, tidak ada yang akan ditampilkan kepada mereka saat JavaScript berada di halaman web, kecuali jika halaman tersebut berisi tag
Berikut adalah contoh JavaScript yang sangat sederhana yang menunjukkan hal ini:

Bagian dari
Apa yang tidak bisa dilihat oleh Search Engine
Penting juga untuk meninjau jenis konten yang tidak dapat "dilihat" oleh search engine dalam pengertian manusia.
Misalnya, meskipun serach engine dapat mendeteksi bahwa Anda menampilkan gambar, mereka tidak tahu gambar apa itu, kecuali untuk informasi apa pun yang Anda berikan di atribut alt. Mereka hanya dapat mengenali beberapa jenis informasi yang sangat mendasar di dalam gambar, seperti keberadaan wajah, atau apakah gambar memiliki konten pornografi dengan seberapa banyak pola daging yang dikandungnya. Search engine tidak dapat dengan mudah mengetahui apakah suatu gambar adalah gambar Bart Simpson, perahu, rumah, atau tornado. Selain itu, search engine biasanya tidak mengenali teks apa pun yang ditampilkan dalam gambar.
Kenyataannya adalah search engine memiliki teknologi untuk menangani jenis tugas ini sampai taraf tertentu. Misalnya, Anda dapat mengambil gambar Taj Mahal dan menyeretnya ke kotak pencarian di pencarian gambar Google, dan search engine akan mengenalinya. Namun, karena kekuatan pemrosesan diperlukan untuk pengenalan gambar, search engine saat ini tidak mencoba mengenali semua gambar yang mereka temui di Web.
Mesin pencari juga bereksperimen dengan teknologi untuk menggunakan pengenalan karakter optik (Optical Character Recognition : OCR) untuk mengekstrak teks dari gambar, tetapi belum digunakan secara umum dalam pencarian.
Masalah utama dengan menerapkan OCR dan teknologi pemrosesan gambar adalah sangat intensif secara komputasi, dan tidak praktis untuk diterapkan pada skala Web.
Selain itu, kebijaksanaan SEO konvensional selalu menyatakan bahwa search engine tidak dapat membaca file Flash, tetapi ini sedikit dilebih-lebihkan. Search engine telah mengekstraksi beberapa informasi dari Flash selama bertahun-tahun, seperti yang ditunjukkan oleh pengumuman Google ini pada tahun 2008. Namun, intinya adalah tidak mudah bagi search engine untuk menentukan apa yang ada di Flash. Salah satu masalah besar adalah bahkan ketika search engine melihat ke dalam Flash, mereka masih mencari konten tekstual, tetapi Flash adalah media bergambar dan ada sedikit insentif (selain mesin pencari) bagi seorang desainer untuk mengimplementasikan teks di dalam Flash. Semua petunjuk semantik yang akan ada dalam teks HTML (seperti tag heading, teks tebal, dll.) juga hilang, bahkan saat HTML digunakan bersamaan dengan Flash.
Jenis konten ketiga yang tidak dapat dilihat oleh search engine adalah aspek gambar dari apa pun yang terkandung dalam Flash, jadi aspek Flash ini berperilaku sama seperti gambar. Misalnya, ketika teks diubah menjadi kerangka berbasis vektor (yaitu, ditampilkan secara grafis), informasi tekstual yang dapat dibaca oleh search engine akan hilang. Kita akan membahasnya terkait metode untuk mengoptimalkan Flash pada tulisan selanjutnya.
File audio dan video juga tidak mudah dibaca oleh search engine. Seperti halnya gambar, data tidak mudah diurai. Ada beberapa pengecualian di mana search engine dapat mengekstrak beberapa data terbatas, seperti tag ID3 dalam file MP3, atau podcast yang disempurnakan dalam format AAC dengan teks, gambar, dan penanda bab yang disematkan. Namun, pada akhirnya, search engine tidak dapat membedakan video pertandingan sepak bola dari video kebakaran hutan.
Search engine juga tidak dapat membaca konten apa pun yang terkandung dalam suatu program. Search engine sangat perlu menemukan teks yang dapat dibaca oleh mata manusia dengan melihat kode sumber halaman web, seperti yang telah dijelaskan sebelumnya. Tidak membantu jika Anda dapat melihatnya saat browser memuat halaman web—itu harus terlihat dan dapat dibaca dalam kode sumber untuk halaman tersebut.
Salah satu contoh teknologi yang dapat menyajikan konten signifikan yang dapat dibaca manusia yang tidak dapat dilihat oleh search engine adalah AJAX. AJAX adalah metode berbasis JavaScript untuk merender konten secara dinamis pada halaman web setelah mengambil data dari database, tanpa harus me-refresh seluruh halaman. Ini sering digunakan dalam alat di mana pengunjung situs dapat memberikan beberapa masukan dan alat AJAX kemudian mengambil dan merender konten yang benar.
Masalah muncul karena konten diambil oleh skrip yang berjalan di komputer klien (mesin pengguna) hanya setelah menerima beberapa inputan dari pengguna. Ini dapat menghasilkan banyak outpu yang berpotensi berbeda. Selain itu, hingga inputan tersebut diterima, konten tersebut tidak ada dalam HTML laman, sehingga search engine tidak dapat dengan mudah melihatnya.
Masalah serupa muncul dengan bentuk lain dari JavaScript yang tidak merender konten dalam HTML hingga tindakan pengguna dilakukan. Bentuk baru JavaScript, seperti AngularJS, membuatnya semakin menantang untuk search engine.
Pada HTML 5, konstruksi yang dikenal sebagai tag penyematan (
Frame dan iframe adalah metode untuk memasukkan konten dari halaman web lain ke dalam halaman web Anda. Iframe lebih umum digunakan daripada frame untuk memasukkan konten dari situs web lain. Anda dapat menjalankan iframe cukup sederhana dengan kode yang terlihat seperti ini:
Frame biasanya digunakan untuk membagi lagi konten situs web penerbit, tetapi dapat digunakan untuk memasukkan konten dari situs web lain. Ini berfungsi dengan baik untuk menarik konten (asalkan Anda memiliki izin untuk melakukannya) dari situs lain dan menempatkannya di situs Anda sendiri. Namun, search engine mengenali iframe atau frame yang digunakan untuk menarik konten situs lain apa adanya, dan karenanya dapat mengabaikan konten tersebut. Dengan kata lain, search engine tidak menganggap konten yang diambil dari situs lain sebagai bagian dari konten unik halaman web Anda.
Sumber Referensi Search Engine:
Google Search Central Blog : Improved Flash indexing
Google Search Central Blog : Understanding web pages better
Search Engine Land : 21 Essential SEO Tips & Techniques
Komentar
Posting Komentar