Konfigurasi Swish-e untuk Indexing

Sebelum melakukan indexing, langkah pertama yang harus dilakukan adalah membuat atau menulis sebuah file konfigurasi Swish-e untuk indexing . File konfigurasi Swish-e diperlukan untuk mengatur proses indexing nantinya sesuai dengan yang diinginkan. Pada contoh ini, nama file dituliskan dengan nama “crawling.conf”. Siapkan file-file yang ingin di- index dan simpan di dalam satu folder. Contoh di dalam folder “file_html_pdf” terdapat beberapa file HTML dan PDF. File crawling.conf dan folder “file_html_pdf” disimpan pada direktori yang sama. #crawling #directory yang diindex IndexDir ./file_html_pdf #file yang diindex IndexOnly .html .pdf #konversi pdf ke txt FileFilter .pdf pdftotext "'%p'-" #untuk mengambil konten html DefaultContents HTML* StoreDescription HTML* <body>...