mp3-sökmotor

Avdelningen för programmering, nätverk samt alternativa OS.
Post Reply
ormm
Posts: 3
Joined: 2005-09-15 22:21:30

mp3-sökmotor

Post by ormm »

Hej jag håller på och hackar på en sökmotor för mp3 samt ett system för att ickehierarkiskt distribuera databasen.
http://itismusic.org

En högst schematisk beskrivning: (ursäkta att den är på engelska)
Open letter to the developer and supporters of free p2p technologies.

I am developing a search engine spidering www for ogg and mp3 files, at the time I am writing this is c. 100 000 files indexed. The project is named "It is Music" see: http://www.itismusic.org

This is a brief discussion of ways to distribute this index in an unhierarchical way built over existing p2p networks, it is submitted here as a request for opinions on how it could be implemented without violating and/or disturbing protocol specifications and usability of the networks.

The motivation for implementing this is that many unsigned artists releases their music on the internet but those files are rarely available at p2p networks. This decentralized design is good in contrast to central servers for ensuring it will remain free. It will take too much computer power to provide such service to the whole worlds p2p-networks. Only a big company concerning more about money than actual usability have funds to realisticly set up such central server system.

The spidering and updating of index is centrally made by our servers, with a program released under GNU/GPL at sourceforge. Spidering could be done in an unhierarchical way but we insist that p2p-clients must remain free from such addons and only implementing things that directly benefits the user. Therefore do we indent to do so in the future but the result and the tools for spidering will be available under GNU/GPL and free for any one to copy or modify.

An conceptual approach on the problem:
The index is split in many small files (ex. 100 which will take c. 300kb each in compressed state), the index is ordered by the artist name and the client searching for an artist downloads the meta-file containing an url to it and additional redundant information about other artists. The client shares that meta file and makes in this way it available for more users. The wanted targetfile is downloaded via http. This layout with many small files ordered by artist name and distributed randomly makes it impossible to search for a particular song without knowing the artist but I consider it appropriate since in most cases is the artist known and it is also the most common subject in querys over p2p networks.

Inconvenience
This might cause a dissonance with clients that not is designed to handle this distribution of meta data, since these files containing the index will be viewed by people browsing the host expecting to find "real" files and not a set of meta data.

Vulnerability
This system is vulnerable to erroneous data and spam, but it is more a question about the p2p concept than this way of using it. A correct implementation of these ideas will not effect client security since it is built over and not within the networks.

Worth to consider implementing or not?

Sincerely Johan Mattsson

You can find a part of the index here: http://www.itismusic.org
User avatar
IcePic
Hedersbit
Posts: 6061
Joined: 2002-03-08 16:09:38

Post by IcePic »

Jag åkte dit och provade, jag läste ditt inlägg ett par gånger och about-rutan
men jag förstår fortfarande inte vad det är bra för?

Nånstans är det något skrev med påståendet "vi har indexerat 100k låtar" och
den info som finns om man trycker på lite bandnamn. Jag kanske valde "fel"
band men jag fick bara google-reklam och en lista på två, tre "populära titlar"
vilket känns som samma info man får om man skriver bandnamnet i google?
Oh give me a clone, my very own clone,
with the Y chromosome changed to X!
And since she's my own, of my own flesh and bone,
she'll be thinking of nothing but sex!
ormm
Posts: 3
Joined: 2005-09-15 22:21:30

Post by ormm »

sorry jag menade inte att vara så oklar men det är alltså inte sidan i sig som är det interessanta utan systemet för att med en p2p-client söka efter mp3:or som ligger på vanliga webservrar. Detta gör i och för sig websidan onödig men jag tyckte att det var roligt att ha några exepel på schysst musik där.

edit: sedan kan jag hålla med om att den text som finns här och där är rätt kackigt skriven förhoppningsvis fixar jag något mer stringent snart.

edit2: uhuru du kan få samma info via google så är det knappast troligt att de kommer att integrera sin sökmotor med något p2p-program.
Du har en "ändra"knapp, använd den//Puni
User avatar
IcePic
Hedersbit
Posts: 6061
Joined: 2002-03-08 16:09:38

Post by IcePic »

ormm wrote: edit2: uhuru du kan få samma info via google så är det knappast troligt att de kommer att integrera sin sökmotor med något p2p-program.
Det jag menade var att om jag klickade på KLF på din sida så får jag reda
på att de har två låtar som heter "3 Am Eternal" och "Last Train to Transcenteal".
Utöver det fann jag inget alls, och den infon lär kasta sig i ansiktet på mig om
jag matar in "KLF" i google-rutan, det var så jag menade.

Jag tror att du behöver sätta upp ett use-case så man kan förstå vilka som
har nytta av din tjänst, så att säga.
Oh give me a clone, my very own clone,
with the Y chromosome changed to X!
And since she's my own, of my own flesh and bone,
she'll be thinking of nothing but sex!
ormm
Posts: 3
Joined: 2005-09-15 22:21:30

Post by ormm »

Jag tror att du behöver sätta upp ett use-case så man kan förstå vilka som
har nytta av din tjänst, så att säga.
jo det är sant.

all info på sidan är inte relevant. till exempel inte den om klf.
User avatar
Moonsky
Posts: 2256
Joined: 2005-09-21 15:52:41

Liknande

Post by Moonsky »

Försökte mig på att skriva nåt liknande för ett tag sedan, men gav upp.

Hade tänkt att crawla websiter, följa länkar, och om hittar länkar med en fil ändelse (tex. mp3, .ogg, etc) listad i en konfigurations fil så lagrar den, länken i en databas.
Den strippade även variabler och sånt från URL'en om det fanns.

Vanliga filändelser för audio: mp3, mp2, mp1, ogg, wav, wma, flac, aac.
Post Reply