Нахождение 10 наиболее частых слов на web странице
- from urllib2 import urlopen
- u = urlopen("http://python.org")
- words = {}
- # (словарь — неупорядоченный [[ассоциативный массив]])
- for line in u:
- # читаем u по строкам
- line = line.strip(" \n")
- # отбрасываем начальные и конечные пробелы
- for word in line.split(" "):
- # режем каждую строку на слова, ограниченные пробелами
- try:
- # блок обработки исключений
- words[word] += 1
- # пытаемся увеличить words[word] на единицу
- except KeyError:
- # если не получилось (раньше words [word] не было)
- words[word] = 1
- pairs = words.items()
- # делаем из словаря список пар
- # pairs == [("яблоко",5), ("апельсин",12), ("груша",8)]
- pairs.sort(key=lambda x: x[1], reverse=True)
- for p in pairs[:10]:
- print p[0], p[1]