Нахождение 10 наиболее частых слов на web странице

  1. from urllib2 import urlopen
  2. u = urlopen("http://python.org")
  3. words = {}
  4. # (словарь — неупорядоченный [[ассоциативный массив]])
  5. for line in u:
  6. # читаем u по строкам
  7.  line = line.strip(" \n")
  8. # отбрасываем начальные и конечные пробелы
  9.  for word in line.split(" "):
  10. # режем каждую строку на слова, ограниченные пробелами
  11.   try:
  12. # блок обработки исключений
  13.    words[word] += 1
  14. # пытаемся увеличить words[word] на единицу
  15.   except KeyError:
  16. # если не получилось (раньше words [word] не было)
  17.    words[word] = 1
  18. pairs = words.items()
  19. # делаем из словаря список пар
  20. # pairs == [("яблоко",5), ("апельсин",12), ("груша",8)]
  21. pairs.sort(key=lambda x: x[1], reverse=True)
  22. for p in pairs[:10]:
  23.  print p[0], p[1]

Реклама

Мы в соцсетях

tw tg yt gt