Интересная вакансия в Твиттере

Visualization: @replies (Archive)

На сайте компании в разделе Engineering есть вакансия визуализатора данных (Data Visualization Scientist). Интересно глянуть какими навыками должен обладать человек собирающийся заниматься визуализацией данных. Самое главное — у соискателя должна быть высокая мотивация). А из технических навыков нужно знание R, JavaScript-библиотек визуализации данных (d3, Raphael, ProcessingJS и Polymaps) и т. д. Еще требуется опыт работы с большими массивами данных и знание архитектуры http://ru.wikipedia.org/wiki/MapReduce.

Полный текст вакансии с сайта http://twitter.com

Data Visualization Scientist

Full-Time — San Francisco, CA

About this Job
We’re looking for highly motivated individuals to help us visualize Twitter’s massive dataset. As a Data Visualization Scientist on Twitter Analytics Team, you will use visual representation of data to help us understand how our users engage with the product and interpret real world events and other phenomena using our rich data sets. You should be passionate about finding insights in data and report insights to the company and external parties.Responsibilities

  • Work with large (terabytes of data, billions of daily transactions) structured and unstructured data sets.
  • Work closely and iterate quickly with other teams throughout the organization.
  • Manipulate data using a mix of SQL, Pig, R, and other scripting languages.
  • Visualize data using a mix of Javascript, Processing, R and other languages.
  • Summarize and report findings in both oral and written form.

Requirements

  • Extensive understanding of data visualization principles.
  • Experience with web-based visualization technologies like d3, Raphael, ProcessingJS and Polymaps.
  • Experience with large datasets and map-reduce architectures like Hadoop.
  • Experience with statistical programming environments like R.
  • Previous experience working in team environments with limited supervision.

Новая визуализация данных от студии Fathom

Визуализация данных Дженерал Электрик

Бен Фрай и компания создали очередную инфографику (http://visualization.geblogs.com/visualization/annual/) для General Electric. На этот раз в качестве данных выступали годовые отчеты компании с 1892 по 2011 гг. Интерактивная визуализация данных показывает 5480 страниц за 120 лет. Страницы отображаются в виде разворота, за исключением обложек. Основной идеей было показать появление и исчезновение ключевых слов с течением времени. Помимо наглядной истории самой компании, здесь можно проследить историю графического дизайна. Если выбрать обложку, то можно переходить на соседние года и увидеть, как с течением времени менялось графическое оформление отчетов.

В отчете за 1959 год, есть интересная фотография, на которой Хрущев и Никсон рассматривают кухню построенную GE в Москве к какой-то выставке: http://visualization.geblogs.com/wp-content/viz_includes/reports/#y=67&s=3&c=4&w=3&i=1

Если посмотреть исходный код страницы, то можно увидеть, что визуализация данных использует Processing.js и другие Java Script библиотеки. Подробнее про визуализацию можно прочитать на сайте самой студии http://fathom.info/latest/2237.

Processing.js

Порт Процессинга на JavaScript уже дорос до версии 1.3.6. И эта технология действительно впечатляет. Просто залить сам скетч и JavaScript файл с Процессингом (processing-1.3.6.min.js) на сайт и добавить пару строк в код поста — voilà на сайте крутится настоящее HTML5 приложение! Круто! Правда, есть некоторое «но»: Processing.js реализует функционал Processing, но не языка Java, поэтому приложения для Процессинга, использующие Java классы и библиотеки, работать в браузере не будут.


Исходный код

Визуализация доходов депутатов Государственной Думы пятого созыва (за 2010).

После прочтения этого топика на хабре, http://habrahabr.ru/blogs/e_gov/133799/, я решил сделать визуализацию доходов депутатов. Для этого пришлось выкачать данные с сайта Государственной Думы http://www.duma.gov.ru/. Первым вариантом визуализации скачанных данных стала столбиковая диаграмма. Правда, 450 столбиков и большой разброс в доходах (от 1 млн. до почти 2 млрд.) сделали картинку невразумительной. После нескольких промежуточных вариантов остановился на  treemap. В книге  Ben Fry «Data Visualisation» этому виду визуализации информации посвящена глава 7. Библиотека с реализацией алгоритмов treemap для работы с Процессингом можно скачать с сайта Бена Фрая  http://benfry.com/writing/treemap/. Взяв за основу пример из книги получил первую картинку:

Следующим шагом стало объединение депутатов по партиям и добавление пояснительных надписей:


Ссылка на большую картинку:

Напоследок картинка, показывающая, каким бы было распределение, если бы все депутаты заработали за год одинаковую сумму денег:

Визуализация списка компаний из FORTUNE 500

Бен Фрай визуализировал списки крупнейших американских компаний за 55 лет. Можно увидеть, как изменялся статус, прибыль и доход компании с 1955 по 2010 год.  Бен Фрай пишет, что основной задачей было показать, как 84000 точек можно легко уместить в интерактивное приложение. Визуализация данных мне понравилась. Единственное «но»: найти определенную компанию не просто. Чтобы найти «яблочную» компанию, мне пришлось посмотреть, какой у нее был доход в 2010 году на сайте CNNMoney.

Fortune 500 Apple profit

Ben Fry visualisation of fortune 500

Новые книги

Время идет — выходят новые книги по процессингу:
1. Generative Art Автор: Matt Pearson. Есть как азы программирования для новичков, так и подробные примеры интересные более продвинутым пользователям Процессинга. Amazon

2. Visualize This: The FlowingData Guide to Design, Visualization, and Statistics. Автор:Nathan Yau. Натан ведет очень интересный блог посвященный визуализации данных — http://flowingdata.com. Сама книжка не про Процессинг, но посвящена той же теме что и книга Бена Фрая «Data Visualisation». Автор в основном использует связку R и Adobe Illustrator. Несколько глав посвящены Action Script. Amazon

3. Processing for Visual Artists: How to Create Expressive Images and Interactive Art. Автор: Andrew Glassner. Книга не новая (вышла год назад), но я про нее еще не писал. Amazon

Вышла обновленная версия Processing 1.5.1

За последние несколько месяцев вышло несколько обновлений Процессинга. В новой версии появились режимы работы (modes) и исправлено множество багов. Режимы позволяют переключаться между разработкой программ под Android и классическим вариантом программирования для веба или десктопа. В будущем обещают и другие режимы. Все исправления можно посмотреть в файле revisions.txt.

«Осторожно, графики!»

Увидел на Flowing Data обалденный ролик — When charts attack.


Ссылка на видео
Особенно бегун понравился.

JavaOne

Побывал на конференции JavaOne которая проходила 12-13 апреля в Москве в здании академии наук на Ленинском проспекте, кстати мне очень нравится народное название этого строения — «Золотые мозги». Конференция мне очень понравилась — спасибо организаторам. На конференции много говорилось про будущее Java, 7 — 8 версии, новые фишки которые появятся в будущем и т. д. Для меня, самым интересным докладом был доклад Артема Ананьева о JavaFX, а точнее о грядущем релизе JavaFX 2.0. Нашел ссылку на презентацию по которой Артем делал доклад http://www.javaone.ru/data/track2/javafx-2.0-spb-session.pdf. В мая обещают общедоступну бету JavaFX 2.0 — обязательно попробую с ней поработать. Удивительно, что все с кем я говорил, ничего не слышали про Processing.

Processing.js 1.0!

Processing.js  добрался до версии 1.0!!!

Это родственный самому Процессингу проект, который позволяет запускать программы процессинга прямо в браузере, не используя плагины. Processing.js написан на JavaScript, и использует элемент HTML5  <canvas>.

JavaScript знать не нужно, достаточно включить Processing.js в html и указать файл с исходным кодом процессинга:

  1. <script src=»processing-1.0.0.min.js»></script>
  2. <canvas data-processing-sources=»hello-web.pde»></canvas>

Processing.js сделает все остальное.

Скачать можно здесь http://processingjs.org/.

Пример работы — http://mariuswatz.com/works/abstract01js/index_auto.html