Tuesday, July 22, 2014

Emerging Trends in Big Data Technologies

Emerging Trends in Big Data Technologies
  • Storm: Apache Storm is an open source distributed real-time computation system. Storm makes it easy to process streams of data, doing for real-time processing what Hadoop did for batch processing.
  • Spark: Spark is an in-memory data-processing platform that is compatible with Hadoop data sources but runs much faster than Hadoop MapReduce. It’s well suited for machine learning jobs, as well as interactive data queries, and is easier for many developers because it includes APIs in Scala, Python and Java.
  • Apache Hive: Apache Hive facilitates querying and managing large datasets residing in distributed storage. It also allows the map reduce programmers to plug in custom mappers and reducers.
  • Apache Tajo: Apache Tajo is a big data relational and distributed data warehouse system for Apache Hadoop. Tajo is designed for low-latency and scalable ad-hoc queries, online aggregation, and ETL (extract-transform-load process) on large-data sets stored on HDFS (Hadoop Distributed File System) and other data sources.
  • Twitter'Summingbird
Full report: http://www.infoq.com/research/big-data-emerging-trends

Friday, July 11, 2014

Khoa học dữ liệu, triết học và bóng đá (How Big Data Helped Germany in the World Cup 2014)


Tóm tắt bằng Vietnamese như sau:
Sau thất bại (2 lần hạng 3 thế giới, 2 lần vào chung kết Euro) từ 2006 (cuộc cách mạng bóng đá Đức do Jürgen Klinsmann đề xuất), đội tuyển Đức đã kết hợp giữa khoa học và thể thao một cách chặt chẽ nhằm tìm kiếm  danh hiệu thứ 4 (vô địch World Cup 2014).
Theo như trợ lý huấn luyện Hansi Flick, trong 2 năm qua, các sinh viên ở truờng đại học thể thao Cologne đã phát triển một hệ thống gồm cơ sở dữ liệu về cầu thủ, cách sử dụng chiến thuật và cách đá, đi bóng của từng câu thủ.



Vì vậy, dữ liệu của 736 cầu thủ đá ỏ World Cup (gồm luôn tuyển Đức) đã đuợc số hóa để giúp ban huấn luyện đề ra từng chiến thuật cụ thể cho từng trận đấu ở giải kỳ này.
=> trận hòa Ghana chắc do thiếu data #_#

Câu hỏi: Với mỗi trận đấu, sẽ tồn tại ít nhất một cách để phá lối đá của đối phuơng và phát huy tối đa sức tấn công để ghi bàn ?
chờ đợi trân chung kết để xem điều này đúng hay sai :)


SAP data at HoffenheimThe data can be analysed in real-time by data experts - and training schedules can be adapted
NSA , a super analytic in football , is developed at Germany for this World Cup 2014
“The sports students in Cologne have been studying in great detail our opponent and put every play they’ve run, every newspaper article on them, and everything about them out there under the microscope and made all that data available to us,” 

Read more: http://www.dailystar.com.lb/Sports/Football/2014/Jul-08/263019-university-boffins-steer-german-tactics.ashx#ixzz379AoFIWj
(The Daily Star :: Lebanon News :: http://www.dailystar.com.lb) 


big data is about capturing the "moment". The German team was able to capture and analyze each and every moment about the Brazilian team including the passes they play, how they react upon pressure, and even every quote about them in newspapers. They were able to analyze hidden team behaviors and strategy information.
From https://www.linkedin.com/today/post/article/20140709143632-54591340-how-big-data-helped-germany-break-brazil-s-hearts-in-the-world-cup
Big Data is about capturing every single “moment” throughout the human life
https://www.linkedin.com/today/post/article/20140627113503-54591340-big-data-utopia

http://blogs.bridgei2i.com/2014/06/25/for-the-love-of-soccer-and-data-analytics/

Monday, June 9, 2014

Tìm kiếm các giải pháp công nghệ khí hậu (tài trợ từ InfoDev và World Bank)

Tóm tắt: Cuộc thi Chứng Minh Khái Niệm – Proof of Concept (PoC) do chương Trình Công Nghệ Khí Hậu InfoDev của Ngân Hàng Thế Giới (World Bank) phối hợp với Ngân Hàng Phát Triển Châu Á (ADB) được tổ chức tại Việt Nam dành cho các doanh nghiệp biến đổi khí hậu.

Với mục đích tìm kiếm và khuyến khích các đổi mới và các giải pháp công nghệ khí hậu nhằm giúp Việt Nam thích ứng với biến đổi khí hậu, giảm thiểu phát thải, đáp ứng nhu cầu năng lượng, tăng năng suất, duy trì khả năng cạnh tranh, và giảm thiểu sự phụ thuộc vào nhập khẩu nhiên liệu hóa thạch. cuộc thi PoC đặc biệt quan tâm đến những doanh nghiệp hoạt động trong các lĩnh vực:

• Hiệu quả năng lượng;
• Nhiên liệu sinh học và sinh khối;
• Nông nghiệp bền vững;
• Công nghệ thích ứng;
• Công nghệ vận chuyển:
• Công nghệ năng lượng tái tạo;
• Quản lý và lọc nước;
• Các ngành công nghệ khí hậu khác.

Khoản tài trợ của cuộc thi lên tới 1 tỷ đồng. Số tiền này được dùng cho việc phát triển, triển khai và/hoặc mở rộng một sản phẩm hay dịch vụ. Ngoài ra, 30 ứng viên xuất sắc nhất là các doanh nghiệp, dự án, nhóm nghiên sẽ được ưu tiên tiếp cận chương trình của Trung tâm sáng tạo khí hậu Việt Nam (CIC Việt Nam) và toàn bộ các dịch vụ tư vấn của chương trình (đào tạo, cố vấn, cơ sở vật chất và đầu tư).
more info từ Links:
http://www.twenty.vn/cong-dong/proof-concept-tim-kiem-cac-giai-phap-cong-nghe-khi-hau
http://www.vietnamcic.org/

Mình có vài ý tưởng từ framework Rfx, viết nháp ra như sau, bạn nào muốn làm thì mình có thể tư vấn giúp, (connect at https://www.facebook.com/tantrieuf31 )
chủ yếu tập trung chính:
• Nông nghiệp bền vững;
• Công nghệ thích ứng;

ý tưởng công nghệ:
http://www.mc2ads.com/2014/01/from-big-data-to-disaster-response.html
http://www.mc2ads.com/2013/12/palantir-big-data-technologies-tu-quy.html

Kiến trúc chính:
Giao diện (học hỏi thêm từ PALANTIR BIG DATA TECHNOLOGIES )



Thursday, May 29, 2014

Rfx và Wordpress: Smarter Content Editor with Reactive Data Mining

Wordpress là một trong công cụ mã nguồn mở (open source) phổ biến nhất thế giới cho việc làm content (media publishers).
content + Wordpress + customized theme + plugins = super cool media publisher

Rfx là một framework miễn phí cho việc xây dựng backend analytics và có những phản ứng thông minh để làm personalize nhu cầu thông tin của từng đối tuợng theo mô hình:
content + logs + data mining => smarter recommendation engine

Connecting the dots ?
Một editor cần đuợc cá nhân hóa với từng context (đang ở quán nhậu), rating món ăn, review. 
Nếu 1 user khác cùng gu (sở thích), hệ thống sẽ tự push content đến (Wordpress có web API cho việc làm mobile app khá dễ).

List vài ý tuởng ra, mục đích là wordpress nó thông minh hơn, tích hợp sâu Rfx với Wordpress để làm Rfx trở thành 1 công cụ data mining phổ biến như Wordpress.






Internet Trends 2014 and Big Data





Big Data Trends
1) Uploadable / Findable / Sharable / Real-Time Data Rising Rapidly
2) Sensor Use Rising Rapidly
3) Processing Costs Falling Rapidly...While The Cloud Rises
4) Beautiful New User Interfaces – Aided by Data-Generating Consumers – Helping Make Data Usable / Useful...
5) Data Mining / Analytics Tools Improving & Helping Find Patterns
6) Early Emergence of Data / Pattern-Driven Problem Solving

More Data + More Transparency = More Patterns & More Complexity
Transparency: Instant sharing / communication of many things has potential to make world better / safer place but potential impact to personal privacy will remain on-going challenge...
Patterns: Mining rising volume of data has potential to yield patterns that help solve basic / previously unsolvable problems but create new challenges related to individual rights...

Biggest Re-Imagination of All = People Enabled With Mobile Devices + Sensors Uploading Troves of Findable & Sharable Data

Source: 
  1. PDF: http://s3.amazonaws.com/kpcbweb/files/85/Internet_Trends_2014_vFINAL_-_05_28_14-_PDF.pdf?1401286773
  2. http://techcrunch.com/gallery/mary-meeker-internet-trends/
  3. http://qz.com/214307/mary-meeker-2014-internet-trends-report-all-the-slides/

Sunday, May 25, 2014

Data Science Workflow

Data Science Workflow
Just found interesting image about Data Science. It's useful for my work !

Tuesday, May 20, 2014

Data: từ Digital Media đến Feedback Control, Marketing, Usability và Advertising


Một thực tế khi mà thế giới ngày càng số hóa, luợng data tạo ra ngày càng nhiều thì những nhu cầu mới sẽ phát sinh. Đó là những câu hỏi mới, vấn đề mới và những công cụ mới để giải quyết nó.
Big Data là một 1 chủ đề rộng, do phạm vi bài biết này chỉ tập trung vào các topic chính xoay quanh ngành truyền thông trong kỷ nguyên số (digital media).

Có 3 khái niệm chính mà các agency quảng cáo, các nhà marketing, content maker và việc operation các medias trên Internet cần chú ý:
  1. Scale khi business phát triển => Feedback Control
  2. Content value, khả năng reach user của channel => Marketing 
  3. Nâng cao tỉ lệ conversion quảng cáo, cách thức user đọc và sử dụng media => Usability
Tóm lại, 3 yếu tố trên sẽ ảnh huởng khả năng sinh lợi nhuận từ media, thông qua các hình thức quảng cáo (CPC, CPA, CPM, branding, native advertising ) ,... => Advertising

Các dẫn chứng cụ thể:

Why Feedback? Maintaining a desired behavior
http://programming.oreilly.com/2013/10/why-feedback.html
Server Scaling, Order Processing, Queue Control, Workflow Management, Supply-Chain Management
http://smartdatacollective.com/tracey-wallace/200266/does-data-mining-require-phd-probably-not-new-york-times-hired-one
Data intelligence is the future of journalism — even a 162-year-old publication knows that — which is why when the New York Times hired a data scientist, no one flinched. Startups like PolicyMic and UpWorthy have been using data analytics and — yes — data scientists to beef up their headlines, only putting out there what the numbers show their audiences are most likely to click on.
http://www.mc2ads.com/2014/03/how-usability-testing-with-reactive-big.html
How Usability Testing with Reactive Big Data, case studies: NewYorkTimes, BBC and VnExpress
http://www.mc2ads.com/2014/03/advertising-news-and-customer-insights.html
Customer insights, một trong những yếu tố vô cùng quan trọng trong việc ảnh hưởng trực tiếp đến việc ra các quyết định marketing, quảng cáo. Thế nhưng một thực tế hiện nay đang diễn ra là đa phần giớimarketers Việt Nam chưa nhận thức và áp dụng yếu tố này đủ mức để nó xứng với vai trò trong ngành. 
http://www.mc2ads.com/2014/02/harnessing-power-of-big-data-for-media.html
  • Successes and failures using Big Data in magazine company marketing
  • Gathering, analysing and leveraging consumer insights 
  • Understanding media content usage patterns in real time
  • Best practices in social media analysis
  • Best practices in leveraging Big Data and mobile content
  • Big Data tactics and strategies now and for the future
  • Award-winning data journalism projects, and how they executed these projects
  • Monetisation using Big Data strategies
  • Delivering targeted content leveraging Big Data
  • Tools used to understand complex data sets, including data visualisation techniques